环球速看：爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

2023-06-18 21:21:12 来源：腾讯网

机器之心报道

【资料图】

编辑：蛋酱

结论不应该如此被夸大。

这两天，一篇关于 GPT-4 满分通过 MIT EECS 和数学本科考试的论文在推特上疯传。

论文地址：https://arxiv.org/pdf/2306.08997.pdf

简单概括，一个来自 MIT 的研究团队从自己学校的数学、电气工程和计算机科学 (EECS) 专业的课程问题、期中考试和期末考试中，整理出了一个包含 4550 个问题和解决方案的综合数据集。

然后，研究团队让各种大语言模型去完成这个数据集的题目，结果太吓人：GPT-3.5 能做对 1/3，GPT-4 几乎满分通过。

论文作者表示，提升模型表现主要靠「四件套」：Few-shot learning、CoT、Self-critique、Expert。

就像上表中所示，加持 GPT-4 的手法越多，模型的答题正确率就越高。原始的 GPT-4 本来就能拿到 90% 的正确率得分，一番运作之后，甚至直接拿到满分。

但大部分讨论得很激烈的网友可能没注意到，这个分数本身就是用 GPT-4 打的……

三位同样来自 MIT 的学生第一时间发现了这篇论文，作为险些被 GPT-4 赶超的群体，他们想立即领会一下爆款论文的方法论。

研究了一小时后，他们对该论文的方法产生了怀疑。

两小时后，他们意识到：数据集本身有问题。

尽管原论文的作者宣称已手动审查了发布的数据集质量，但三人发现，有明显的迹象表明，测试数据集的很大一部分被污染了。

也就是说，模型就像一个学生在考试前被告知了答案，这是赤裸裸的「作弊」。

产生质疑后，他们立即着手在数据集上完成了零样本 GPT-4 的运行，并对数据的前 30% 进行了手动评分，结果与原论文相差甚远，应该说是一个天上、一个地下。

「作为麻省理工学院的本科生，至少根据我们的经验，这个测试集并不能准确地代表在麻省理工学院获得 EECS 学位所需的理解广度和深度。」三人在博客中这么写道。

最新进展：零样本 GPT-4 的准确率能达到 62.5% 了，但还是和论文里宣称的 90% 差很多。

三人还质疑了「过度宣传」的风潮：「这些论文通常在任何合法的同行评审之前就被上传到 Arxiv，并在 Twitter 上广泛分享。在这种情况下，可能会传播不良信息，并为未来的工作树立一个糟糕的先例。」

「深度学习」斗士 Gary Marcus 也不出意料地声援了这波质疑：

同时，三人也在博客中指出一点：《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列出的几个作者都是本科生研究人员，让这些人对工作中出现的任何失误负责是不合适的。相反，责任应该在指导作者身上 —— 他们才是被期望确保工作符合其领域内公共学术标准的人。

接下来让我们看下，这篇「爆火」论文都有哪些问题。

数据集到底有什么问题？

首先，从原论文中得知，研究者收集的数据集包含获得 MIT 学位考试所需的 30 门数学和 EECS 课程的 4550 个问题和相应的解决方案，涵盖核心课程和选修课程。

论文中写道：「在没有图像和有解决方案的问题中随机选择了 288 个问题的测试集。」

这个数据集（不包括用于微调开源 LLM 的训练集）随着论文的公开也被发布到 GitHub 上，同时发布的还有用于生成报告的测试性能的代码。然而，作者 Drori 教授在最近的一次提交中已经将其删除。

经过检查、对比，三人确信这个被删掉的文件代表了论文中分析的测试集，因为评估代码中的所有数据的文件路径都指向它，没有提供任何修改其内容的代码，而且它在最初发布的 GitHub 仓库中是可用的。此外，该文件满足了论文中规定的所有模式要求（行数等）。这些证据似乎非常有力地支持了下面的所有主张，

「但我们要承认，这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话，我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」

那么，被掩盖的问题究竟是什么呢？三人给出了自己的分析。

无法解决的问题（约占测试集的 4%）

鉴于原论文表示，任何形式的 GPT-4 都能在测试集上产生一个完美的分数，三人开始检查个别数据点。他们很快就发现，根本不可能有满分，因为数据集中至少有 10 个问题是无法用所提供的信息解决的，另外几个问题在这种情况下根本就不是有效的问题。

像这种「有问题的问题」，至少占据了测试集的 4%。

在一个扩展的 excel 文档里，三人对已经发现有问题的数据集例子进行了注释。「红色」代表用提供的信息无法解决的问题，「黄色」代表一部分不太合理的问题。

页面地址：https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重复的问题（约占测试集的 5%)

使用文本相似性检测，三人发现有 14 个问题（7 对）在 288 个问题的测试集中是重复的，在这些情况下，问题串之间的唯一区别是极小的字符级噪音，甚至完全相同。

鉴于这些无法解决的问题，GPT-4 能够通过任何方式获得 100% 的准确率，也是难以置信。要么是在某个阶段出现了答案泄漏到 prompt 中，要么是问题没有被正确打分。

这些初步的发现促使他们从少样本示例开始进一步调查（如果模型在零样本正确率方面失败的话），最终发现，既有解题信息的泄露，也有用于对模型输出进行分级的方法问题。具体情况如下：

少样本示例中的信息泄露

值得注意的是，原论文中还提到了「少样本示例」这个事。

简而言之，论文对 OpenAI 嵌入的数据集内的类似问题进行余弦相似度搜索，并将这些问题和解决方案作为额外的上下文纳入模型的 prompt，帮助模型解决问题。

这个方法本身是没问题的，只要这些示例与有关问题有足够的差异，且避免暴露不公平的信息。

只是随机扫描已发布的测试数据集时，三人注意到一些奇怪的事情：许多提供给模型的「少样本示例」与问题本身几乎一字不差。

为了进一步了解这一点，他们写了一个简单的脚本，查看了所提供的几个示例的问题陈述和所列出的问题之间的重叠情况，并绘出了直方图：

许多提供的少样本与问题本身几乎相同，这意味着模型得到的是问题的答案或与问题非常相似的问题。通常情况下，这来自于大量的共享背景的多环节问题的重复。

他们认为，为了正确评估 GPT 的解题能力，多环节问题的其他部分应该被完全排除在某一问题的少样本示例之外。事实上，他们发现这些多环节问题的解决方案，往往直接提到或给出了模型被要求解决的另一部分问题的答案。

不仅如此，在对这些数据的挖掘中，他们还发现了整个问题被重复的样本。比如：

在这两种情况下，答案是完全相同的。很难说不算信息泄漏了。

GPT-4 自动打分，有问题

此外，三人还在原论文开源的打分机制中发现了问题：

在代码中，能看出流程上处理分级存在严重的问题：论文是用 GPT-4 去评估检查的，包括 a）原始问题，b）解决方案，c）GPT 自己的答案，作为分级 prompt 中的参数。

在更多的技术领域，GPT 更有可能出现隐性误解，这种自动评分更有可能出现「自我欺骗」的结果。

此外，虽然 prompt 级联是最近许多 GPT 论文中常见的技术，但这里有大量数据泄漏的可能性。每一级不仅提供基于 ground truth 的二元信息，而且还在继续 prompt，直到达到正确答案。

尽管这些创建的 prompt 并没有看到实际的答案，但重新 prompt 直到达到正确答案的形式已经足够了，尤其是在占测试集 16% 的多选题中，无限次的尝试（几乎）保证了正确答案一定会出现。

这就好比有人拿着答题纸，告诉正在考试的学生答得对不对，一直提示到学生得到正确答案。

总结

在博客的最后，三位这样写道：

这篇论文道出了最近人工智能领域研究的一个更大趋势。随着该领域的进展越来越快，新发现的时间节奏似乎在缩短，这往往伴随着捷径。一个特别令人担忧的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。

虽然是一个有用的工具，但它的结论绝不应该被夸大，也不应该被当作 ground truth。最近的工作表明，如果没有准确的 ground truth 信息，GPT-4 评估器就不能可靠地用于验证。至少，应该选择一个随机的数据集子集，将 GPT-4 的性能与人类的评估进行比较。语言模型还不能被当作产生 ground truth 的神谕。

此外，在使用数据之前，无论是用于训练、推理、基准测试还是其他方面，重新评估每一个数据点并进行基本的检查是极其重要的。鉴于有关数据集的规模较小，简单的人工验证很容易在工作范围内完成。

我们的批评主要是针对这项研究的方法和严谨性，而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见，只是认为本文未能以科学严谨的方式证明这一点。

标签：

上一篇 : 天天热推荐：莲花美、麦秆香！全国多地“丰”景如画

下一篇 : 最后一页

推荐阅读

环球速看：爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

机器之心报道编辑：蛋酱结论不应该如此被夸大。这两天，一篇关于GPT-4

06-18 21:21:12

天天热推荐：莲花美、麦秆香！全国多地“丰”景如画

新疆夏粮收购工作启动准备仓容456万吨近日，2023年新疆夏粮收购工作已

06-18 20:37:57

索尼 CMOS “换标”上新，这次普通消费者能看懂吗世界滚动

如果你与我们三易生活一样，也很注重参数、并喜欢对比手机配置，那么你

06-18 20:04:45

世界热头条丨刘若英与陈升白色蛋白质（刘若英桃色蛋白质）

1、一整夜专辑的时候大约2005年2005年奶茶发一整夜新专辑是上的05年为

06-18 19:22:16

【全球快播报】惊险！终身难忘！

近日，陕西西安一妈妈给儿子过生日点蜡烛时打火机突然爆燃事故造成妈妈

06-18 18:39:05

“6·18”网络集中促销经营要注意这些_环球快看点

淄博新闻网讯（全媒体记者赵晓雯）规范“6·18”网络集中促销经营行为

06-18 17:37:42

全球变暖导致飞机颠簸增加，你出行会选择什么交通方式？世界独家

最近，英国雷丁大学的研究人员进行了一项引人注目的研究，他们统计了多

06-18 17:11:05

华为手机微信文件传输助手怎么关闭华为微信传输助手的文件保存在哪天天新消息

1、首先在我们的手机桌面上找到微信并点击它。2、然后点击文件传输助手

06-18 16:23:26

【热闻】关中平原“三夏”进行时：夏种夏管耕作忙

图为潼关县四知村农户驾驶农机，正在小麦收割后的田间犁地。　牛纲

06-18 15:59:50

哈利波特最后马尔福的结局_哈利波特结局马尔福和谁结婚

1、卢娜：在最后一部中纳威向她卢娜告白，消灭伏地魔之后，她成为巫师

06-18 15:21:18

“存款50万，5年下来差价5000元”！跨省存款突然火了独家

“存款50万，5年下来差价5000元”！跨省存款突然火了，“60元车费，多

06-18 14:49:28

全球看点：中国足协杯2020赛程表_中国足协杯2020赛程

1、武汉新纪元1:6山东鲁能泰山；武汉宏兴8:9（点）杭州绿城；延边长白

06-18 14:15:15

【世界独家】从竞争优势谈我的长线股1

任何上市公司在市场竞争中是否具有自身独特优势，是市场给予这个公司估

06-18 13:58:28

清华大学李稻葵：宏观经济治理工作的思路要从过去防过热变成防过冷热点聚焦

在清华大学中国经济思想与实践研究院(ACCEPT)主办的“清华大学中国与世

06-18 12:39:16

在亚洲U17摔跤锦标赛上双双摘金，这对双胞胎姐妹花好样的！

交汇点讯日前，在吉尔吉斯斯坦共和国首都比什凯克市举行的亚洲U17摔跤

06-18 11:56:38

全球热文：新乡中院多措并举提升破产审判成效

河南广播电视台乡村频道记者席迪王保强（通讯员：申明昱田丹丹）为进一

06-18 11:08:06

贵州工程应用技术学院：以红色文化上好“大思政课” 环球观点

6月17日，笔者从贵州工程应用技术学院获悉，该校近日以《赤水乌蒙红飘

06-18 10:34:20

世界观焦点：2023年6月18日AES 脂肪醇聚氧乙烯醚硫酸钠价格最新行情预测

中国报告大厅2023年6月18日AES脂肪醇聚氧乙烯醚硫酸钠价格最新走势监测

06-18 10:07:37

【速看料】足协领导到场调研！村超无牌无证停摆？答案来了，范志毅官宣参赛

近期，扬科维奇带领的中国男足国家队正在大连踢友谊赛，分别对阵缅甸和

06-18 09:33:21

暴雨、大暴雨！安徽发布“双预警”_环球即时看

暴雨、大暴雨！安徽发布“双预警”

06-18 08:48:50

资讯：早安南京｜橙色预警！请考生们注意出行安全！

6月18日5时6分南京市气象台将暴雨黄色预警信号升级为暴雨橙色预警信号

06-18 08:00:57

佩斯科夫：俄仍在与世界大部分地区合作

据俄罗斯卫星通讯社报道，俄总统新闻秘书佩斯科夫当地时间17日在出席圣

06-18 07:54:55

硬盘smart指标数据异常有什么影响_硬盘smart指标数据异常_天天简讯

1、这可能是你的硬盘出现了坏道导致的无法安装系统。2、你可以到网上下

06-18 06:50:26

每日速递：家里长辈走了，短期内不要做这些事，会影响家里的财运

只要长辈出行，就会产生家庭矛盾，甚至亲戚之间的联系也会变得复杂。一

06-18 05:48:25

世界新消息丨数商兴农工程_数商

1、所谓“商”，是指对人类某种特定能力的量度。2、智商主要表现为一个

06-18 04:12:47

WorldSBK 2023 第五站：意大利_观天下

FIMWorldSBK超级跑车世界锦标赛（FIMSuperbikeWorldChampionship）2023

06-18 02:14:08

明日歌的意思和解释_明日歌的意思

1、明天又明天，明天何等多！如果我们一生做事都要等待明天，那么势必

06-18 00:41:57

痰是怎么形成的和肺的关系_痰是怎么形成的

1、痰是气管、支气管的分泌物。2、平时也会分泌，但不多。3、当有炎症

06-17 22:55:43

热头条丨中国商用车出击2023亚洲物流双年展加速新能源转型升级

【中国商用车出击2023亚洲物流双年展加速新能源转型升级】随着经济的发

06-17 22:11:00

国家防总启动防汛四级应急响应安排部署有关地区做好近期强降雨防范应对工作

据气象部门预测，6月17日至20日，我国主雨带维持在长江中下游地区，江

06-17 21:49:23

辽宁省大连市2023-06-13 06:07发布海上大雾橙色预警

一、辽宁省大连市天气预报1、大连市气象台2023年06月13日06时07分发布

06-17 21:00:49

焦点要闻：2023年06月17日10时30分土耳其里拉/人民币汇率最新报价

2023年06月17日10时30分土耳其里拉人民币汇率最新报价

06-17 20:33:41

吸毒是否是犯罪|快资讯

1、一般来说，吸食毒品本身不构成犯罪，但属于违反治安管理处罚法的行

06-17 19:52:29

全球报道:扬琴与戏曲风格作品专场音乐会拉开朝阳区端午系列活动帷幕

北京日报客户端|记者程功6月17日，在2023年端午节即将到来之际，朝阳区

06-17 18:59:06

当前速递！《和平精英》训练场在哪里

和平精英手游中的训练场是萌新的圣地，但是不少人都找不到训练场的位置

06-17 18:36:49

不完美女孩歌词（歌曲不完美女孩歌词）

完美女孩歌词，歌曲不完美女孩歌词很多人还不知道，现在让我们一起来看

06-17 18:05:16

ps怎么把图片变清晰手机（ps怎么把图片变清晰）_天天短讯

导读1、使用软件：PhotoshopCC版使用Photoshop将相片变高清步骤如下：1

06-17 17:12:45

《八角笼中》举行超前观影，王宝强称电影是自我表达的窗口

谈及选择现实题材的初衷，王宝强称：“（电影中）有自我的表达和我想说

06-17 16:43:43

威海贷款网热文

本文内容是由小编为大家搜集关于威海贷款，以及威海贷款网的资料,整理

06-17 16:11:34

父母离婚后，我拥有了三个妈妈天天简讯

大家好，今天这篇文章来自我的好朋友「看客InSight」一个图文并茂说干

06-17 16:06:39

货车司机偷倒建筑垃圾，武汉城管路长下班途中将其抓获|环球观察

货车司机偷倒建筑垃圾，武汉城管路长下班途中将其抓获---通讯员谈希。1

06-17 15:06:22

全新主播招募现已开启！参与即可瓜分万元奖励！环球简讯

赛季服“诺亚之舟”现已开启公测！参与主播招募计划，豪华开播激励和万

06-17 14:54:30

莫瓦铁雪夫人像(关于莫瓦铁雪夫人像的简介) 当前观察

1、《莫瓦铁雪夫人像》【类别】油画、名画【年代】1846年—1851年【作

06-17 14:16:06

岂在朝朝暮暮全诗_岂在朝朝暮暮

1、意思是：只要两情至死不渝，又何必贪求卿卿我我的朝欢暮乐呢。2、鹊

06-17 13:43:29

错过真的会后悔！2TB PCIe4固态暴跌至470元

固态硬盘真的是跌的厉害，幻隐HV3000ProNVMeM 2固态硬盘2TB版京东活动

06-17 13:13:19

感悟人生的佛系文案

1、有时我们做着一件事，是为了有朝一日不必做，过着一种生活，是为了

06-17 12:08:42

欣幸的意思_欣的意思

1、欣xīn中文解释-英文翻译欣的中文解释以下结果由汉典提供词典解释部

06-17 11:54:57

【世界新要闻】三亚开展2023年“6·16”安全宣传咨询日活动

今年6月是我国第二十二个安全生产月，6月16日，2023年三亚“6·16”安

06-17 11:16:04

环球最新：www原始176com_www 33wa com

1、wawu是两个音节。2、拼出来的词语是：“哇唔”或者是“瓦屋”。以上

06-17 10:53:14

世界快资讯：双车齐发转型加速东风Honda全电动化矩阵齐聚粤港澳车展

e:启新境，智电新生。6月16日，东风Honda“全新一代CR-Ve:HEV暨全新M-N

06-17 10:18:28

精彩推送

天天热推荐：莲花美、麦秆香！全国多地“丰”景如画

索尼 CMOS “换标”上新，这次普通消费者能看懂吗世界滚动

世界热头条丨刘若英与陈升白色蛋白质（刘若英桃色蛋白质）

【全球快播报】惊险！终身难忘！

“6·18”网络集中促销经营要注意这些_环球快看点

全球变暖导致飞机颠簸增加，你出行会选择什么交通方式？世界独家

华为手机微信文件传输助手怎么关闭华为微信传输助手的文件保存在哪天天新消息

【热闻】关中平原“三夏”进行时：夏种夏管耕作忙

哈利波特最后马尔福的结局_哈利波特结局马尔福和谁结婚

“存款50万，5年下来差价5000元”！跨省存款突然火了独家

全球看点：中国足协杯2020赛程表_中国足协杯2020赛程

【世界独家】从竞争优势谈我的长线股1

清华大学李稻葵：宏观经济治理工作的思路要从过去防过热变成防过冷热点聚焦

在亚洲U17摔跤锦标赛上双双摘金，这对双胞胎姐妹花好样的！

全球热文：新乡中院多措并举提升破产审判成效

贵州工程应用技术学院：以红色文化上好“大思政课” 环球观点

世界观焦点：2023年6月18日AES 脂肪醇聚氧乙烯醚硫酸钠价格最新行情预测

【速看料】足协领导到场调研！村超无牌无证停摆？答案来了，范志毅官宣参赛

暴雨、大暴雨！安徽发布“双预警”_环球即时看

资讯：早安南京｜橙色预警！请考生们注意出行安全！

佩斯科夫：俄仍在与世界大部分地区合作

硬盘smart指标数据异常有什么影响_硬盘smart指标数据异常_天天简讯

每日速递：家里长辈走了，短期内不要做这些事，会影响家里的财运

世界新消息丨数商兴农工程_数商

WorldSBK 2023 第五站：意大利_观天下

明日歌的意思和解释_明日歌的意思

痰是怎么形成的和肺的关系_痰是怎么形成的

热头条丨中国商用车出击2023亚洲物流双年展加速新能源转型升级

国家防总启动防汛四级应急响应安排部署有关地区做好近期强降雨防范应对工作

辽宁省大连市2023-06-13 06:07发布海上大雾橙色预警

焦点要闻：2023年06月17日10时30分土耳其里拉/人民币汇率最新报价

吸毒是否是犯罪|快资讯

全球报道:扬琴与戏曲风格作品专场音乐会拉开朝阳区端午系列活动帷幕

当前速递！《和平精英》训练场在哪里

不完美女孩歌词（歌曲不完美女孩歌词）

ps怎么把图片变清晰手机（ps怎么把图片变清晰）_天天短讯

《八角笼中》举行超前观影，王宝强称电影是自我表达的窗口

威海贷款网热文

父母离婚后，我拥有了三个妈妈天天简讯

货车司机偷倒建筑垃圾，武汉城管路长下班途中将其抓获|环球观察

全新主播招募现已开启！参与即可瓜分万元奖励！环球简讯

莫瓦铁雪夫人像(关于莫瓦铁雪夫人像的简介) 当前观察

岂在朝朝暮暮全诗_岂在朝朝暮暮

错过真的会后悔！2TB PCIe4固态暴跌至470元

感悟人生的佛系文案

欣幸的意思_欣的意思

【世界新要闻】三亚开展2023年“6·16”安全宣传咨询日活动

环球最新：www原始176com_www 33wa com

世界快资讯：双车齐发转型加速东风Honda全电动化矩阵齐聚粤港澳车展

天天热议:浮潜需要学吗_浮潜需要会游泳

X 广告

资讯

行业动态

企业动态

畜牧科技

家禽技术

特种养殖

环球速看：爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

我国粮食市场供应充足稳价保供有基础

六旬老人痴迷烙画40余载 “火针刺绣”烫下铁笔丹青

“小雪”节气7地暴雪黑龙江全员“战雪”

寒潮继续影响我国中东部东北地区有较强降雪

寒潮蓝色预警继续发布：中东部地区气温将下降6～10℃

中央气象台发布暴雪黄色预警：东北部分地区有大到暴雪

环球速看：爆火的“GPT-4 MIT本科数学满分”论文作弊，数据集本身有问题

我国粮食市场供应充足 稳价保供有基础

六旬老人痴迷烙画40余载 “火针刺绣”烫下铁笔丹青

“小雪”节气7地暴雪 黑龙江全员“战雪”

寒潮继续影响我国中东部 东北地区有较强降雪

寒潮蓝色预警继续发布：中东部地区气温将下降6～10℃

中央气象台发布暴雪黄色预警：东北部分地区有大到暴雪

我国粮食市场供应充足稳价保供有基础

“小雪”节气7地暴雪黑龙江全员“战雪”

寒潮继续影响我国中东部东北地区有较强降雪