OpenAI的ChatGPT是一个很棒的工具,尽管在几个方面存在缺陷。利用大语言模型(LLM)的功能,同时保持其在周边视觉方面的局限性,是目前正确的方法。
最近,一篇论文声称ChatGPT-4在MIT的EECS课程中可以取得100分的成绩,引起了轰动。然而,随之而来的是一个不道德的数据来源和反复提示以获得期望结果的肮脏故事。让我们更深入地研究一下。
【资料图】
几天前,IddoDrori教授发表了一篇题为“使用大型语言模型探索MIT数学和EECS课程”的论文。该论文仔细审查了“包含4,550个问题和解决方案的综合数据集,这些问题和解决方案来自问题集、期中考试和期末考试,涉及获得学位所需的所有麻省理工学院数学、电气工程和计算机科学(EECS)课程。”该论文的结论令人震惊:
“我们的结果表明,GPT-3.5成功解决了整个MIT课程的三分之一,而GPT-4通过及时的工程设计,在排除基于图像的问题的测试集上实现了完美的解决率。”
鉴于这些令人震惊的说法,这篇论文在社交媒体上疯传,一天之内就获得了500多次转发。
随后,劳纳克·乔杜里(RaunakChowdhuri)和他的同事对该报纸的说法进行了审查。与论文的主张相反,乔杜里发现所使用的方法存在明显的问题:
该数据集包含10个无法解决的问题。这意味着ChatGPT-4正在按照提示提供解决方案,或者问题没有正确评分。经过更深入的检查,Chowdhuri发现ChatGPT确实通过所谓的“少数示例”在提示中泄露了解决方案,这些示例是作为附加上下文提供给模型的问题及其解决方案。
源代码中的拼写错误和错误会污染提示并导致与论文本身描述的结果不同的结果。
由于交换了参数,特别是当涉及到零样本函数时,模型会返回无法分级的混乱响应。
该论文声称ChatGPT的响应经过了手动双重验证。然而,Chowdhuri发现该程序正在使用“记录的正确答案来指导其行动”,即何时在零样本学习和少样本学习之间切换。
此外,多位麻省理工学院教授随后发表声明,披露该论文未经授权来源于麻省理工学院数据集:
“6月15日,IddoDrori在arXiv上发布了一篇与麻省理工学院数十门课程的考试和作业数据集相关的工作论文。他在没有得到许多合著者同意的情况下这样做了,尽管他被告知在出版前应该纠正一些问题。”
免责声明:本文由用户上传,如有侵权请联系删除!