AI并不像“人们吹嘘的那么聪明”
2025/07/15 | via. 媒体 美国趣味科学网站
摘要:美国开放人工智能研究中心(OpenAI)的一份技术报告强调,推理模型比普通模型更容易被幻觉所破坏。
人工智能(AI)推理模型并不像人们描述的那么聪明。苹果公司的研究人员称,事实上,它们根本不会推理。
6月7日发表在苹果公司机器学习研究网站上的一项新研究称,科学家们表示,推理模型不仅不能显示广义推理能力,而且当任务变得过于复杂时,它们的准确性就会完全崩溃。
研究人员在报告中写道:“通过对各种难题进行广泛实验,我们发现,前沿的大语言模型在问题复杂度超过特定范围时,会出现准确性彻底崩溃的现象。此外,这些模型还表现出一种反直觉的扩展限制:它们的推理能力会随着问题复杂度的增加而提升,但达到某个临界点后,即便有充足的词元预算(token budget,模型或系统在处理自然语言任务时可使用的最大词元数量限制),推理能力反而会下降。”
大语言模型通过吸收大量人类产出的训练数据不断成长和学习。利用这些数据,模型能够在接到指令时通过前馈机制从神经网络中生成概率性模式。然而,由于这一过程基于统计推测而非真正的理解,聊天机器人存在显著的“幻觉”倾向——会输出错误答案,在数据缺失时编造谎言,甚至向用户提供荒诞且有时有害的建议。
美国开放人工智能研究中心(OpenAI)的一份技术报告强调,推理模型比普通模型更容易被幻觉所破坏。随着模型的发展,问题只会越来越严重。
当被要求总结关于人的事实时,该公司的o3和o4-mini模型分别产生了33%和48%的错误信息,而更早期的o1模型的幻觉率为16%。OpenAI的代表说,他们不知道为何会出现这种情况,并总结说“需要进行更多研究来了解这些结果的原因”。
苹果公司新研究报告的作者写道:“我们认为,缺乏对这些问题的系统分析是由于当前评估范式的局限性。现有的评估主要侧重于确立的数学和编码基准,这些基准虽然有价值,但往往存在数据污染问题,而且不允许在不同场景和复杂性下实现可控实验条件。此外,这些评估并不能揭示推理过程的结构和质量。”
ABOUT / 相关报道