苹果最新研究揭示,当前大推理模型(LRM)在面对高复杂度任务时并未展现出预期中的「深度思考」能力,反而出现大范围性能崩溃的现象——推理路径变长,结果却更差。
这项研究名为《The Illusion of Thinking》(《思考的幻觉》),论文作者包括苹果机器学习团队成员及 AI 领域重量级人物 Samy Bengio(图灵奖得主 Yoshua Bengio 之兄)。
研究对比了具备「思考功能」的 LRM(如 Claude 3.7 Thinking、DeepSeek-R1)与传统 LLM(如 Claude 3.7、DeepSeek-V3)的表现。
在简单任务上,传统模型往往更准确、更节省资源;
中等难度时,具备推理能力的 LRM 表现稍占优势;
但当问题复杂度超过临界点时,所有模型的准确率几乎同时跌至零。研究指出,这种「推理崩溃」并非算力资源不足造成,而是一种先天局限,也反映出当前所谓「AI 思考」的本质仍更接近语言生成,并非真实的逻辑推理。
即便模型在中间过程看似「自洽」,其行为路径往往掺杂大量无效步骤,缺乏真正的目标导向与一致性。