苹果发表论文:AI 大模型全是假思考!

苹果近日发表了一篇研究论文,质疑现有 AI 推理模型的思考能力,称 DeepSeek、o3-mini、Claude 3.7 等仅是“模式匹配”,无真正推理。

论文指出,当前评估聚焦答案正确性,忽略思考过程质量。为此,苹果设计汉诺塔、跳棋交换等四类可控难度谜题测试模型,发现随问题复杂性增加,模型思考深度下降,甚至在高难度下完全崩溃。

网友对此褒贬不一,有人讽刺苹果因自身 AI 进展缓慢而否定他人成果,有人则认为论文旨在推动更科学的推理评估机制。