苹果炮轰AI推理模型:全是假思考 模式匹配非真思考。苹果近日发布了一篇研究论文,指出包括DeepSeek、o3-mini和Claude 3.7在内的推理模型并未真正进行思考,所谓的思考实际上只是模式匹配。为了更客观地测试这些模型的推理能力,研究人员设计了四类谜题环境:汉诺塔、跳棋交换、过河问题和积木世界。这些谜题的难度可以精确控制。
随着问题难度增加,推理模型最初会延长思考时间,但随后思考深度反而下降。即使仍有充足的token预算,它们在最需要深入思考时却选择了放弃。当问题复杂度继续增加并超过某个临界点时,无论是推理模型还是标准模型都会经历完全的性能崩溃,准确率直线下降至零。
对此,有网友讽刺称:“苹果拥有最多的资金,两年来也没有拿出像样的成果,现在自己落后了,却来否定别人的成果。”据报道,Apple Intelligence在2024年的WWDC上正式亮相。在过去的一年里,苹果宣传中的许多功能都经历了延期、不够完善甚至被下架。不过也有人认为,这篇论文并非完全消极,而是呼吁设立更好的推理机制和评估办法。