一、引言
DeepSeek-R1在数学和推理任务上达到了与 OpenAI o1相当的水平,而服务价格只相当于OpenAI o1的1/30。这不仅引起科技界和AI公司的震动,而且在资本市场掀起剧烈震荡。特别引起我兴趣的是,DeepSeek团队在论文中报告他们的全新推理模型出现了连他们自己都没有预料到的“aha moment”(啊哈时刻)。DeepSeek-R1-Zero训练中间版本的数学推理中出现了这样的内容,“Wait, wait. Wait. That’s an aha moment I can flag here.”(等等,等等。等等。这是我可以在这里标注的啊哈时刻)。当发现当前的解题思路可能存在问题时,DeepSeek会停下来,重新审视之前的推理过程,然后尝试寻找新的解决方案。这种行为完全是自发产生的,而不是通过人工设计实现的,这表明DeepSeek在一定程度上已经具备了人的逻辑推理能力。