DeepSeek,你怎么偷偷改论文了?

两天前,DeepSeek-R1的论文悄悄更新了一版,这篇论文就是之前登上了登上Nature封面杂志的那一篇。

这次更新,页数从22页直接膨胀到86页,信息密度暴涨。

把之前只给结果的地方,这次也把解题过程和中间遇到的问题补上了。

我怀疑之前DeepSeek写的应该就是这一篇86页的完整版论文,然后发布的时候把一些过程删掉了。

之前外界对DeepSeek-R1最大的疑问只有一个:

你到底是怎么学会思考的。

我大概得过了一下这86页,心里最大的感受只有两个字:通透。

老版本论文给的答案很简单,强化学习,给对就奖励,给错就扣分,听起来就像训练小孩做题,多做几遍自然就会了。

这次补充的更多是过程的细节。

论文里最让我觉得有趣的,是关于DeepSeek-R1-Zero(R1的原型机)的一个细节。

大家以前训练AI,主要靠「喂饭」。

类老师写好答案,告诉AI:你就照着这个学。这种方法教出来的AI听话,但很难青出于蓝。DeepSeek这次换了个路子,他们搞了个「纯强化学习」。

简单说,就是把AI关进小黑屋,给它一道超难的数学题,不给它任何解题步骤,只告诉它:做对了有糖吃,做错了去罚站。

刚开始,这AI就像个无头苍蝇,胡言乱语,一开始只是答案变长,后来会反复检查。

再后来,甚至会中途停下来,对自己说一句等等,好像哪里不对。

论文里直接把这个称为aha moment。

不是程序员写进去的,是模型自己长出来的。

这点非常关键,因为它意味着一件事,复杂推理不一定来自人类示范,也可能来自足够强的反馈机制。换成人话讲,以前的大模型更像背答案的学生,现在这个,更像做错题集做到开始怀疑人生的那种学生。

但R1-Zero也有明显问题。

表达混乱,中英夹杂,写作能力一塌糊涂,想象一个理科尖子生,解题飞快,说话却前言不搭后语。

那么现在这个完整版的DeepSeek-R1是怎么来的呢?

论文后半段把整个提纯过程写得非常细。

先保留这种野生推理能力,再通过筛选、微调、偏好对齐,把表达拉回人类能用的状态。

工程师们做了一件事,我称之为「给天才穿西装」。

他们收集了少量高质量的、人类能看懂的思考过程数据,像教礼仪一样教给AI。这就是论文里提到的「冷启动」数据。

经过这道工序,R1既保留了那种反思能力,又能用清晰的人类语言把答案讲出来。

这就是为什么DS刚出来的时候,最吸引人的是它那惊艳的文采。

这篇86页的论文里,还有一个事情就引发了无数的争议,蒸馏。

以前我们总觉得,想要AI聪明,模型参数必须巨大无比,光显卡就得烧掉几个亿。

DeepSeek做了一个尝试,我们可以把R1这个「超级大脑」思考出来的精华数据,拿去喂给那些只有1.5B、7B参数的「小模型」吃。

结果怎么样?

那些连手机都能跑得动的1.5B小模型,在吃透了R1的思考逻辑后,做数学题的能力居然干翻了GPT-4o这种庞然大物。这就像是一个小学生,虽然力气小,但因为学了绝世武功的内功心法,居然能打败武林高手,

现在蒸馏这个做法几乎成了所有弹幕行业不公开的秘密了。

还要提一嘴的是,这86页论文里,花了大量篇幅讲「失败的尝试」。

他们试过用某些方法想让AI更聪明,结果发现没用;他们试过某种奖励机制,结果发现AI学会了作弊。他们把这些坑一个个标出来,告诉全世界的开发者:这条路不通,别走了。

也有问题,比如过度思考,简单问题也能写一大段内心独白,比如结构化输出不够稳定,比如对提示词非常敏感。

在这个各家大厂把技术当核机密严防死守的时代,这种做法简直就是一股清流。

最后一点,DS选择在这个时间段来更新他的论文,把细节加进去。

是不是大的要来了?V4 or R2?

点击原文,就是原版论文,感兴趣的可以看看。

原文链接:https://www.huxiu.com/article/4824469.html