50美元训练出DeepSeek R1?
近期,科技圈流传着一个令人震惊的消息:李飞飞团队仅用 50 美元就训练出了一个与 DeepSeek R1 性能相当的 AI 推理模型。这一消息引发了广泛讨论,许多人质疑其真实性和可行性。本文将深入剖析这一研究背后的真相,探讨其技术细节、依赖条件以及潜在的商业应用前景。 前天下午,一个信息在科技圈传起来了。 说李飞飞团队花了50美元就训练出了一个和DeepSeek R1差不多厉害的AI推理模型。这听起来简直像科幻小说的情节,但事实真的如此吗? 我赶紧看了下研究论文,发现并不是这样。 先说说这个模型是怎么来的。其实,李飞飞团队并没有完全从头开始训练一个新的模型。这个名为S1的模型,实际上是基于阿里云的通义千问(Qwen)模型进行监督微调的结果。 就像在已经盖好的大楼上加点装饰一样。所以,所谓的“50美元奇迹”,是站在了别人已经搭好的高台上才做到的。 既然是微调,具体是怎么微调的呢?主要有两点: 精心挑选数据 使用高效训练 他们找了一个很小的数据集,只有1000个问题,但这些问题都是精心挑出来的,难度高、种类多,质量还特别好。这些数据是从谷歌Gemini 2.0 Flash Thinking Experimental模型中蒸馏出来的,就像把精华部分提取出来一样。 训练过程是,他们用了16台很厉害的电脑(Nvidia H100 GPU),训练时间不到30分钟,总共花了不到50美元。就这样,S1模型在有限的资源下实现了性能的提升。 我一听,这不就像去网吧借了几台电脑,花了点零花钱,就开发出了一款王者荣耀一样。中文自媒体最喜欢这种噱头,各种蹭热点,大家都知道,现在DeepSeek R1特别火,谁都想在热点上分一杯羹。但这种操作,确实有点噱头了。 不过,我觉得,虽然这个方法听起来很厉害,但能不能真的推广开来,还得好好思考一下。 为什么呢? 首先,这个方法太依赖通义千问模型了。如果没有强大的基础,这个模型就没办法表现得那么好。这就像是搭积木,底下的积木要是不稳,上面再怎么装饰也没用。 然后,1000个数据在处理很复杂的问题时可能不够用。毕竟,有时候,我们要更多的数据来让模型更聪明。而且,这种依赖外部模型进行微调的方式还可能引发知识产权的问题。 比如,大家都用别人的模型来训练自己的模型,那原来的模型开发者是不是应该得到一些回报呢? 不过,尽管有这些问题存在,我认为,李飞飞团队的研究还是给了我们很多启发。即:可以花很少的钱,也能训练出很厉害的AI模型。因为,这对于小公司、个人开发者,还有那些教育资源不够的地方来说,是个很大的鼓舞。 但是,这个模型到底能不能商用呢? 这又是一个问题。虽然训练成本降低了,但商用还要考虑很多因素。比如:模型的稳定性和可靠性。比如,DeepSeek R1虽然训练成本低,但它的推理成本其实也不低。而且,训练模型只是第一步,模型的维护和更新也需要持续投入。 我觉得,这种小模型的确是一种探索。像我前一段时间本地部署了两个模型,电脑热得可以蒸鸡蛋。那时,我在想,要是能再小点、再聪明点,就好了。 总之,虽然「50美元训练出AI模型」听起来很诱人。 但我们还是要理性看待这件事,它并不是说AI技术一下子就变得特别简单了,而是在特定的条件下,找到了一种新的方法;我们不能因为这个,就忽略基础研究和大规模投入的重要性。 不过,这也确实是好消息,说明AI技术正在朝着更平民化的方向发展。希望未来,每个电脑上都能有一个小模型。到时候,只要对着电脑说说话,就能搞定很多任务,那该多好。 报告参考: [1].论文:https://arxiv.org/html/2501.19393v1 [2].GitHub:https://github.com/simplescaling/s1 本文由人人都是产品经理作者【王智远】,微信公众号:【王智远】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议。
![50美元训练出DeepSeek R1?](https://hot166.com/uploads/images/202502/image_870x_67a8ca576d493.jpg)
近期,科技圈流传着一个令人震惊的消息:李飞飞团队仅用 50 美元就训练出了一个与 DeepSeek R1 性能相当的 AI 推理模型。这一消息引发了广泛讨论,许多人质疑其真实性和可行性。本文将深入剖析这一研究背后的真相,探讨其技术细节、依赖条件以及潜在的商业应用前景。
前天下午,一个信息在科技圈传起来了。
说李飞飞团队花了50美元就训练出了一个和DeepSeek R1差不多厉害的AI推理模型。这听起来简直像科幻小说的情节,但事实真的如此吗?
我赶紧看了下研究论文,发现并不是这样。
先说说这个模型是怎么来的。其实,李飞飞团队并没有完全从头开始训练一个新的模型。这个名为S1的模型,实际上是基于阿里云的通义千问(Qwen)模型进行监督微调的结果。
就像在已经盖好的大楼上加点装饰一样。所以,所谓的“50美元奇迹”,是站在了别人已经搭好的高台上才做到的。
既然是微调,具体是怎么微调的呢?主要有两点:
- 精心挑选数据
- 使用高效训练
他们找了一个很小的数据集,只有1000个问题,但这些问题都是精心挑出来的,难度高、种类多,质量还特别好。这些数据是从谷歌Gemini 2.0 Flash Thinking Experimental模型中蒸馏出来的,就像把精华部分提取出来一样。
训练过程是,他们用了16台很厉害的电脑(Nvidia H100 GPU),训练时间不到30分钟,总共花了不到50美元。就这样,S1模型在有限的资源下实现了性能的提升。
我一听,这不就像去网吧借了几台电脑,花了点零花钱,就开发出了一款王者荣耀一样。中文自媒体最喜欢这种噱头,各种蹭热点,大家都知道,现在DeepSeek R1特别火,谁都想在热点上分一杯羹。但这种操作,确实有点噱头了。
不过,我觉得,虽然这个方法听起来很厉害,但能不能真的推广开来,还得好好思考一下。
为什么呢?
首先,这个方法太依赖通义千问模型了。如果没有强大的基础,这个模型就没办法表现得那么好。这就像是搭积木,底下的积木要是不稳,上面再怎么装饰也没用。
然后,1000个数据在处理很复杂的问题时可能不够用。毕竟,有时候,我们要更多的数据来让模型更聪明。而且,这种依赖外部模型进行微调的方式还可能引发知识产权的问题。
比如,大家都用别人的模型来训练自己的模型,那原来的模型开发者是不是应该得到一些回报呢?
不过,尽管有这些问题存在,我认为,李飞飞团队的研究还是给了我们很多启发。即:可以花很少的钱,也能训练出很厉害的AI模型。因为,这对于小公司、个人开发者,还有那些教育资源不够的地方来说,是个很大的鼓舞。
但是,这个模型到底能不能商用呢?
这又是一个问题。虽然训练成本降低了,但商用还要考虑很多因素。比如:模型的稳定性和可靠性。比如,DeepSeek R1虽然训练成本低,但它的推理成本其实也不低。而且,训练模型只是第一步,模型的维护和更新也需要持续投入。
我觉得,这种小模型的确是一种探索。像我前一段时间本地部署了两个模型,电脑热得可以蒸鸡蛋。那时,我在想,要是能再小点、再聪明点,就好了。
总之,虽然「50美元训练出AI模型」听起来很诱人。
但我们还是要理性看待这件事,它并不是说AI技术一下子就变得特别简单了,而是在特定的条件下,找到了一种新的方法;我们不能因为这个,就忽略基础研究和大规模投入的重要性。
不过,这也确实是好消息,说明AI技术正在朝着更平民化的方向发展。希望未来,每个电脑上都能有一个小模型。到时候,只要对着电脑说说话,就能搞定很多任务,那该多好。
报告参考:
[1].论文:https://arxiv.org/html/2501.19393v1
[2].GitHub:https://github.com/simplescaling/s1
本文由人人都是产品经理作者【王智远】,微信公众号:【王智远】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
你的反应是什么?
![like](https://hot166.com/assets/img/reactions/like.png)
![dislike](https://hot166.com/assets/img/reactions/dislike.png)
![love](https://hot166.com/assets/img/reactions/love.png)
![funny](https://hot166.com/assets/img/reactions/funny.png)
![angry](https://hot166.com/assets/img/reactions/angry.png)
![sad](https://hot166.com/assets/img/reactions/sad.png)
![wow](https://hot166.com/assets/img/reactions/wow.png)