经验

为什么说DeepSeek是2025年的Kimi

在2025年伊始，杭州的AI创业公司DeepSeek凭借其开源模型DeepSeek-V3在科技界引起了巨大关注。该模型不仅在性能上与昂贵的GPT-4o不相上下，更以其低成本训练的优势，打破了人们对AI算力需求的传统认知。航通社将尽力在2025年保持每日更新的节奏，但这说实在的很难做到，因为每天还有各种各样其他的事情。社长将会非常简短地念出稿子，所以里面有些东西恐怕不能经过详细的事实核查，以及逻辑链条会非常短。我的理想状态是每篇稿子只有一个简短的结论，类似金融时报的Lex专栏。不论如何，想把自己的想法记录下来，终归是件好事。如果不能日更，我也会尽可能提升更新频率。这部分内容将是跟我的本职工作无关，或不重叠的内容，而且不涉及利益冲突。岁末年初，杭州的大模型创业公司“深度求索”DeepSeek 不断放出大新闻。它所公布的一个开源模型DeepSeek-V3，在各种基准测试等方面，能够大致打平需要付钱的GPT-4o。而一个更重要的问题是，这是中国公司在受到制裁，算力有限，不能购买足够数量显卡的基础上，使用小数据集蒸馏等方法，而得到的一个更节省成本的模型。官方技术论文披露，v3模型的总训练成本仅为557.6万美元，相比之下GPT-4o等模型的训练成本约为1亿美元。因此DeepSeek还被称为“AI界拼多多”。这条新闻的重大意义在于，它可能会减少人们对于“大模型的智能程度=英伟达提供的算力”这样一个认知的依赖。因此，消息还被认为是间接影响了英伟达的股价。在整个消息发酵的过程当中，是非常有趣的“出口转内销”然后再出去的，变来变去的方式。兔撕鸡在即刻上总结说，国外的消息被引到国内的时候，大家都看阑夕发的微博。但那条微博正确地指出了，DeepSeek 突破的真正意义在于GPU需求变小。“这标志着美国对中国的AI封锁战略不算成功，也不需要搭建GPU万卡集群，就能获得不错的效果。” 这一层意思被重新译介回Twitter/X上面，又让硅谷的那帮人回过神来了，所以影响英伟达的股价。而且还需要对冲，the information说字节将会700亿采购英伟达芯片，然后字节否认。如果这个消息不是真实的，那么可以认为，发出这个消息的，就是算力相关股票的护盘手。总之，这种猜测甚是玄学。由此产生了两个段子：其一，杭州新四小龙：宇树科技、DeepSeek、游戏科学、影视飓风其二，阑心一言，一个字近亿美元 12月27日，原先在DeepSeek的罗福莉加入小米的消息大范围流传，其实之前她早就自我官宣过，而且也在大模型业界小范围流通。但是自从有媒体将罗形容为“95后天才少女”之后，情况就不一样了。这条消息获得营销加成，与其说利好小米，更不如说是加码营销了罗福莉的前东家DeepSeek，也就是证明了他们的团队确实有实力，足够优秀的人可以在团队内做出非常厉害的事。不得不说，在DeepSeek出圈前，AI业界对它的评价都非常高。因为，即使人们发现它的训练数据集有可能使用了来自ChatGPT的输出结果——它曾在很多情况下都自称为ChatGPT——这也只是无伤大雅的插曲。你行你也上啊，如果只要用ChatGPT输出就能做这么好，你也可以试一试。毕竟谷歌也在这么做。谷歌Gemini的事实核查人员是外包的，用来检查双子座模型所生成的结果是否属实。而谷歌被曝光要放低人工核对的标准，让人员检查跟自己本专业能力不相关的答案的准确性，同时还允许他们借助类似Claude这样的，其他模型生成的结果来核对。当某个阶段你所做出的成绩，是仅此一家别无分店的时候，那就说明泼天的富贵将会降临到你的身上。最近呢，当然是快手的可灵，在Sora之前吸干了属于它的关注度。之前另外一个华裔的作品Pika也类似。但Pika在初期版本比Runway强不少，之后就比较后劲乏力，连带着联合创始人郭文景，也不再继续被称作“天才少女”刷屏了。但是这当中最典型的案例则是月之暗面（Kimi）。在差不多一年前。Kimi成为AI界当红炸子鸡，因为它在国内外的竞品当中，最早提出了一个新的概念，就是“超长文本（tokens）”。长文本成为各大模型开始卷的领域，而Kimi依靠这个单独概念对用户心智的教育，牢牢的吸了一波粉丝和媒体关注。自从长文本概念首倡以后，Kimi获得融资的规模和频次就像疯了一样，终于到达了需要老股东掐架的程度。在这一年当中，Kimi的产品发布，包括智能体、深度思考、联网，以及尚未发布的视频生成，都只能说是按部就班。但是Kimi获得了充足的弹药，不仅在开发周期上面可以比较舒缓，没有压力，而且可以铆足了劲儿，在B站砸钱营销，使得大模型推广的价格水涨船高。在豆包积极跟进厮杀之余，连腾讯都熬不住这么玩了。目前混元大模型的能力被植入微信、QQ、读书、输入法等具体的产品内，单行版元宝则处于放养状态，不再用力宣传。这就是为什么社长认为，在今年，如果各家大厂还想要新的投资标的的话，最合适的选择就是DeepSeek。因为这一次轮到它提出新概念了，这个概念是“低成本训练”。如果论资本市场的青睐程度，能跟月之暗面媲美的还有智谱。但智谱的融资轮数已经太多了，从目前的发展来看，它也没有持续领先。其实就算是强如OpenAI，也不可能永远“炸裂颠覆吓尿革命”。它可能只需要一次婴儿的啼哭，向世界证明它此时此刻是领先的。对它来说这个概念叫“ChatGPT”。这样的机会，这种对一个概念的定义权，只要一个创业公司拥有一次，就已经足够幸运。在此之后它是否还能定义第二个概念，或许不太重要；蜂拥而至的融资将会是对它之前定义概念的奖赏。文 / 书航本文由人人都是产品经理作者【航通社】，微信公众号：【航通社】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。题图来自Unsplash，基于 CC0 协议。

在2025年伊始，杭州的AI创业公司DeepSeek凭借其开源模型DeepSeek-V3在科技界引起了巨大关注。该模型不仅在性能上与昂贵的GPT-4o不相上下，更以其低成本训练的优势，打破了人们对AI算力需求的传统认知。

航通社将尽力在2025年保持每日更新的节奏，但这说实在的很难做到，因为每天还有各种各样其他的事情。

社长将会非常简短地念出稿子，所以里面有些东西恐怕不能经过详细的事实核查，以及逻辑链条会非常短。我的理想状态是每篇稿子只有一个简短的结论，类似金融时报的Lex专栏。

不论如何，想把自己的想法记录下来，终归是件好事。如果不能日更，我也会尽可能提升更新频率。

这部分内容将是跟我的本职工作无关，或不重叠的内容，而且不涉及利益冲突。

岁末年初，杭州的大模型创业公司“深度求索”DeepSeek 不断放出大新闻。它所公布的一个开源模型DeepSeek-V3，在各种基准测试等方面，能够大致打平需要付钱的GPT-4o。

而一个更重要的问题是，这是中国公司在受到制裁，算力有限，不能购买足够数量显卡的基础上，使用小数据集蒸馏等方法，而得到的一个更节省成本的模型。

官方技术论文披露，v3模型的总训练成本仅为557.6万美元，相比之下GPT-4o等模型的训练成本约为1亿美元。因此DeepSeek还被称为“AI界拼多多”。

这条新闻的重大意义在于，它可能会减少人们对于“大模型的智能程度=英伟达提供的算力”这样一个认知的依赖。因此，消息还被认为是间接影响了英伟达的股价。

在整个消息发酵的过程当中，是非常有趣的“出口转内销”然后再出去的，变来变去的方式。

兔撕鸡在即刻上总结说，国外的消息被引到国内的时候，大家都看阑夕发的微博。但那条微博正确地指出了，DeepSeek 突破的真正意义在于GPU需求变小。“这标志着美国对中国的AI封锁战略不算成功，也不需要搭建GPU万卡集群，就能获得不错的效果。”

这一层意思被重新译介回Twitter/X上面，又让硅谷的那帮人回过神来了，所以影响英伟达的股价。而且还需要对冲，the information说字节将会700亿采购英伟达芯片，然后字节否认。如果这个消息不是真实的，那么可以认为，发出这个消息的，就是算力相关股票的护盘手。

总之，这种猜测甚是玄学。由此产生了两个段子：

其一，杭州新四小龙：宇树科技、DeepSeek、游戏科学、影视飓风

其二，阑心一言，一个字近亿美元

12月27日，原先在DeepSeek的罗福莉加入小米的消息大范围流传，其实之前她早就自我官宣过，而且也在大模型业界小范围流通。但是自从有媒体将罗形容为“95后天才少女”之后，情况就不一样了。

这条消息获得营销加成，与其说利好小米，更不如说是加码营销了罗福莉的前东家DeepSeek，也就是证明了他们的团队确实有实力，足够优秀的人可以在团队内做出非常厉害的事。

不得不说，在DeepSeek出圈前，AI业界对它的评价都非常高。因为，即使人们发现它的训练数据集有可能使用了来自ChatGPT的输出结果——它曾在很多情况下都自称为ChatGPT——这也只是无伤大雅的插曲。你行你也上啊，如果只要用ChatGPT输出就能做这么好，你也可以试一试。

毕竟谷歌也在这么做。谷歌Gemini的事实核查人员是外包的，用来检查双子座模型所生成的结果是否属实。而谷歌被曝光要放低人工核对的标准，让人员检查跟自己本专业能力不相关的答案的准确性，同时还允许他们借助类似Claude这样的，其他模型生成的结果来核对。

当某个阶段你所做出的成绩，是仅此一家别无分店的时候，那就说明泼天的富贵将会降临到你的身上。

最近呢，当然是快手的可灵，在Sora之前吸干了属于它的关注度。之前另外一个华裔的作品Pika也类似。但Pika在初期版本比Runway强不少，之后就比较后劲乏力，连带着联合创始人郭文景，也不再继续被称作“天才少女”刷屏了。

但是这当中最典型的案例则是月之暗面（Kimi）。

在差不多一年前。Kimi成为AI界当红炸子鸡，因为它在国内外的竞品当中，最早提出了一个新的概念，就是“超长文本（tokens）”。长文本成为各大模型开始卷的领域，而Kimi依靠这个单独概念对用户心智的教育，牢牢的吸了一波粉丝和媒体关注。

自从长文本概念首倡以后，Kimi获得融资的规模和频次就像疯了一样，终于到达了需要老股东掐架的程度。在这一年当中，Kimi的产品发布，包括智能体、深度思考、联网，以及尚未发布的视频生成，都只能说是按部就班。

但是Kimi获得了充足的弹药，不仅在开发周期上面可以比较舒缓，没有压力，而且可以铆足了劲儿，在B站砸钱营销，使得大模型推广的价格水涨船高。

在豆包积极跟进厮杀之余，连腾讯都熬不住这么玩了。目前混元大模型的能力被植入微信、QQ、读书、输入法等具体的产品内，单行版元宝则处于放养状态，不再用力宣传。

这就是为什么社长认为，在今年，如果各家大厂还想要新的投资标的的话，最合适的选择就是DeepSeek。因为这一次轮到它提出新概念了，这个概念是“低成本训练”。

如果论资本市场的青睐程度，能跟月之暗面媲美的还有智谱。但智谱的融资轮数已经太多了，从目前的发展来看，它也没有持续领先。

其实就算是强如OpenAI，也不可能永远“炸裂颠覆吓尿革命”。它可能只需要一次婴儿的啼哭，向世界证明它此时此刻是领先的。对它来说这个概念叫“ChatGPT”。

这样的机会，这种对一个概念的定义权，只要一个创业公司拥有一次，就已经足够幸运。在此之后它是否还能定义第二个概念，或许不太重要；蜂拥而至的融资将会是对它之前定义概念的奖赏。

文 / 书航
本文由人人都是产品经理作者【航通社】，微信公众号：【航通社】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

经验

为什么说DeepSeek是2025年的Kimi

标签：

相关帖子

关注

热点

推荐

标签