心理

OpenAI 最新产品全曝光！奥特曼驳斥 AI 发展撞墙，Ilya 认错，秘密寻找下一个重大突破

Scaling Laws 撞墙了？#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。爱范儿 | 原文链接 · 查看评论 · 新浪微博

今年 AI 圈的瓜真是一浪接一浪。

最近，关于 Scaling Laws「撞墙」的消息在 AI 圈炸开了锅。图灵奖得主 Yann Lecun、Ilya、Anthropic 创始人 Dario Amodei 纷纷展开唇枪舌战。

争论的核心在于，随着模型规模的不断扩大，其性能提升是否会遇到天花板。正当舆论愈演愈烈之际，OpenAI CEO Sam Altman 刚刚在 X 平台作出回应：

「there is no wall 没有墙」

而在这场辩论的背景下，彭博社则披露了一条引人注目的消息。

OpenAI 计划在明年一月份推出一款名为「Operator」的 AI Agent（智能体），这个 Agent 能够使用计算机代替用户执行任务，如编写代码或预订旅行。

在此之前，Anthropic、微软、Google 也都被曝出正在布局类似的方向。

对于整个 AI 行业来说，AI 技术的发展从来就不是单一维度的线性过程。当一个方向似乎遇到阻力时，创新往往会在其他维度突破。

Scaling Laws 撞墙？下一步该怎么走

Scaling Laws 遭遇瓶颈的消息，最先源自外媒 The Information 上周末的一篇报道。

洋洋洒洒的数千字报道透露了两个关键信息。

好消息是，尽管 OpenAI 完成了下一代模型 Orion 训练过程的 20%，但 Altman 表示，Orion 在智能和执行任务、回答问题的能力方面已经与 GPT-4 不相上下。

坏消息是，据上手体验的 OpenAI 员工评估，与 GPT-3 和 GPT-4 之间的巨大进步相比，Orion 提升幅度较小，比如在编程等任务上表现不佳，且运行成本较高。

一句话概括就是，Scaling Laws 遭遇瓶颈了。

要理解 Scaling Laws 效果不及预期所带来的影响，我们有必要给不太清楚的朋友简单介绍一下 Scaling Laws 基本概念。

2020 年，OpenAI 在一篇论文中最早提出 Scaling Laws。

这一理论指出，大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。

听着有些拗口，说人话就是，大模型的性能会随着模型规模、训练数据量和计算资源的增加而相应提升。

OpenAI 的这项研究奠定了后续大模型发展的基础，不仅促成了 GPT 系列模型的成功，也为训练 ChatGPT 提供了优化模型设计与训练的关键指导原则。

只是，当我们现在还在畅想着 GPT-100 时，The Information 的爆料表明，仅仅增加模型规模已经不能保证性能的线性提升，且伴随着高昂成本和显著的边际效益递减。

而遭遇困境的并非仅有 OpenAI 一家。

彭博社援引知情人士的消息称，Google 旗下的 Gemini 2.0 同样未能达到预期目标，与此同时，Anthropic 旗下的 Claude 3.5 Opus 的发布时间也一再推迟。

在争分夺秒的 AI 行业，没有产品的新消息往往意味着最大的坏消息。

需要明确的是，这里所说的 Scaling Laws 遇到瓶颈并非意味着大模型发展就此终结，更深层的问题在于高昂成本导致边际效益的严重递减。

Anthropic CEO Dario Amodei 曾透露，随着模型变得越来越大，训练成本呈现爆炸式增长，其目前正在开发的 AI 模型的训练成本就高达 10 亿美元。

Amodei 还指出，未来三年内，AI 的训练成本还将飙升到 100 亿美元甚至 1000 亿美元的天文数字。

以 GPT 系列为例，仅 GPT-3 的单次训练成本就高达约 140 万美元，这些支出主要来自于强大的计算资源消耗，尤其是 GPU 的使用费用，以及巨额的电力支出。

单是 GPT-3 的训练就消耗了 1287 兆瓦时的电力。

去年，加州大学河滨分校的研究显示，ChatGPT 每与用户交流 25-50 个问题，就得消耗 500 毫升的水，预计到 2027 年，全球 AI 的年度清洁淡水需求量可能达到 4.2-66 亿立方米，相当于 4-6 个丹麦或半个英国的年度用水总量。

从 GPT-2 到 GPT-3，再到 GPT-4，AI 所带来的体验提升是跨越式的。

正是基于这种显著的进步，各大公司才会不惜重金投入 AI 领域。但当这条道路逐渐显露尽头，单纯追求模型规模的扩张已无法保证性能的显著提升，高昂的成本与递减的边际效益成为了不得不面对的现实。

现在，比起一味追求规模，在正确的方向上实现 Scaling 显得更加重要。

再见，GPT；你好，推理「O」

墙倒众人推，连理论也是如此。

当 Scaling Laws 疑似触及瓶颈的消息在 AI 圈内引发轩然大波时，质疑的声浪也随之翻涌而来。

一直持反主流立场的图灵奖得主、Meta AI 首席科学家 Yann Lecun，昨天兴奋地在 X 平台转载了路透社采访 Ilya Sutskever 的采访，并附文称：

「我不想显得事后诸葛亮，但我的确提醒过你。

引用：「AI 实验室 Safe Superintelligence（SSI）和 OpenAI 的联合创始人伊利亚·苏茨克韦尔（Ilya Sutskever）最近向路透社表示，通过扩大预训练阶段——即使用大量未经标注的数据来训练 AI 模型，使其理解语言模式和结构——所取得的成果已经停滞不前。」

回顾这位 AI 巨头过去两年对现行大模型路线的评判，可谓是字字珠玑，句句见血。

例如，今天的 AI 比猫还笨，智力差太远；LLM 缺乏对物理世界的直接经验，只是操纵着文字和图像，却没有真正理解世界，强行走下去只会死路一条等等。

时间拨回两个月前，Yann Lecun 更是毫不客气地给当下主流路线判了死刑。在一众 AI 末日论中，在众多 AI 末日论中，他还坚定地认为声称 AI 将威胁人类生存的言论纯属无稽之谈：

大型语言模型（LLMs）无法回答其训练数据中未包含的问题，
它们无法解决未经训练的难题，
它们无法在缺乏大量人类帮助的情况下学习新技能或知识，
它们无法创造新的事物。目前，大型语言模型只是人工智能技术的一部分。单纯地扩大这些模型的规模，并不能使它们具备上述能力。

同在 Meta FAIR 任职的田渊栋博士则更早预见了当前的困境。

5 月份在接受媒体采访时，这位华人科学家曾悲观地表示，Scaling Laws 也许是对的，但不会是全部。在他看来，Scaling Laws 的本质是以指数级的数据增长，来换取「几个点的收益」。

「最终人类世界可能会有很多长尾需求，需要人类的快速反应能力去解决，这些场景的数据本身也很少，LLM 拿不到。Scaling law 发展到最后，可能每个人都站在一个「数据孤岛」上，孤岛里的数据完全属于每个人自己，而且每时每刻都不停产生。专家学会和 AI 融合，把自己变得非常强，AI 也代替不了他。」

不过，形势或许还没有到如此悲观的境地。

客观而言，Ilya 在接受路透社的采访时，虽然承认了 Scaling Laws 带来的进展已趋于停滞，但并未宣告其终结。

「2010 年代是追求规模化的时代，而现在我们再次进入了一个充满奇迹和探索的新时代。每个人都在寻找下一个重大突破。在当下，选择正确的事物进行规模化比以往任何时候都更为关键。」

并且，Ilya 还表示 SSI 正在探索一种新的方法来扩展预训练过程。

Dario Amodei 最近在一档播客中也谈及此事。

他预测，在人类水平以下，模型并不存在绝对的天花板。既然模型尚未达到人类水平，就还不能断言 Scaling Laws 已经失效，只是确实出现了增长放缓的现象。

自古，山不转水转，水不转人转。

上个月，OpenAI 的研究员 Noam Brown 在 TED AI 大会上表示：

「事实证明，在一局扑克中，让一个机器人思考 20 秒钟，得到的性能提升与将模型扩展 100000 倍并训练它 100000 倍长的时间一样。」

而对于 Yann lecun 昨天的事后诸葛亮言论，他这样回应：

「现在，我们处于一个这样的世界，正如我之前所说，进入大规模语言模型预训练所需的计算量非常非常高。但推理成本却非常低。曾有许多人合理地担心，随着预训练所需的成本和数据量变得如此庞大，我们会看到 AI 进展的回报递减。但我认为，从 o1 中得到的一个真正重要的启示是，这道墙并不存在，我们实际上可以进一步推动这个进程。因为现在，我们可以扩展推理计算，而且推理计算还有巨大的扩展空间。」

以 Noam Brown 为代表的研究者坚信推理/测试时计算（test-time compute），极有可能成为提升模型性能的另一个灵丹妙药。

说到这里，就不得不提到我们熟悉的 OpenAI o1 模型。

与人类的推理方式颇为相似，o1 模型能够通过多步推理的方式「思考」问题，它强调在推理阶段赋予模型更充裕的「思考时间」，其核心秘密是，在像 GPT-4 这样的基础模型上进行的额外训练。

例如，模型可以通过实时生成和评估多个可能的答案，而不是立即选择单一答案，最终选择最佳的前进路径，这样就能够将更多的计算资源集中在复杂任务上，比如数学问题、编程难题，或者那些需要人类般推理和决策的复杂操作。