吵起来了。

图灵奖得主和诺贝尔奖得主,为了“智能的本质”—— 直接激情友好地交流上了。

AI 三巨头之一、图灵奖得主 Yann LeCun 明确表示:

纯粹就是胡扯(complete BS)。

而诺贝尔奖得主、谷歌 DeepMind CEO 哈萨比斯也不留情面了,指名道姓回击:

LeCun 的说法简直是大错特错。

论战之激烈,关注度之高,已经让𝕏专门开辟了一个话题板块:

马斯克也跑来吃瓜了 ——

没有任何多余的解释,但这波他站哈萨比斯 ——“Demis is right”。

当然,马斯克的站队可能也有别的原因。毕竟他和 LeCun 素来不是很对付,跟哈萨比斯则亦师亦友 —— 马斯克还是哈萨比斯 DeepMind 早期投资人。

要科学吃瓜,可能还是要知道他们究竟在激辩什么?

争论焦点:智能的本质是什么?

事情还要从 LeCun 几天前接受的一场采访说起。

他在节目中言辞犀利地指出:

根本不存在所谓的“通用智能”,纯粹就是胡扯(complete BS)

这个概念毫无意义,因为它实际上是用来指代人类水平的智能,但人类智能其实是高度专业化的。我们在现实世界里确实干得不错,比如认个路、导航 blabla;也特别擅长跟人打交道,因为咱们进化了这么多年就是干这个的。

但在国际象棋方面,我们表现很差。而且还有一堆事儿都搞不定,反倒是有些动物比我们强得多。所以说,我们其实就是“专才”。

我们认为自己是“通用”的,但这仅仅是一种错觉,因为我们能理解的所有问题都局限于我们能想到的那些

简单概括就是,LeCun 认为人类智能并不“通用”,而是为了适应现实物理世界而专门进化出来的某种专业能力。

人类之所以擅长识别物体、躲避危险、与他人合作等,也只是因为这些能力在进化中被环境塑造。

然而,这一观点很快遭到了哈萨比斯的直接回怼。哈萨比斯表示:

LeCun 的说法简直是大错特错。

他这是把“general intelligence”和“universal intelligence”两个概念搞混了。

然后他一一驳斥了 LeCun 的观点,其原话如下:

大脑是目前宇宙中已知最精妙、最复杂的事物,实际上具有极强的通用性。

但是在实际的系统当中,“天下没有免费的午餐”这个道理是无法回避的 —— 任何实际且有限的系统,在其所学目标分布周围,都必然存在一定程度的专门化。

但从图灵机的理论意义上讲,通用性的核心在于,只要给予足够的时间、内存(及数据),就能够学习任何可计算的内容。而人脑(以及 AI 基础模型)正是近似的图灵机。

并且,针对 LeCun 关于国际象棋棋手的评论,哈萨比斯认为人类能发明国际象棋本身就令人惊叹,更不用说从科学到波音 747 等现代文明的一切了。

关于 LeCun 对棋手的评论 —— 人类最初竟能发明国际象棋(乃至从科学到波音 747 的整个现代文明!)本就令人惊叹,更不用说还能出现像马格努斯・卡尔森那样棋艺卓绝的人物。

他或许并非严格意义上的最优解(毕竟记忆有限、决策时间也受限),但考虑到我们的大脑本是为狩猎采集而进化,他和我们如今所能成就的一切,已足以展现人脑的惊人潜力

显而易见,哈萨比斯对“智能”的理解从不局限于计算机科学,而是深度融合了神经科学。

一直以来,他认为真正衡量智能的两个关键标准分别是通用性(Generality)和学习能力(Learning),为此他经常拿 1997 年“深蓝”战胜卡斯帕罗夫举例 ——

虽然“深蓝”在围棋上很强,但还是连简单的井字游戏都不会玩,所以足以见得这种程序的死板之处。

而关于这场对决,哈萨比斯还透露,最吸引他的不是“深蓝”这个系统,而是卡斯帕罗夫的大脑(毕竟他能作为人类代表与 AI 进行比赛)。

没错,又是“大脑”这个关键词。哈萨比斯一直坚信,人类大脑是宇宙中已知的唯一关于“通用智能可行性”的存在性证明。

当大脑和 AI 结合之后,所谓的“通用人工智能”其实就是能够展现出人类所拥有的所有认知能力的系统

至于具体如何实现 AGI,哈萨比斯多年来也形成了一套自己的方法论,总结起来就是 ——

预测构建理解,规划扩展可能,强化学习实现自主进化

第一步:以预测为基石

在他看来,智能的本质在于预测 —— 无论是预测下一个单词还是预测蛋白质的折叠形状。这是所有认知活动的基础形式,也是 AI 理解世界的内在驱动力。

第二步:引入搜索与规划

AI 系统首先要建立一个世界模型,然后在此基础上进行搜索或规划,以在巨大的组合搜索空间中找到最优解。

第三步:最终通向深度强化学习

这是哈萨比斯最推崇的终局路径,也是对大脑运作方式的模拟 —— 深度学习负责模式匹配和寻找结构,强化学习负责通过试错进行规划和达成目标。这在生物学上对应着大脑的神经通路和多巴胺奖励系统。

至此,我们看到两位大佬关于智能本质的争论,表面上看起来似乎确实截然不同。

一个认为“通用性智能”是胡扯,本质上智能是自然世界高度专业化的产物;另一个认为通用性智能不仅存在,而且仍有巨大潜力有待挖掘。

但事实,真的如此吗?

上述争论过后,LeCun 又再次出来回应了,而且这次直接点名了分歧核心 —— 用词

我认为分歧主要在于用词。我反对用“通用(general)”来指代“人类水平”,因为人类是高度专门化的。

不过,虽然承认用词有分歧,但他还是继续重申了“人类智能并不通用”的观点。其论证如下:

第一,理论完备≠实际通用。

你也许不同意人类思维是专门化的,但事实确实如此。这不仅是理论能力的问题,更是实践效率的问题。显然,一个经过良好训练的人脑,如果配合无限量的纸和笔,是图灵完备的。但对于绝大多数计算问题来说,这种方式效率极低,因此在资源受限的情况下(比如下棋),它远非最优方案。

就是说,哈萨比斯所构想的“理想的图灵机”对解决现实问题几乎没有意义,因为真正的智能必须在有限资源下高效运作 —— 而人脑的进化恰恰是资源约束下高度优化的结果。

第二,两个典型例子可以反映大脑的“非通用性”。

在理论上,一个两层神经网络可以以任意精度逼近任何函数;但在实践中,几乎所有有意义的函数都需要隐藏层中包含数量巨大、难以实现的神经元。正因如此,我们才使用多层网络 —— 这正是深度学习存在的根本原因。

再换一个角度来看:视神经大约有 100 万根神经纤维。为了简化讨论,我们假设信号是二进制的,那么一次视觉任务就可以被视为一个从 100 万比特映射到 1 比特的布尔函数。在所有可能的此类函数中,有多少是人脑可以实现的?答案是:一个无穷小的比例。

通过这两个例子,LeCun 再次重申了自己的观点:

所以我们不仅谈不上“通用”,而且是极其高度专业化的。可能的函数空间极其广阔。我们之所以没有意识到这一点,是因为其中绝大多数函数对我们来说复杂到难以想象,看起来几乎完全是随机的

而且他还提到了爱因斯坦曾经说过的一句话 —— 世界上最不可思议的事情,是世界竟然是可以被理解的。

在所有可能的、随机的世界组织方式中,我们竟然能够理解其中极小的一部分,这本身就令人惊叹。而我们无法理解的那一部分,我们称之为“熵”。从这个意义上说,宇宙中绝大多数的信息都是熵 —— 是我们孱弱的认知能力无法理解、因而只能选择忽略的内容。

总之,事情 battle 到最后,网友们也是纷纷回过神来了 —— 这场争论最大的 bug 可能就在用词上了。

而抛开用词不谈,本质上来看,两个人其实更像是在谈论不同的问题:一个核心在强调“我们是什么”,另一个则在强调“我们能成为什么”。

而这,也恰恰指向了同一个更深层、也更现实的议题 ——

接下来,我们究竟该以怎样的方式实现 AGI?

答案:世界模型

不管是在 LeCun 还是哈萨比斯这里,答案其实都已经很清晰了 ——

世界模型

众所周知,即将从 Meta 正式离职的 LeCun,下一站就是创业世界模型。

据《金融时报》爆料,其新公司名为 Advanced Machine Intelligence Labs(AMI Labs),计划于明年一月正式亮相,目标估值 30 亿欧元(约 247 亿人民币)。

在 LeCun 的理解中,世界模型所要追求的不是渲染精美的像素,而是掌握控制理论和认知科学。

他认为对 AI 而言,只有中间那个抽象表征才重要(和 JEPA 研究一脉相承),模型没必要浪费算力去生成像素,只需专注于捕捉那些能用于 AI 决策的世界状态。

换言之,了解“世界的结构是什么”才是最关键的。

而哈萨比斯这边也在采访中多次表示,世界模型绝对是自己和谷歌接下来的重点。

今年 8 月,谷歌 DeepMind 推出了新版世界模型 Genie 3。哈萨比斯表示:

我们谈论的世界模型,指的是那种能够理解世界运行机制中因果关系与协同效应的模型,也就是一种“直观物理学”—— 事物如何运动、如何相互作用、如何表现。

你已经可以在当前的视频模型中看到这种能力的雏形。

而检验是否真正具备这种理解的一种方式是否能够构建一个逼真的世界。因为如果你能够生成它,那么在某种意义上,你就已经理解并内化了这个系统的运作规律。

这也解释了为什么 Genie、Veo 这些模型首先会以视频模型的形式出现。在他看来,这种可交互的世界模型正是通往 AGI 的关键一步。

通过对比,我们能发现虽然二者都是在描绘“世界模型”,但他们的理解和实践方向也明显存在差别 ——

LeCun 代表着“世界模型即认知框架”,而谷歌哈萨比斯代表着“世界模型即模拟器”。

嗯,同一个概念,不同的理解和实践 —— 怎么不算一种 call back 呢?(手动狗头)

Anyway,回顾历史,实际上 AI 的每一次跃迁都伴随着这样的“争吵”:

符号主义和连接主义的争论,定义了智能的根基究竟是“逻辑”还是“数据”;

端到端学习和模块化系统的争论,定义了“系统该如何构建”;

再加上我们今天的“开源 VS 闭源之争”、“智能本质之争”……

还是那些老话,“真理不辩不明”、“真理越辩越明”。

不过玩笑说说,等到真理辩明了,那个老头可要来了……

One More Thing

几乎同一时间,LSTM 之父 Jürgen Schmidhuber 又出来随机掉落了一个“小彩蛋”,他预判了预判 ——

LeCun 即将创业的世界模型,他们在 2014 年就有涉猎了(原话是二者高度相似)。

怎么说呢,Jürgen Schmidhuber 老爷子这几年,基本都在“维权”了。

作为 LSTM 的发明者,LSTM 一度在 ChatGPT 诞生前被称为“最具商业价值的人工智能成就”,而作为 LSTM 之父,Jürgen Schmidhuber 早在三巨头获得图灵奖之前就被《纽约时报》称为“成熟人工智能之父”。

但当 AI 时代真正到来,各种技术发明者桂冠没有他、图灵奖没有他、诺贝尔奖也没有他……

Schmidhuber 只能一次次维权、隔空怼人,最后成为祥林嫂・Schmidhuber。

幸好,还有推特,可以让他主页上清晰完整展示 ——

以及推特当前的拥有者马斯克,他评价 Jürgen Schmidhuber 时言简意赅:一切的发明者。

这,确定不是在阴阳八卦?

参考链接:

  • [1]https://x.com/i/trending/2003159288089358386

  • [2]https://x.com/dileeplearning/status/2003152862990467570

  • [3]https://x.com/SchmidhuberAI/status/2002778835843187099

本文来自微信公众号:量子位(ID:QbitAI),作者:一水