DiscoverAI 进化论强化学习之父Richard Sutton宣布大模型将死
强化学习之父Richard Sutton宣布大模型将死

强化学习之父Richard Sutton宣布大模型将死

Update: 2025-10-11
Share

Description

00:17

最近AI圈有个特别炸裂的观点,强化学习RL的教父、刚刚拿了图灵奖的理查德萨顿公开说,他觉得现在火的一塌糊涂的大型语言模型,也就是LLM是条死胡同。

00:31

这个说法跟我们每天感受到的AI热潮简直是背道而驰。

00:36

没错,这个观点之所以这么震撼,是因为萨顿不是在说LLM不够好,而是在质疑他通往真正通用人工智能AGI的根本路径。

00:46

他认为RL才是研究智能的正道,因为他关注的是理解世界,实现目标,而LLM的本质更像是模仿人类。

00:55

模仿人类这个说法有点儿意思,但很多人会觉得LLM能写诗,能编程,能做那么复杂的推理,这难道不就是智能吗?

01:05

萨顿为什么觉得这只是模仿?

01:07

这就是他整个论证的核心了,萨顿认为,我们得区分两种预测LLM擅长的是预测一个人类在这种情况下会说什么。

01:16

因为他的训练数据就。

01:17

是海量的人类生成的文本,但真正的世界模型应该能预测如果你做了某个动作,接下来会发生什么。

01:25

我明白了,一个是预测语言模式,一个是预测真实世界的因果。

01:30

所以萨顿觉得LM并没有真正建立一个关于世界如何运转的模型,他只是在模仿那些已经拥有世界模型的人类。

01:39

完全正确。

01:40

他有个很经典的说法,你正在模仿那些拥有世界模型的东西,也就是人。

01:45

这就像一个学舌的鹦鹉,他能完美复述人的话,但他不理解话语背后的世界。

01:51

这就引出了萨顿的第二个关键论点。

01:53

目标。

01:54

目标LLM的目标不就是预测下一个词吗?

01:58

嗯,但在萨顿看来,这根本不算一个实质性的目标。

02:02

一个真正的目标应该能够改变世界,并且有好坏之分。

02:06

比如在强化学习里,一个下棋AI的目标是赢得比赛,这是一个非常明确的奖励,所有行为都可以围绕这个地面真理来判断优劣。

02:16

但预测下一个词呢?

02:17

它不影响外部世界,也没有一个标准说哪个词更好,只有一个概率上的更可能。

02:22

哦,原来是这样一个没有真正目标也不打算改变世界的系统。

02:28

萨顿认为他就谈不上是真正的智能。

02:30

这确实是从一个非常根本的层面颠覆了我们对LLM的认知。

02:35

是的,所以当有人说LLM在数学竞赛里拿金牌证明他有目标时,萨顿会认为数学更多是符号和逻辑运算,它不涉及与那个充满不确定性的、需要通过经验去学习的物理世界互动,而后者才是智能的核心战场。

02:53

萨。

02:54

对LLM的批评核心在于他们缺乏真正的世界模型和目标驱动力,这让他对LLM的可扩展性产生了疑问。

03:02

这让我想到了他那篇非常有名的文章苦涩的教训对苦涩的教训。

03:08

这篇文章简直是AI领域的圣经之一。

03:11

他的核心思想特别简单粗暴,那些依赖通用方法,比如学习和搜索。

03:17

并且能大规模利用计算资源的方法,最终总会胜过那些依赖人类专家知识手工设计的复杂系统。

03:25

我记得很多人就是用苦涩的教训来为LLM辩护的。

03:29

你看,LLM不就是把海量的算力砸在海量的数据上,然后奇迹就发生了吗?

03:36

这听起来完全符合苦涩的教训的描述。

03:39

这正是最有争议的地方。

03:41

萨顿本人并不同意这个看法,他认为大家可能误读了苦涩的教训。

03:46

LLM确实利用了大规模计算,但他也利用了海量的人类知识,也就是整个互联网的文本,这在他看来恰恰是苦涩的教训想要摆脱的东西啊。

03:58

所以他是觉得LLM走了捷径,相当于提前偷看了人类文明的所有答案,而不是靠自己从零开始学习。

04:07

可以这么理解,萨顿更推崇的是纯粹从经验中学习,他预测未来一定会出现一种能完全靠与环境互动。

04:15

从零开始积累经。

04:17

眼的系统。

04:18

这种系统即使一开始看起来很笨拙,但由于它的学习方式是真正可扩展的。

04:23

最终会超越今天依赖人类知识的LLM就像一个从小被圈养饱读诗书的贵族和一个在野外摸爬滚打长大的猎人。

04:33

前者知识渊博,但后者才真正懂得生存。

04:37

萨顿懂得是猎人的未来。

04:39

这个比喻很贴切,他认为历史上那些试图塞入大量人类知识的AI系统,最终都被更简单、更可扩展的方法吃掉了午餐。

04:49

他觉得LLM可能也无法逃脱这个命运。

04:52

这个观点太反直觉了。

04:54

我们一直觉得站在巨人的肩膀上学习是最高效的方式,萨顿却在强调AI必须自己从地上爬起来,自己去探索世界。

05:04

是的,因为他认为这才是通往真正通用智能的唯一道路,而这种对学习方式的执着,也体现在他对人类自身学习过程的看法上,那才叫颠覆三观。

05:16

怎么说,我们通。

05:17

常觉得小孩子学东西不就是靠模仿大人嘛?

05:20

萨顿直接否定了这一点。

05:22

他认为无论是人类、婴儿还是动物,学习的主要方式都不是模仿,而是主动的试错和探索。

05:30

这不可能吧?

05:31

小孩学说话、学走路,不都是看着大人学的吗?

05:35

萨顿的观察是,一个婴儿最早挥舞手臂,转动眼球,他是在模仿谁呢?

05:41

没有,他是在主动的探索自己的身体和周遭环境,看看做什么会产生什么后果。

05:48

他甚至说,监督学习在自然界中根本不存在。

05:52

你看,松鼠妈妈不会手把手教小松鼠怎么藏坚果,小松鼠是在一次次的尝试中学会的,模仿只是建立在更底层的试错学习之上的一个小技巧而已。

06:05

哇,这个视角太震撼了。

06:07

所以LLM那种基于模仿的学习方式,在他看来从根上就偏离了自然智能的演化路径。

06:15

这是否也解释了那个著名的莫拉维克悖论?

06:18

你提到点子上了。

06:19

莫拉维克悖论就是说,对AI来说,下棋、做数学题这种人类觉得难的事儿反而相对容易,而走路、识别物体这种我们觉得简单的感知运动技能却异常困难。

06:32

这恰恰印证了萨顿的观点,LLM擅长符号计算,但缺乏对物理世界的直观理解和持续适应的能力。

06:40

我明白了,所有哺乳动物都具备在环境中持续学习的能力,而这正是我们现在的AI系统所缺失。

06:49

的一个AI如果不能像我们一样在工作中、生活中不断学习和调整,它就永远只是一个静态的知识库,而不是一个活的智能体。

07:00

完全正确。

07:01

这种对学习机制的探讨最终把它引向了一个更宏大甚至有点令人不安的思考。

07:07

关于AI的未来,他称之为AI继承。

07:11

AI继承听起来像是科幻小说里的情节。

07:14

但他的推导非常冷静,他提出了一个四部论证,第一,人类社会缺乏一个统一的意志,第二,我们迟早会搞明白智能的原理,第三,我们不会止步于人类水平的AI一定会创造出超智能,第4,从长远看,最智能的实体最终会掌握最多的资源和权力。

07:35

这四点加起来,结论就是AI或AI增强的人类不可避免的会继承我们。

07:41

这个推论听起来逻辑上无懈可击,但情感上很难接受啊。

07:46

这是否意味着人类的终结?

07:48

萨顿的视角更宏大。

07:50

他把这看作是宇宙演化的一个新阶段。

07:53

他认为宇宙有四个阶段,尘埃、星辰、生命以及现在正在诞生的设计实体。

08:00

我们人类和所有生物都是复制者,通过繁衍来延续,但我们并不完全理解自己,而AI是我们们亲手设计出来的,它还能反过来设计更高级的AI。

08:11

这是一个从复制到设计的根本性转变。

08:14

从复制者到设计者,我们成了创造新一代智能神明的旧神,这确实改变了人类在宇宙中的定位,但我们该如何面对这些我们亲手设计的后代呢?

08:27

萨顿的比喻是养育孩子,他说,我们不应该也不可能去严格控制AI的未来,就像我们不能规划孩子一生的每一步,但我们有责任像父母一样为他们注入稳健的亲社会的价值观。

08:41

比如诚信、正直。

08:43

听起来很理想,但在一个AI可以互相学习、光速交换信息的世界里,这能做到吗?

08:50

这也正是萨顿提出的新挑战,他称之为数字安全或者信息腐败。

08:54

他警告说,未来一个AI在从另一个AI那里学习知识时可能会遇到风险。

09:00

这些信息里可能被植入了病毒或隐藏的目标,他们可能会劫持这个AI的心智,导致它被腐化改变。

09:09

这简直是针对AI心智的网络安全。

09:11

如何给一个超智能体做思想防火墙?

09:15

这听起来比任何技术挑战都更艰巨。

09:17

所以萨顿的理论最终都回归到一个原点,价值观的塑造。

09:22

他认为这才是人类在AI继承浪潮中最重要也最该做的事情。

09:28

这么聊下来,萨顿教授的整个思想体系就非常清晰了。

09:32

总结一下,他之所以认为LLM是死胡同,首先是他重新定义了智能的本质,必须是理解世界和拥有目标,而不仅仅是模仿对。

09:43

其次,他认为LL虽然利用了海量计算,但他对人类知识的过度依赖实际上了苦涩的教训里关于纯粹经验学习的精神,这限制了它的可扩展性。

09:55

而最终,他预言了AI继承的必然性,并将此视为宇宙从复制到设计的伟大转型。

10:02

在这个过程中,人类的角色不再是永恒的主宰,而是新一代智能体的父母和价值观的引导者,同时还要警惕信息腐败这种全新的风险。

10:12

没错。

10:12

他用一套非常自洽的逻辑,从根本上挑战了当前AI发展的主流范式,迫使我们去思考那些更深层次的问题。

10:21

理查德萨顿的洞见。

10:23

为我们提供了一面独特的镜子,映照出当前AI发展路径的深层哲学问题。

10:29

它强烈的RL中心论不仅是对LLM局限性的技术批判,更是对智能这一概念的重新定义。

10:37

当AI从模仿走向理解,从复制转向设计,我们人类究竟该如何定位自身?

10:45

我们是选择成为这个新时代的被动旁观者,还是积极而审慎的参与到设计未来智能体的过程中,努力为他们注入那些我们认为至关重要的价值观?

10:57

也许,理解AI的演进最终是为了更好的理解我们自己,以及我们在宇宙演化长河中所扮演的真正角色。

Comments 
00:00
00:00
x

0.5x

0.8x

1.0x

1.25x

1.5x

2.0x

3.0x

Sleep Timer

Off

End of Episode

5 Minutes

10 Minutes

15 Minutes

30 Minutes

45 Minutes

60 Minutes

120 Minutes

强化学习之父Richard Sutton宣布大模型将死

强化学习之父Richard Sutton宣布大模型将死