121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google
Description
</figure>今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。
中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。
本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。
前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。
由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。
<figure>
</figure><figure>
</figure><figure>
</figure>02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人
嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学
从图形学转型机器人的变轨
我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用
Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型
大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑)
13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet
今天的机器人发展到什么阶段了?
从demo到真正落地,隔十年并不是一个非常夸张的事
从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型
但多模态模型缺什么呢?缺少robot action的输出
当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争
23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情
最大的问题还是数据问题
但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情
它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的
现在有很多startup叫data factory(数据工厂)
所谓“数据金字塔”包括哪些?
27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀
Gemini Robotics 1.5最重要的发现是什么?
第一个是我们把“thinking”加入了VLA模型
第二个非常重要的突破是cross-embodiment transfer(跨具身迁移)
Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分
它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制
当你要一个unify model(统一模型)的时候,它必须非常大
Motion Transfer?It’s very secret
47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段
我们比较重视的一点还是数据、数据、数据
遥操作是非常难以获取的数据
我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据
真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据
在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代
我信仰的是scalable data
01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像
世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧
从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型
当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是
世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像
01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件
如果你有灵巧手,触觉就非常重要
之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件
现在还在夹爪时代
在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题
在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态
如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰)
01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship”
这几年Google AI或者robotics的研究文化上有没有发生过变化?
不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情
像Gemini Robotics,它更多是自上而下
我发觉好像国内不一定比我卷,我一周可能工作70到80个小时
真的,这个时代真的是等不起,不然别人都做出来了
AI有很多是数学,华人数学比较好
<figure>
</figure>《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》
《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》
【更多信息】
本集的文字版本已发布,请搜索我们工作室的官方公众号:
语言即世界language is world
<figure>






















