从语言模型到世界模型，让机器人真正理解物理世界-鸟哥笔记

文｜白鸽

编｜王一粟

2024年，具身智能可以说是AI领域最火热的赛道之一。

所谓具身智能，可以理解为人工智能和机器人技术深度结合的产物，是“长了身体的智能”，能够直接与物理世界进行交互。目前业内普遍认为，人形机器人是具身智能落地的最佳硬件载体。

也正因此，以机器人为主体的具身智能在全球彻底火了，机器人公司如雨后春笋般出现，具身智能领域的投融资也非常火热。

据公开资料显示，2024年上半年做具身智能机器人的公司可能已超过70家，其中，华为等大厂也开始布局该赛道，创企们则频频获得融资，甚至产品尚未落地，就已经估值数十亿元。

今年11月5日，成立不到一年，致力于“将通用人工智能带入物理世界”具身大模型企业Physical Intelligence宣布新一轮4亿美元融资，估值达到24亿美元。9月，李飞飞老师创立的空间智能公司World Labs在完成1亿美元融资后，两个月内又完成了新一轮2.3亿美元融资；7月，致力于“开发扎根于物理世界的通用人工智能（AGI）”企业Skild AI宣布完成3亿美元A轮融资，估值达到15亿美金。

那么，在这一轮具身智能赛道中，创业企业究竟该如何走出差异化竞争优势？具身智能背后的技术发展路径又是如何？未来机器人时代到底将会在什么时间到来？

近期，我们与具身智能新锐企业智澄AI创始人兼CEO胡鲁辉进行了一场深度交流，这位行业大咖对具身智能的技术发展和行业趋势，给出了自己的思考和解法。

从语言模型到世界模型，让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

智澄AI创始人兼CEO胡鲁辉

“我们是一家通用人工智能公司，核心技术是理解物理的世界模型，对标斯坦福李飞飞老师的公司。”胡鲁辉如此说道，“但是我们产品形态并非是模型，而是具身智能机器人。”

在胡鲁辉看来，世界模型和主流的多模态大模型主要有两方面不同之处，一是世界模型主要通过包括摄像头在内的传感器直接感知外部环境信息，相比于多模态大模型，其输入的数据形式以实时感知的外部环境为主，而多模态大模型则是以图片、文字、视频、音频等信息交互为主。

另一方面，世界模型输出的结果，更多的是时间序列数据（TSD），并通过这个数据可以直接控制机器人。而多模态大模型输出的结果仍是以信息为主。同时物理智能需要与世界进行实时交互，其对时效性要求较高，而多模态大模型更多是与人交互，对时效性要求较低。

也正因此，世界模型也被行业人士看做是迈向AGI（通用人工智能）的必经之路。

作为曾在微软、亚马逊、华为美国研究院、Meta这样的顶尖科技巨头担任高管的行业专家，胡鲁辉其实早就意识到AI能够与物理世界结合，并一直寻找合适的创业机会。

2024年年初，智澄AI正式成立。胡鲁辉对公司的整体发展规划，也分为两部分：一是以打造世界模型为核心，持续进行技术创新和研发突破；二则是要真正的实现产品落地应用，“我们现阶段也在与客户进行深度合作，今年将以产品升级迭代为主，明年将开始真正落地商业化应用。”

据悉，今年5月开始，智澄AI的人工智能机器人原型一（TR1）、原型二(TR2)相继完成。胡鲁辉将智澄AI的人工智能机器人命名为TR，即Transforming Robot（即意为“改变机器人”）。

从语言模型到世界模型，让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

智澄AI的TR2双臂机器人

“虽然世界模型的研发是个持续的过程，但我们产品迭代和商业落地速度很快，现在基本上两个月一次迭代。”胡鲁辉说道。

事实上，当前具身智能行业发展的关键挑战之一，就是机器人的泛化能力。

毕竟，在硬件相差不大的情况下，机器人的抓取能力和动作灵活性完全依赖于“大脑”的智能化程度。只有拥有强大的泛化能力，机器人才能适应各种任务场景，具备真正的“可用性”。

胡鲁辉也表示，应对当前挑战，智澄AI的泛化能力主要体现在三方面：

任务泛化：机器人既能够做这个任务，也能够做别的任务。
环境泛化：典型场景类似无人驾驶，需要识别理解不同路况环境，对机器人而言能够适应不同的环境。
本体泛化：同一个模型既能驱动这类机器人本体，也能够用另外一类机器人本体。

“对具身智能来说，只有具备任务、环境和本体三种泛化能力，才能够真正推动机器人时代到来。”胡鲁辉说道，“但想要实现三种能力的泛化，以目前的多模态大模型技术来说很难突破。我们将打造澄灵世界模型，分三个阶段，花费2-3年时间，逐步推进物理世界模型，使其能够实现像人一样的泛化能力。”

从语言模型到世界模型，让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

不过，在迈向通用人工智能的道路上，目前面临着诸多挑战，包括算法、数据、算力等多方面，除了应对上述挑战之外，胡鲁辉认为，智能工程和模型架构是另外两个更为关键的要素，而智澄AI创始团队在这两个方面有多年国际领先的实战经验。

面对日新月异的技术和产业变化，胡鲁辉也表示，智澄AI将坚持以物理智能为核心技术，不断加强自身技术能力的迭代，积极拥抱行业变化，推动机器人时代的到来。

以下为光锥智能与智澄AI CEO胡鲁辉详细对话内容（经光锥智能编辑整理）：

01 每2个月迭代一次，明年将实现产品商业化落地

Q：从模型算法到智能机器人的落地，有哪些难点需要克服？我们用了多久实现了从模型算法到智能机器人的落地？

A：整体挑战还是蛮多的，主要是模型架构、智能工程和产品落地三个方面。智澄AI模型架构是端到端智能原生的世界模型，从智能工程，包括数据的采集、模型的训练和发布等等，产品落地是结合泛化能力和实际的客户需求快速迭代。2024年4月初公开创业方向，也差不多是这个时候开始做产品研发，产品名称为TR（Transforming Robot），基本上每2个月实现一次产品迭代，现有多款人工智能机器人产品在进行研发。

Q：最新两代产品基本完成，智澄AI后续的产品研发及市场落地策略如何？

A：我们的整个战略方针是两条腿走路，一方面不断进行技术创新和研发突破，另一方面进行产品落地，我们现在和多家行业头部客户进行深度合作，计划今年主要以技术产品迭代为主，明年开始产品落地和商业化应用。

Q：您大概是从什么时候决定做智澄AI这样的公司？了解到咱们团队具备国际领先的AI模型与数据能力，这次创业为什么选择具身智能赛道？

A：在2022年底，我已经在思考这个事情，当时ChatGPT刚刚出来。其实更早之前我还写了一篇关于生成式人工智能的文章，这篇文章被广泛引用，当时AIGC还没有火起来，结论就是AI是能够跟物理智能结合。从科技角度，现在是移动互联网时代，下一个时代是机器人时代，想改变机器人现状，推动机器人时代的到来，核心技术是人工智能，而我和智澄AI部分核心团队在人工智能基础模型及关键大数据等方面深耕多年。

Q：因为其实近一年具身智能火爆，有很多企业加入到赛道当中，包括初创企业和一些大厂。在竞争激烈的环境下，智澄AI作为创业团队，未来有哪些核心竞争优势？以及该如何去突破？

A：主要两方面，一方面我们坚持以理解物理世界、实现通用人工智能为愿景，不管外界变化如何，以物理智能为核心技术，推动机器人时代的到来。另一方面，我们不断加强技术产品的迭代，同时结合产业理解和技术创新，持续推出匹配市场需求的产品。

Q：特斯拉在10月份“We,Robot”发布会上展示了人形机器人Optimus2，说成本会到2-3万美金价格区间，您是如何看待这一定价的，以及您认为未来机器人的价格会到什么区间，才能够实现真正的普惠于民？

A：在特斯拉的带动下，现在人形机器人确实比较火。另外我们生活的世界其实是围绕人类习惯而构建的，因此很多场景，人形机器人会更合适。但我们最终目的是服务于人，帮助人解决问题，所以要思考做什么样机器人，而不仅仅只是说要像人。比如说未来汽车也是一种机器人，但不能说让车变成人的形态背着你跑，现在汽车形态，是比较舒服的形式，所以没必要做成人形。

对于价格，则是相对的，现在一辆汽车能够卖到20万人民币，就是一个普遍能够接受的价格，而卖到4-5万人民币，也是可行的，因为面对的是不同的需求和不同的受众群体。因为本身场景就不太一样，我觉得价格本身不是很关键。

Q：之前在制造业中，已经有很多双臂机器人进行应用，能够满足工厂的生产需求，智澄AI的双臂机器人，会率先落地制造业，那这与上一代机器人，在实际应用上，会有哪些明显感知的区别？以及对制造业工厂而言，会产生哪些更有价值的效益？

A：我们围绕具身智能，做人工智能机器人，主要目的还是做事情干活，帮助人解决问题，所以也是从人类的角度思考出发。因为人做事情的主要部位是双手，所以我们率先从手开始，即单臂机器人到双臂机器人。我们的机器人是基于AI原生模型，相比传统机器人控制系统，有本质的变化。传统的MPC/WBC本质还是基于规则的控制系统，优势比较明显，即可以实现精准控制操作，缺点就在于类似于自动驾驶这种强化学习，泛化能力比较差，稍微调整一下，就需要重新开始编程，过程比较繁琐，类似于自动化系统应用。而且，因为这种可扩展性差，也会导致其开发和工程成本比较高。

智澄AI的模型则类似于人脑，已具备一定的泛化能力，最终目标是其有很强的泛化能力，能够很好的适应环境，不会因为环境的变化或任务的变化而重新来过。我们的技术以及解决方案，将真正推动机器人时代的到来。

移动互联网作为上个时代影响全球数十亿用户的核心技术浪潮，当下已基本进入存量市场，机器人作为AI在物理世界的硬件载体，有望进入十亿级用户的日常生产及生活之中，我认为将是下一波科技浪潮中更大的增量市场。

虽然逐步优化产品成本是让机器人快速普及的推动方式之一，但仅降本很难真正改变行业现状，所以我们更多要做的是让一个模型不仅仅驱动一种本体更实用，而是使得不同型号、不同性能的机器人本体都能具备更高的功能实用性，推动本体智能化水平实用、大规模的量产的同时也大幅降低成本。

02 从交互形式、输出结果来看，多模态大模型与世界模型的本质区别？

Q：多模态大模型如GPT和我们想做的物理世界大模型，本质的区别是什么？

A：目前多模态大模型主要是信息智能（输入和输出都是文字、音频、图像等信息），以信息交互为主，我们做的事情是物理智能，物理智能可以有很多的应用方向，我们主要是聚焦具身智能/机器人方向的应用，帮助机器人更好的理解物理世界。

从实时性来讲，物理智能的输入是对外界的直接感知，不是静态信息输入的形式，通过传感器直接感知带有时间序列的外界环境信息，输出的则是时间序列数据（TSD），物理智能需要跟现实世界实时、高频交互。而多模态大模型的信息往往是过往一段时间的静态沉淀信息。

Q：自动驾驶汽车也需要与物理世界实时交互，与家庭/工作场景的机器人在技术实现难度有什么异同之处？

A：自动驾驶汽车也是机器人的应用场景之一，自动驾驶汽车的自由度或者说控制指令相对简单（如方向、刹车、油门等），其挑战的地方是车的速度更快，即便出现小概率的失误也可能造成重大的损失。

相对于“汽车机器人”来说，如果在家用、生产、危险等场景的替代或服务人类劳动机器人，其动作复杂度及任务控制指令相对来说也许会更复杂，但机器人执行一般的生产或服务工作可接受的失误容忍度相对自动驾驶来说更宽松，即便偶然出现一次如杯子掉落等问题，损失相对可控。

Q：我们的机器人模型在实际工作中，如何克服可能出现的长尾问题？从而提高泛化性

A：当前强化学习技术路径在无人驾驶领域被广泛使用，但至今仍未让车真正实现无人驾驶上路。我们的世界模型核心是解决泛化性问题，并没有从强化学习的奖励机制出发，而是从端到端神经网络去实现，这是本质性的区别。

同时机器人在理解物理世界的时候，也需要像人一样，具备一定的预测能力，才能够对没被训练过的事情有一定的应对能力。一方面因为永远有长尾问题存在，另一方面物理世界本身也是在不断变化的，所以我们的物理世界模型希望实现机器人能够像人一样具备思考、推断、举一反三的能力。

Q：未来物理世界大模型发展轨迹是否会与GPT在过去几年的迭代发展有相通之处？

A：从未来的发展预判来看，就像GPT一样，它也会是一个阶段一个阶段的发展过来。现阶段世界模型已经表现出很不错的能力了，例如我们已经可以实现了用单个模型控制实现多个任务、也可以实现在不同光线场景条件下完成任务的泛化能力。

从另一个层面来说，多模态大模型其举一反三能力、自监督学习等能力，这些技术、特性也会被引入到世界模型开发改进中，来帮助世界模型快速发展。

03 具身大模型只有具备任务、环境、本体三重泛化能力，才能真正推动机器人时代到来

Q：如何理解机器人的泛化能力？是从一个固定场景训练升级，然后泛化应用到其他场景中吗？

A：现阶段深度强化学习虽然不能够解决长尾场景问题，但在实际的生产线中（如汽车生产线的某一部分），通过强化某一任务的技能，效果反而会更好一些。但如果汽车生产线伴随柔性生产的趋势需要定期变化，强化学习路径的可扩展性有限，需要重新采集数据进行学习。

而物理世界模型则可以很快适应这种调整，不需要针对任务变化重新训练一遍，而是可以基于原来的基础马上调整，适用于新任务。另外在跨场景中，世界模型也可以实现轻松的迁移。

打个比方，现阶段世界模型有点像一颗小树苗，虽然当前与其他树苗在外观差异不大，未来潜力巨大，更有机会长成参天大树。

Q：世界模型有一个很好的泛化能力，您觉得这种泛化的能力，主要来自哪个技术能力的突破？

A：一方面是很强的理解物理世界的能力，就像人一样，在能感知到环境的情况下，能够做出实时的决策判断。机器人操作也好，无人车运行也好，都是不断地进行决策。

另一方面物理世界大模型与多模态大模型的涌现很类似，能够举一反三，在物理世界的任务上有很强的泛化推理能力。但也需要避免多模态大模型会出现的幻觉问题，而物理世界的机器人我们希望能够真正可靠（不存在幻觉问题），我们将分成几个阶段逐步优化模型，从而使其能够既可靠，又能够具备泛化能力。

Q：智澄AI的大模型训练是否会面临算力成本的问题？如何解决这一难题？

A：算力也是重点投入的方向之一，我们会随着模型分阶段的训练目标持续投入。同时由于我们具备深厚的模型架构及工程化能力，模型体量会远小于当前多模态大语言模型，算力需求也相对可控。

本文系作者：光锥智能授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词