APP推广合作
联系“鸟哥笔记小乔”
从语言模型到世界模型,让机器人真正理解物理世界
2024-12-05 14:42:46

文|白 鸽

编|王一粟

2024年,具身智能可以说是AI领域最火热的赛道之一。

所谓具身智能,可以理解为人工智能和机器人技术深度结合的产物,是“长了身体的智能”,能够直接与物理世界进行交互。目前业内普遍认为,人形机器人是具身智能落地的最佳硬件载体。

也正因此,以机器人为主体的具身智能在全球彻底火了,机器人公司如雨后春笋般出现,具身智能领域的投融资也非常火热。

据公开资料显示,2024年上半年做具身智能机器人的公司可能已超过70家,其中,华为等大厂也开始布局该赛道,创企们则频频获得融资,甚至产品尚未落地,就已经估值数十亿元。

今年11月5日,成立不到一年,致力于“将通用人工智能带入物理世界”具身大模型企业Physical Intelligence宣布新一轮4亿美元融资,估值达到24亿美元。9月,李飞飞老师创立的空间智能公司World Labs在完成1亿美元融资后,两个月内又完成了新一轮2.3亿美元融资;7月,致力于“开发扎根于物理世界的通用人工智能(AGI)”企业Skild AI宣布完成3亿美元A轮融资,估值达到15亿美金。

那么,在这一轮具身智能赛道中,创业企业究竟该如何走出差异化竞争优势?具身智能背后的技术发展路径又是如何?未来机器人时代到底将会在什么时间到来?

近期,我们与具身智能新锐企业智澄AI创始人兼CEO胡鲁辉进行了一场深度交流,这位行业大咖对具身智能的技术发展和行业趋势,给出了自己的思考和解法。

从语言模型到世界模型,让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

智澄AI创始人兼CEO胡鲁辉

“我们是一家通用人工智能公司,核心技术是理解物理的世界模型,对标斯坦福李飞飞老师的公司。”胡鲁辉如此说道,“但是我们产品形态并非是模型,而是具身智能机器人。”

在胡鲁辉看来,世界模型和主流的多模态大模型主要有两方面不同之处,一是世界模型主要通过包括摄像头在内的传感器直接感知外部环境信息,相比于多模态大模型,其输入的数据形式以实时感知的外部环境为主,而多模态大模型则是以图片、文字、视频、音频等信息交互为主。

另一方面,世界模型输出的结果,更多的是时间序列数据(TSD),并通过这个数据可以直接控制机器人。而多模态大模型输出的结果仍是以信息为主。同时物理智能需要与世界进行实时交互,其对时效性要求较高,而多模态大模型更多是与人交互,对时效性要求较低。

也正因此,世界模型也被行业人士看做是迈向AGI(通用人工智能)的必经之路。

作为曾在微软、亚马逊、华为美国研究院、Meta这样的顶尖科技巨头担任高管的行业专家,胡鲁辉其实早就意识到AI能够与物理世界结合,并一直寻找合适的创业机会。

2024年年初,智澄AI正式成立。胡鲁辉对公司的整体发展规划,也分为两部分:一是以打造世界模型为核心,持续进行技术创新和研发突破;二则是要真正的实现产品落地应用,“我们现阶段也在与客户进行深度合作,今年将以产品升级迭代为主,明年将开始真正落地商业化应用。”

据悉,今年5月开始,智澄AI的人工智能机器人原型一(TR1)、原型二(TR2)相继完成。胡鲁辉将智澄AI的人工智能机器人命名为TR,即Transforming Robot(即意为“改变机器人”)。

从语言模型到世界模型,让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

智澄AI的TR2双臂机器人

“虽然世界模型的研发是个持续的过程 ,但我们产品迭代和商业落地速度很快,现在基本上两个月一次迭代。”胡鲁辉说道。

事实上,当前具身智能行业发展的关键挑战之一,就是机器人的泛化能力。

毕竟,在硬件相差不大的情况下,机器人的抓取能力和动作灵活性完全依赖于“大脑”的智能化程度。只有拥有强大的泛化能力,机器人才能适应各种任务场景,具备真正的“可用性”。

胡鲁辉也表示,应对当前挑战,智澄AI的泛化能力主要体现在三方面:

  • 任务泛化:机器人既能够做这个任务,也能够做别的任务。

  • 环境泛化:典型场景类似无人驾驶,需要识别理解不同路况环境,对机器人而言能够适应不同的环境。

  • 本体泛化:同一个模型既能驱动这类机器人本体,也能够用另外一类机器人本体。

“对具身智能来说,只有具备任务、环境和本体三种泛化能力,才能够真正推动机器人时代到来。”胡鲁辉说道,“但想要实现三种能力的泛化,以目前的多模态大模型技术来说很难突破。我们将打造澄灵世界模型,分三个阶段,花费2-3年时间,逐步推进物理世界模型,使其能够实现像人一样的泛化能力。”

从语言模型到世界模型,让机器人真正理解物理世界 | 对话智澄AI胡鲁辉

不过,在迈向通用人工智能的道路上,目前面临着诸多挑战,包括算法、数据、算力等多方面,除了应对上述挑战之外,胡鲁辉认为,智能工程和模型架构是另外两个更为关键的要素,而智澄AI创始团队在这两个方面有多年国际领先的实战经验。

面对日新月异的技术和产业变化,胡鲁辉也表示,智澄AI将坚持以物理智能为核心技术,不断加强自身技术能力的迭代,积极拥抱行业变化,推动机器人时代的到来。

以下为光锥智能与智澄AI CEO胡鲁辉详细对话内容(经光锥智能编辑整理):

01 每2个月迭代一次,明年将实现产品商业化落地

Q:从模型算法到智能机器人的落地,有哪些难点需要克服?我们用了多久实现了从模型算法到智能机器人的落地?

A:整体挑战还是蛮多的,主要是模型架构、智能工程和产品落地三个方面。智澄AI模型架构是端到端智能原生的世界模型,从智能工程,包括数据的采集、模型的训练和发布等等,产品落地是结合泛化能力和实际的客户需求快速迭代。2024年4月初公开创业方向,也差不多是这个时候开始做产品研发,产品名称为TR(Transforming Robot),基本上每2个月实现一次产品迭代,现有多款人工智能机器人产品在进行研发。

Q:最新两代产品基本完成,智澄AI后续的产品研发及市场落地策略如何?

A:我们的整个战略方针是两条腿走路,一方面不断进行技术创新和研发突破,另一方面进行产品落地,我们现在和多家行业头部客户进行深度合作,计划今年主要以技术产品迭代为主,明年开始产品落地和商业化应用。

Q:您大概是从什么时候决定做智澄AI这样的公司?了解到咱们团队具备国际领先的AI模型与数据能力,这次创业为什么选择具身智能赛道?

A:在2022年底,我已经在思考这个事情,当时ChatGPT刚刚出来。其实更早之前我还写了一篇关于生成式人工智能的文章,这篇文章被广泛引用,当时AIGC还没有火起来,结论就是AI是能够跟物理智能结合。从科技角度,现在是移动互联网时代,下一个时代是机器人时代,想改变机器人现状,推动机器人时代的到来,核心技术是人工智能,而我和智澄AI部分核心团队在人工智能基础模型及关键大数据等方面深耕多年。

Q:因为其实近一年具身智能火爆,有很多企业加入到赛道当中,包括初创企业和一些大厂。在竞争激烈的环境下,智澄AI作为创业团队,未来有哪些核心竞争优势?以及该如何去突破?

A:主要两方面,一方面我们坚持以理解物理世界、实现通用人工智能为愿景,不管外界变化如何,以物理智能为核心技术,推动机器人时代的到来。另一方面,我们不断加强技术产品的迭代,同时结合产业理解和技术创新,持续推出匹配市场需求的产品。

Q:特斯拉在10月份“We,Robot”发布会上展示了人形机器人Optimus2,说成本会到2-3万美金价格区间,您是如何看待这一定价的,以及您认为未来机器人的价格会到什么区间,才能够实现真正的普惠于民?

A:在特斯拉的带动下,现在人形机器人确实比较火。另外我们生活的世界其实是围绕人类习惯而构建的,因此很多场景,人形机器人会更合适。但我们最终目的是服务于人,帮助人解决问题,所以要思考做什么样机器人,而不仅仅只是说要像人。比如说未来汽车也是一种机器人,但不能说让车变成人的形态背着你跑,现在汽车形态,是比较舒服的形式,所以没必要做成人形。

对于价格,则是相对的,现在一辆汽车能够卖到20万人民币,就是一个普遍能够接受的价格,而卖到4-5万人民币,也是可行的,因为面对的是不同的需求和不同的受众群体。因为本身场景就不太一样,我觉得价格本身不是很关键。

Q:之前在制造业中,已经有很多双臂机器人进行应用,能够满足工厂的生产需求,智澄AI的双臂机器人,会率先落地制造业,那这与上一代机器人,在实际应用上,会有哪些明显感知的区别?以及对制造业工厂而言,会产生哪些更有价值的效益?

A:我们围绕具身智能,做人工智能机器人,主要目的还是做事情干活,帮助人解决问题,所以也是从人类的角度思考出发。因为人做事情的主要部位是双手,所以我们率先从手开始,即单臂机器人到双臂机器人。我们的机器人是基于AI原生模型,相比传统机器人控制系统,有本质的变化。传统的MPC/WBC本质还是基于规则的控制系统,优势比较明显,即可以实现精准控制操作,缺点就在于类似于自动驾驶这种强化学习,泛化能力比较差,稍微调整一下,就需要重新开始编程,过程比较繁琐,类似于自动化系统应用。而且,因为这种可扩展性差,也会导致其开发和工程成本比较高。

智澄AI的模型则类似于人脑,已具备一定的泛化能力,最终目标是其有很强的泛化能力,能够很好的适应环境,不会因为环境的变化或任务的变化而重新来过。我们的技术以及解决方案,将真正推动机器人时代的到来。

移动互联网作为上个时代影响全球数十亿用户的核心技术浪潮,当下已基本进入存量市场,机器人作为AI在物理世界的硬件载体,有望进入十亿级用户的日常生产及生活之中,我认为将是下一波科技浪潮中更大的增量市场。

虽然逐步优化产品成本是让机器人快速普及的推动方式之一,但仅降本很难真正改变行业现状,所以我们更多要做的是让一个模型不仅仅驱动一种本体更实用,而是使得不同型号、不同性能的机器人本体都能具备更高的功能实用性,推动本体智能化水平实用、大规模的量产的同时也大幅降低成本。

02 从交互形式、输出结果来看,多模态大模型与世界模型的本质区别?

Q:多模态大模型如GPT和我们想做的物理世界大模型,本质的区别是什么?

A:目前多模态大模型主要是信息智能(输入和输出都是文字、音频、图像等信息),以信息交互为主,我们做的事情是物理智能,物理智能可以有很多的应用方向,我们主要是聚焦具身智能/机器人方向的应用,帮助机器人更好的理解物理世界。

从实时性来讲,物理智能的输入是对外界的直接感知,不是静态信息输入的形式,通过传感器直接感知带有时间序列的外界环境信息,输出的则是时间序列数据(TSD),物理智能需要跟现实世界实时、高频交互。而多模态大模型的信息往往是过往一段时间的静态沉淀信息。

Q:自动驾驶汽车也需要与物理世界实时交互,与家庭/工作场景的机器人在技术实现难度有什么异同之处?

A:自动驾驶汽车也是机器人的应用场景之一,自动驾驶汽车的自由度或者说控制指令相对简单(如方向、刹车、油门等),其挑战的地方是车的速度更快,即便出现小概率的失误也可能造成重大的损失。

相对于“汽车机器人”来说,如果在家用、生产、危险等场景的替代或服务人类劳动机器人,其动作复杂度及任务控制指令相对来说也许会更复杂,但机器人执行一般的生产或服务工作可接受的失误容忍度相对自动驾驶来说更宽松,即便偶然出现一次如杯子掉落等问题,损失相对可控。

Q:我们的机器人模型在实际工作中,如何克服可能出现的长尾问题?从而提高泛化性

A:当前强化学习技术路径在无人驾驶领域被广泛使用,但至今仍未让车真正实现无人驾驶上路。我们的世界模型核心是解决泛化性问题,并没有从强化学习的奖励机制出发,而是从端到端神经网络去实现,这是本质性的区别。

同时机器人在理解物理世界的时候,也需要像人一样,具备一定的预测能力,才能够对没被训练过的事情有一定的应对能力。一方面因为永远有长尾问题存在,另一方面物理世界本身也是在不断变化的,所以我们的物理世界模型希望实现机器人能够像人一样具备思考、推断、举一反三的能力。

Q:未来物理世界大模型发展轨迹是否会与GPT在过去几年的迭代发展有相通之处?

A:从未来的发展预判来看,就像GPT一样,它也会是一个阶段一个阶段的发展过来。现阶段世界模型已经表现出很不错的能力了,例如我们已经可以实现了用单个模型控制实现多个任务、也可以实现在不同光线场景条件下完成任务的泛化能力。

从另一个层面来说,多模态大模型其举一反三能力、自监督学习等能力,这些技术、特性也会被引入到世界模型开发改进中,来帮助世界模型快速发展。

03 具身大模型只有具备任务、环境、本体三重泛化能力,才能真正推动机器人时代到来

Q:如何理解机器人的泛化能力?是从一个固定场景训练升级,然后泛化应用到其他场景中吗?

A:现阶段深度强化学习虽然不能够解决长尾场景问题,但在实际的生产线中(如汽车生产线的某一部分),通过强化某一任务的技能,效果反而会更好一些。但如果汽车生产线伴随柔性生产的趋势需要定期变化,强化学习路径的可扩展性有限,需要重新采集数据进行学习。

而物理世界模型则可以很快适应这种调整,不需要针对任务变化重新训练一遍,而是可以基于原来的基础马上调整,适用于新任务。另外在跨场景中,世界模型也可以实现轻松的迁移。

打个比方,现阶段世界模型有点像一颗小树苗,虽然当前与其他树苗在外观差异不大,未来潜力巨大,更有机会长成参天大树。

Q:世界模型有一个很好的泛化能力,您觉得这种泛化的能力,主要来自哪个技术能力的突破?

A:一方面是很强的理解物理世界的能力,就像人一样,在能感知到环境的情况下,能够做出实时的决策判断。机器人操作也好,无人车运行也好,都是不断地进行决策。

另一方面物理世界大模型与多模态大模型的涌现很类似,能够举一反三,在物理世界的任务上有很强的泛化推理能力。但也需要避免多模态大模型会出现的幻觉问题,而物理世界的机器人我们希望能够真正可靠(不存在幻觉问题),我们将分成几个阶段逐步优化模型,从而使其能够既可靠,又能够具备泛化能力。

Q:智澄AI的大模型训练是否会面临算力成本的问题?如何解决这一难题?

A:算力也是重点投入的方向之一,我们会随着模型分阶段的训练目标持续投入。同时由于我们具备深厚的模型架构及工程化能力,模型体量会远小于当前多模态大语言模型,算力需求也相对可控。

 

关键词
光锥智能
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
光锥智能
光锥智能
发表文章51
前沿科技,数字经济。公众号:光锥智能(guangzhui-tech)
确认要消耗 羽毛购买
从语言模型到世界模型,让机器人真正理解物理世界吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接