很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
文|刘俊宏
一向强调产品大于技术的理想汽车(下面简称“理想”),也加入了智能驾驶的“端到端”竞赛。
就在7月5日的智驾发布会上,理想一反常态,先宣布了全国无图NOA全量推送。随后,理想宣布,下一版本即将落地的大模型“端到端”智驾。
这意味着,从2023年才开始将智驾领先作为核心战略目标的理想,不仅追平了高阶智驾落地,更是在端到端的技术路线上,比已经落地的华为和小鹏还要激进。
一年来,理想在智驾技术的追赶中几次经历变动。
在2023年5月时,理想汽车智能驾驶副总裁郎咸朋在一次采访中还表示,理想还在做无图化的BEV+OCC智驾架构。而在今年的中国汽车蓝皮书论坛上,郎咸朋就一步跨为了端到端赛道的拥护者,“端到端+大模型,是更接近于人类驾驶的智能驾驶方案”。
除了郎咸朋,理想智驾“端到端”背后的核心研发人员,包括智能驾驶技术研发负责人贾鹏和高级算法专家詹锟。
无论是理想、华为、小鹏还是长城汽车,中国智驾玩家们普遍采用“分段式”的路线,与特斯拉FSD一步到位的“跨越式”端到端方案,形成了鲜明的对垒。
不过,对于理想这家善于用产品定义智能汽车的公司而言,智驾最大的意义在于理想拿下了智能汽车设计“工具箱”的最后一环。在理想MEGA失利后,理想真正意义上的下一代产品快要来了。
“我们很羡慕理想,能在批量交付的车主中,选择种子用户来实验智驾。”一位传统车企的智能化负责人对光锥智能表示。
相比去年就开放“全国都能开”的鸿蒙智行,理想的城市NOA落地节奏还是稍微慢了一步,智驾能力显然和销量不成正比。
2024年,整个行业的高阶智驾落地再向前推进了一大步,理想也跟上了节奏。
在7月5日的智能驾驶夏季发布会上,理想终于结束了今年5月开始的城市NOA测试体验。在智驾OTA6.0的升级中,面向AD MAX版本的用户全量推送了城市无图NOA功能。
本次升级,理想智驾通过行业内比较成熟的BEV+OCC+Transformer技术,实现了理想车主期盼已久的城市NOA。针对具体能力,理想还总结出了“哪里都能开、绕行丝滑、路口轻松、默契安心”的四大特色。
其中,“哪里都能开”是智驾行业“去高精地图”的成果。在普通导航地图的指引下,智驾“有路就能开”。“路口轻松”和“默契安心”,主要基于BEV+OCC技术的应用,智驾系统能够认识到外部环境,并做出相应的反应。
“在我并线时,我看到了一个对象,汽车也看到并立即作出响应,这就是一种默契和安心”,智驾顺畅通行的能力,理想汽车产品部高级副总裁范皓称。
具体的特色功能,主要聚焦在“绕行丝滑”上。
在老城区场景中,经常会遇到前方车辆突然停下接人的情况。对于这种情况,行业内不少智驾玩家的决策是等待前车再次启动(或等一会再绕行)。而理想的“绕行丝滑”,则是与人类司机一样,等一秒钟便立刻“打一把方向盘”绕开。
“不磨叽”绕行的背后,是理想在BEV中添加了时序概念。让传统BEV视角下,只能感受单帧图像内障碍物的智驾系统,拥有了“预判”未来的能力。
智驾理解时间的重要性,恰如人类的时间知觉。就像是人类结合自身位置和飞行轨迹接飞盘一样,在多帧画面的综合理解下,智驾也能明白事物的延续性和顺序性。对应到具体操作上,是预测自车与他车的空间交互关系,规划未来时间窗口内的所有可行驶轨迹,进而无需“观望”果断绕行。
通过这四大功能,理想智驾已经能够适应绝大部分场景,保障行车安全。但安全只是智驾最基础的能力,通过部分演示看到,理想智驾在逻辑决策上存在着短板。
例如在转向中,面对斑马线上加速通过的小孩,理想智驾起初仍选择正常通过,随后触发AEB紧急刹停。诚然在结果上,理想智驾没有发生事故。但若是真人司机“操刀”,是看到异常情况立即减速观望,而非继续尝试通过。
出现如此情况,意味着理想智驾在逻辑决策与智驾控制能力的两个层面上,并未完全“对齐”。
逻辑问题,有望在落地端到端大模型后,在下一个版本中得到优化。
理想的智驾团队和马斯克一样,都喜欢从本体论视角拆解目标。
马斯克从亚里士多德的第一性原理上,认识到能源的重要性。而理想智驾团队从《思考,快与慢》中认识到,学习人类的思维逻辑,是智驾达到人类水平的关键。
为了模拟人类的下意识反应和深思熟虑操作,理想智驾团队没有选择类似特斯拉FSD的“跨越式”方案,而是搭建了“快慢”双系统(对应系统一和系统二)。
其中,系统一是完全的端到端架构。与特斯拉FSD一样,都是在收到传感器信息后,直接操作汽车。就像是人类面对正常路况一样,“加减速”不需要思考太多。这部分的训练,理想选择了与特斯拉类似的训练方式,让智驾直接学习“五星好司机”的真实驾驶视频。并添加强化学习,让智驾在模仿之余,找到更优的解法。
在系统一的基础上,理想将大模型(主要是VLM)作为高级规控的方式,控制整个智驾系统的逻辑决策能力。系统二的底层技术原理,可以理解为参考人类的综合信息理解能力。理想在传统智驾的Transformer框架下,将视频、汽车状态等信息统一“扔进”一个编码器。从而让智驾获得“深思熟虑”的能力,避免闹出“白马非马”的笑话。
具体而言,在路口等待的场景中,行业不少解决方案只能“认出”红绿灯,但具体的读秒需要导航地图的反馈,无法实现智驾自动起步。而智驾有了理解能力之后,智驾不仅能“认出”红绿灯,还能明白读秒的含义。更进一步,当导航地图不够精确的时候,系统二会根据实际需要“纠正”导航地图的错误,避免汽车跟着导航开到辅路上。
可以看到,大模型在更好地应对路况的同时,也萌生出了“按照自己理解开车的想法”。为了放大模型能力的上限,理想也给出了更符合“大模型体质”的训练方法。
在自动驾驶领域中,单靠真实数据训练智驾远远不够。为了让智驾学到现实难以遇上的Corner Case,需要在仿真环节中让智驾模拟训练。
2021年,特斯拉分享了一套基于3D虚拟+现实重建的仿真技术。通过对现实数据采集,特斯拉在虚拟世界模拟重构一些如高速上有人奔跑、马路上挤满人等“超现实”场景。虽说这套方案促成了今天的FSD,但缺点也非常明显。在极大的信息标注量和算力需求下,马斯克买不到足够训练用的GPU,只能“干看着”。
理想的解决方案,也是行业内目前普遍使用的,是将现实重建与Diffusion技术相结合。以真实数据为基础,“画出”想象中可能遇到的具体路况。例如在一段汽车驾驶的画面中,理想的仿真方案能根据提示词生成晴天、阴天、雨天、雪天等多种场景用于训练。
“15秒经历一年四季,遍览世间繁华”,理想汽车智能驾驶技术负责人贾鹏表示。
如今,伴随着理想城市NOA落地,和即将开启的端到端大模型智驾测试,或许,理想能够凭借智驾能力,跳出理想ONE的“围城”。
理想可能是所有造车新势力们最羡慕的样子,但也是理想最想摆脱的样子。
羡慕的部分,是理想以单月超4万的销量,以实力碾碎市场上关于“增程落后”、“创新全靠冰箱彩电沙发”的争议。凭借对汽车产品理解,理想不仅成为了第一个盈利的造车新势力,更是以理想ONE开创了中国全新的汽车文化。
汽车工业过往时期,巨头们的崛起主要靠大时代下的错位竞争。在福特汽车制霸时期,是标准化生产让汽车走下“奢侈品神坛”;在日系车拿下美国市场时期,靠的是石油危机时提供的低出行成本;在中国自主品牌兴起的现在,一是靠供给侧降本实现“低价”对标合资车,二是通过电动化、智能化弯道超车。
但理想成功的路线,并非承接时代的机遇,只靠低价卷。而是从需求侧出发,以产品经理思维重塑了汽车行业过往从供给侧设计产品的模式。
在理想ONE上,理想基于用户画像、需求痛点、市场研究、用户体验等逻辑,给出了上市即交付、尽量少的选配、新能源与续航兼得(增程)、座舱空间享受等综合特性的汽车产品。在理想的“一揽子”产品思路下,汽车行业的后来者们纷纷开始效仿学习,理想也从理想ONE中差异化“裂变”出整个“L系列”。
但在此之后,理想真正意义上的下一代产品却“始终没有到来”。理想MEGA的受挫,完全可以认为是进军纯电赛道时选择了保守策略,以大型MPV的标签将自己限定在了一个相对小众的市场。或许,理想下一次产品的发力点,还得看今年未发的三款纯电产品。
但是,由高阶智驾带动的新一轮智能汽车需求,已经在揭开汽车市场的“下一幕”了。
随着2024年越来越多的车企宣布落地高阶智驾,在蔚来、理想、小鹏、小米、广汽、长城等车企,华为、毫末、Momenta、元戎启行、商汤绝影等头部智驾供应商的共同表态下,智驾端到端的技术架构也被“提”到了台前。
甚至,英伟达汽车事业部副总裁吴新宙还称,“端到端,正是智驾三部曲的最终曲”。
智驾玩家们如此看好端到端,并不只是看到了特斯拉FSD的成功经验、技术架构对信息的处理能力,或是大模型训练下的迭代速度。最核心的看好的,是端到端带来的“主动智能”。
正如长城汽车智能平台开发中心的高级总监姜海鹏所言,“真正智能驾驶终点一定像人一样有思考,对场景有理解,基于对场景有理解基础之上做智驾的动作”,端到端的路线,让“机械”的智驾有了“媲美人类思维”的可能。
不过,目前国内已经(或准备)落地玩家的情况,大多都是部分端到端的“分段式”方案,而非特斯拉FSD的“跨越式”架构。
其中,华为和小鹏的架构比较类似,大致方向是将之前智驾中感知、规划、控制“三部曲”,拆分成感知、规控两个“端到端”模型。长城的SEE大模型是将感知部分进行“端到端”处理,规控阶段有专家策略参与。理想的方案,则是用VLM充当完整端到端架构的“高级规控”,方案最激进。
国内智驾玩家采用“分段式”端到端架构的原因,可以参考李想在今年汽车重庆论坛上对于系统二用途的解释,“用于端到端的训练,大概一个月十轮左右的训练,基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况,只有端到端不够,我们要思考什么是系统二。系统二的启发在于,解决各种各样的Corner Case和各种泛化的问题”。
换句话说,国内智驾系统们对于当前大模型能力的不足,在想办法通过“更强规控”的工程化方式去落地。
“当数据达到特斯拉级别的百万量级以上,通过对模型的强训练,智驾可学习视频流,就能直接告诉司机驾驶的方向,像当下流行的ChatGPT一样”,曾在特斯拉主导建立机器学习团队的谷俊丽在WAIC上如此表示。
但正所谓“罗马不是一天建成的”,李想在端到端智驾的变革中也找到了自己的方向,“我们认为端到端 + VLM + 生成式的验证系统,也会是未来整个物理世界机器人最重要技术架构和技术体系”。
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)