
汽车
是不是这样?我们可以去看全球权威的自动驾驶3D目标感知学术竞技场nuScenes detection task排行榜,其中有几个数据值得关注。成绩最佳的纯激光雷达方案感知能力(mAP为0.779),比成绩最优的纯视觉方案感知能力(mAP是0.668)要高出16.7%还多。
前21名采用的都是激光雷达加视觉融合方案,前62名的方案里都有激光雷达,再往后才能看到纯视觉方案。成绩最优的MV2DFusion整体流程为:模型借助2D图像与3D点云检测器得出结果,接着生成图像和点云查询并输入融合解码器,解码器整合信息后输出3D预测结果。

保险
20万档都这样了,15万级配备激光雷达的就更少了,像小鹏第二品牌MONA M03就没这一配置。当然,也有部分品牌在坚守此路线,像零跑C10、C11就符合要求,它们的销量也证实了坚守此路线的成功。前段时间在广州车展,我看到广汽丰田铂智3X同样配备了激光雷达,还有不少参与感知融合的硬件。其总共拥有27个传感器,包括1个激光雷达、11个摄像头、12个超声波雷达以及3个毫米波雷达。
天机棒不好找,可要是有小李飞刀的刀法与技巧,扔个石子都能有杀伤力。确实存在品牌凭借摄像头和毫米波雷达达成城区智驾。但照此思路去做的话,对算法能力的考验就更大了。算法方面,当下端对端最热门。它可直接获取传感器原始输入,输出驾驶指令,减少信息传递的中间环节与损耗。在自动驾驶领域,该系统让决策与控制流程更高效、直接,提升了系统整体效能。例如,自动紧急制动(AEB)系统利用深度学习等先进技术,能更精准地识别和分析复杂交通状况,从而做出更合适的制动判断。端对端,简言之就是模拟人,见即能决策。这种模式是暴力解法,需大量训练才可靠,并非基础的端对端,大家要谨慎采用。
二、端对端实际需进行定段。跆拳道需定段,实际上端对端也有类似定段要求。跆拳道等级可由腰带颜色区分,十级为最低等级,一级最高。汽车也类似,两段式端对端能力不及一段式端对端。汽车行业端到端大模型目前普遍采用两段式端对端的形态。自动驾驶的整个过程被分成环境感知、决策规划、控制执行三个模块,两段式端对端时,感知、规划控制分两个模型进行。其逻辑为,传感器采集的环境信息会先被输入感知模型。感知模型对环境信息加以解析,从中提取关键信息(像车辆、行人、道路标志之类),接着把这些信息传至规划控制模型。规划控制模型依据感知模型所提供的信息以及自动驾驶系统的目标(例如抵达目的地、避免碰撞等)来拟定行驶计划,且控制车辆执行此计划。
该方案的长处是能把复杂的自动驾驶任务拆成两个较简单的子任务,进而削减系统的复杂性与开发难度。不过,它也有一定的局限性,像信息经感知模型过滤后也许会大量损失,使得规划控制模型不能完全理解复杂场景,而且泛化能力与解决长尾问题的能力或许较弱。相较之下,一段式端对端属于更集成化的方案。它的训练方式和ChatGPT相似,把感知、决策、规划等模块整合进一个全栈Transformer端到端模型。在此模型里,传感器直接输入外界环境信息,随后直接输出本车行驶轨迹,达成信息无损传递与更精确的决策。Momenta智驾方案便是这样,其感知采用BEV+Transformer算法架构,同时用DDLD车道线识别算法辅助;定位运用DDPF算法;规控路径引入DLP算法。在具体车型方面,广汽丰田铂智3X就采用了这套Momenta 5.0智驾方案。
这种模式有哪些实际的好处?打个比方,一段式端对端方案如同白夜破晓里的关宏峰、关宏宇兄弟组合,各种复杂场景都能应对自如。而且双胞胎之间心有灵犀,能无缝传递信息、协同工作。此外,它还能根据经历获取丰富经验,不断升级能力。当然,一段式端对端方案也面临一些挑战。前端视频信息量极大,输出信号却要很精准,这对网络训练、数据和管道要求更高。就像破案,没有过硬的本事,想揽这棘手的活儿是不行的。
所以这种模式下,越得看是否为大公司,合作企业规模大不大。Momenta已和全球排名前十的汽车集团中半数车企开展量产合作,上汽集团、通用汽车、丰田、奔驰、比亚迪等车企都是其客户。并且,这些车企也是Momenta的投资方。 总结高阶智驾昂贵是主流趋向。如今汽车三大件成本透明,难以高价售出,智驾系统却是影响购买的关键因素,不少厂家便借此保利润。当下竞争趋于白热化,部分车企开始思考并大力发展无图方案。要重视感知硬件与算法能力,泄洪时代很难看清谁在滥竽充数。打算买车的朋友,可以留意下那些想要抢占市场、敢于掀桌子的品牌。在15万级别的车型里,广汽丰田铂智3X以及它搭载的Momenta 5.0一段式端对端高阶智驾,这其实是个信号:已有车企开始出底牌了。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号