评〈用深度强化学习实现冠军级无人机竞速〉

无人机

1个回答

写回答

923469734

2026-02-13 19:00

+ 关注

同学
同学

能够尽情表达了!在意大利的时候,Vladlen Koltun老师提及这项工作,称会在自然杂志发表,当时还需个把月才发表,所以要求同学们保密。昨天成果终于发布了,首先是封面很惊艳。

熟悉苏黎世大学Davide Scaramuzza教授的同学应该都清楚,他研究无人机已有多年,在无人机方面开展了大量工作,drone racing便是其中很重要的一部分。他围绕这个领域在算法、硬件等方面进行了一系列研究,像VIO、Event Camera、SNN、MPC、RL等。他一直朝着极致追求,相当厉害。此次展示的工作为利用神经网络控制无人机人类冠军选手比赛并取胜。无人机比赛不难,即控制它按顺序在最短时间内穿过所有门洞。重点是向被蒙在鼓里的Nature证实了一件事:这是AI首次在物理世界的竞赛里战胜人类。要知道,像AI首次打败人类这种事,最合Nature的胃口了。不过,经@233在评论中提醒,nature论文提到,考虑人的因素后,整个系统的感觉运动延迟为40毫秒对比220毫秒,并非相同,机器优势明显。但机器的摄像头是30帧每秒,人的图像传输是120帧每秒。对于真正研究机器人学(Robotics)的同学来说,或许不是特别令人兴奋。

你瞧瞧这里面的内容,说它平平无奇也不为过。有一个VIO和一个门洞检测器分别对无人机定位,这两个定位信号频率不同(一个100Hz,一个30Hz),为整合它们就用卡尔曼滤波融合一下。最终接入到一个2x128的MLP来输出控制信号,这个MLP是通过模拟器中的模拟飞行以强化学习训练的。门洞检测相关。

大学
大学

利用PnP定位无人机,再将定位结果经卡尔曼滤波与VIO融合。

在强化学习训练时,无人机于模拟器内从盲目探索到越飞越好,一个小神经网络,普通PC训练1小时就可完成。

模拟器难以模拟复杂的空气动力学,也不易模拟真实世界状态估计产生的噪声。于是,他们借助高精度动作捕捉系统获取实际飞行时飞机的姿态,再通过高斯过程和K近邻(???)构建真实飞行与模拟器间的残差模型。在模拟器训练时,添加上该模型,以此模拟真实世界的状态估计噪声和复杂动力学特性。所以大家听到这个方案时,都有点失望,打败人类冠军就靠这个?我还以为是事件相机加脉冲神经网络!而恰恰是这样的方案让我们明白,在控制任务取得成功时,状态估计的精度无需过高,神经网络完全能够应对各种不稳定以及状态估计的不确定情况。最重要的是,这种适应性恰为神经网络和强化学习的优势,传统控制方法(与简单的强化学习相比)很难做到这一点。对机器人学专业的同学来说,这是最重要的收获。但这是为什么?Vladlen Koltun如此解释该问题:传统的控制方法是先进行状态估计,再依据估计的状态规划路线,最后控制机器按路线行进。这种做法对系统建模的依赖性很强,像无人机这种动态性强、速度快、敏感度高且易出问题的设备,很难精确建模,甚至会涉及空气动力学问题。因此,想让它按规定路线行进,很难达到最优状态,毕竟用于生成所谓最优路线的模型可能本就是错误的。实际上,无人机要快速穿过门洞,没必要遵循某条确定路线,大致有个感觉,保持平衡冲过去就行。神经网络就擅长处理这种不精确的大略之事。而且强化学习是朝着真正的奖励目标——穿过门洞来训练的,并非为了遵循某条超级优化的路径。在这个问题上,深度强化学习要比基于路径规划的无人机控制更具优势。可以这么理解,即使它看似偏离最优路径,也无需重新规划路线与调整姿态,因为不存在偏离最优的情况,它只是朝着目标大致方向前行。无人驾驶汽车也适用同样的逻辑,就拿车道保持来说,我们期望汽车在车道中央行驶。可正常人会在意稍微的偏离吗?其实只要大致在自己车道内,人类不太在意是否偏离道路中心10厘米或者20厘米,有个大致在车道内的感觉就行。然而无人驾驶通常是生成一条最优轨迹,再按此轨迹行驶。汽车又不是用来比赛的,所以无所谓。无人机的话,如果只是为了飞,生成最优路径然后控制它沿路径飞就行。但要是参加比赛,要战胜人类,这么做可能就不行了。这项工作的方法看似简单,却耗费了Scaramuzza教授数年心血,想必各种方法他都尝试过了。毕竟追求极致,可谓简约却不简单。希望教授就此停止,别再参与无人机比赛了,都打败人类冠军了,适可而止吧。还不如把精力放到事件相机和脉冲神经网络的研究上。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号