基于多尺度知识蒸馏的事件跟踪框架HDETrack

1个回答

写回答

CandiceQ

2026-02-11 04:37

+ 关注

教师
教师

本文重点介绍了一个基于多尺度知识蒸馏的事件跟踪框架。目前的相关工作,要么借助对齐的RGB和事件数据实现精确跟踪,要么直接学习基于事件的跟踪器。前者推理成本高,后者易受噪声事件或稀疏空间分辨率影响。为解决上述问题,本文着重提出一种名为HDETrack的新型多层次知识蒸馏框架。该框架在训练时能充分运用多模态/多视图信息推动知识迁移,从而在测试时仅用事件信号就能实现高速、低延迟的视觉跟踪。具体而言,先利用同时提供的RGB帧和事件流来训练基于教师Transformer的多模态跟踪框架。在此基础上,设计了一种新的层次知识蒸馏策略,涵盖两两相似性、特征表示以及基于响应映射的知识蒸馏,用以指导学生Transformer网络的学习。另外,现有的基于事件的跟踪数据集分辨率都较低(346×260),于是本文提出了首个大规模高分辨率(1280×720)的数据集EventVOT。该数据集有1141个视频,涵盖行人、车辆、无人机、乒乓球等众多类别。本文在低分辨率数据集(FE240hz、VisEvent、COESOT)以及新提出的高分辨率EventVOT数据集上开展大量实验,充分证实了所提方法的有效性。

上图为HDETrack框架图,其教师网络模型位于上半部分,仅用于训练阶段,测试阶段则用下半部分的学生网络。HDETrack的训练包含两个阶段:单独对教师网络进行训练。在第一阶段,要训练一个强鲁棒性的教师网络。输入RGB和事件流这两种模态的数据,以Transformer为骨干网络提取特征,让信息交互融合,再把Transformer的输出送进跟踪头,以预测跟踪响应结果。② 训练学生网络且开展知识蒸馏。在教师网络的第一阶段训练结束后,把教师网络已学好的网络参数冻结,从而开启第二阶段的学生网络训练。第二阶段训练属于知识蒸馏过程,教师网络的输入依旧为RGB和事件流的双模态数据,而学生网络输入的是单模态的事件数据(像事件帧、Voxel、Time - surface、重构灰度图等形式的数据)。学生网络也是以Transformer为骨干网络提取特征,再将输出特征输入跟踪头以预测跟踪结果。并且,借助三层知识蒸馏,利用教师网络的参数监督学生网络的学习。本文推出了一个大规模的高分辨率(1280×720)事件跟踪数据集EventVOT。这个数据集包含1141个视频,有19个类别与14个挑战属性,其目标物体的属性、类别和边界框中心点分布可视化效果图如下。

数据集可视化的示例。

无人机
无人机

除了新提出的EventVOT数据集,本文还将现有的基于事件的跟踪数据集(如FE240hz、VisEvent和COESOT数据集)与其他SOTA视觉跟踪器进行比较,具体实验结果如下:

举报有用(6分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号