基于多尺度知识蒸馏的事件跟踪框架HDETrack

1个回答

CandiceQ

2026-02-11 04:37

教师

本文重点介绍了一个基于多尺度知识蒸馏的事件跟踪框架。目前的相关工作，要么借助对齐的RGB和事件数据实现精确跟踪，要么直接学习基于事件的跟踪器。前者推理成本高，后者易受噪声事件或稀疏空间分辨率影响。为解决上述问题，本文着重提出一种名为HDETrack的新型多层次知识蒸馏框架。该框架在训练时能充分运用多模态/多视图信息推动知识迁移，从而在测试时仅用事件信号就能实现高速、低延迟的视觉跟踪。具体而言，先利用同时提供的RGB帧和事件流来训练基于教师Transformer的多模态跟踪框架。在此基础上，设计了一种新的层次知识蒸馏策略，涵盖两两相似性、特征表示以及基于响应映射的知识蒸馏，用以指导学生Transformer网络的学习。另外，现有的基于事件的跟踪数据集分辨率都较低（346×260），于是本文提出了首个大规模高分辨率（1280×720）的数据集EventVOT。该数据集有1141个视频，涵盖行人、车辆、无人机、乒乓球等众多类别。本文在低分辨率数据集（FE240hz、VisEvent、COESOT）以及新提出的高分辨率EventVOT数据集上开展大量实验，充分证实了所提方法的有效性。

上图为HDETrack框架图，其教师网络模型位于上半部分，仅用于训练阶段，测试阶段则用下半部分的学生网络。HDETrack的训练包含两个阶段：单独对教师网络进行训练。在第一阶段，要训练一个强鲁棒性的教师网络。输入RGB和事件流这两种模态的数据，以Transformer为骨干网络提取特征，让信息交互融合，再把Transformer的输出送进跟踪头，以预测跟踪响应结果。② 训练学生网络且开展知识蒸馏。在教师网络的第一阶段训练结束后，把教师网络已学好的网络参数冻结，从而开启第二阶段的学生网络训练。第二阶段训练属于知识蒸馏过程，教师网络的输入依旧为RGB和事件流的双模态数据，而学生网络输入的是单模态的事件数据（像事件帧、Voxel、Time - surface、重构灰度图等形式的数据）。学生网络也是以Transformer为骨干网络提取特征，再将输出特征输入跟踪头以预测跟踪结果。并且，借助三层知识蒸馏，利用教师网络的参数监督学生网络的学习。本文推出了一个大规模的高分辨率（1280×720）事件跟踪数据集EventVOT。这个数据集包含1141个视频，有19个类别与14个挑战属性，其目标物体的属性、类别和边界框中心点分布可视化效果图如下。

数据集可视化的示例。

无人机

除了新提出的EventVOT数据集，本文还将现有的基于事件的跟踪数据集（如FE240hz、VisEvent和COESOT数据集）与其他SOTA视觉跟踪器进行比较，具体实验结果如下：

举报有用（6）分享收藏

基于多尺度知识蒸馏的事件跟踪框架HDETrack

1个回答

CandiceQ

热门话题

相关问题