其跨模态匹配与零样本泛化能力,有望解决传统检测中数据标注需求大、泛化性差等问题。本文将介绍两种基于CLIP的目标检测模型:ViLD和GLIP。传统目标检测模型往往仅能识别预设类别的物体,比如在 COCO 数据集上训练的模型,只能检测其中定义的 80 类对象。这种封闭式的检测方式在实际应用中限制较大,由于现实世界中的物体种类极为丰富且复杂,不可能完全列举,因此难以满足多样化需求。为了解决这一问题,研究者提出了开放词汇目标检测的概念,旨在识别图像中任何能用文字描述的物体,即便这些物体未在训练集中出现。ViLD正是在这种需求下应运而生。它借助预训练的视觉-语言模型(例如CLIP)所具备的强大零样本迁移能力,成功实现了开放词汇目标检测的功能,从而能够灵活应对各类未曾见过的目标物体的检测任务。模型与方法如下所述
模型训练过程
ViLD的训练过程主要包括两部分,分别对应两个损失函数。ViLD图像(L1损失,知识蒸馏):训练流程概要总结
逻辑演绎过程在推理时,ViLD运用训练好的模型检测图像物体,具体步骤如下:归纳推理过程:
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号