多模态模型训练中如何解决幻觉问题？

1个回答

写回答

nature2021

2026-01-10 07:00

+ 关注

ABS
ABS

楼上回答得很专业。我正好在研究视觉定位的多模态大模型，从训练数据角度谈谈理解与遇到的幻觉问题。视觉接地需大量图文对数据，实际中可能因数据偏差产生幻觉，影响定位准确性。

更多详情可参考mm-grounding-dino论文，链接如下：ABS/2401.02361">https://arxiv.org/ABS/2401.02361，欢迎查阅。

看到这个问题，我立刻想起之前做手势识别时遇到的一个类似问题。当时，当图像中没有手（比如手插兜或不在相机视野内）时，我们的手势检测模型总会误将背景、衣服图案或人脸特征识别成手。这种情况并非由于训练数据有问题，因为我们已仔细检查过，确认没有脏数据存在。由于训练数据缺乏纯背景图，我猜测网络可能学到了一个奇怪的特征——图像中有手。当图片中没有手时，检测模型无法准确判断哪些目标不是手。为此，我补充了一些把手揣在兜里的图片重新训练，成功解决了这一问题。在数据采集过程中，有一个有趣的问题出现。我们有一位测试人员总是坐在副驾位置，所有训练数据中都包含了她，作为负样本存在。然而，在测试模型时，虽然其他人的结果表现尚可，但这位测试人员的表现却极差。原因是模型学到一个奇怪的规律：她的周围都不是目标物体手。尽管这不属于典型的模型幻觉，但确实是由于数据分布不均引发的异常现象。这种情况下，模型对特定个体产生了偏差，需要通过更全面的数据优化解决。

举报有用（0）分享收藏

多模态模型训练中如何解决幻觉问题？

1个回答

nature2021

热门话题

相关问题