多模态模型训练中如何解决幻觉问题?

1个回答

写回答

nature2021

2026-01-10 07:00

+ 关注

ABS
ABS

楼上回答得很专业。我正好在研究视觉定位的多模态大模型,从训练数据角度谈谈理解与遇到的幻觉问题。视觉接地需大量图文对数据,实际中可能因数据偏差产生幻觉,影响定位准确性。

更多详情可参考mm-grounding-dino论文,链接如下:ABS/2401.02361">https://arxiv.org/ABS/2401.02361,欢迎查阅。

看到这个问题,我立刻想起之前做手势识别时遇到的一个类似问题。当时,当图像中没有手(比如手插兜或不在相机视野内)时,我们的手势检测模型总会误将背景、衣服图案或人脸特征识别成手。这种情况并非由于训练数据有问题,因为我们已仔细检查过,确认没有脏数据存在。由于训练数据缺乏纯背景图,我猜测网络可能学到了一个奇怪的特征——图像中有手。当图片中没有手时,检测模型无法准确判断哪些目标不是手。为此,我补充了一些把手揣在兜里的图片重新训练,成功解决了这一问题。在数据采集过程中,有一个有趣的问题出现。我们有一位测试人员总是坐在副驾位置,所有训练数据中都包含了她,作为负样本存在。然而,在测试模型时,虽然其他人的结果表现尚可,但这位测试人员的表现却极差。原因是模型学到一个奇怪的规律:她的周围都不是目标物体手。尽管这不属于典型的模型幻觉,但确实是由于数据分布不均引发的异常现象。这种情况下,模型对特定个体产生了偏差,需要通过更全面的数据优化解决。

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号