
ABS
我们提出新观点:幻觉其实是大模型在预训练时获得的先验知识。若能合理利用这些幻觉带来的先验信息,将对特定下游任务起到积极作用。
我们重点关注一个具有挑战性的任务通用提示分割场景(task-generic promptable segmentation setting)。在这种设定下,我们仅提供与任务相关的通用描述,而不会具体说明每张图片中需要分割的具体目标对象。例如,在伪装动物分割任务中,我们只会给出camouflaged animal(伪装动物)这样的任务描述,而不会明确指出不同图片中具体的动物名称。该任务要求模型完成两项关键工作:首先,结合图像内容推断出具体的分割目标是什么;其次,准确确定目标物体的位置及其分割区域的形状。得益于像SAM这样的分割大模型,只要能够提供相对精确的目标位置描述作为提示(prompt),就能较为有效地分割出任务相关的物体。然而,在诸如伪装样本分割或医学图像分割等复杂任务中,获得这种精确描述并非易事。此前的一些研究尝试通过利用视觉语言模型(VLM),如LLaVA或BLIP2,来推理生成针对每个样本的独特提示,从而引导分割过程。然而,这种方法在处理伪装样本分割等问题时常常因共现现象(object co-occasion)而产生幻觉问题。例如,在图1所示的例子中,如果将草丛中的狮子遮挡掉,对于一张仅显示草原的图片,由于LLaVA在训练过程中学习到狮子通常与草原共同出现的关系,它可能会错误地假设草原附近可能存在其他动物。因此,即使图片中并不存在猎豹,模型仍可能将其预测为伪装动物。这种情况在伪装动物分割等任务中尤为突出,导致模型输出不准确的结果。这类问题揭示了现有方法在处理复杂场景时的局限性,同时也为未来的研究提供了改进方向。这种现象一定是坏事吗?未必如此。从某种角度看,虽然这张图片中没有猎豹,但根据常识,猎豹确实常生活在这样的草原环境中。幻觉实际上是模型基于大规模数据学习后作出的推断,是一种经验性的反映。只是在这种特定情况下,推断与实际不符。然而,这并不意味着它毫无价值。现实中,猎豹确实可能出现在类似场景中。进一步思考,幻觉所体现的常识或许能帮助我们挖掘图片中的潜在信息,这些信息虽非完全匹配,但与图片存在一定关联。如果加以验证,它们可能会为完成后续任务提供更多参考和帮助。为此,2所示,我们设计了一种cycle modified的ProMaC框架,该框架主要由两部分构成:一是multi-scale chAIn of thought prompting模块,它通过幻觉机制从通用任务提示(task-generic prompt)中推理出特定实例提示(instance-specific prompt);二是mask semantic alignment模块,用于确保生成的掩码(mask)与任务语义保持一致。前者能够生成较为精确的instance-specific prompt,从而引导SAM完成分割任务,而后者则负责对齐生成的mask与任务语义,使两者更加匹配。经过对齐后的mask还可以反向作用于第一个模块,作为验证依据,用来评估通过幻觉推导出的信息是否准确。这两个模块通过循环迭代的方式不断优化,逐步生成更加精准的mask,从而提升整体性能和效果。

中学
ProMaC由一个Prompt Generator和一个Mask Generator组成。其中,Prompt Generator采用了多尺度链式思维提示(multi-scale chAIn of thought prompting)的技术。这一方法通过有意分割图像块的方式激发模型的幻觉能力,探索与任务相关的隐藏信息。这些分割后的图像块通常会破坏物体的完整性,促使模型依赖预训练阶段学到的先验知识,在不同的图像块中尽可能挖掘更多关于前景和背景的相关信息。尽管这些提取的信息大多与图片内容和任务紧密相关,但并非所有信息都准确无误,因此我们需要进一步筛选出真正有价值的内容。为此,我们引入了一个验证模块——视觉对比推理(Visual Contrastive Reasoning, VCR)。VCR的核心思想是利用修复模型(inpAInting model)生成对比图像。具体来说,该模块会根据上一轮迭代中识别出的mask区域,将这些部分从原图中抹去,从而生成一张仅包含与任务无关背景的图像。接下来,在VCR模块中,我们将原始图像产生的输出概率与生成的背景图像对应的输出概率进行比较。通过计算两者的差值,可以有效消除共现先验(co-occurrence prior)的影响,从而筛选出真正与当前实例相关的有效提示(instance-specific prompt)。这种方法不仅提升了模型对任务关键信息的识别能力,还确保了生成的提示更加精准和可靠。整个流程结合了多尺度信息提取与对比验证机制,为复杂任务提供了更为稳健的支持。Mask Generator首先将Prompt Generator生成的提示词输入分割模块(例如SAM)以生成一个初始mask。然而,SAM缺乏语义理解能力,仅能依据提供的提示及周围纹理推测需要分割的目标物体。因此,我们引入CLIP,在不同patch上使用相同的提示词生成多个mask,并评估这些mask与目标物体之间的语义相似度。经过归一化处理后,将相似度作为权重对mask进行加权融合,得到最终mask。这一结果会在下一次迭代中辅助生成更高质量的背景图像,从而引导Prompt Generator优化提示词的生成,形成闭环反馈机制,逐步提升分割效果和整体性能。
总体而言,PromaC工作带来了新见解:幻觉并非全然有害,若合理利用,可助力下游任务。这一思路如能为其他研究者提供启发,将是非常理想的。
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号