ICCV2023,真实世界Burst图像超分辨率研究

1个回答

写回答

黑泽奈奈

2026-03-01 09:05

+ 关注

ABS
ABS

本文将介绍我们于ICCV2023发表的工作——面向真实场景的爆发图像超分辨率:基准与方法。该研究聚焦于现实世界的爆发图像超分辨率问题,提出了相应的基准测试和解决方案。论文地址:ABS/2309.04803项目已开源">https://arxiv.org/ABS/2309.04803项目已开源,欢迎大家访问以下链接查看:https://github.com/yJSunnn/FBANet,期待您的关注和支持。经过三年的练习,我们打造了一个超有趣的真实世界Burst Super-Resolution数据集,欢迎尽情使用并反馈意见。数据集还在不断采集当中,我们会持续更新优化!我们来谈谈一个具体的任务——真实场景爆发超分辨率(Real-world Burst Super-Resolution)。近年来,超分辨率作为底层视觉领域的重要研究方向,取得了显著进展。然而,大多数现有方法依然依赖合成数据进行训练。具体来说,这些方法从高分辨率图像出发,通过双三次插值(bicubic)、双线性插值(bilinear)等函数生成低分辨率图像对。这种方法的优势在于能够轻松获取大量训练数据,但其缺陷同样显而易见:它对超分辨率中的退化过程(degradation model)进行了过于简化的假设。这种理想化的建模方式导致训练出的模型在应对真实世界复杂退化时性能大幅下降。例如,在实际场景中,合成模型往往难以处理诸如模糊、噪声、运动伪影等问题,从而产生明显失真的结果。为了解决这一问题,我们需要探索更加贴近真实环境的训练与评估方式,以提升模型在实际应用中的鲁棒性和效果。(如需深入了解对比分析,可参考相关资料:真实世界超分辨率技术探讨)

在许多其他研究中,也探讨了合成数据的泛化问题(例如,单帧现实世界超分辨率任务中的LP-KPN和CDC)。然而,即便如此,基于纯真实数据进行超分辨率的研究依然很少(这里暂且不讨论用随机噪声或模糊核建模退化的方法)。主要原因在于真实数据的获取与处理极为困难。从配对场景的拍摄,到图像后期处理、校正、对齐,再到最终成像,每一步都充满挑战(而且超分数据相比常规同分辨率配对数据面临更多难题,如畸变等问题,可参考Zoom to Learn等相关文章)。这些问题使得构建高质量的真实数据集变得尤为复杂。同时,还有一个值得重视的问题:单帧图像提供的信息终究有限,尤其在超分任务中,这相当于要完成无中生pixel的挑战。如果能在输入阶段提供更多采样数据,让模型接触到更多相关信息,那么预测像素的过程将更可靠、更合理。比如,把拍摄场景简单看作一次离散化采样的过程,那么利用单帧离散信息重建原始连续图像,与基于多帧信息进行重建的效果差异,可以用下图直观展示:

这种想法多年前就已提出,但当时受技术限制,难以对同一场景进行连续多次采样。如今,随着硬件性能的提升,几乎所有的成像设备厂商都实现了在按下快门瞬间,捕捉多张时间间隔仅为毫秒级的照片。这表明我们不再依赖单一帧图像,而是能够获取一系列相同场景的数据(即连拍数据,burst data)。基于此,爆裂摄影(Burst photography)也逐渐被大众所熟知。虽然Burst超分辨率技术前景广阔,但仍受前述真实数据问题困扰。早在2021年,就有研究发布了首个真实Burst数据集,但在实际应用中发现,该数据集存在诸多难以弥补的缺陷,严重影响了相关工作的进展与效果。严重的对齐问题:(a)所示,低分辨率输入与高分辨率真实图像之间存在不对齐情况,这会直接干扰模型学习,更难以在对应位置生成精确像素。跨设备的域差距问题(b)所示,手机与相机采用不同成像方式,拍摄出的低分辨率输入和高分辨率真实图像之间存在显著差异。这种跨设备分布特性导致 LR(低分辨率)与 HR(高分辨率)图像在颜色上偏差较大。对于像素级任务而言,这一问题容易对模型训练造成干扰,需加以解决以提高模型准确性。

JS
JS

由于前面提到的两个问题,模型直接基于低分辨率输入生成的超分结果,会出现与真实高分辨率图像空间不对齐、颜色偏差等情况。因此,在评估该数据集时,必须先对超分结果和真实图像进行空间及颜色校正,才能进一步计算PSNR值,具体过程可参照下图。这种评测方式显然不同于常规接受的标准方法,显得较为特殊。

鉴于上述诸多问题,虽然该数据集对领域发展贡献良多,但我们打造一个真实场景的爆发超分辨率数据集的决心更为坚定。我们提出的RealBSR数据集,包含RAW和RGB两个版本,具体整体情况可参见下图。

除了构建RealBSR数据集外,我们也深入探讨了当前Burst SR方法中存在的不足。目前Burst SR的整体流程大致可以分为以下几个阶段:输入、对齐、融合、重建和输出。其中,在融合阶段,传统方法通常会从输入的多帧图像中选择一帧(通常是第一帧)作为参考帧,并计算其余帧与参考帧之间的相似度。如果某帧与参考帧的相似度较高,则该帧会被赋予较大的权重;反之则被赋予较小的权重。这种方法能够有效减少因运动或噪声导致的伪影和模糊问题,但同时也可能导致多帧图像中的许多有用信息被忽略。例如,在下图中假设第一帧(1-Frame)为参考帧,对于Pixel-A而言,若采用传统的融合方式(Vanilla Affinity Fusion),最终重建结果将包含来自三帧的信息。然而,对于Pixel-B,传统融合方式可能会忽略其他帧中的重要细节,原因在于这些细节并未出现在参考帧中。需要注意的是,参考帧只是场景的一次离散采样,难以涵盖所有关键信息。因此,我们的目标是实现一种更有效的融合策略——Federated Affinity Fusion,它能够在融合过程中保留并整合参考帧中缺失的重要信息,从而提升重建质量。这种改进不仅有助于充分利用多帧数据中的潜在价值,还能够显著改善复杂场景下的重建效果。

从信号角度对比我们的融合方法(Federated Affinity Fusion,FAF)与传统方法(Vanilla Affinity Fusion,VAF),可得下图示意图:

实现这种效果的方法十分简洁。在传统融合方法中,先计算每帧与参考帧的相似度,再进一步计算相似度或关联性之间的差异值,以此表示帧间的区别信息。联邦关联融合部分所示(具体公式可参考论文第4.3节):这种方法通过量化差异,有效捕捉了帧与帧之间的不同之处。

最终,我们将FBANet模型与现有单帧、多帧及视频类的先进模型进行了全面对比,包括定量和定性分析。结果表明,FBANet在PSNR指标和视觉效果上均显著优于其他领先模型,展现出优异性能。

大家在使用数据集时如有疑问,欢迎通过网络、GitHubIssue 或邮箱随时反馈,看到后都会尽快解决~希望各位多多支持,点个星吧!

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号