
ABS
在许多其他研究中,也探讨了合成数据的泛化问题(例如,单帧现实世界超分辨率任务中的LP-KPN和CDC)。然而,即便如此,基于纯真实数据进行超分辨率的研究依然很少(这里暂且不讨论用随机噪声或模糊核建模退化的方法)。主要原因在于真实数据的获取与处理极为困难。从配对场景的拍摄,到图像后期处理、校正、对齐,再到最终成像,每一步都充满挑战(而且超分数据相比常规同分辨率配对数据面临更多难题,如畸变等问题,可参考Zoom to Learn等相关文章)。这些问题使得构建高质量的真实数据集变得尤为复杂。同时,还有一个值得重视的问题:单帧图像提供的信息终究有限,尤其在超分任务中,这相当于要完成无中生pixel的挑战。如果能在输入阶段提供更多采样数据,让模型接触到更多相关信息,那么预测像素的过程将更可靠、更合理。比如,把拍摄场景简单看作一次离散化采样的过程,那么利用单帧离散信息重建原始连续图像,与基于多帧信息进行重建的效果差异,可以用下图直观展示:
这种想法多年前就已提出,但当时受技术限制,难以对同一场景进行连续多次采样。如今,随着硬件性能的提升,几乎所有的成像设备厂商都实现了在按下快门瞬间,捕捉多张时间间隔仅为毫秒级的照片。这表明我们不再依赖单一帧图像,而是能够获取一系列相同场景的数据(即连拍数据,burst data)。基于此,爆裂摄影(Burst photography)也逐渐被大众所熟知。虽然Burst超分辨率技术前景广阔,但仍受前述真实数据问题困扰。早在2021年,就有研究发布了首个真实Burst数据集,但在实际应用中发现,该数据集存在诸多难以弥补的缺陷,严重影响了相关工作的进展与效果。严重的对齐问题:(a)所示,低分辨率输入与高分辨率真实图像之间存在不对齐情况,这会直接干扰模型学习,更难以在对应位置生成精确像素。跨设备的域差距问题(b)所示,手机与相机采用不同成像方式,拍摄出的低分辨率输入和高分辨率真实图像之间存在显著差异。这种跨设备分布特性导致 LR(低分辨率)与 HR(高分辨率)图像在颜色上偏差较大。对于像素级任务而言,这一问题容易对模型训练造成干扰,需加以解决以提高模型准确性。

JS
鉴于上述诸多问题,虽然该数据集对领域发展贡献良多,但我们打造一个真实场景的爆发超分辨率数据集的决心更为坚定。我们提出的RealBSR数据集,包含RAW和RGB两个版本,具体整体情况可参见下图。
除了构建RealBSR数据集外,我们也深入探讨了当前Burst SR方法中存在的不足。目前Burst SR的整体流程大致可以分为以下几个阶段:输入、对齐、融合、重建和输出。其中,在融合阶段,传统方法通常会从输入的多帧图像中选择一帧(通常是第一帧)作为参考帧,并计算其余帧与参考帧之间的相似度。如果某帧与参考帧的相似度较高,则该帧会被赋予较大的权重;反之则被赋予较小的权重。这种方法能够有效减少因运动或噪声导致的伪影和模糊问题,但同时也可能导致多帧图像中的许多有用信息被忽略。例如,在下图中假设第一帧(1-Frame)为参考帧,对于Pixel-A而言,若采用传统的融合方式(Vanilla Affinity Fusion),最终重建结果将包含来自三帧的信息。然而,对于Pixel-B,传统融合方式可能会忽略其他帧中的重要细节,原因在于这些细节并未出现在参考帧中。需要注意的是,参考帧只是场景的一次离散采样,难以涵盖所有关键信息。因此,我们的目标是实现一种更有效的融合策略——Federated Affinity Fusion,它能够在融合过程中保留并整合参考帧中缺失的重要信息,从而提升重建质量。这种改进不仅有助于充分利用多帧数据中的潜在价值,还能够显著改善复杂场景下的重建效果。
从信号角度对比我们的融合方法(Federated Affinity Fusion,FAF)与传统方法(Vanilla Affinity Fusion,VAF),可得下图示意图:
实现这种效果的方法十分简洁。在传统融合方法中,先计算每帧与参考帧的相似度,再进一步计算相似度或关联性之间的差异值,以此表示帧间的区别信息。联邦关联融合部分所示(具体公式可参考论文第4.3节):这种方法通过量化差异,有效捕捉了帧与帧之间的不同之处。
最终,我们将FBANet模型与现有单帧、多帧及视频类的先进模型进行了全面对比,包括定量和定性分析。结果表明,FBANet在PSNR指标和视觉效果上均显著优于其他领先模型,展现出优异性能。
大家在使用数据集时如有疑问,欢迎通过网络、GitHubIssue 或邮箱随时反馈,看到后都会尽快解决~希望各位多多支持,点个星吧!
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号