Diffusion模型在图像生成领域的竞争对手有哪些?

1个回答

写回答

卡拉泡泡包

2026-01-30 05:08

+ 关注

AI
AI

当前以潜扩散模型为代表的扩散模型面临哪些竞争对手?暂不考虑这些模型性能优劣;另一方面,既然存在其他对手,为何扩散模型仍占据主流地位?这值得深入探讨。当前主流的扩散架构中,最广为人知的是 Stable Diffusion,其底层原理基于潜在扩散模型(LDM)框架。实际上,自2022年LDM成为主导生成方式后,出现了不少竞争者。以下以2022年为分界点,简要梳理生成模型在这一时期前后的演变情况,展示技术发展中的关键转变与趋势。在2022年之前,生成模型的研究大多以2016年Goodfellow提出的生成对抗网络(GAN)为核心。这一时期涌现了许多经典模型,例如StyleGAN和BigGAN等。当时,多模态数据的规模和多样性远不及现在,研究重点主要集中在特定数据集上。其中,ImageNet数据集被广泛用于带有类别标签的图像生成(即类条件生成,class-conditional generation),而CelebA数据集则主要用于人脸生成领域,可以视为特定领域图像生成(domAIn-specific image generation)的代表。这些研究为后续生成模型的发展奠定了重要基础。

2022年中后期,随着Transformer的兴起,相关方法层出不穷。其中一些具有代表性的研究成果备受关注,例如广为人知的VQGAN,它在高分辨率图像生成领域取得了显著成果;还有清华大学研发的CogView系列(前两代),也在多模态生成任务中展现了强大能力。这些工作推动了Transformer在更多应用场景中的发展与突破。

另一方面,MAE提出后,许多工作将Masked Modeling的思想应用于生成任务,这成为基于Transformer方法的另一主流方向。典型代表包括MaskGit和Google提出的Muse等。这些研究通过遮蔽建模的方式,推动了生成模型的发展,在图像与多模态任务中展现出卓越效果。

清华
清华

无论是基于GAN还是基于Transformer的方法,在近两年都仍有重要进展。例如,NVIDIA推出的GigaGAN,尝试在GAN架构中验证模型扩展的有效性。而在Transformer方向上,今年初出现了VAR的相关研究,同时还有多种基于大语言模型的生成方案被提出。此外,Diffusion Transformer通过融合扩散模型与Transformer的优势,开创了A+B的新模式。这一范式诞生了诸如PixArt、Stable Diffusion 3等经典工作,如今已发展为生成模型领域的重要主流方向之一。这些方法各具特色,持续推动着生成技术的进步,并在多个应用场景中展现出巨大潜力。

实际上,还有许多其他新兴的生成范式。比如,近期基于年初热门的Mamba模型衍生出的DiS和Zigma,此外也有Flow-based以及VAE-based等方法。竞争者从来不曾缺席,毕竟并非所有从事生成研究的学者都专注于扩散模型。然而,尽管如此,扩散模型的主流地位至今依然稳固。这就引出了我们接下来要探讨的话题——为何扩散模型仍然主导着当前的研究与应用领域?扩散模型之所以长盛不衰,或许可以从另一个角度思考:为何其他竞争者难以匹敌?这里重点分析两大主流生成架构——GAN与Transformer。它们在某些方面存在局限,而扩散模型恰好弥补了这些不足,从而展现出独特优势。GAN 的训练难点之一在于如何平衡生成器与判别器,这主要源于其对抗训练的特性,也暴露了 GAN 模型本身的一个核心问题:训练不稳定。这种不稳定性使得训练一个有效的 GAN 模型需要大量的人力进行精细调整,因为模型在训练过程中很容易失控。即使在当前算力充足的情况下,许多实验室具备硬件条件去尝试复现 StyleGAN 或 BigGAN 等工作,但实际能够成功复现的却寥寥无几。究其原因,正是 GAN 的训练过程极具挑战性,稍有不慎便可能导致失败。另一方面,基于Transformer的方法主要受限于速度,尤其是图像分辨率极高时,注意力机制的计算开销会显著增加,导致训练和推理过程面临较大挑战,这在一定程度上阻碍了模型的扩展。此外,Transformer本质上属于自回归模型,仍然存在自回归模式的一些固有问题,这里就不再详细展开。从模型结构的角度分析,扩散模型能够成为生成模型的主流,其训练过程的稳定性起到了关键作用。此外,自LDM提出后,扩散模型的采样效率显著提升,近期还有Consistency Model等新型模型,使生成速度进一步接近GAN模型水平。这样一来,扩散模型原本最大的短板——速度问题,已不再成为阻碍其发展的瓶颈。除此之外,还有一个至关重要的原因——自扩散模型诞生以来,其开源资源的质量极为出色。从代码库(如DDPM、OpenAI实现的guided-diffusion、CompVis的Stable Diffusion源码以及diffusers的实现),到开源模型(例如DDPM、SD v1.4、SD v1.5),这些成果为技术进步奠定了坚实基础。实际上,扩散模型不仅在学术研究中占据主导地位,还为工业应用创造了众多机会,同时催生了像CivitAI这样充满活力的社区生态。这一切充分表明,开源资源对整个领域的推动作用不可忽视。正是这些优质开源项目的共享与传播,使得扩散模型得以快速发展,并形成如今繁荣的景象。可以说,没有开源的支持,这一领域的成长速度和规模都将大打折扣。值得一提的是,曾有网友在Reddit上提到,目前SD v1.4和v1.5这两个版本的模型仍然被广泛认为是最经典的选择。相比之下,后续推出的模型生成的图像或多或少带有一些AI的痕迹。从一则业内趣闻中,可以窥见这两代模型的经典地位:最初开发SD模型的团队隶属于CompVis实验室,后来这支团队分道扬镳,演变成了三个方向——一部分人留在原实验室继续研究;一部分人加入了Runway,专注于视频生成(Gen-2);还有一部分则创立了Stability AI。如今,后两家公司都已成为生成式AI领域的领军企业。另一个值得关注的消息是,前段时间Stable Diffusion 3 Medium开源后,许多人尝试运行SD 3时发现,其性能居然还不如早期的1.4或1.5版本。这一现象充分证明了SD前几代模型的技术含金量之高。毕竟,这些模型是在数千张A100显卡上经过精细训练才诞生的,其背后的技术沉淀自然毋庸置疑。(感兴趣的朋友可以参考以下链接了解更多详情)站在2024年回望大模型时代中扩散模型的发展,可以用一个大字概括:模型体量更大、应用场景更广、模态融合更深。无论是在计算机视觉领域,还是自然语言处理研究,扩散模型、大语言模型和多模态学习已经成为深度学习研究者必备的核心技能。然而,要深入理解这些技术背后的底层原理,比如Transformer架构、分词机制等,并非易事。仅靠阅读论文获取知识效率低下,且缺乏系统性。此外,论文资源往往缺少实际操作指导,尤其是针对那些未开源或部分开源的工作,这进一步阻碍了学习效果的提升。对于希望掌握这些前沿技术的研究者来说,如何高效、系统地学习并结合实践,成为了一大挑战。书籍资料是一种非常系统化的学习方式。一本优秀的工具书,通常以项目为导向进行讲解,借助实例向读者清晰地展示底层原理、应用场景,甚至直接呈现项目的源码。这些经过整理和提炼的知识,在我们初涉科研、启动新课题或踏入新岗位时,能够帮助我们迅速进入状态。在此,我向大家推荐一些自己使用过的优质书籍和资料。这些内容不仅对技术的底层原理进行了系统的梳理,还通过实战项目引导读者掌握如何将这些原理应用到实际中。以下是相关链接,有需求的朋友可以自行查阅参考:我是中科大在读博士生,研究计算机视觉。欢迎私信交流,批评指正!更多内容请查看往期回答和文章。诚邀大家关注我的GitHub个人主页。我整理了若干课题的顶会论文列表,供有需要的朋友参考,此列表将持续更新最新顶会文章。若觉得有用,烦请点亮GitHub星标支持,感谢大家!

举报有用(0分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号