CVPR2024接收的开放式视觉故事生成模型是什么?

1个回答

写回答

ᴘɪɴᴋ

2026-02-11 04:58

+ 关注

IDEO
IDEO

很兴奋地跟大家分享我们被CVPR2024录用的研究项目:开放式视觉故事生成模型,欢迎大家关注!代码、检查点和数据集均已开源。项目主页:StoryGen。标题:智能格林——通过潜在扩散模型实现开放式的视觉故事生成。这一项目利用先进的潜扩散模型技术,致力于开放式视觉故事的创作,为用户带来全新的智能化体验,欢迎访问项目主页了解更多详情。

若想了解更多技术细节,可以参考我们的论文及附录内容。此外,我们的代码、模型和数据均已开源,非常欢迎大家前来交流!在此,还想向大家介绍我们团队在扩散模型领域的一些工作。为了便于设计与开发特定模型,我们基于 diffusers 库构建了几个易于定制化的仓库。首先是 SimpleSDM,它基于 Stable Diffusion Model 1.5,专注于图像生成任务,项目地址为:https://github.com/haoningwu3639/SimpleSDM。接着是 SimpleSDM-VIDEO,基于 ZeroScope-v2,用于视频生成,其链接为:https://github.com/haoningwu3639/SimpleSDM-VIDEO。另外还有 SimpleSDXL,基于 SDXL 模型,同样支持高质量的图像生成,访问地址为:https://github.com/haoningwu3639/SimpleSDXL。这些仓库的主要目标是从 diffusers library 中提取出与上述三个模型训练和推理相关的代码,并进一步集成了 DDIM inversion 功能以及 accelerator 库的分布式训练和混合精度推理能力。通过这样的优化,我们希望为对扩散模型感兴趣的朋友们提供一些帮助。无论是关于代码仓库的改进建议,还是围绕生成式模型展开的技术讨论,我们都热烈欢迎各位专家与爱好者积极参与交流。期待与大家一起探索扩散模型的无限可能!

举报有用(6分享收藏

Copyright © 2025 IZhiDa.com All Rights Reserved.

知答 版权所有 粤ICP备2023042255号