CVPR2024接收的开放式视觉故事生成模型是什么？

1个回答

ᴘɪɴᴋ

2026-02-11 04:58

IDEO
IDEO

很兴奋地跟大家分享我们被CVPR2024录用的研究项目：开放式视觉故事生成模型，欢迎大家关注！代码、检查点和数据集均已开源。项目主页：StoryGen。标题：智能格林——通过潜在扩散模型实现开放式的视觉故事生成。这一项目利用先进的潜扩散模型技术，致力于开放式视觉故事的创作，为用户带来全新的智能化体验，欢迎访问项目主页了解更多详情。

若想了解更多技术细节，可以参考我们的论文及附录内容。此外，我们的代码、模型和数据均已开源，非常欢迎大家前来交流！在此，还想向大家介绍我们团队在扩散模型领域的一些工作。为了便于设计与开发特定模型，我们基于 diffusers 库构建了几个易于定制化的仓库。首先是 SimpleSDM，它基于 Stable Diffusion Model 1.5，专注于图像生成任务，项目地址为：https://github.com/haoningwu3639/SimpleSDM。接着是 SimpleSDM-VIDEO，基于 ZeroScope-v2，用于视频生成，其链接为：https://github.com/haoningwu3639/SimpleSDM-VIDEO。另外还有 SimpleSDXL，基于 SDXL 模型，同样支持高质量的图像生成，访问地址为：https://github.com/haoningwu3639/SimpleSDXL。这些仓库的主要目标是从 diffusers library 中提取出与上述三个模型训练和推理相关的代码，并进一步集成了 DDIM inversion 功能以及 accelerator 库的分布式训练和混合精度推理能力。通过这样的优化，我们希望为对扩散模型感兴趣的朋友们提供一些帮助。无论是关于代码仓库的改进建议，还是围绕生成式模型展开的技术讨论，我们都热烈欢迎各位专家与爱好者积极参与交流。期待与大家一起探索扩散模型的无限可能！

举报有用（6）分享收藏

CVPR2024接收的开放式视觉故事生成模型是什么？

1个回答

ᴘɪɴᴋ

热门话题

相关问题