Nvidia公布新文本转视频模型基于Stable Diffusion开发！

来源: 站长之家时间：2023-04-21 03:27:17

(资料图)

编程客栈（）4月20日消息:Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调，大大减少了生成视频的过程和时间。

该模型增加了一个时间维度，可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型，以512x1024像素的分辨率生成几分钟的汽车行驶视频，在大多数基准测试中达到SOTA。

注：图片来自Nvidia Video LDM项目截图

除了这个与自动驾驶研究特别相关的演示之外，研究人员还展示了如何将现有的Standroidable Diffusion 型转换为视频模型。

该团队在微调步骤中用视频数据短时间训练Stable Diffusion，然后在网络中每个现有空间层后面添加额外的时间层，并用视频数据对其进行训练。此外，该团队还训练了时间稳定的放大器，以根据文本提示生成1，280x2，048分辨率的视频。

以 Stable Diffusion 作为视频模型的基础，团队无需从头开始训练新模型，可以从现有的能力和方法中获益。例如，尽管使用的 WebVid-10M 数据集仅包含真实世界的视gHflZh频，基于底编程层的Stable Diffusion模型，该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。

研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。，生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性，他们可以使用 DreamBooth 进行视频创作。

注:Dreambooth 是对整个神经网络所有层权重进行调整，会将输入的图像训练进 Stable Diffusion 模型，它的本质是先复制了源模型，在源模型的基础上做了微调（fine编程客栈tunning）并独立形成了一个新模型。

Nvidia Video LDM项目页面上有更多示例，不过该模型目前尚未对外开放。

项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

标签：

上一篇：台工总访陆寻求更多合作空间环球观热点

下一篇：好听的外号女生霸气_好听的外号女生每日消息

为您推荐

天天快看：四川省达州市大竹县7天产假是几号？

正常产假98天，最多可休158天。法律规定：《四川省人口与计划生育条例》第二十六条：符合本条例规定生育子女的夫妻，除法律、法规规定外，延长

来源：法师兄时间：2023-01-10
火箭科学和官僚主义——2022年国外航天发射的一些事件回顾

火箭科学和官僚主义——2022年国外航天发射的一些事件回顾作者：JeffFoust（thespacerview），编译：杨庭辉就发射活动而言，2022年是

来源：程序员客栈时间：2023-01-09
今日观点!兰州石化生产经营业绩“高歌猛进”

中国石油网消息（记者徐雪萍）2022年，兰州石化公司紧盯市场需求变化，动态调整产品结构，在疫情对成品油市场的冲击下，仍保持稳字当头、稳中

来源：中国石油报时间：2023-01-09
猫咪吃得少怎么办猫吃东西特别少怎么办

1、禁食一天或者半天，多多观察。一些猫咪因为食物只吃猫粮，当宠物主人去喂食的时候它还没有饿，所以它不爱吃，就算吃也吃的很少，或者不吃，

来源：时间：2023-01-09
中央纪委国家监委通报6起典型案例重庆合川区一宗案例上榜-全球热消息

中央纪委国家监委通报6起典型案例重庆合川区一宗案例上榜

来源：时间：2023-01-09

天天快看：四川省达州市大竹县7天产假是几号？

火箭科学和官僚主义——2022年国外航天发射的一些事件回顾

今日观点!兰州石化生产经营业绩“高歌猛进”

猫咪吃得少怎么办 猫吃东西特别少怎么办

中央纪委国家监委通报6起典型案例 重庆合川区一宗案例上榜-全球热消息

猫咪吃得少怎么办猫吃东西特别少怎么办

中央纪委国家监委通报6起典型案例重庆合川区一宗案例上榜-全球热消息