Adobe&MIT 新研究:AI 视频边生成边播放,首帧延迟 1.3 秒、生成速度 9.4 帧 / 秒
2024-12-20 11:34:47 小编:正佳软件园
AI 生成视频,边生成边实时播放,再不用等了!Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid。
思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。
如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段 10 秒的视频,往往需要等待好几分钟才可以开始观看。
研究团队表示,这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。
这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。
为此,他们提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。
实验中,CausVid 基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。
研究团队还表示将很快开源基于开源模型的实现代码。
用双向教师监督单向自回归学生模型
如前所述,研究团队通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。
为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从 50 步缩减到仅需 4 步。
DMD 是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD 此前已在图像生成中取得成功,Adobe Firefly 文生图的快速模式就是基于此技术。
本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。
然而,自回归模型有一个核心难题 —— 误差累积。
每一帧视频都基于之前的帧生成,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。
为了解决这一问题,团队提出了非对称蒸馏策略。具体来说:
引入一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。
使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型,提升其后蒸馏训练过程的稳定性。
在训练过程中,针对不同时间点的视频帧施加不同强度的噪声,这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。
通过这种创新性的非对称蒸馏方法,CausVid 显著减少了自回归模型的误差累积问题,并生成了更高质量的视频内容。
这种非对称蒸馏形式中,学生模型和教师模型使用了不同的架构,而这只有在 DMD 风格的蒸馏中才可行。其他方法,例如渐进式蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),都要求学生模型和教师模型使用相同的架构。
下面是自回归扩散视频模型的误差累积示例(左图)和 CausVid 结果(右图)对比:
实验效果如何?
实验中,CausVid 表现惊艳:
首帧生成延迟从 3.5 分钟降至 1.3 秒,提速 170 倍
生成速度从 0.6 帧 / 秒提升至 9.4 帧 / 秒,提升 16 倍
生成质量经 VBench 和用户调查验证,优于主流模型例如 Meta 的 MovieGen 和智谱的 CogVideoX
得益于单向注意力机制,CausVid 完全支持在大语言模型中广泛应用的 KV 缓存推理技术,从而显著提升了生成效率。结合滑动窗口机制,CausVid 突破了传统模型的长度限制。
尽管训练阶段仅接触过 10 秒的视频,CausVid 依然能够生成长达 30 秒甚至更长的视频,其生成速度和质量均显著超越现有方法。
基于自回归生成的特性,CausVid 无需额外训练就能支持多种应用:
图片动画化:将静态图片自然转化为流畅视频,赋予画面生命力。
实时视频风格转换:如将 Minecraft 游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路:未来可能只需渲染基础 3D 几何信息,由 AI 实时补充纹理和光影
交互式剧情生成:用户通过调整提示词,实时引导视频剧情发展,带来全新的创作体验。
- 猜你喜欢
-
棒棒糖甜蜜英雄150.89M软件游戏库
-
包包自走棋安卓版130.24M软件游戏库
-
动物园逃跑计划72.37M软件游戏库
-
touch the dream中文版1020.26M软件游戏库
-
欧布圆环模拟器更新2中文版108.01M软件游戏库
-
荒原曙光1.94G软件游戏库
-
遗忘宝藏231.97M软件游戏库
-
生存启示录终末之日中文版555.18M软件游戏库
-
火山的女儿手游完整版1470.32M软件游戏库
- 相关手机游戏
-
Illusion游戏122.96M软件游戏库
-
铠甲勇士星耀腰带模拟器28.94M软件游戏库
-
极限摩托4完整版v2.14.5安卓版384.13M软件游戏库
-
蓝星公司游戏82.91M软件游戏库
-
角斗士的荣耀游戏最新版70.28M软件游戏库
-
虚拟乒乓球中文版202578.03M软件游戏库
-
kangoo漂移模拟器137.98M软件游戏库
-
代号决战北境官方正版182.7MB软件游戏库
-
3D版重装机兵OL558.10M软件游戏库
- 推荐软件社区
- Epic 宣布联动初音未来,为《堡垒之夜》引入两款全新皮肤
- DNF手游装备可以交易吗 地下城手游装备能自由交易吗
- 燕云十六声易容术怎么玩 易容术玩法介绍
- 《妈妈你真棒》电影如何通过插曲《快来救救我》触动观众心灵:深度解析母爱的力量与情感表达
- Adobe 推出新款生成式 AI 工具,可一键批量编辑 1 万张图像
- 江南百景图赚钱建筑对比 江南百景图店铺赚钱排行
- 鬼谷八荒衣服词条介绍 衣服词条有哪些
- 武则天如何通过“阳滋阴”养生法则保持健康与活力?揭秘她的秘史!
- 英特尔酷睿 Ultra 200S 系列非 K 版桌面处理器国行上架:可选 U5-225/230F、U7-265F,1999 元起
- 曙光英雄曹操怎么出装 曙光英雄曹操出装攻略
- 最新手机精选
-
lovecraftlocker31.1.83最新版2024-12-17软件游戏库 | 155.52M
-
路人娘捕获学院安卓版2024-12-25软件游戏库 | 72.52M
-
模拟山羊年度版不闪退版2025-01-05软件游戏库 | 1071.62M
-
海上餐厅手机版最新版2024-12-25软件游戏库 | 27.34M
-
三国大时代4上帝版9.0武将2024-12-29软件游戏库 | 38.90M
-
植物大战僵尸精华版2025-01-02软件游戏库 | 163MB