夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
创始人
2025-07-25 12:27:31
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:观察者网)

近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果——OmniAvata,这是一款领先的音频驱动全身视频生成模型,将为视频生成领域带来了革命性的变化。

传统上,音频驱动人体运动的技术多集中于面部运动,缺乏全身驱动能力,且难以进行精确控制。而OmniAvatar的出现,彻底改变了这一现状。只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。不仅如此,该模型还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

此外,长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。

本次突破不仅体现在产品层面,OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入,从而生成更协调、更自然的身体动作来匹配音频。同时,采用多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中,确保模型在不同层次上保持独立的学习路径。

为了解决完整训练和仅微调特定层所带来的问题,团队还提出了一种基于LoRA的平衡微调策略。该策略使用LoRA策略高效地适应模型,使模型能够在不改变底层模型容量的情况下学习音频特征,从而兼顾了视频质量与细节。

OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。

本文系观察者网独家稿件,未经授权,不得转载。

相关内容

热门资讯

千岛群岛附近海域发生7.0级地... 据美国地质调查局地震信息网消息,俄罗斯千岛群岛北库里尔斯克以东约120公里处于北京时间3日发生7.0...
贵州增开多趟列车 (来源:贵阳晚报)据微博@成都铁路12306消息8月3日至11日将增开多趟列车↓↓↓1.8月5至11...
微信“隐藏功能”曝光,网友:太... (来源:贵阳晚报)8月1日,话题“微信支付 遗失提醒”、“怎么不等微信下架再告诉我”相继登上热搜。多...
中东将成全球第二大天然气产区 原标题:中东或将成全球第二大天然气产区文/郑旭晨,中国石化报挪威能源咨询公司Rystad研究显示,2...
中国交建相关公司新增一项264... (来源:快查一企业中标了)快查APP显示,中国交建相关公司中交建筑集团有限公司于2025年8月3日发...
这10个“养生”做法 其实并不... 随着健康理念的传播,很多人都开始关注养生了。关于如何养生,有很多流传甚广的说法,这些说法你要真的跟着...
金徽/孔府宴/名仁苏打水/红四... (来源:云酒头条)云酒头条《酒业招聘》栏目,聚焦行业核心岗位,从生产一线负责人,到深耕区域的招商尖兵...
暴雨高温南北方齐登场   近期,我国天气形势复杂多变。据气象部门预报,未来一周华北、东北及西北地区中东部等地强降水与强对流...
骑手、平台、商家三方共商,簋街... 转自:北京日报客户端8月1日,北京市人力社保局、东城区人力社保局联合北新桥街道,召开簋街商圈外卖生态...
成都世运会官方抵离服务全面启动 8月3日,新加坡运动员在机场提取行李。当日,2025年第十二届世界运动会(简称:“成都世运会”)首个...