开源|MeiGen-MultiTalk:基于单张照片实现多人互动演绎
发布时间:2025-06-26 21:57 浏览量:2
近日,美团推出了音频驱动的多人对话视频生成框架MultiTalk,并在 GitHub上开源 ,首创L-RoPE绑定技术,通过标签旋转位置编码精准解决多音频流与人物错位难题。该框架创新性地采用局部参数训练+多任务学习策略,在保留复杂动作指令跟随能力的同时,实现自适应动态人物定位。只需输入多人音频流、参考图像和文本提示,即可生成口型精准同步、肢体自然的交互视频,可支持影视制作、直播电商等场景的工具升级。
本文目录一、引言:超越“会说话的头”——AI人像视频的下一个前沿
二、MultiTalk的框架图:如何实现AI对话视频生成
2.1 基础模型结构:DiT与3D VAE
2.2 让AI“说话”:单人音频集成
2.3 核心挑战:当多重声音让AI“困惑”
2.4 让AI“交谈”:L-ROPE实现无缝多人物绑定
2.5 训练策略
2.6 长视频生成
三、MultiTalk实战:性能表现
四、总结与展望
五、更多效果展示
六、关于美团视觉智能部
如果给你一张图片,再给你一段语音,怎么能让它们完美融合在一起,让图片中人物自然说话和做动作,甚至多人之间还能互动起来呢?近日,美团视觉智能团队在GitHub上开源了一款产品 MeiGen-MultiTalk ,它就非常巧妙地解决了这个问题。先上视频,看一下它实力如何:
1. 输入图像+对话语音注:图像和音频均由AI生成。
2. 使用MultiTalk生成视频
不仅仅是这种风格,还有很多其他很多类型的融合,让小猫说话,给动画片配音,甚至还让双人对唱,它也表现的相当不错。感兴趣的同学可直接划到文末去看看效果。展示完毕,接下来就是最重要的部分,上链接! 一、引言:超越“会说话的头”——AI人像视频的下一个前沿当前,人工智能在视觉内容生成领域取得了令人瞩目的进展,尤其是在音频驱动的人像视频方面。无论是“会说话的头”还是“会说话的身体”技术,都已能够从音频信号生成与面部动作高度同步、视觉质量令人满意的视频。这些技术在模拟单人讲话方面表现出色,例如在虚拟主播或数字替身等应用中展现出逼真的效果。
然而,现有方法在处理更复杂的场景时,其局限性也日益凸显,面对多人对话视频生成时面临三大挑战:
多音频流输入适配 :如何区分并绑定不同人物的音频信号? 动态人物定位 :当人物在画面中移动时,如何精准定位其运动区域? 指令遵循能力 :如何让生成的视频严格遵循文本描述的复杂动作( 如大幅肢体动作 )? 这些挑战促使研究人员思考,AI人像视频的下一个前沿究竟在哪里。从最初仅关注面部表情的“会说话的头”,到能够模拟全身动作的“会说话的身体”,再到如今MultiTalk所提出的“多人物对话视频生成”,这清晰地揭示了AI人像视频领域从关注局部细节到全身动作,再到模拟复杂社会互动的演进趋势。这种演进不仅仅是技术能力的简单提升,更体现了对真实世界复杂性模拟需求的增长,以及AI在内容创作中扮演更高级角色的潜力。用户对AI生成内容的“真实感”和“复杂性”要求越来越高,简单的“动起来”已不足够,现在需要AI能够“自然地互动”并“理解和执行复杂指令”。 二、MultiTalk的框架图:如何实现AI对话视频生成MultiTalk实现音频驱动的多人物对话视频生成的技术框架,如下图2所示:
| 2.1 基础模型结构:DiT与3D VAE
MultiTalk以DiT( Diffusion-in-Transformer )为基础的视频扩散模型作为其核心骨架。DiT模型因其在图像和视频生成方面的卓越性能而备受关注,它用Transformer结构替代了传统的U-Net,能够更好地捕捉长距离依赖关系。
为了高效处理视频数据,MultiTalk集成了3D变分自编码器( VAE )。3D VAE能够对视频数据在空间和时间维度上进行压缩,将高维原始视频数据编码成更紧凑的潜在表示。这种压缩大大降低了后续扩散模型的计算负担,同时保留了关键的视觉信息。
首先,使用文本编码器,将用户输入的文本提示( 例如“一个男人和女人正在舞台上唱歌” )转化为文本条件嵌入,指导视频内容的生成。其次,通过CLIP图像编码器提取的全局上下文信息也被注入到DiT模型中。这些图像上下文与文本条件通过解耦的交叉注意力机制协同作用,为生成视频提供视觉和语义指导,确保生成内容与参考图像和文本提示保持一致。| 2.2 让AI“说话”:单人音频集成
基础的图像到视频( I2V )扩散模型通常不原生支持音频输入。为了让模型能够“说话”,MultiTalk在每个DiT块的文本交叉注意力层之后,添加了新的层,这些层包含层归一化和音频交叉注意力机制,专门用于处理和整合音频条件。
在音频嵌入的提取与上下文整合方面,MultiTalk采用了Wav2Vec,这是一种广泛使用的音频特征提取器,能够将音频波形转换为高维的音频嵌入。在音频驱动的人体视频中,当前时刻的动作不仅受当前音频帧影响,也受前后音频帧的影响。因此,MultiTalk遵循现有方法,将与当前帧相邻的音频嵌入进行拼接( 通过上下文长度k参数控制 ),形成更具时间上下文信息的音频嵌入,以更好地捕捉语音的动态变化。
一个重要的挑战是,由于3D VAE对视频数据进行了时间压缩,视频潜在空间的帧长度通常比原始音频嵌入的帧长度短,这使得两者之间无法直接进行帧对帧的交叉注意力计算。为了解决这种时序长度不匹配的问题,MultiTalk使用了一个音频适配器。该适配器通过一系列操作对音频嵌入进行压缩和对齐:首先将输入音频嵌入分割为初始帧和后续帧;然后对后续帧进行下采样;接着分别通过多个MLP层编码初始帧和下采样后的后续帧;将编码后的特征拼接起来;最后,再次通过MLP层对拼接后的特征进行编码,从而获得与视频潜在空间帧长度匹配的压缩音频条件。音频适配器解决了视频和音频数据固有的时间粒度不匹配问题,确保了信息流的顺畅,使得不同模态的数据能够高效地在同一框架内进行交互。
| 2.3 核心挑战:当多重声音让AI“困惑”
与单人视频相比,多人物对话视频生成带来了多重复杂性,这些是现有方法无法解决的。首先,对话场景中,音频信号来自多个人物,模型需要能够同时、独立地处理这些不同的音频流,这是“多流音频输入处理”的挑战。其次,也是最核心的挑战之一,是“音频与人物的精确绑定”。必须确保视频中的每个人物只由其对应的音频流驱动,以防止唇形同步错误地出现在所有人物身上,导致不自然的“齐声说话”现象,这在真实对话中是极不自然的。最后,生成视频中的人物是动态的,他们的位置和姿态会随着对话和动作而变化。这要求模型具备一种“自适应方法”,能够精确追踪每个人物在视频帧中的运动区域,以便将音频准确地映射到正确的视觉区域。在探索多流音频注入方案时,MultiTalk尝试了多种直觉性的方法,如上图3所示。但多数都未能有效解决音频与人物的绑定问题,这凸显了问题本身的复杂性,并非简单的拼接或分割就能解决。最初的尝试包括:
直接拼接多流音频嵌入 :将多流音频的嵌入直接拼接起来,然后与视频潜在空间进行交叉注意力计算。然而,这种方法未能将拼接后的多流音频与视频中对应的特定人物区域绑定,导致混乱的同步。 分别计算后相加 :分别计算每个音频流与视频潜在空间的交叉注意力结果,然后将这些结果相加。然而,这种方法同样未能解决绑定问题,模型无法区分哪个音频应该驱动哪个人物。 分割视频潜在空间(左右区域) :考虑到视频中人物通常位于左右两侧,MultiTalk尝试将视频潜在空间简单地分割成左右两部分,并让每个部分与对应的音频流计算注意力。虽然这种方法在一定程度上成功绑定了多流音频到不同人物,但其泛化能力极其有限。它仅适用于人物动作范围很小的视频;一旦人物出现大范围移动或交叉,这种简单的空间分割就会导致音频绑定失败。 这些传统方法失败的根本原因在于它们缺乏自适应的对动态主体进行定位的能力。直接拼接、简单相加或基于固定空间位置的分割,无法让模型理解哪个音频流应该对应视频中哪个动态变化的人物。缺乏这种深层的“人物感知”和“语义绑定”机制,导致了“错误绑定”——所有人都同步说话,这在对话场景中是极不自然的,严重影响了生成视频的真实感和可用性。| 2.4 让AI“交谈”:L-ROPE实现无缝多人物绑定
为了解决这个问题,MultiTalk提出了L-ROPE。在应用L-ROPE进行音频绑定之前,MultiTalk首先需要解决一个基础问题:如何在视频中动态地识别并追踪每个人物的位置。给定包含多个人物的参考图像,模型首先识别出每个人物的掩码区域以及背景掩码。在DiT模型中,视频的第一帧通常作为参考图像。MultiTalk利用“参考图像到视频的自注意力图”。如图4a)所示,通过计算视频潜在空间中每个Token与参考图像中每个人物掩码的平均相似度,模型能够得到一个相似度矩阵。利用这个相似度矩阵,模型可以自适应地确定视频中每个潜在Token属于哪个人物或背景,从而实现了对每个人物的动态定位和追踪。
Label Rotary Position Embedding ( L-ROPE )是MultiTalk的核心创新,它基于ROPE(Rotary Position Embedding)的思想。ROPE是一种在大型语言模型( LLMs )和视频扩散模型中广泛使用的相对位置编码技术,以其在捕捉Token间关系和处理时空信息方面的卓越能力而闻名。L-ROPE的创新之处在于,它将“类别标签”融入到位置编码中,从而在DiT块的音频交叉注意力层中,实现了多流音频与多个人物的精准绑定。
在标签分配策略上,视频潜在空间包多个类别,比如多个人物和背景的区域。MultiTalk为每个人物分配了一个特定的数值范围作为标签( 例如,第一个人物的视觉标签范围是{0-4},第二个人物是{20-24} )。视频潜在空间中每个Token的最终标签,是根据其与对应人物掩码的相似度,通过归一化函数在这个范围内计算得出的。背景区域则被赋予一个静态标签,以确保它不与任何音频流关联,避免背景元素被音频驱动。对于多流音频嵌入,MultiTalk首先将它们拼接起来,然后为每个音频流分配一个静态的、唯一的标签。为了与视频中的人物绑定,这些音频标签被精心选择,与对应人物的视觉标签范围“接近”或“匹配”( 例如,第一个音频流标签为2,第二个音频流标签为22 )。
L-ROPE的特点在于它将“类别信息”( 哪个像素属于哪个人物类或背景类 )巧妙地融入了“位置编码”中。传统的ROPE处理的是纯粹的时空位置信息,而L-ROPE则更进一步,将“类别”信息编码进去。它使得模型能够区分场景中的不同个体。在音频交叉注意力机制中,Q( 来自视频潜在空间 )和K( 来自多流音频嵌入 )都经过L-ROPE处理。通过这种带有语义标签的旋转,当视频潜在空间中某个区域( 例如,对应人物1的区域 )的标签与音频1的标签“匹配”时,它们之间的注意力权重就会被有效激活,从而强制模型将音频1的驱动作用集中到人物1身上,解决了不正确的绑定问题,如图4c)。这种策略能够有效激活音频交叉注意力图中的特定区域,从而确保音频与对应人物的唇形和动作精确同步。
为了验证L-ROPE的有效性,论文进行了一项消融研究,重点关注标签范围的选择。实验结果( 如下表3所示 )表明,即使为不同人物选择不同的标签范围,所产生的性能指标接近。这说明L-ROPE对具体的标签范围变化不敏感。
| 2.5 训练策略
MultiTalk框架采用了多项训练策略,这些策略共同确保了模型在多人物场景下的高性能、精确的音频同步以及指令遵循能力。
1. 两阶段训练:循序渐进的技能提升
MultiTalk的训练过程被划分为两个阶段,旨在逐步增强模型的音频处理和唇形同步能力。第一阶段的主要目标是开发模型对单人视频的强大能力,此阶段模型使用单人说话视频数据集进行训练。在模型掌握了单人视频能力之后,进入第二阶段。第二阶段使用专门收集的包含双流音频的训练数据,以促进模型学习多人物视频和交互。
2. 部分参数训练:精准调优,避免退化
这是MultiTalk训练中的一个关键策略。在整个训练过程中,研究者仅更新音频交叉注意力层和音频适配器中的网络参数,而冻结了所有其他基础模型的网络参数。论文发现表明,在计算资源和数据量有限的情况下,如果进行全参数训练,会导致模型指令遵循能力的显著下降( 特别是对于复杂的动作和人物交互 ),甚至可能引起生成视频中手部和物体变形等视觉伪影。相反,通过仅训练与音频输入直接相关的特定层,MultiTalk能够很好地保留基础模型原有的强大指令遵循能力,并避免了上述视觉退化问题。
3. 多任务训练:丰富场景理解,强化指令遵循
MultiTalk采用了多任务混合训练范式,将模型训练任务分为音频+图像到视频( AI2V )训练和图像到视频( I2V )训练。尽管任务不同,但它们共享相同的网络参数。在AI2V任务中,模型同时使用参考图像和音频作为条件输入,专注于学习音频驱动的唇形同步和动作生成。在I2V任务中,音频条件被移除( 通过将音频嵌入置零 )。I2V任务使用的训练数据是独特的,主要包含大量多事件视频。这些视频涵盖了人物、物体和场景之间复杂的交互,例如人物拿起杯子、与环境互动等。这种多事件数据集对于确保模型能够准确理解和执行文本提示中描述的复杂动作和交互至关重要。论文指出,如果仅使用说话的头和身体数据进行AI2V训练,网络的指令遵循能力会显著削弱。然而,通过将I2V训练纳入多任务范式,模型能够有效地保留其强大的指令遵循能力,从而生成更符合用户意图的视频,如下图5所示。这种策略体现了泛化与鲁棒性,即通过多任务训练,在保持特定任务能力的同时,增强模型的通用理解和指令遵循能力。
| 2.6 长视频生成
尽管MultiTalk模型能够生成高质量的短视频( 例如3-5秒 ),但这对于实际应用场景( 如制作电影片段、直播内容 )来说远远不够,因为这些场景通常需要持续更长的视频。为了突破单次生成长度的限制,MultiTalk引入了一种基于自回归( Autoregressive )的方法来生成长视频。将之前生成视频的末尾部分作为条件,来生成新的视频片段,从而实现时间上的连续性和扩展。
在具体的实现机制上,传统的图像到视频( I2V )模型通常只使用视频的第一帧作为生成后续帧的条件。MultiTalk在此基础上进行了关键改进。在生成新的视频片段时,它不再仅仅依赖第一帧,而是将先前已生成视频的最后5帧作为额外的条件输入到当前的推理步骤中。这使得模型能够“记住”并延续之前的动作和场景状态。这些作为条件的5帧视频,首先会通过3D VAE进行压缩,将其转化为更紧凑的2帧潜在噪声表示。随后,为了匹配DiT模型的输入格式,新的视频帧( 除了从历史信息得来的2帧潜在噪声 )会用零填充。这些填充的帧、来自历史信息的潜在噪声以及一个视频掩码被拼接在一起,形成完整的输入。最终,这个包含历史上下文信息的输入被送入DiT模型进行推理,生成新的视频片段。下面视频展示了生成结果的流畅性。
1. 输入图像+对话语音注:图像和音频源于《破产姐妹》
三、MultiTalk实战:性能表现MultiTalk的性能通过广泛的实验进行了验证,包括与现有最先进方法的定量和定性比较,充分展示了其在多人物对话视频生成方面的能力。
在数据集与评估指标方面,MultiTalk的训练数据集在第一阶段使用了约2K小时的单人说话视频,用于学习基础的音频驱动视频能力;第二阶段则使用了100小时的双人对话视频,用于专门训练多人物交互和绑定。MultiTalk在三类不同的测试数据集上进行了评估:说话的头数据集( HDTF 和 CelebV-HQ )、说话的身体数据集( EMTDT )以及双人说话身体数据集( MTHM )。评估采用了行业内通用的多维度指标:FID ( Frechet Inception Distance ) 和 FVD ( Fréchet Video Distance ) 用于评估生成数据质量;E-FID ( Expression-FID ) 用于评估生成视频中面部表情的表现力;Sync-C 和 Sync-D 用于精确测量生成视频中唇部动作与音频的同步程度。
在定量评估中,MultiTalk在说话的头和说话的身体生成任务上,与AniPortrait、VExpress、EchoMimic、Hallo3、Sonic、Fantasy Talking等多个最先进的方法进行了对比。结果显示,MultiTalk在大多数指标上超越了这些方法,尤其在唇形同步( Sync-C, Sync-D )和视频质量( FID, FVD )方面表现出卓越性能。
此外,我们还专门探讨了多流音频训练是否会导致单人视频性能下降的问题( 具体可以参考 论文 )。实验结果( 表1和表2中“MultiTalk-single”与“MultiTalk-multiple”的对比 )显示,MultiTalk的多人视频模型在单人数据集上表现与单人视频模型相当。这表明,MultiTalk在引入多人物处理能力时,并未牺牲原有的单人视频性能,实现了能力的无损叠加。
在定性评估中,MultiTalk取得了不错的效果,如下图6所示。其显著优势之一是强大的指令遵循能力。当提供复杂的文本提示( 例如“一个男人合上笔记本电脑并放在桌上”、“一个女人戴着耳机坐在桌旁,然后她拿起耳机” )时,MultiTalk能够成功生成精确响应这些指令的视频,而其他同类方法则难以做到,往往出现动作不符或物体变形。MultiTalk生成的视频中,视觉伪影( 如手部或物体扭曲 )显著减少,整体视觉质量更高,画面更自然真实。作为首个专门针对多人物生成任务设计的方法,MultiTalk在处理复杂的交互场景时表现出色。与简单的“视频拼接”方法( 即将左右人物视频分别生成再拼接 )相比( 如下图7所示 ),MultiTalk能够有效处理人物间的互动,避免了拼接方法中常见的左右片段不一致性问题,使得多人物对话和互动更加流畅自然。论文还通过可视化自注意力图,直观地展示了MultiTalk能够自适应地识别视频中特定人物的定位,这进一步证明了L-ROPE方法在实现精确音频绑定方面的有效性。
MultiTalk提出一种音频驱动多人物对话视频生成方案,其核心突破在于其创新的L-ROPE方法,它通过结合自适应人物定位和带有类别信息的标签编码,有效解决了多流音频的注入和人物绑定这一难题。此外,其精心设计的部分参数训练和多任务训练策略,确保了模型在有限资源下依然能够保持强大的指令遵循能力和高质量的视觉输出。
MultiTalk的诞生,预示着其在多角色电影制作、虚拟直播、游戏开发、教育内容创作等领域具有广阔的应用前景。我们深信,未来它将极大地降低多角色视频的制作门槛,使个性化、交互式内容创作变得更加高效和便捷。尽管仍存在真实音频与合成音频的性能差距等局限,但MultiTalk为未来的研究指明了方向。我们期待MultiTalk及其后续研究能够进一步推动AI在模拟和创造复杂人机交互方面的能力,使数字世界中的人物更加栩栩如生。
现在,MultiTalk已经在GitHub上 开源 ,欢迎更多的同学加入我们,一起共建。 五、更多效果展示示例01:输入图像+音频文件
注:图像和音频由AI生成
示例02:输入图像+音频文件
注:图像和音频源于《Minions》
示例03:输入图像+音频文件注:图像和音频由AI生成
示例04:输入图像+音频文件
注:图像由AI生成,音频源于《You Are The Reason》
六、关于美团视觉智能部美团视觉智能部围绕丰富的本地生活电商场景,建设从基础通用到细分领域的视觉技术能力,包括:视觉生成大模型、多模交互虚拟人,助力营销创意生产和商家低成本直播;文档、商品、安全多模态大模型,助力商家开店经营、平台商品治理和违规账号治理;人脸识别、文字识别、细粒度图像分析、高性能检测分割、街景理解,成为公司基础设施能力。
视觉智能部 曾开源行业最大规模 食品图像数据集Food2K 被全球各地区上百家机构使用, 目标检测框架YOLOV6 荣登2023年度世界开源贡献榜,获得10+项国际竞赛冠军,上百项发明专利,60+篇顶会顶刊论文。曾与国内多家知名科研机构合作,多次获得省部级科技进步奖项。