昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周

发布时间:2025-08-11 22:19  浏览量:2

让甄嬛像李佳琦一样带货?这个视频模型做到了。


作者|Li Yuan

编辑|郑玄

笔者最近的 guilty pleasure,是沉迷于刷《甄嬛传》的二创和解析视频。

刷着刷着,就发现了一个有趣的现象:现在用《甄嬛传》的原声直接给产品打广告,已经成了一门新显学。前一秒祺贵人还在说「臣妾要告发熹贵妃私通」,后一秒可能就在用同样的声线推荐某款咖啡。而且,和早年的 AI 视频不一样,现在祺贵人的嘴型都已经可以对准地相当自然了。

不过,虽然在一两句台词上已经以假乱真了,只要超出一两句的范畴,「娘娘带货」基本上还是翻车的。

现有技术生成的视频,一旦拉长时间,各种问题就暴露无遗:人物的动作和手部常常僵硬扭曲,与商品或环境的交互极不自然;画面质量会随着时间推移出现视觉伪影甚至「崩坏」;镜头语言更是死板单一,无法满足专业场景需求。

用这种技术生成一两句带货视频插在一个长视频里,是猎奇的亮点,但真要让「安陵容」完整地唱一支 MV,或者让「皇后娘娘」做一场半小时的直带货,观众很快就会因为这些挥之不去的瑕疵而感到疲劳,就算是《甄嬛传》这样的顶级 IP 也拉不住。

不过,AI 的进展,当然是很快的。你永远可以相信 AI 的发展速度。

8 月 11 日,昆仑万维就正式发布其在 AI 视频生成领域的最新力作——SkyReels-A3模型,似乎就是为了精准解决上述所有问题而来。

据悉,昆仑万维 Skywork AI 技术发布周正式启动,8 月 11 日至 8 月 15 日,每天将发布一款新模型,连续五天发布覆盖多模态 AI 核心场景的前沿模型。

基于 DiT(Diffusion Transformer)视频扩散模型,只需要输入参考图像/视频,文本 prompt 和音频,SkyReels-A3 模型就能生成长达一分钟的可以用文本控制的数字人视频。

SkyReels-A3 模型专门对手部动作交互、运镜控制和美感表达进行了增强,瞄准的是包括口播导购带货、MV/演讲等情景。

当前 SkyReels-A3 模型已上线,欢迎登录 SkyReels 官网体验,登录后在左侧导航栏中选择 Talking Avatar 工具。

这意味着,娘娘们也能带货了?

01

直播介绍商品可用,

和物体交互十分自然

在 SkyReels-A3 模型生成的视频中,笔者注意到一个很大的特点是,生成的数字人可以和物体进行自然的交互。

比如在这个桌游带货的场景中:

这段 SkyReels-A3 生成的桌游介绍视频中,桌游盒子保持了很好的前后一致性,主播和桌游的交互也很自然。桌游本身封面如下图:

虽然看着容易,但其实在测试中,其他模型的生成效果,很可能是这样的:

SkyReels-A3 之所以能让数字人自然拿起桌游,主要是对广告主播等业务场景,进行了手和商品的交互优化。

SkyReels-A3 直接针对手部动作的自然度和清晰度,构造了针对线上直播等场景的数据,并采用了不同 seed 和训练过程 ckpts 来生成大量候选。通过 reward model 来挑选 top-1 最好最差的结果,采用直接偏好学习来进一步优化模型的生成结果。

除了带货,同样的能力,也会让模型在其他方面表现更突出。

比如在下面的 mv 场景中,SkyReels-A3 模型生成的数字人歌星很自然地就握起了话筒,真实感一下子就提升了。

除了与话筒的交互,这个视频也能感受到,整个模型的上肢运动十分自然。

目前可以看到的有些数字人模型,虽然已经能够做好嘴形对齐,但是稍微经过一点时间,就会感觉到只有嘴巴在动,很假。而 SkyReels-A3 已经做到了不错的效果。

02

有美感、无限长的长视频正在解锁

除了能与物体进行自然的交互,要让数字人视频真正摆脱「玩具感」,迈向「生产力」,还必须攻克两大难题:如何让视频在拉长时间后依然保持稳定,以及如何打破固定机位的呆板视角。

而这,也正是为什么现在《甄嬛传》的 AI 二创仍然通常只能在一两句台词的长度内,维持极高的真实感——时间再长,就容易「露馅」。

SkyReels-A3 在此也进行了一些优化。

图丨 Skyreels-A3 实现音频驱动人物对话视频生成技术框架

传统 AI 视频生成,最大的痛点在于误差累积。模型就像一个记性不太好的学生,一句接一句地往下说,说到后面就忘了前面,导致画面出现肉眼可见的劣化、扭曲,也就是常说的「崩坏」。

而 SkyReels-A3 选择采用了一种聪明的插帧方法。简单来说,它不再是傻傻地根据前一帧猜下一帧,而是能预先锚定一个未来的、清晰的「关键帧」,再高质量地补全中间的视频片段。这种机制确保了即使视频长达一分钟,人物的面部和画面也能保持高度的一致性。

这带来了什么直接的好处?简单来说,就是彻底打开了视频时长的枷锁。从技术上讲,这种架构甚至支持无限长的视频生成,虽然在实际产品部署中可能会限制单次上传的音频文件大小,但生成一段单镜头、分钟级别的视频已经毫无压力。

如果说长时稳定解决了「能不能看」的问题,那么丰富的镜头语言则决定了视频「好不好看」。

以往的数字人视频多是「大头贴」式的固定视角,非常乏味。SkyReels-A3 则内置了一个基于ControlNet 的镜头控制模块,直接赋予了创作者「导演」的权力。根据其技术文档,模型预设了推镜 (push in)、拉镜 (push out)、左摇 (pan left)、右摇 (pan right) 等 8 种常见的专业运镜,且每种运镜的强度都可以从 0 到 100 连续调节。

从左到右的运镜在直播带货的场景下,显得更自然。

手持镜头效果则可以模拟 vlog 的效果。

虽然生成完全的长视频,数字人技术目前仍然不能完全以假乱真。但笔者在看完在 SkyReels-A3 时长和运镜上取得的突破后,已经看到了未来的潜力。

一个稳定、可控、具备镜头感的长视频数字人,已经足以叩开许多过去难以想象的应用场景的大门。短期内,上半身自然的长视频数字人,似乎可以被用在 mv 等场景中。未来,则更不可限量。

03

昆仑万维技术周重磅推出,

SkyReels-A3 首日亮相

昆仑万维此次还公布了 SkyReels-A3 的技术指标。使用了基准 A-Bench 上(涵盖日常对话,唱歌和口播等不同场景),测评了多个维度:Sync-C 和 Sync-D 用于精确测量生成视频中唇部动作与音频的同步程度。IQA 和 ASE 则是通过专门训练的 MLLM 来评估视频画面的质量和艺术性。ID similarity 则是通过 cosine 相似度,计算生成视频和参考图/视频的人脸相似度。

可以看到,SkyReels-A3 在衡量唇部同步精准度的 Sync-C 指标,画面的艺术性和人脸相似度上,都达到了行业先进的水平。

实际上,SkyReels-A3 这样一个在多个维度上都带来惊喜的模型,仅仅是昆仑万维本周技术发布会的「开胃菜」。它背后所展现的,是昆仑万维作为中国 AI 领域第一梯队的深厚积累与全栈能力。

回望过去,昆仑万维的 AI 战略始终呈现出「开源贡献」与「产品落地」双线并进的鲜明特色,这使其不仅成为勤勉的「基础设施建设者」,更是锐意进取的「顶尖产品经理」。

一方面,作为「基础设施建设者」,昆仑万维以持续的顶尖开源模型,为行业「修路搭桥」,彰显其技术硬实力。

过去数月,昆仑万维密集开源了多个在行业内取得 SOTA(State-of-the-Art)成就的大模型:

早在 2025 年 2 月,其开源的中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,便已在 Hugging Face 总排行榜上连续多日稳居前十。今年 4 月,更是发布了全球首个使用扩散强迫框架的无限时长电影生成模型 SkyReels-V2,不断突破技术边界。

除此之外,在多模态领域,其不仅推出了成功将强文本推理能力迁移至视觉模态的思维链推理模型「Skywork-R1V」系列,还发布了集图片生成、理解和编辑于一体的化模型「Skywork UniPic」,以 1.5B 的轻量级规模性能逼近同类大参数模型。

针对专业领域的挑战,昆仑万维也毫不示弱,其数学代码推理模型「Skywork-OR1」在同等参数规模下实现了业界领先的推理性能。而软件工程自主代码智能体基座模型「Skywork-SWE」也是在开源 32B 模型规模下实现了业界最强的仓库级代码修复能力。不仅如此,昆仑万维还前瞻性地布局了空间智能领域,推出了工业界首个开源的 10B+空间智能大模型「Matrix-Game」。

另一方面,作为「顶尖产品经理」,昆仑万维毫不掩饰其商业雄心,亲自下场打磨直面用户痛点的惊艳产品,将最前沿的技术迅速转化为生产力。

集成了视频大模型与 3D 大模型的 AI 短剧平台 SkyReels,搭载了最新的 SkyReels-A3 模型,让创作者能够「一键成剧」,轻松制作高质量 AI 视频。

当第一天的发布就已经为 AI 数字人视频的种种顽疾提供了如此有说服力的解法,我们不禁对未来充满期待:在接下来的四天里,昆仑万维还会拿出怎样的杀手锏?

这场从 8 月 11 日持续到 15 日的技术发布周,或许正是昆仑万维在向外界宣告——其 AI 全栈能力已然成熟,并且准备好在牌桌上亮出更多底牌。对于整个行业和所有 AI 关注者而言,好戏,才刚刚开始。

*头图昆仑万维

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你觉得 SkyReels-A3 模型怎么样?

听雷总的!何小鹏称,全新小鹏 P7,将进行 24 小时耐力测试。