AI唱中文歌,终于不怪了!

发布时间:2025-08-15 20:40  浏览量:2

就在刚刚,昆仑万维发布了 Mureka V7.5,一个专门为中文升级的音乐大模型。

老实说,这两年AI做音乐已经卷出了天际——Suno、Udio、Riffusion,一个比一个能唱,特别是英文歌,人声真假难辨,节奏旋律也都挑不出太大毛病。

所以当我看到 Mureka 这个更新的时候,原本也没太在意。直到我注意到一件事:

和很多模型强调“多语言支持”“风格多样化”不同,Mureka 这次反而把重点放在了「中文音乐表现」这件事上。

这一下我就来了兴趣。这或许是第一次,有人真的把「中文歌」放在了舞台中央,作为一个目标去打磨。

光有情怀可不行,我们上手实测一下看看实力。

打开「创作音乐」页面,中间栏会看到有三种生成模式:「简单」、「高级」、「音频编辑」

它们的区别大概可以这样理解:

简单模式,适合第一次用 AI 写歌的人。你可以像和朋友聊天一样,把创作想法用自然语言说出来,比如“我想写一首温柔又有点心酸的民谣”,或者“想模仿周杰伦的《晴天》”。它就能自动理解你说的情绪、题材、参考风格,帮你完成整首歌。高级模式,更像是给“熟练创作者”的 Playground。你可以精细控制歌词结构、段落内容,还能选择参考歌曲、指定演唱人声、限制歌曲风格……就像你在和一个专业制作人配合,构建你想要的音乐世界。音频编辑,是整个工具链里最像“DAW(数字音频工作站)”的部分。它目前支持:乐句级别的重新生成延长歌曲时长乐器分轨精确裁剪。非常适合已经生成完成但还想再精修的音乐人。

为了给大家做一个完整的演示,我这里选择的是高级模式。

生成流程也很简单,跟官方的三步法基本一致:

第一步,写歌词。你可以直接粘贴自己写的,也可以用系统自动生成一份草稿再修改。

第二步,选择风格,可以搭配你想要的情绪关键词,也可以上传一段旋律或参考音频作为提示。

第三步,点击“创作”按钮,然后稍等几分钟,你的歌就会生成。

来说几个我们实测时印象最深的case。

比如说,民谣。

我们写了首《凌晨两点的火车站》,送给那些提着行李、还没想好下一站的人。旋律轻快得像夜风掠过站台,歌词一开口就带点温度。我们把它丢进市面上能找到的 AI 唱歌模型里来回试,最后还是这版听着最像深夜有个人在给你清唱。

而换成 R&B,整首歌的氛围立马变了。

好甜,听着歌感觉自己已经恋爱了。

再切到摇滚,前奏电吉他直接炸开,整个编曲冲得很猛,人声情绪也激烈许多。

说真的,整体的输出结果超出我的预期。我专门去翻了下他的技术报告。

这张图,是四个主流模型在「中文歌曲」生成场景下的主观测评分数。统一输入歌词和提示,每个模型各出四首歌,听众盲听投票。

Mureka V7.5 在两个维度都拿下第一:

歌曲质量(Song Quality)得票:34.8%,高于 Suno(27.0%)和 Riffusion(28.9%);提示契合度(Prompt Follow)得票:45.2%,远高于 Suno(27.0%)、Udio(15.9%)。

这是目前唯一一个能在「旋律打动人」和「内容贴合主题」两个方面同时拉开差距的模型。

那它为什么能做到?

因为 Mureka V7.5 在底层做了三件事:

第一,他们在构建模型时并不把音乐当成纯粹的音符序列,而是把它放回了文化语境和语言风格中去理解。整个模型架构围绕中文语境重新训练,从传统民歌、戏曲,到流行金曲和民谣,系统性地捕捉了中文音乐的语义结构和情感走向。第二,在演唱层面,他们引入了一个关键技术:ASR技术反向建模。本质上,是通过对大量真实中文演唱数据的识别和分析,让模型“知道”哪一句该换气,哪一句该断句,哪一段要往后拖一点,甚至模仿真实歌手的唱法细节,比如气音、顿挫、连读、转音。这让 Mureka 生成出来的歌,不只是音色像,而是唱法、节奏、气感都接近真人演唱逻辑。第三,它把“听起来像人唱”这件事变成了训练目标之一。 它在模型优化过程中引入了人类主观听感评分机制:不是机器评估“生成质量”,而是人来评“像不像人唱”。这使得模型会主动规避那些容易暴露AI痕迹的音色特征和情绪处理方式。

我们拿Suno V4.5 和 Mureka V7.5对比一下你就懂了。

歌曲对比

你听到的自然,是因为它懂得“适可而止”,知道什么时候要留白,什么时候不用炫技。

在 Mureka V7.5 的发布里,除了音乐模型本身,昆仑万维还同步发布了一个重要的语音合成技术:MoE-TTS(Mixture-of-Experts Text-to-Speech)。

而它非常重要。可以说,MoE-TTS 是支撑 Mureka V7.5 能唱出“更像人”的关键语音底座之一。

MoE-TTS 的最大创新在于,它将语音控制从传统的标签式模板(如情感=高兴、年龄=青年)彻底解放,转向了开放式自然语言建模。用户不再需要在预设参数里选择,而是可以直接用日常语言来描述目标声音,比如“清澈的少年音带磁性尾韵”这类复杂的、多维度的感知描述。

这背后,是一个由大语言模型(LLM)驱动的语义解析系统。它能够将自然语言拆解为一组高维表达向量,交由多个语音专家模块(Speech Expert Modules)分别建模语音风格、节奏、语气、发音等维度,并最终通过模态路由器(Modality Router)动态聚合输出结果,实现了真正意义上的“按语言思维驱动声音表现”。

从评测结果来看,MoE-TTS 在两类任务上都表现出显著优势:

In-domain 场景下(用户输入的描述语句来自训练语料相似分布),MoE-TTS 与 ElevenLabs、MiniMax 相比,在风格贴合度(SEA)、语音质量(SQ)等核心指标上均保持领先,整体评分几乎稳定在 4 分以上。Out-of-domain 场景下(输入的语义描述从未在训练集中出现过,如比喻、隐喻、复合角色设定等),MoE-TTS 的泛化能力则更为突出,能更好还原语义意图与风格细节。

我们可以拿一个demo更直观地感受一下:

prompt:美国男演员,带有纽约口音,多才多艺,表达能力强,语速富有活力,充满魅力与感染力,吸引着听众的注意。

Mureka V7.5:不仅实现了美式口音的模拟,语调起伏和节奏变化也精准贴合“吸引听众”这一目标语义。

11labs:音色平淡,缺乏应有的节奏张力。

MiniMax:未展现出“个性表达”的能力,缺乏对 prompt 的风格理解。

技术架构上,MoE-TTS 抛弃了传统“一锅炖”式的统一建模逻辑,改为文本与语音解耦 + 多专家并行建模策略。在 Transformer 框架下,各语音专家独立聚焦不同表达维度,参数分别优化,避免模态间互相干扰,显著提升了对模糊、比喻、情绪迁移等复杂语言的理解力。

而且,这种“冻结文本语义 + 多路语音专家”的结构还带来了一个重要收益 —— 语义保持能力更强。模型在微调过程中不会破坏原有的语言表示,从而实现跨模态语义迁移时的“知识零损失”,这是传统 TTS 系统很难做到的。

MoE-TTS 并非孤立成果,而是昆仑万维在「SkyWork AI 技术发布周」上的压轴一作,也是一整套多模态技术体系的收官拼图。

技术之外,MoE-TTS 真正打开的是一片应用空间。它不仅服务于 Mureka 的音乐生成,也天然适配以下这些典型场景:

情绪报(比如哀伤语气播读新闻讣告)个性化阅读(为不同角色定制声音风格)AI对话角色建模(同一个语义,不同身份说法截然不同)影视配音 / 游戏语音包(可写即合成,按剧情语义变声)无障碍阅读(定制特定情绪、性别、年龄的朗读音)

Mureka O1模型与Mureka V6模型自3月底发布以来,收获了全球用户的广泛好评,新增注册用户近300万。

自 8 月 11 日起,他们连续五天推出涵盖视频生成(SkyReels-A3)、世界模拟(Matrix-Game 2.0)、统一多模态模型(Skywork UniPic 2.0)、智能体(Deep Research Agent v2)等关键方向的模型成果,持续推进具备生成、理解与交互能力的多模态架构,同时延续了一贯强调研发开放性与协作共享的技术理念。

说到底,MoE-TTS 并不是为了好听而好听。它更像是昆仑万维在做中文音乐这件事上的一个底层工程。

因为你只要认真做一首中文歌就会发现——光有旋律没用,AI唱得再准、节奏再对,如果咬字不地道、语气不到位、情绪不贴脸,那首歌听起来就是“有点怪”。

而这个“怪”,不是靠调节 EQ 或增加混响能解决的,它是语言与文化之间天然的隔阂。

AI 在大多数赛道卷的是“效率”“准确率”“生成力”。但音乐赛道不一样,它卷的是“谁的文化留下来”。

如果没有人愿意为中文音乐单独修一条路,那么在未来的AI世界里,我们可能连一首像样的歌都没有资格被记住。

这一次,Mureka V7.5 是在拉着中文音乐往前站了一步。它没有去迎合所有语言、风格、市场,而是选择把注意力,扎扎实实地放在了中文音乐身上。

你能听见它唱得越来越像我们。那不是因为模型聪明了,而是因为,终于有一群人,在算力之外,愿意花时间、花心思,把中文的旋律、情绪、韵脚和呼吸,一点点教给 AI。

有些旋律,真的只有中文能唱。

也许,有些歌,AI也该学会,闭上眼睛去唱。