AI 播客新王者?MOSS-TTSD 现已上线模力方舟
发布时间:2025-08-05 17:45 浏览量:2
在传统语音合成模型还停留在「一句话说得顺」时,模力方舟上线的新模型MOSS-TTSD-v0.5,已经实现了更进一步的能力:多角色自然对话语音的合成与克隆,在线体验链接:https://ai.gitee.com/serverless-api?model=MOSS-TTSD-v0.5。
MOSS-TTSD-v0.5由清华大学语音与语言实验室 (Tencent AI Lab) 联合上海创智学院、复旦大学和模思智能打造,是一款专为对话生成场景设计的语音合成模型。无论你是要做数字人播报、播客创作还是语音助手对话生成,MOSS-TTSD都能带来更逼真的多角色语音体验。
适合已有多角色对话音频的场景。上传一段包含多个角色的合成音频,以及带 [S1]、[S2] 角色标注的文本,模型将自动提取并区分每个角色的音色,生成完整的多角色语音内容。
适合从零构建多角色语音的场景。分别为每个角色上传参考音频和文字脚本,模型针对每个角色单独提取音色特征,并根据合成文本中的角色标签进行精准匹配与合成。
MOSS-TTSD基于Qwen3-1.7B-base模型进行训练,采用完全离散化的方式建模语音序列。整个流程如下:
首先使用自研的 XY-Tokenizer 对参考语音进行编码,生成低比特率语音 token;然后通过自回归模型配合 Delay Pattern,对 token 序列进行建模与生成;最后由 Tokenizer 的解码器将语音 token 还原为真实语音。这一结构使得模型能够对语义与声学信息进行统一建模,在节奏、韵律、语气变化等对话表达维度具备较强的生成能力。
XY-Tokenizer是MOSS-TTSD的关键模块,具有以下特点:
使用双路 Whisper 编码器进行语音特征提取;采用 8 层 RVQ 量化方式,压缩为 1kbps 的极低比特率;训练过程中分为两个阶段,第一阶段同时训练 ASR 与重建任务,编码语义与粗粒度声学信息;第二阶段冻结编码器和量化器,仅训练解码器,通过重建损失和 GAN 损失进一步恢复细节。
在 LibriSpeech 测试集上的对比评估中,XY-Tokenizer 在语义对齐(WER)与音质表现(PESQ、STOI)方面,在同等比特率 Codec 中取得最优或次优成绩,展现了极强的综合建模能力。
此外,团队还扩展训练了 50 万小时无标注语音数据以增强模型对复杂语音场景的编码能力,支持最长 960 秒音频的一次性生成,避免拼接带来的不自然衔接。
为了支撑MOSS-TTSD的大规模训练,团队构建了高效的数据处理流水线,从海量音频中自动筛选单人语音与多人对话,结合自研说话人分离模型与 Whisper-d 系列工具,实现高质量语音与文本的对齐标注。
模型先使用 110 万小时中英文 TTS 数据进行预训练,获得扎实的韵律建模与零样本音色克隆能力;随后在超过 40 万小时的真实与合成对话语音上继续训练,进一步提升多说话人切换准确性与中文语音断句能力。最终模型由人工听感评估选出最优权重,表现自然、流畅、富有表现力。
建议上传 16kHz 单声道 WAV 或 MP3 格式音频;文本需准确反映音频内容,角色标签需使用标准格式(如 [S1]);保证音频和文本的一致性,有助于显著提升语音合成质量;单音频模式适合快速构建已有对话的语音克隆,角色音频模式适合构建清晰分离的角色风格。MOSS-TTSD-v0.5现已上线模力方舟,支持在线体验和 Serverless API 调用。欢迎点击文末阅读原文:https://ai.gitee.com/serverless-api?model=MOSS-TTSD-v0.5,体验一个不仅能合成语音,更能合成对话的模型。