通义千问 Qwen3-TTS 正式发布： 97ms 超低延迟，支持语音克隆和语音设计 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

通义千问团队发布了 Qwen3-TTS ，一个开源的文本转语音（ TTS ）模型系列，在语音生成质量和速度方面都有显著提升。

介绍： https://qwen3ttsai.com/ ，包含完整的产品介绍、在线体验、技术文档和使用指南。

官方推文： https://x.com/Alibaba_Qwen/status/2014326211913343303

核心亮点

97ms 超低延迟：端到端合成延迟低至 97ms ，支持流式生成，单个字符输入后即可输出首个音频包
3 秒快速语音克隆：仅需 3 秒音频即可克隆任何声音
自由语音设计：使用自然语言描述创建自定义语音，支持灵活控制音色、情感和韵律
10 种主要语言支持：中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
完全开源：Apache-2.0 许可证，可免费商用

技术架构

基于 Qwen3-TTS-Tokenizer-12Hz ，实现高效的声学压缩和高维语义建模
离散多码本 LM 架构，实现全信息端到端语音建模
创新的双轨混合流式生成架构，支持流式和非流式生成

模型版本

CustomVoice：9 种预设优质音色，支持自然语言指令控制
VoiceDesign：基于用户描述进行语音设计
Base：3 秒快速语音克隆，可用于微调其他模型

提供 0.6B 和 1.7B 两种参数量版本。

目前尚无回复

Qwen3-TTS 超低延迟语音克隆

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5285 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 09:17 · PVG 17:17 · LAX 01:17 · JFK 04:17
♥ Do have faith in what you're doing.