通义千问团队发布了 Qwen3-TTS ,一个开源的文本转语音( TTS )模型系列,在语音生成质量和速度方面都有显著提升。
介绍: https://qwen3ttsai.com/ ,包含完整的产品介绍、在线体验、技术文档和使用指南。
官方推文: https://x.com/Alibaba_Qwen/status/2014326211913343303
97ms 超低延迟:端到端合成延迟低至 97ms ,支持流式生成,单个字符输入后即可输出首个音频包
3 秒快速语音克隆:仅需 3 秒音频即可克隆任何声音
自由语音设计:使用自然语言描述创建自定义语音,支持灵活控制音色、情感和韵律
10 种主要语言支持:中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文
完全开源:Apache-2.0 许可证,可免费商用
基于 Qwen3-TTS-Tokenizer-12Hz ,实现高效的声学压缩和高维语义建模
离散多码本 LM 架构,实现全信息端到端语音建模
创新的双轨混合流式生成架构,支持流式和非流式生成
CustomVoice:9 种预设优质音色,支持自然语言指令控制
VoiceDesign:基于用户描述进行语音设计
Base:3 秒快速语音克隆,可用于微调其他模型
提供 0.6B 和 1.7B 两种参数量版本。