V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
350041264812
V2EX  ›  分享发现

通义千问 Qwen3-TTS 正式发布: 97ms 超低延迟,支持语音克隆和语音设计

  •  
  •   350041264812 · 5 天前 · 568 次点击

    通义千问团队发布了 Qwen3-TTS ,一个开源的文本转语音( TTS )模型系列,在语音生成质量和速度方面都有显著提升。

    介绍: https://qwen3ttsai.com/ ,包含完整的产品介绍、在线体验、技术文档和使用指南。

    官方推文: https://x.com/Alibaba_Qwen/status/2014326211913343303

    核心亮点

    • 97ms 超低延迟:端到端合成延迟低至 97ms ,支持流式生成,单个字符输入后即可输出首个音频包

    • 3 秒快速语音克隆:仅需 3 秒音频即可克隆任何声音

    • 自由语音设计:使用自然语言描述创建自定义语音,支持灵活控制音色、情感和韵律

    • 10 种主要语言支持:中文、英文、日文、韩文、德文、法文、俄文、葡萄牙文、西班牙文、意大利文

    • 完全开源:Apache-2.0 许可证,可免费商用

    技术架构

    • 基于 Qwen3-TTS-Tokenizer-12Hz ,实现高效的声学压缩和高维语义建模

    • 离散多码本 LM 架构,实现全信息端到端语音建模

    • 创新的双轨混合流式生成架构,支持流式和非流式生成

    模型版本

    • CustomVoice:9 种预设优质音色,支持自然语言指令控制

    • VoiceDesign:基于用户描述进行语音设计

    • Base:3 秒快速语音克隆,可用于微调其他模型

    提供 0.6B 和 1.7B 两种参数量版本。

    目前尚无回复
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5285 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:17 · PVG 17:17 · LAX 01:17 · JFK 04:17
    ♥ Do have faith in what you're doing.