ai 变声-思考

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

最近看了这个帖子 https://www.v2ex.com/t/1182067#reply243 链接，让我对 AI 变声有一些思考。

其实，变声的核心在于音色的数据集。换句话说，如果想“模拟”一个人的声音，需要收集到特定条件的数据：
同一个人的语音
说话清晰，口齿分明
时长充足，通常 20–60 分钟以上

可能的采集场景：
视频博主：上传的视频或直播语音被用于训练 AI 模型
恶意行为者：多次语音沟通，甚至利用通讯录信息，模拟你的声音向家人进行诈骗

变声

音色

数据集

4 条回复 • 2026-01-14 20:32:18 +08:00

ffw5b7

2 天前

还有专门提供的： https://huggingface.co/datasets/shunyalabs/chinese-mandarin-speech-dataset

cmos

2 天前

1. 思而不学则殆，Voice Conversion 已经是个很成熟的技术了
2. 核心是声学特征，不是数据集，比如梅尔频谱、F0 、频谱包络等。
3. 不用那么长时间，Zero-shot 可以做到 10 秒了。就算是追求高真实度，也是更加注重精细声学、声码器，以及解耦和扩散模型上。
4. 你说的采集场景和应用场景已经被玩烂了，so-vits-svc 就是因为涉及到法律问题才主动 archived 的。

FlashEcho

2 天前

不知道 Voice Conversion 是不是比 TTS 的要求低一点，我在 2025 年看几个比较火的 TTS 模型要微调出特定音色，都建议数据集至少有几十分钟。说实话看见 few-shot 很难不认为是水论文特定创造出的小众赛道，真的用起来肯定是数据多一点好

cmos

2 天前

@FlashEcho 3#
Voice Conversion 需要和训练数据/预期场景匹配，所以时间都比较短； TTS 有几十分钟级的（ MS azure TTS ，严格学习获得一个独立的模型），也有秒级的（ indexTTS2 ，获取音色向量）。