1
ffw5b7 OP |
2
cmos 2 天前 1. 思而不学则殆,Voice Conversion 已经是个很成熟的技术了
2. 核心是声学特征,不是数据集,比如梅尔频谱、F0 、频谱包络等。 3. 不用那么长时间,Zero-shot 可以做到 10 秒了。就算是追求高真实度,也是更加注重精细声学、声码器,以及解耦和扩散模型上。 4. 你说的采集场景和应用场景已经被玩烂了,so-vits-svc 就是因为涉及到法律问题才主动 archived 的。 |
3
FlashEcho 2 天前
|