有没有现成的工具可以把字幕文件转换成相应的音频

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1994 天前的主题，其中的信息可能已经有所发展或是发生改变。

通过 AI 识别音频生成字幕的工具有现成的，单纯的文字转换成语音的服务也有很多。可是有基于字幕文件生成符合时间轴的音频的服务或者工具吗？

我在做一个操作示例视频，为了让观看的人有更好的体验，我希望能通过成熟的文字转语音服务配上相对标准的英文配音。一句一句调语速，对时间轴是一个很大的工作量，不知道有没有现成的工具或者服务可以使用？

现成

字幕

工具

音频

4 条回复 • 2020-07-21 14:02:11 +08:00

aec4d

2020-07-21 12:35:10 +08:00 via iPhone

调 tts api 应该 50 行代码能够解决

whileFalse

2020-07-21 13:14:13 +08:00

关键从字幕中没法正确地获得语速和发音人。
首先当两个人对话的时候，字幕通常不包含发音人信息，所以你是不是能接受明明是两个人的对话，转出来的音频却是一个人自说自话？
其次语速，如果是两个人几乎同时说话，字幕中的信息只能看出是一句话之后半秒下一句就开始说了，那么程序会不会认为上一句的语速很快，半秒就说完了？

在存在这些问题的情况下，“字幕转音频”这个需求没法产品化；虽然就 LZ 的需求来看，不存在上述的几个问题。

MooRider

2020-07-21 13:25:23 +08:00

之前看谷歌的那个人工智能学习视频, 里面的语音翻译就是用的机器学习的发音, 语速和准确度都还行, 不知道能不能个人用 https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn
但识别两个人的对话似乎很难吧

zhouweiluan

2020-07-21 14:02:11 +08:00

上次坛子里有人推过一个，可以去看看：
https://www.v2ex.com/t/690199
网址：
https://www.mu-yan.net