1
aec4d 2020-07-21 12:35:10 +08:00 via iPhone
调 tts api 应该 50 行代码能够解决
|
2
whileFalse 2020-07-21 13:14:13 +08:00
关键从字幕中没法正确地获得语速和发音人。
首先当两个人对话的时候,字幕通常不包含发音人信息,所以你是不是能接受明明是两个人的对话,转出来的音频却是一个人自说自话? 其次语速,如果是两个人几乎同时说话,字幕中的信息只能看出是一句话之后半秒下一句就开始说了,那么程序会不会认为上一句的语速很快,半秒就说完了? 在存在这些问题的情况下,“字幕转音频”这个需求没法产品化;虽然就 LZ 的需求来看,不存在上述的几个问题。 |
3
MooRider 2020-07-21 13:25:23 +08:00
之前看谷歌的那个人工智能学习视频, 里面的语音翻译就是用的机器学习的发音, 语速和准确度都还行, 不知道能不能个人用 https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn
但识别两个人的对话似乎很难吧 |
4
zhouweiluan 2020-07-21 14:02:11 +08:00 1
|