从音频中分离中英文，有什么成熟的技术方案？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2122 天前的主题，其中的信息可能已经有所发展或是发生改变。

对于混合了英文和中文（翻译）的音频，是否有比较成熟的技术产品 /服务可以实现单种语言内容的剥离？类似于自动剪辑为单中文或单英文的音频。

音频

英文

中文

中英文

17 条回复 • 2020-04-05 13:25:26 +08:00

XanderChen

2020 年 4 月 4 日

emmmm...找个厉害的音频编辑软件，看看有没有独立音轨？然后提取出来？

（是不是叫音轨？有错请指正。）

大概就能想到这方法。还是你想用代码写个提取的工具，ffmpeg 看看有没有相关的方法？

如果没有独立音轨...emmm...

那就等大佬的方案吧...

JerryCha

2020 年 4 月 4 日

不知道
大概频域处理吧，两个人的说话声音肯定不一样，响度也可能不一样
当然各自独立一条轨道肯定最容易处理

V69EX

2020 年 4 月 4 日

像 youtube 用的那种语音转字幕的软件，应该可以，字幕上有时间，根据转换后的文字是中文还是英文来反过来将视频分片。

V69EX

2020 年 4 月 4 日

就算软件只能识别英文也没问题，不能识别的就当中文了。

llj5935

2020 年 4 月 4 日

讯飞听见的语音技术可以识别中文中夹杂的英文单词，说明其算法能力具备识别中英文的功能。但是他们还没有做剪辑剥离，相信既然能识别，做剥离是很简单的了。

cnleoyang

2020 年 4 月 4 日

@XanderChen @JerryCha 谢谢。录音时没有考虑到音轨分离的问题，所以已经无法通过音轨来分离了。

@V69EX Youtube 可以对纯英文的内容生成 CC，但混合语言的就不会生成了。

cnleoyang

2020 年 4 月 4 日

@llj5935 感谢提供，我去看看。

diggerdu

2020 年 4 月 4 日 via iPhone

如果不是一个人说过的可以先做 speaker diarization

llj5935

2020 年 4 月 4 日

@cnleoyang 你可以通过讯飞听见自动形成时间轴，再通过时间轴自己做批量剥离

cnleoyang

2020 年 4 月 4 日

@llj5935 不错的思路，谢谢。

cnleoyang

2020 年 4 月 4 日

@diggerdu 请问有技术方案可以提供么？

w1573007

2020 年 4 月 4 日 via Android

开源项目：spleeter 。主要是音频人声分离，不过这个主要是对音乐中的人声进行提取，生成干音。楼主可以试试，我用它分离干音品质可以进行重新混音

diggerdu

2020 年 4 月 4 日 via iPhone

@cnleoyang 开源的都不行有算法工程师可以自己拿数据训

cnleoyang

2020 年 4 月 4 日

@diggerdu 理解了。

300

2020 年 4 月 4 日

你这个 idea 实现起来有点 difficult 啊

CaiXiaobai

2020 年 4 月 4 日

科大讯飞有声音识别转文字，你值得拥有

liuzhiyong

2020 年 4 月 5 日

同意楼上的，这方面科大讯飞比较猛，用过他们的 TTS，非常牛。