寻找对齐文本与音频的高效解决方案

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3955 天前的主题，其中的信息可能已经有所发展或是发生改变。

[需求]
输入：一篇文本，一段与该文本对应的音频
输出：文本中的每一个句子的开始与结束在音频中所对应的时间点

[已知信息]
1. 最笨的方法：人肉对照文本和音频，把每个时间点手动记下来。
2. 存在貌似具有一定精度的自动对齐工具（但只支持英文）： http://fave.ling.upenn.edu/usingFAAValign.html

[提问]
1. 是否有现成的工具可帮助提高上述“笨方法”的效率？譬如：背景播放该音频，在听到每个句子的开始和结束时按某个键“打点”；可回听之前打过的点并修改之；最后输出每个“点”所对应的时间。
2. 是否存在支持除英语外其他语种的自动对齐工具？粗略搜了下日语和德语的，暂未找到。

//bow

文本

对齐

音频

9 条回复 • 2015-03-31 23:58:11 +08:00

Sephinroth

2015 年 3 月 27 日

发现在windows下或可使用如下软件让“笨方法”更有效率：
http://www.aboboo.com/docs/
（见“操作指南”下的“MP3”条目，可导出处理后的文本为srt）

msg7086

2015 年 3 月 27 日

如果没有背景音干扰的话，自动打轴的确是可以实现的。
有背景音干扰还请手打，反正很快的。

luo362722353

2015 年 3 月 27 日 via iPhone

请直接使用…纳象云字幕，这个公司的产品，提供精确到句，或者精确到字，各大电视剧，电影，电视台采用过的

luo362722353

2015 年 3 月 27 日 via iPhone

1小时的片源，带字幕的，一般不超过3_5分钟吧，就能搞定的

cnbeining

2015 年 3 月 27 日

@luo362722353 这个东西OSX上根本啥都出不来。。。

Sephinroth

2015 年 3 月 27 日

@msg7086
thx，滚去学习字幕组打轴工具了

@luo362722353
感谢，不过这个平台的自动化功能貌似暂只支持中文和英文？手头是有日语和德语的材料需要对齐

luo362722353

2015 年 3 月 27 日 via iPhone

@Sephinroth 连方言都支持，我知道的，其他语种？你联系官方问问，可能会更直接了解

dontmp

2015 年 3 月 31 日

这是要做什么呢？
我前几年写过一个学英语App （https://play.google.com/store/apps/details?id=com.leels.splisten&hl=en），如果有音频和对应英文文本，可以把音频分割成一句一句的，然后把对应这句话的文本也分出来，无外乎就是音频分段，语音识别然后合并什么的。这个要求比单纯的作字幕轴要求高，字幕的时间和句子的时间可以不用绝对匹配，这个不行。日语德语什么语都能做，前提是有模型，语音识别要用。

Sephinroth

2015 年 3 月 31 日

@dontmp

对此感兴趣主要有两个出发点：
1. 想对齐一本德语小说的文本及相应有声读物（音频长近5小时），用作自己的学习材料。
2. 想对齐一部日本电视剧的剧本及相应剧集音频（音频长约8小时），用作学习iOS开发的素材。

语音识别方面没有接触过。打算先试试Youtube自带的字幕对齐功能效果如何：
https://support.google.com/youtube/answer/2734796?hl=en
（见Transcribe and set timings那一项）

要是找不到既有的自动化工具，考虑到音频量不大，可能暂时就自己用字幕打轴工具手动对齐，弄的时候注意下精度什么的。以后要是有比较大的需求或许会去学习下forced alignment等相关技术。