[需求]
输入:一篇文本,一段与该文本对应的音频
输出:文本中的每一个句子的开始与结束在音频中所对应的时间点
[已知信息]
1. 最笨的方法:人肉对照文本和音频,把每个时间点手动记下来。
2. 存在貌似具有一定精度的自动对齐工具(但只支持英文): http://fave.ling.upenn.edu/usingFAAValign.html
[提问]
1. 是否有现成的工具可帮助提高上述“笨方法”的效率?譬如:背景播放该音频,在听到每个句子的开始和结束时按某个键“打点”;可回听之前打过的点并修改之;最后输出每个“点”所对应的时间。
2. 是否存在支持除英语外其他语种的自动对齐工具?粗略搜了下日语和德语的,暂未找到。
//bow
1
Sephinroth OP |
2
msg7086 2015-03-27 06:46:32 +08:00 1
如果没有背景音干扰的话,自动打轴的确是可以实现的。
有背景音干扰还请手打,反正很快的。 |
3
luo362722353 2015-03-27 06:59:43 +08:00 via iPhone 1
请直接使用…纳象云字幕,这个公司的产品,提供精确到句,或者精确到字,各大电视剧,电影,电视台采用过的
|
4
luo362722353 2015-03-27 07:02:28 +08:00 via iPhone
1小时的片源,带字幕的,一般不超过3_5分钟吧,就能搞定的
|
5
cnbeining 2015-03-27 09:48:15 +08:00
@luo362722353 这个东西OSX上根本啥都出不来。。。
|
6
Sephinroth OP |
7
luo362722353 2015-03-27 20:05:34 +08:00 via iPhone 1
@Sephinroth 连方言都支持,我知道的,其他语种?你联系官方问问,可能会更直接了解
|
8
dontmp 2015-03-31 16:37:13 +08:00 1
这是要做什么呢?
我前几年写过一个学英语App (https://play.google.com/store/apps/details?id=com.leels.splisten&hl=en), 如果有音频和对应英文文本,可以把音频分割成一句一句的,然后把对应这句话的文本也分出来,无外乎就是音频分段,语音识别然后合并什么的。这个要求比单纯的作字幕轴要求高, 字幕的时间和句子的时间可以不用绝对匹配,这个不行。日语德语什么语都能做,前提是有模型,语音识别要用。 |
9
Sephinroth OP @dontmp
对此感兴趣主要有两个出发点: 1. 想对齐一本德语小说的文本及相应有声读物(音频长近5小时),用作自己的学习材料。 2. 想对齐一部日本电视剧的剧本及相应剧集音频(音频长约8小时),用作学习iOS开发的素材。 语音识别方面没有接触过。打算先试试Youtube自带的字幕对齐功能效果如何: https://support.google.com/youtube/answer/2734796?hl=en (见Transcribe and set timings那一项) 要是找不到既有的自动化工具,考虑到音频量不大,可能暂时就自己用字幕打轴工具手动对齐,弄的时候注意下精度什么的。以后要是有比较大的需求或许会去学习下forced alignment等相关技术。 |