写了个 python 脚本，自动匹配并下载字幕

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3699 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在人人影视下载了一些美剧，手动下载字幕太麻烦，突然想到射手播放器可以在播放视频的时候自动匹配字幕，后来在射手网找到了匹配字幕的 API 地址， https://www.shooter.cn/api/subapi.php 。
该 API 可以根据给定的视频信息返回匹配的字幕信息，包括下载地址。
API 使用说明： https://docs.google.com/document/d/1ufdzy6jbornkXxsD-OGl3kgWa4P9WO5NZb6_QYZiGI0/preview 。

github 地址： https://github.com/L-xm/python-shooter.org

字幕

API

匹配

下载

28 条回复 • 2015-12-21 12:22:27 +08:00

faketemp

2015 年 12 月 17 日

NAS 中 BT 下载高清电影多无字幕，每次都得去搜索下载然后改名视频一多就烦， LZ 这个很方便！
提两个小建议：
1.能否修改一下 py 文件编码？使用 UTF-8 应该更利于 Linux 或 MAC 用户使用
2.考虑添加选项支持递归查询子目录文件（ BT 下载视频大多都是独立目录，无法递归实在不便）

lxy42

2015 年 12 月 17 日

@faketemp 好的，编码的问题到不大，自己改改也行。关于第二点，你指的是一个目录包含若干子目录，每个子目录只包含一个视频吗？

GPU

2015 年 12 月 18 日

@lxy42
1 楼的意思是， PT 、 BT 下载回来的电影都是哪些标准的目录的，类似于 `The.Walk.2015.1080p.BluRay.x264-SPARKS` 这样子 , 而且都是以文件夹形式,一个电影或电视剧下载下来的。
如果楼主的脚本只能去匹配影视文件本身哪么就不能识别文件夹里面的影视文件了,然而在国外 BT 站与国内 PT 站都是以这种文件夹的形式 BT 下载的，如果是单独一个影视文件的一般是国内的会这样子。

xiaket

2015 年 12 月 18 日

https://github.com/xiaket/shooter_client

实现得比你简单些(你用那么多线程锁是在干嘛...)

lxy42

2015 年 12 月 18 日

@xiaket 看了一下，他的脚本是匹配单个视频并下载字幕的。我写的因为要匹配整个目录下的所有视频然后下载中英文字幕，所以用了多线程，有几个全局变量用来记录发现的字幕数量，成功下载的数量，失败的数量，没有找到字幕的视频文件名，所以用到锁来保证数据一致性。

faketemp

2015 年 12 月 18 日

@lxy42 BT 下载大概目录结构如下：
./西游记之大圣归来.mp4
./Hotel.Transylvania.2.2015.720p.WEBRip.x264.AAC2.0-FGT/English.srt
./Hotel.Transylvania.2.2015.720p.WEBRip.x264.AAC2.0-FGT/Hotel.Transylvania.2.2015.720p.WEBRip.x264.AAC2.0-FGT.mp4 ./Shaun.the.Sheep.Movie.2015.1080p.BluRay.H264.AAC-RARBG/Shaun.the.Sheep.Movie.2015.1080p.BluRay.H264.AAC-RARBG.mp4
./The.Little.Prince.2015.BluRay.720p.DTS.x264-MTeam/The.Little.Prince.2015.BluRay.720p.DTS.x264-MTeam.mkv
./玩具总动员：迷失时空.原盘中英字幕.Toy.Story.That.Time.Forgot.2014.BD1080P.X264.AAC.English&Mandarin&Cantonese.CHS-ENG.Mp4Ba/玩具总动员：迷失时空.原盘中英字幕.Toy.Story.That.Time.Forgot.2014.BD1080P.X264.AAC.English&Mandarin&Cantonese.CHS-ENG.Mp4Ba.mp4
......

@GPU 解释的对

ketle

2015 年 12 月 18 日

@lxy42 电脑上使用场景不多 ,有射手播放器就够了;
多的是各种安卓手机 /平板 /安卓盒子+移动硬盘 /nas 等;
然而安卓手机 /平板上的各种播放器有几个虽然有在线匹配功能,但弱的要死,所以建议楼主修改下适合手机的版本,手机上的 python 环境有 http://www.qpython.com/ 类似这个;

然后手机 /平板看本地 /局域网片子就爽了

faketemp

2015 年 12 月 18 日

@lxy42 可以考虑用 os.walk 递归查找所有层级目录中视频文件，并用列表或字典来保存所有视频文件对应的完整路径，然后逐个算出 hash 等查找并下载字幕，如果成功下载则对应重命名字幕文件即可

lxy42

2015 年 12 月 18 日

@faketemp 我也是这样想的，但是就不好打包所有字幕了，我目前想到的是下载的字幕保存在与视频同级目录中。

faketemp

2015 年 12 月 18 日

@lxy42
In [1]: filepath = '/Users/test/test.mp4'

In [2]: import os

In [3]: os.path.split(filepath)
Out[3]: ('/Users/test', 'test.mp4')

In [4]: os.path.split(filepath)[0]
Out[4]: '/Users/test'

比如某视频路径 filepath = '/Users/test/test.mp4'，则算出 hash 下载对应字幕并改名为“ test.srt ”保存到 os.path.split(filepath)[0]即可
这样就保证了每个字幕都恰好与对应视频文件存放在同一目录

lxy42

2015 年 12 月 18 日

@faketemp 嗯，有时间再调整一下

xiaket

2015 年 12 月 18 日

@lxy42 我的想法是, 递归下载这样的需求, 不要在 python 这一层做了... bash 写循环很容易的.

lxy42

2015 年 12 月 18 日

@xiaket 我考虑到了下载一个视频的字幕的需求，传入视频文件名参数就好。

yoa1q7y

2015 年 12 月 18 日

https://github.com/L-xm/python-shooter.org/blob/master/SubFinder.py#L66
单词拼错了？

lxy42

2015 年 12 月 18 日

@yoa1q7y 没有吧， seek_positions 的意思是将文件指针移动到文件中相对于文件开头的位置，, FileObj.seek(offset, 0)。

lxy42

2015 年 12 月 18 日

修改了一下脚本，现在可以递归匹配视频并下载字幕了，还可以打包字幕(保持目录结构不变)。

lxy42

2015 年 12 月 18 日

@faketemp 现在可以递归了

yoa1q7y

2015 年 12 月 18 日

额。。我原来指的是 `getVedioFileFromDir `这个名字的拼写

lxy42

2015 年 12 月 18 日

@yoa1q7y 已修正。

kknd22

2015 年 12 月 19 日

能否搞一个自动匹配番号下载字幕的脚本？比如 ABP-356 、 SDDE-412 、 IBW-518Z 这样子的？

lxy42

2015 年 12 月 19 日

@kknd22 看的的不是情节吗？字幕脑补就好

cruisehu

2015 年 12 月 19 日

L219 Video 拼错了

atnoot

2015 年 12 月 20 日

学以致用才是我们学习的目标， mark 一下买了网件的路由器配上 1t 的 nas 加楼主的脚本以后看片爽歪歪

lxy42

2015 年 12 月 20 日

@atnoot 真是爽

cutoutsy

2015 年 12 月 20 日

最新的视频都找不到字幕，，😂😂

lxy42

2015 年 12 月 21 日

@cutoutsy 可能射手网还没收集到字幕

evilic

2015 年 12 月 21 日

射手网不是关闭了么？为什么会有最新的字幕？

lxy42

2015 年 12 月 21 日

@evilic 只是把前台网站关了而已，又没有把整个服务器都查封， API 还可以用，[API 使用说明]( https://docs.google.com/document/d/1ufdzy6jbornkXxsD-OGl3kgWa4P9WO5NZb6_QYZiGI0/preview)