现在爬虫写完了, golang 写的,参考了若干开源代码,最后效果是每天约 350G 出口流量,每秒 12k 左右 UDP 请求,每天能记录千万级的唯一 infohash 值。然后问题来了,通过 infohash 获取文件 metadata 效率太低,从各个种子库查询,只能找到大概 3%,也就是每天只能索引几十万资源。有没有人有更好的办法,特别是实现了 bep0009 的同志能不能分享一下经验?
1
lzhr 2016-07-04 21:08:36 +08:00
|
2
kslr 2016-07-04 21:20:12 +08:00 via Android
首先,每天保持足够的更新就好了,否则只是烂数据
|
3
yanyuan2046 OP @lzhr 这个实现也是从种子库查的
|
4
geeglo 2016-07-04 21:30:57 +08:00 via iPhone
要种子干嘛? 磁力和 资源名你已经可以获得了。
|
5
yanyuan2046 OP @geeglo DHT 网络只能获取到磁力,只有一个字符串。得找到文件名,大小这些信息,这些东西种子里有
|
6
yanyuan2046 OP @kslr 更新不是问题,量大量小而已
|
7
kaner 2016-07-04 21:36:06 +08:00
|
8
GPU 2016-07-05 08:07:36 +08:00
|
9
yanyuan2046 OP @GPU 这东西量不是最大的问题,主要看搜索精度,排在前面的得下载速度最快才行
|
10
fising 2016-07-05 10:00:01 +08:00
已经有人做磁力搜索被抓了
|
11
yanyuan2046 OP @fising 有新闻出来没有?
|