V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yanyuan2046
V2EX  ›  程序员

有没有人交流一下 BT 搜索引擎

  •  
  •   yanyuan2046 ·
    btfak · 2016-07-04 20:39:10 +08:00 · 4680 次点击
    这是一个创建于 3063 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在爬虫写完了, golang 写的,参考了若干开源代码,最后效果是每天约 350G 出口流量,每秒 12k 左右 UDP 请求,每天能记录千万级的唯一 infohash 值。然后问题来了,通过 infohash 获取文件 metadata 效率太低,从各个种子库查询,只能找到大概 3%,也就是每天只能索引几十万资源。有没有人有更好的办法,特别是实现了 bep0009 的同志能不能分享一下经验?

    11 条回复    2016-07-05 12:02:24 +08:00
    lzhr
        1
    lzhr  
       2016-07-04 21:08:36 +08:00
    kslr
        2
    kslr  
       2016-07-04 21:20:12 +08:00 via Android
    首先,每天保持足够的更新就好了,否则只是烂数据
    yanyuan2046
        3
    yanyuan2046  
    OP
       2016-07-04 21:29:19 +08:00
    @lzhr 这个实现也是从种子库查的
    geeglo
        4
    geeglo  
       2016-07-04 21:30:57 +08:00 via iPhone
    要种子干嘛? 磁力和 资源名你已经可以获得了。
    yanyuan2046
        5
    yanyuan2046  
    OP
       2016-07-04 21:32:37 +08:00
    @geeglo DHT 网络只能获取到磁力,只有一个字符串。得找到文件名,大小这些信息,这些东西种子里有
    yanyuan2046
        6
    yanyuan2046  
    OP
       2016-07-04 21:34:12 +08:00
    @kslr 更新不是问题,量大量小而已
    kaner
        7
    kaner  
       2016-07-04 21:36:06 +08:00
    @yanyuan2046 不是的。我记得能获取到名字的,因为以前也玩过,我去找找看,还有没有代码。

    我明确记得名字可以,大小,和文件列表应该没有。
    GPU
        8
    GPU  
       2016-07-05 08:07:36 +08:00
    @kaner 可以获取是应为有些磁力 链接 在后面 & 加上了文件名字的 。


    @geeglo 如果只有 磁力和资源名 ,同类产品太多 没有什么特点 。 当然了带有文件名与大小信息的网站也不小了。
    yanyuan2046
        9
    yanyuan2046  
    OP
       2016-07-05 09:05:41 +08:00
    @GPU 这东西量不是最大的问题,主要看搜索精度,排在前面的得下载速度最快才行
    fising
        10
    fising  
       2016-07-05 10:00:01 +08:00
    已经有人做磁力搜索被抓了
    yanyuan2046
        11
    yanyuan2046  
    OP
       2016-07-05 12:02:24 +08:00
    @fising 有新闻出来没有?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2674 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 11:34 · PVG 19:34 · LAX 03:34 · JFK 06:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.