V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xiaojiong1991
V2EX  ›  问与答

[分享]基于 GO 语言写的 DHT 爬虫实现的种子搜索引擎,小清新流派的。

  •  2
     
  •   xiaojiong1991 · 2015-04-01 02:24:34 +08:00 · 10486 次点击
    这是一个创建于 3510 天前的主题,其中的信息可能已经有所发展或是发生改变。

    做这个呢
    主要是想好好的学习go。然后自己也想折腾折腾玩玩。
    目前收录了1000w+资源了,目前资源数以每天5w左右的速度增加的。

    http://btku.org

    实现的自动入库,自动重建索引,基本上不用维护,然后自动就把资源抓取下来了。
    这个可以看见最新收录的资源。。1分钟更新一次。
    http://btku.org/new

    爬虫实现的核心代码:
    github:https://github.com/xiaojiong/DhtCrawler">https://github.com/xiaojiong/DhtCrawler

    后续想继续开发,做点电影推介啊什么的。
    求指导哈。。

    42 条回复    2016-10-25 09:44:33 +08:00
    sallowdish
        1
    sallowdish  
       2015-04-01 05:51:38 +08:00
    搜索了下‘Voice Lover’, 果然货不少,赞一个
    bugeye
        2
    bugeye  
       2015-04-01 08:06:17 +08:00
    然后我看了一下大家都在搜什么。。。。
    Mashiro
        3
    Mashiro  
       2015-04-01 08:47:50 +08:00
    大家在搜
    yuewolf
        4
    yuewolf  
       2015-04-01 08:59:19 +08:00
    很强悍!!!
    NewYear
        5
    NewYear  
       2015-04-01 09:16:41 +08:00   ❤️ 1
    没有图片预览 差评
    MartinSong
        6
    MartinSong  
       2015-04-01 09:18:16 +08:00   ❤️ 1
    这些种子都是从哪里爬过来的?
    xiaojiong1991
        7
    xiaojiong1991  
    OP
       2015-04-01 09:30:19 +08:00
    @MartinSong 就是DHT网络里面抓取的。 就是 我们使用bt 下载的时候 那个网络里哈
    MartinSong
        8
    MartinSong  
       2015-04-01 10:17:02 +08:00
    @xiaojiong1991 手撕包菜网络那里爬的么?我试了几个用迅雷,打开磁力下载,种子下载不下来呀?
    benjiam
        9
    benjiam  
       2015-04-01 10:19:52 +08:00
    不错,我也曾想做一个来着。关键就是DHT 协议
    xiaojiong1991
        10
    xiaojiong1991  
    OP
       2015-04-01 10:26:52 +08:00
    @MartinSong 自己去抓取的哈, 没在手撕包菜那爬。 你举例下哪些打不开呢。
    xiaojiong1991
        11
    xiaojiong1991  
    OP
       2015-04-01 10:27:09 +08:00
    @benjiam 对的哈 就是关键是 协议
    ikaros
        12
    ikaros  
       2015-04-01 10:36:28 +08:00
    热门搜索简直赞
    wind3110991
        13
    wind3110991  
       2015-04-01 10:45:23 +08:00
    github链接挂了404
    xiaojiong1991
        14
    xiaojiong1991  
    OP
       2015-04-01 10:51:11 +08:00
    xiaojiong1991
        15
    xiaojiong1991  
    OP
       2015-04-01 10:51:50 +08:00
    @ikaros 哈哈。。教你用词呢。 算了 我看什么时候还是把这个词语给去掉算了。
    Anybfans
        16
    Anybfans  
       2015-04-01 12:47:31 +08:00
    请问有没有Python版的。。谢谢了。。学生想学习 顺便建一个这样的站
    mhycy
        17
    mhycy  
       2015-04-01 12:52:41 +08:00
    @Anybfans
    已经说明是Go编写的了,就别做伸手党了...
    自己写个也不难,关键搞定了DHT算法就行
    Anybfans
        18
    Anybfans  
       2015-04-01 12:58:24 +08:00   ❤️ 1
    @mhycy 。。新手。真心不太懂DHT什么什么的第一次听说
    > < 想搞一份Python版本的 当毕业设计。。
    mhycy
        19
    mhycy  
       2015-04-01 13:02:03 +08:00
    @Anybfans
    搜索一下就好了,做伸手党可不好啊...
    说回来,毕业设计做这个没问题么?
    xiaojiong1991
        20
    xiaojiong1991  
    OP
       2015-04-01 13:12:15 +08:00
    @Anybfans 我也是在网上看别人做了, 然后自己觉得好玩 所以就搜索协议什么的 做了一个。
    Anybfans
        21
    Anybfans  
       2015-04-01 13:14:52 +08:00
    @mhycy 。。有问题么。毕业设计不让做这个么。。。

    @xiaojiong1991 行。。我研究研究。 不难吧?
    rrfeng
        22
    rrfeng  
       2015-04-01 13:27:55 +08:00
    都不能下载。。。
    xiaojiong1991
        23
    xiaojiong1991  
    OP
       2015-04-01 14:13:53 +08:00
    @Anybfans 不难哈
    xiaojiong1991
        24
    xiaojiong1991  
    OP
       2015-04-01 14:14:21 +08:00
    @Anybfans 不难哈
    @rrfeng 什么问题哟? 发下 具体链接 , 你指的是 什么不能下载哟?
    hahasong
        25
    hahasong  
       2015-04-01 14:15:37 +08:00
    爬dht和爬magnet是一样的源码么
    mhycy
        26
    mhycy  
       2015-04-01 14:24:48 +08:00
    @hahasong 是的,目的都只是为了获得种子的hash而已,不同点在于magnet获取到hash就完了,这个工具似乎还会把种子下回来...
    leemw
        27
    leemw  
       2015-04-01 14:28:09 +08:00
    只知道这种网站流量会蹭蹭蹭的上去。。。
    xiaojiong1991
        28
    xiaojiong1991  
    OP
       2015-04-01 14:42:10 +08:00
    @mhycy 对哈,主要是要解析种子内的信息
    rrfeng
        29
    rrfeng  
       2015-04-01 14:54:42 +08:00
    @xiaojiong1991
    比如随便搜一个,thunder:// 链接全不能下载,都显示 Index.html
    磁力链没试。

    种子文件要么不能下载,要么下回来打不开……
    holmesabc
        30
    holmesabc  
       2015-04-01 15:00:42 +08:00
    大家都在搜!!!!!
    fising
        31
    fising  
       2015-04-01 15:53:07 +08:00
    我之前也做了一个,上线几天就主动关闭了。小心有人举报送你进去。

    btbook.net 也是此类网站
    des
        32
    des  
       2015-04-01 17:50:54 +08:00
    Anybfans
        33
    Anybfans  
       2015-04-01 19:18:28 +08:00
    @des 先谢谢。。回去研究一下
    lirau
        34
    lirau  
       2015-04-02 00:05:08 +08:00 via Android
    @fising 这种也能进去啊
    fising
        35
    fising  
       2015-04-02 09:26:07 +08:00
    @lirau 涉嫌传播淫秽色情信息、传播盗版内容。哪个都够喝一壶的。认真起来,是要坐牢的。
    chenzhe007
        36
    chenzhe007  
       2015-04-04 01:13:33 +08:00 via iPhone
    @fising btbook是我师兄做的~~确实经常被投诉。
    YouXia
        37
    YouXia  
       2015-04-04 19:42:17 +08:00
    自动构建索引这块怎么做的?
    xiaojiong1991
        38
    xiaojiong1991  
    OP
       2015-04-07 15:32:57 +08:00
    @YouXia 增量更新 ,然后 重建索引
    jeanim
        39
    jeanim  
       2015-05-03 19:40:21 +08:00
    可以加下lz的Q?
    jeanim
        40
    jeanim  
       2015-05-03 19:41:07 +08:00
    http://www.v2ex.com/t/184116
    我想做一个这样的网站,但web还不太熟悉,想加Q请教下。
    la0wei
        41
    la0wei  
       2015-09-07 06:41:36 +08:00 via Android
    btku.org 的地址是国内的,还以为国外的,想请教 vps 选择的
    a308057848
        42
    a308057848  
       2016-10-25 09:44:33 +08:00
    厉害啊,非常有兴趣
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2865 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 02:26 · PVG 10:26 · LAX 18:26 · JFK 21:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.