V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
huangzitao
V2EX  ›  分享创造

第一次玩爬虫有点上瘾啊,写了个百度云资源搜索。。

  •  
  •   huangzitao · 2017 年 7 月 25 日 · 17542 次点击
    这是一个创建于 3102 天前的主题,其中的信息可能已经有所发展或是发生改变。
    77 条回复    2017-08-25 18:38:06 +08:00
    hizoubin
        1
    hizoubin  
       2017 年 7 月 25 日
    感觉搜索效果不如 biliworld
    yuedingwangji
        2
    yuedingwangji  
       2017 年 7 月 26 日
    好像还蛮不错的
    LINAICAI
        3
    LINAICAI  
       2017 年 7 月 26 日
    牛逼
    asheshorse
        4
    asheshorse  
       2017 年 7 月 26 日 via Android
    不算全,不过还不错
    WildCat
        5
    WildCat  
       2017 年 7 月 26 日 via iPhone
    666
    不过很想知道爬虫原理
    shenyangno1
        6
    shenyangno1  
       2017 年 7 月 26 日 via iPhone
    搜索条件中包含:和 /会报 500 错。
    ericbize
        7
    ericbize  
       2017 年 7 月 26 日
    专业的爬虫公司被你爬了
    Fe1Fan
        8
    Fe1Fan  
       2017 年 7 月 26 日
    好像真的很好玩
    a494836960
        9
    a494836960  
       2017 年 7 月 26 日
    爬种子很好用
    default7
        10
    default7  
       2017 年 7 月 26 日
    怎么弄的?
    Qiss
        11
    Qiss  
       2017 年 7 月 26 日
    速度好快啊,大神用的哪家服务器?
    believeitcould
        12
    believeitcould  
       2017 年 7 月 26 日
    匹配模式可以选吗 搜出来的信息太多了 想完全匹配
    Dvel
        13
    Dvel  
       2017 年 7 月 26 日
    速度贼快
    1O
        14
    1O  
       2017 年 7 月 26 日
    frankkai
        15
    frankkai  
       2017 年 7 月 26 日
    可以可以,很强
    jimyan
        16
    jimyan  
       2017 年 7 月 26 日
    牛逼
    Hellofxq
        17
    Hellofxq  
       2017 年 7 月 26 日
    看起来很好玩的样子,我也想学
    huangzitao
        18
    huangzitao  
    OP
       2017 年 7 月 26 日
    @asheshorse 目前只爬了 400w
    @ericbize 爬虫是不太阳光,不过确实刺激
    @Qiss 阿里的
    @believeitcould 以后开发把
    nazor
        19
    nazor  
       2017 年 7 月 26 日 via iPhone
    能不能采集有没有那种带密码的资源。
    ericbize
        20
    ericbize  
       2017 年 7 月 26 日
    @huangzitao 凭自己本事浏览的网页,没什么不阳光的,有本事你 block 了 python requests 的 UA 啊。
    beyoung
        21
    beyoung  
       2017 年 7 月 26 日
    各种链接不存在
    mahone3297
        22
    mahone3297  
       2017 年 7 月 26 日
    原理是?
    guodong110
        23
    guodong110  
       2017 年 7 月 26 日 via Android
    http://www.fastsoso.cn 有失效检测
    NAO
        24
    NAO  
       2017 年 7 月 26 日
    同想完全匹配
    upczww
        25
    upczww  
       2017 年 7 月 26 日 via iPhone
    原理 site:pan.baidu.com
    ikeeper
        26
    ikeeper  
       2017 年 7 月 26 日
    厉害了,求指导
    cenyu
        27
    cenyu  
       2017 年 7 月 26 日
    很厉害,赞一个
    gao117348222
        28
    gao117348222  
       2017 年 7 月 26 日
    收藏了
    suliuyes
        29
    suliuyes  
       2017 年 7 月 26 日
    楼上都是才上互联网吗,为什么都觉得厉害?网盘搜索有很多了啊。百度“网盘搜索”看看有多少。 #25 @upczww 也说了原理了。
    v166ex
        30
    v166ex  
       2017 年 7 月 26 日
    @suliuyes site:pan.baidu.com 应该不是这个吧,我试了下 bd 没有啥显示
    xmh51
        31
    xmh51  
       2017 年 7 月 26 日
    @huangzitao 现在还能爬吗?百度不在主页显示分享文件后?
    suliuyes
        32
    suliuyes  
       2017 年 7 月 26 日
    @binfengxy 百度自己屏蔽了。PS,比如抓粉丝列表也可
    Adamla
        33
    Adamla  
       2017 年 7 月 26 日
    为啥我搜索“拳皇”就会出现错误页面呢。
    sola97
        34
    sola97  
       2017 年 7 月 26 日
    我平时用的胖次搜索,带失效检测,也能搜到不可告人的东西
    Zioyi
        35
    Zioyi  
       2017 年 7 月 26 日
    楼主后台用什么写的
    aksoft
        36
    aksoft  
       2017 年 7 月 26 日
    @sola97 给个地址,让我去检查不可告人的东西
    iphantom
        37
    iphantom  
       2017 年 7 月 26 日
    这个速度很赞 结果也很棒
    iShawnWang
        38
    iShawnWang  
       2017 年 7 月 26 日 via iPhone   ❤️ 1
    可以讲解下远离或者开源么... 希望能学习下代码...
    Antidictator
        39
    Antidictator  
       2017 年 7 月 26 日 via Android
    借楼问谷歌用 site 语法没什么效果。是不是被屏蔽啦。
    再借楼问原理😂😂
    Antidictator
        40
    Antidictator  
       2017 年 7 月 26 日 via Android
    @upczww 经常在 Google 用这个语法,但是效果还不如一些类似楼主做的站呢
    upczww
        41
    upczww  
       2017 年 7 月 26 日
    @Antidictator 那是别人做了二次整理的,分好类的
    huangzitao
        42
    huangzitao  
    OP
       2017 年 7 月 26 日
    @xmh51 百度网盘前几天被人差评,现在封了很多,所以你懂得
    @Adamla 用的第三方中文分词器,后台看了下,有 bug
    @Zioyi springboot 跟 lucene
    @iShawnWang 这个也没什么难度啊,无非是爬文件分享链接。
    66kanfengjing
        43
    66kanfengjing  
       2017 年 7 月 26 日
    搜索*会报 500O(∩_∩)O 哈!以前做 lucene 的时候就忘了考虑通配符的问题
    huangzitao
        44
    huangzitao  
    OP
       2017 年 7 月 26 日
    @66kanfengjing 什么都不写也 500 O(∩_∩)O 这程序不够健壮啊
    66kanfengjing
        45
    66kanfengjing  
       2017 年 7 月 26 日
    @huangzitao 我用 Lucene ( Version:3.5 )的时候用的 IK(Version:2012FF)分词器,目前还没有遇到分词器的 bug.
    Zioyi
        46
    Zioyi  
       2017 年 7 月 26 日
    大佬 你是怎么爬下来的?百度云盘有 api ?
    huangzitao
        47
    huangzitao  
    OP
       2017 年 7 月 26 日
    @66kanfengjing 👌,下次还是用低版本的算了,唉 ik 都不更新了
    @Zioyi 这个要分析啊,只要能看到的,公开的,都能爬
    zyowe
        48
    zyowe  
       2017 年 7 月 27 日   ❤️ 1
    NullException
        49
    NullException  
       2017 年 7 月 27 日
    666
    hienchu
        50
    hienchu  
       2017 年 7 月 27 日 via iPhone
    不错
    sumuu
        51
    sumuu  
       2017 年 7 月 27 日
    @zyowe

    哈哈~~~牛逼.
    WEAlex
        52
    WEAlex  
       2017 年 7 月 27 日
    有源码可以分享一下吗?最近刚把 springboot 和 docker 学习了.
    gao117348222
        53
    gao117348222  
       2017 年 7 月 27 日
    @zyowe
    smartdie
        54
    smartdie  
       2017 年 7 月 28 日
    可以啊,这个引擎的速度非常可观。希望能分享下实现方式或者源码。
    huangzitao
        55
    huangzitao  
    OP
       2017 年 7 月 28 日
    @WEAlex
    @smartdie 源码都没注释啊,也没什么技术含量哈,主要是在本地建好索引在上传到服务器的,建索引特耗内存而且 gc 一时半会不释放
    Hugh123
        56
    Hugh123  
       2017 年 7 月 28 日
    需要 66666666
    Dwyanetalk
        57
    Dwyanetalk  
       2017 年 7 月 28 日
    贤者,我对这个名字来源感兴趣
    huangzitao
        58
    huangzitao  
    OP
       2017 年 7 月 28 日
    @Dwyanetalk 哈哈我朋友想的,感觉屌爆了
    propc
        59
    propc  
       2017 年 7 月 29 日 via Android
    不错不错
    mooncakejs
        60
    mooncakejs  
       2017 年 7 月 29 日
    @ericbize 偷偷爬不查你也就算了,show 出来就不行了,殊不知有 robots 协议。
    syl371
        61
    syl371  
       2017 年 7 月 29 日
    我还是觉得 www.biliworld.com 好用一点
    1002149271
        62
    1002149271  
       2017 年 7 月 30 日
    写这个会不会被抓?
    wanglaihuai
        63
    wanglaihuai  
       2017 年 7 月 31 日 via Android
    如果加上个按照时间排序就更好了大神。
    wilonti
        64
    wilonti  
       2017 年 7 月 31 日
    但是我不知道用啥关键词搜...尴尬了
    yuanfnadi
        65
    yuanfnadi  
       2017 年 8 月 3 日
    huangzitao
        66
    huangzitao  
    OP
       2017 年 8 月 4 日 via Android
    @yuanfnadi 好👌
    jedihy
        67
    jedihy  
       2017 年 8 月 8 日 via iPhone
    爬 115 吧
    omg21
        68
    omg21  
       2017 年 8 月 8 日
    你是不是也建了一个数据库,把爬到的内容存进去,然后别人在你主页上搜的时候,再数据库里读取?
    aifang
        69
    aifang  
       2017 年 8 月 8 日
    感觉好牛逼的样子,肯定比我牛逼,😁
    huangzitao
        70
    huangzitao  
    OP
       2017 年 8 月 9 日 via Android
    @jedihy 好的😄有时间去爬。
    @omg21 嗯是的
    @aifang 哈哈,耐心做其实不难
    weilongs
        71
    weilongs  
       2017 年 8 月 11 日
    上面那个搜私房不过瘾,http://wiseso.cc/search?keyword=DCIM
    aosp
        72
    aosp  
       2017 年 8 月 11 日
    我也很好奇,现在只能抓分享动态了吗?那不是得关注很多人
    mon3
        73
    mon3  
       2017 年 8 月 15 日
    @huangzitao 分享列表已经关闭了,你现在是咋爬的百度云?
    YoungBai
        74
    YoungBai  
       2017 年 8 月 15 日
    @weilongs 好骚的操作.果然一堆私房.
    weilongs
        75
    weilongs  
       2017 年 8 月 16 日
    @YoungBai http://www.fastsoso.cn/search 这个搜 私房,DCIM,我的照片,照片 过瘾 !!
    sunnyzhi
        76
    sunnyzhi  
       2017 年 8 月 25 日
    还不错,谢谢
    huangzitao
        77
    huangzitao  
    OP
       2017 年 8 月 25 日 via Android
    @sunnyzhi 老哥,不用客气
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5458 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 09:08 · PVG 17:08 · LAX 01:08 · JFK 04:08
    ♥ Do have faith in what you're doing.