V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
cqcn1991
V2EX  ›  奇思妙想

用强化学习/对抗生成,来做爬虫与反爬虫....?

  •  
  •   cqcn1991 · 2017-11-03 22:30:30 +08:00 · 4380 次点击
    这是一个创建于 2580 天前的主题,其中的信息可能已经有所发展或是发生改变。

    发现自己写的 Amazon 爬虫被封了,因为没有 IP 资源,所以只得自己想办法反反爬 于是把 user agent 随机了一下继续爬,凑合用了 (Ruby,没有 Scrapy 那样的框架...)

    不过想到

    • 爬虫就是一堆规则模拟人的操作,反爬虫就是识别这个规则

    那么,是不是可以两个对抗生成比较好的爬虫 /反爬方法?

    简单来说

    • 在一定的规则内(比如,限定 IP,不封访问页面特别多的用户)对抗
    • 爬虫方希望尽可能用少的 IP 资源
    • 反爬方希望尽可能误封、少封访问频繁的用户

    最后是不是可以得到一个 model,非常接近人的行为?

    不知道这个方法具体叫啥,感觉和对抗生成的思路有点像

    16 条回复    2017-11-05 09:05:15 +08:00
    NullMan
        1
    NullMan  
       2017-11-03 22:50:27 +08:00
    我有个大胆的想法,实现一个 p2p 的爬虫代理。比如你想爬 amazon,那么就通过 p2p 网络,让 p2p 爬虫代理 A 帮助你爬 amazon 1 页面,p2p 爬虫代理 B 帮你爬 amazon 2 页面。

    只要参与了这个 p2p 爬虫网络的人,都可以互相彼此代理爬取,这样就实现了分布式爬虫的效果。

    你为人人,人人为用,这就是 p2p 的精神。
    takato
        2
    takato  
       2017-11-03 22:51:24 +08:00
    恭喜爬虫币诞生- -
    cqcn1991
        3
    cqcn1991  
    OP
       2017-11-03 22:52:46 +08:00
    @NullMan 所以还是直接分布式爬虫是吧,哈哈哈哈
    NullMan
        4
    NullMan  
       2017-11-03 22:55:01 +08:00
    @cqcn1991 p2p 版的分布式爬虫可要比传统的分布式爬虫厉害多了,至少不用花钱,而且人数越多,越不可能会出现与之对抗的反爬虫手段。
    shiny
        5
    shiny  
       2017-11-03 23:40:01 +08:00
    @NullMan 架个蜜罐,封杀所有节点。
    binux
        6
    binux  
       2017-11-03 23:57:15 +08:00
    结果是所有人都想爬 amazon
    showgood163
        7
    showgood163  
       2017-11-04 00:03:24 +08:00 via Android
    这操作有意思。
    davidqw
        8
    davidqw  
       2017-11-04 10:33:42 +08:00
    薅羊毛利器。。
    SlipStupig
        9
    SlipStupig  
       2017-11-04 10:38:26 +08:00
    @takato 我也这么想过,算力取决于你抓取的性能证明....23333
    i730
        10
    i730  
       2017-11-04 14:15:13 +08:00
    @shiny #5 你这个操作啊..........
    soulmine
        11
    soulmine  
       2017-11-04 16:52:26 +08:00
    @NullMan 那和去网上扫点代理接口有什么区别 说到底不还是借别人的 IP 么 ww
    fiht
        12
    fiht  
       2017-11-04 18:43:19 +08:00
    @soulmine 这个区别就很高了啊,这个属于你偷着用别人的资源。
    LukeChien
        13
    LukeChien  
       2017-11-04 19:05:36 +08:00 via Android
    @NullMan 洋葱网络
    diggerdu
        14
    diggerdu  
       2017-11-04 19:09:03 +08:00
    日常流行名词造句
    ZiLong
        15
    ZiLong  
       2017-11-04 22:54:57 +08:00
    3G4G 配合现在的无限流量卡还是有搞头,手机的网络 ip,在重新进网(重启,飞行模式)的时候会换,而且不换也不怕,移动运营商分配给我们的是内网 IP,出口 IP 是大家共享的,对方也不敢封吧
    PPPoE 每次拨号上网的 ip 也是要换的
    silencefent
        16
    silencefent  
       2017-11-05 09:05:15 +08:00
    长城爬虫,强制万维网上所有站点每日提交更新报文并无偿贡献出来
    不然就 firewall banlist
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2695 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:39 · PVG 23:39 · LAX 07:39 · JFK 10:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.