V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
haopic
V2EX  ›  问与答

怎么最大限度的做防采集?

  •  
  •   haopic · 2015-06-01 14:34:37 +08:00 · 2892 次点击
    这是一个创建于 3452 天前的主题,其中的信息可能已经有所发展或是发生改变。
    RT,最近网站被采集的厉害,怎么才能有效的防采集!
    我知道肯定不可能完全做到防止,但是能防一步一分防一部分。
    15 条回复    2015-06-01 17:47:20 +08:00
    simapple
        1
    simapple  
       2015-06-01 14:37:37 +08:00
    但凡有一点工具基础,防采集 基本上不成立,实在不行 做个chrome插件 一页一页的翻 总可以吧
    shootsoft
        2
    shootsoft  
       2015-06-01 14:40:47 +08:00 via Android
    用HTML增加随机水印,经常更换模板,用redis记录每个IP访问的次数,超过一定次数的时候就block,再不行你就随机把文字替换成文字图片...
    wy315700
        3
    wy315700  
       2015-06-01 14:42:47 +08:00   ❤️ 1
    防采集 == 搜索引擎也很难采集
    thankyourtender
        4
    thankyourtender  
       2015-06-01 14:44:00 +08:00
    法律途径就可以解决,报警
    mhycy
        5
    mhycy  
       2015-06-01 14:45:49 +08:00
    网址无规律就挡掉一批写采集规则的了
    搜索引擎是按照链接爬取的,采集是按照URL规律爬取的.
    zhangchax
        6
    zhangchax  
       2015-06-01 14:53:23 +08:00
    其实整页用图片输出是个不错的防采集方法
    就是代价比较大...
    dingzi
        7
    dingzi  
       2015-06-01 14:54:48 +08:00
    最后结论防不胜防
    haopic
        8
    haopic  
    OP
       2015-06-01 14:56:09 +08:00
    @shootsoft redis限制IP怎么做?
    binux
        9
    binux  
       2015-06-01 14:57:32 +08:00
    防爬的代价是爬的10倍
    shootsoft
        10
    shootsoft  
       2015-06-01 16:45:30 +08:00 via Android
    @haopic 来一个请求,在redis里面记录一下当前IP在当前小时/天的访问次数,就跟每个IP只能投一次票一样,可以设置24小时之后自动过期,可以重新访问。 @binux 说的对,你要付出的代价是很大的,这套逻辑需要比较大内存的机器来做,或者是redis集群
    cszhiyue
        11
    cszhiyue  
       2015-06-01 17:15:50 +08:00
    点进去看了一下。。运来是图片站
    Mizzi
        12
    Mizzi  
       2015-06-01 17:28:10 +08:00
    用微信扫码验证
    dong3580
        13
    dong3580  
       2015-06-01 17:36:10 +08:00   ❤️ 2
    这个问题貌似我回答过不少次,对于防采集,给点方法,不过也都是得不偿失:
    1.页头加上刷新重载,可以刷掉一个低级的爬虫(例如:webup等);
    2.动态生成关键数据的标签,注意,生成的标签要缺HTML标签半边之类的,也就是故意让页面报错,浏览器都会自动处理,不影响阅读体验或者页面布局即可。这样,用xpath的爬虫会报错。(例如:火车头,用xpath方式写的爬虫,用正则的影响不大吧)
    3.上面两种如果采集你的页面,正则过滤所有标签样式 也是没法防的。
    4.只要有入口一样采集,链接没规律一样可以采集,只是难度加大了而已,动态链接倒是可以让爬虫蛋碎一下,不过对于搜索引擎不太好。其他的,将文字转成图片,加验证码的,都是不合适的方式和或者会改变体验。当然,1,2方式实际上对自己的网站也是非常不友善,正如 @binux 所说的,代价太大,防爬之路任重道远,流氓有文化了你还能咋办。
    lyragosa
        14
    lyragosa  
       2015-06-01 17:38:29 +08:00
    很难。
    最好的办法是无视,眼不见心不烦。
    sohoer
        15
    sohoer  
       2015-06-01 17:47:20 +08:00
    只有在网站数据量很大如:10W、100W级,并且爬虫需要比较快的更新数据时如:每天一次、两次或更多次
    反爬才有意义,不然防的也只是小白。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5702 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 01:39 · PVG 09:39 · LAX 17:39 · JFK 20:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.