1
simapple 2015-06-01 14:37:37 +08:00
但凡有一点工具基础,防采集 基本上不成立,实在不行 做个chrome插件 一页一页的翻 总可以吧
|
2
shootsoft 2015-06-01 14:40:47 +08:00 via Android
用HTML增加随机水印,经常更换模板,用redis记录每个IP访问的次数,超过一定次数的时候就block,再不行你就随机把文字替换成文字图片...
|
3
wy315700 2015-06-01 14:42:47 +08:00 1
防采集 == 搜索引擎也很难采集
|
4
thankyourtender 2015-06-01 14:44:00 +08:00
法律途径就可以解决,报警
|
5
mhycy 2015-06-01 14:45:49 +08:00
网址无规律就挡掉一批写采集规则的了
搜索引擎是按照链接爬取的,采集是按照URL规律爬取的. |
6
zhangchax 2015-06-01 14:53:23 +08:00
其实整页用图片输出是个不错的防采集方法
就是代价比较大... |
7
dingzi 2015-06-01 14:54:48 +08:00
最后结论防不胜防
|
9
binux 2015-06-01 14:57:32 +08:00
防爬的代价是爬的10倍
|
10
shootsoft 2015-06-01 16:45:30 +08:00 via Android
|
11
cszhiyue 2015-06-01 17:15:50 +08:00
点进去看了一下。。运来是图片站
|
12
Mizzi 2015-06-01 17:28:10 +08:00
用微信扫码验证
|
13
dong3580 2015-06-01 17:36:10 +08:00 2
这个问题貌似我回答过不少次,对于防采集,给点方法,不过也都是得不偿失:
1.页头加上刷新重载,可以刷掉一个低级的爬虫(例如:webup等); 2.动态生成关键数据的标签,注意,生成的标签要缺HTML标签半边之类的,也就是故意让页面报错,浏览器都会自动处理,不影响阅读体验或者页面布局即可。这样,用xpath的爬虫会报错。(例如:火车头,用xpath方式写的爬虫,用正则的影响不大吧) 3.上面两种如果采集你的页面,正则过滤所有标签样式 也是没法防的。 4.只要有入口一样采集,链接没规律一样可以采集,只是难度加大了而已,动态链接倒是可以让爬虫蛋碎一下,不过对于搜索引擎不太好。其他的,将文字转成图片,加验证码的,都是不合适的方式和或者会改变体验。当然,1,2方式实际上对自己的网站也是非常不友善,正如 @binux 所说的,代价太大,防爬之路任重道远,流氓有文化了你还能咋办。 |
14
lyragosa 2015-06-01 17:38:29 +08:00
很难。
最好的办法是无视,眼不见心不烦。 |
15
sohoer 2015-06-01 17:47:20 +08:00
只有在网站数据量很大如:10W、100W级,并且爬虫需要比较快的更新数据时如:每天一次、两次或更多次
反爬才有意义,不然防的也只是小白。 |