当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?
1、放慢速度,尽量不被发现,以时间换数量
2、全速爬取,能爬多少是多少,被封了再想办法
3、还有其他好方法吗,求教
1
R18 2018-04-15 22:47:36 +08:00 via Android
代理池了解一下
|
2
zhjits 2018-04-15 22:48:00 +08:00
多买 IP 地址
|
3
golmic 2018-04-15 22:59:17 +08:00 via Android
愿意付费我可以接
|
4
ton4 OP |
5
boom7 2018-04-15 23:11:44 +08:00 via Android
都亿级数据了你还想着用免费代理…差这点钱?
|
6
beforeuwait 2018-04-15 23:12:30 +08:00
这种情况哈,多代理的是必须的。
|
8
ton4 OP @beforeuwait 多代理搞起啊,有好用的推荐一下
|
16
lihongming 2018-04-15 23:53:53 +08:00 via Android 2
免费不太可能。
我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。 他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号…… |
17
gabon 2018-04-15 23:57:16 +08:00 via Android
某代理网站买动态代理爬了一亿多的微博数据。
|
18
gabon 2018-04-15 23:58:12 +08:00 via Android
@lihongming 原来是这样。。之前买的时候还在想他们怎么搞的
|
19
knightdf 2018-04-16 00:19:09 +08:00
@lihongming 牛逼
|
20
simonsww 2018-04-16 00:40:39 +08:00
@lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过)
|
21
Antidictator 2018-04-16 01:09:52 +08:00
emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下)
|
22
ton4 OP @Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊😣
|
23
afpro 2018-04-16 09:32:08 +08:00
现在爬人家数据都这么明目张胆的嘛
|
24
afpro 2018-04-16 09:32:51 +08:00
就没考虑过发个邮件购买一份数据?
|
25
vtwoextb 2018-04-16 10:14:25 +08:00
重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip
|
27
ton4 OP 总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。
|
28
fate0 2018-04-16 19:31:34 +08:00 1
免费的 https://github.com/fate0/proxylist 了解一下
|