1
bazingaterry 2018 年 1 月 17 日 via iPhone 现在没有反爬不代表将来没有,隐藏好自己也很重要。
如果对抓取速度没要求肯定是设置一下 download delay 或者限制一下并发,别把网站抓跨了得不偿失。 |
2
crab 2018 年 1 月 17 日 除非你只爬完这次,不然日后还要继续爬,尽可能伪装成正常访客啊。
黑客入侵完都要帮忙做安全打补丁呢 |
3
frank065 OP @bazingaterry @crab DOWNLOAD_DELAY 一般设置多少合适咧?除了常见的 1.设置 DOWNLOAD_DELAY 2.禁止 cookies 3.更换 user agent 4.代理 IP,请问还有其他常见的伪装技巧吗?
|
4
yanzixuan 2018 年 1 月 17 日
适度吧。不要把人家玩坏了。逼别人上变态反爬。
|
5
Applenice 2018 年 1 月 17 日
你就是装,也要装成 N 个人访问啊,人家哪天看到你天天爬数据,上了反爬,你还得改代码
|
6
HarveyDent 2018 年 1 月 17 日
要,说不定数据一多,你的爬虫把他们网站拖垮了呢
|
8
leavic 2018 年 1 月 17 日
只要一次爬完爬不挂,就算了吧。
|
9
Gimini 2018 年 1 月 17 日
不反爬哪天发现了给你丢脏数据...
|
10
ilovebaicai 2018 年 1 月 17 日
数据量不多,DOWNLOAD_DELAY 设置久一点,加一个 user-agent。 如果有条件放几个代理 ip。说不好那天就把你 ip 封了。
|
11
Len1133 2018 年 1 月 17 日
加上吧,别把人家搞的不舒服
|
12
beforeuwait 2018 年 1 月 17 日
对啊,人家没有反爬,处于道义,不要影响别的用户正常访问,还是需要设置 delay 的
|
13
julyclyde 2018 年 1 月 18 日
楼上说的对
|