1
Ethanp 2018-07-18 18:05:56 +08:00 via Android
你都知道看 robots 了不小白了
|
2
alvin666 2018-07-18 18:07:57 +08:00 via Android
悄悄,慢慢地爬,自己用,或者换网站。
人家不让你爬,无解 |
3
xpresslink 2018-07-18 18:08:27 +08:00
那个 robots.txt 主要是给搜索引擎来指引的。和你没有什么关系。
|
4
geekcorn 2018-07-18 18:09:33 +08:00 via iPhone
robots.txt 只是对搜索引擎爬虫的建议性限制吧,理论上正常用户在客户端浏览器能看到什么,操作什么,机器就可以做到什么
|
5
b821025551b 2018-07-18 18:11:01 +08:00 1
robots.txt 只是君子协议。。。就比如你家门开着,贴张纸,写着小偷别进来,小偷就真不进了么。。。
|
6
0x5f 2018-07-18 18:12:02 +08:00
伪造正常浏览器 ua 啊
|
7
liupanhi 2018-07-18 18:17:23 +08:00
你确实是小白,哈哈哈
|
9
dcalsky 2018-07-18 18:25:39 +08:00 via Android
@frmongo 你发 http request 的时候,把 header 里的 user-agent 字段改成其他的。
|
10
dcalsky 2018-07-18 18:29:00 +08:00 via Android
@frmongo 但是其实也不用做任何多余的事情,因为 robotstxt 只是一个声明,遵不遵守全看写爬虫人的意思。
|
11
arctanx 2018-07-18 19:00:46 +08:00
楼主很有节操 233
|
12
ml1344677 2018-07-18 19:04:21 +08:00
破坏计算机信息罪了解一下 23333
|
13
musclepanda 2018-07-18 20:52:17 +08:00
你用 scrapy 的? scrapy 在设置文件里面设置下就好了,有一个 Allow_robots 这样的设定,关了就好
|
16
frmongo OP @musclepanda 我用的 python2 的 request,写了个很简单的,伪装成 360 的 agent,可以用
|