1
wdd2007 2015 年 4 月 3 日
你对比一下浏览器的请求和爬虫请求有哪些不一样的地方?
比如 useragent、比如 cookie? |
2
willsplashing 2015 年 4 月 3 日
你确定python发出去的request和Chrome devtool里capture的request一模一样吗?
|
3
willsplashing 2015 年 4 月 3 日
还有如果你爬虫一下子发很多request有些网站可能会有rate limit
|
4
dedewei OP |
5
dedewei OP @willsplashing 爬了二十个页面就断了,然后时而行时而不行
|
6
ETiV 2015 年 4 月 3 日 via iPhone
firebug抓一次浏览器的请求,再用curl模拟提交(firebug有复制curl请求的功能),再一点点精简curl的参数
|
8
withrock 2015 年 4 月 3 日
可能和cookie有关,如果不需要登录就可以抓取的话,建议关闭cooke
ps:我也写了个爬虫玩玩,互相学习。 http://git.oschina.net/mktime/scrapy-douban-group |
9
libo26 2015 年 4 月 3 日
header与浏览器一致的话多半是频率限制了吧,增加时间间隔/换IP
|
10
kkx 2015 年 4 月 4 日
用selenium 包治
|
11
ioven 2015 年 4 月 4 日
burpsuite抓包,对比和浏览器的区别
|
12
ming2281 2015 年 4 月 8 日
了解一下HTTP协议,然后这些大都知道怎么避免了
|