各位好,最近想采集一个网站,采用的是 urllib2 和 beautifulsoup 。然后发现这个网站挂了 Incapsula 这个 CDN ,和 Cloudflare 一样,访问主页 aaa.com 之后会在后面加入 aaa.com/?key302=80ebbaed9d&expire302=1465622987&keyjs=80ebbaed9d&expirejs=1465622987 这样的字符串。用 urllib.request 方法就会报 302 错误,请教这种情况下如何解决? 十分感谢!
1
kenX 2016 年 6 月 11 日 via iPhone PhantomJS
|
2
ioven 2016 年 6 月 11 日 requests 允许跳转
|
3
disonlee OP @ioven 是允许跳转,我不太清楚这个 cdn 后面加的字符串什么策略, headers 也都伪装了,还是提示 too many loops
|
4
xiaozhizhu1997 2016 年 6 月 11 日 via Android @disonlee 加 key 是一种防御 L7(CC)攻击的方式。
|
7
wujunze 2016 年 6 月 12 日
PhantomJS 这个是神器
|
8
maxsec 2016 年 6 月 12 日
建议 livid 版规中禁止讨论爬虫抓取此类负能量的功能问题
|