大家在写爬虫的时候是写成通用型,还是独立型呢?
比如,通用型:一套规则对应一个爬虫
比如,独立型:一个规则对应一个爬虫
比如,要爬100〜10000个不等的网站,用哪种方案比较合适呢?
之所以,这么问,是因为不管是通用型还是独立型,每一个抓取规则都要人肉分析 dom 结构的,如果每一个都要人肉分析的话,那么通用和独立的区别就只有程序结构和代码维护方面的区别了。
1
est 2015 年 5 月 1 日 |
3
sohoer 2015 年 5 月 2 日 via iPhone 看我的
|
4
binux 2015 年 5 月 2 日 |
5
whatisnew OP 再问:
请求头,是伪装成 baidu 呢?还是伪装成 ie8 呢,还是伪装成 chrome 呢。 header 头里的: Accept: Accept-Encoding: 之类的如何写可以提高抓取成功率呢?(目前发现有一些会对 Googlebot 和 Baiduspider 和 正常浏览器提供不同的内容,然后 dom 规则就失效了!x... ) |
7
thedarkside 2015 年 5 月 3 日
不明觉历~~
|