1
binux 2013-01-05 18:18:38 +08:00
对于采集这件事来说,curl无所不能
浏览器内核?干的是渲染的活 |
2
sohoer 2013-01-05 18:20:22 +08:00
就算是浏览器还有兼容性问题呢,所以只要满足大部份的采集需求就行了
|
3
xing393939 OP 比如 http://item.taobao.com/item.htm?id=162446389 ,想抓取它的商品介绍图片,还得熟悉它的js如何实现的,太费周折了
|
4
cxh116 2013-01-05 18:29:29 +08:00
Watir,主要用来搞浏览器自动化测试,也可以用来采集
|
5
cxh116 2013-01-05 18:31:19 +08:00
之前用过Watir抓取过淘宝联盟的数据,运行久了会失去响应,必须的kill进程,再重启
另外,同时启动多个浏览器,也会出现未知异常,这个得自己多折腾 |
6
xing393939 OP |
7
reusFork 2013-01-05 18:38:01 +08:00 via Android 2
Phantomjs
|
8
xing393939 OP @reusFork 爱你!
|
12
vitohe 2013-01-06 15:30:43 +08:00
|