基于浏览器内核的采集

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 4775 天前的主题，其中的信息可能已经有所发展或是发生改变。

不是很懂curl这样的采集，不知道能不能完全模拟浏览器的特征，像cookie啥的。
如果能有基于浏览器内核的采集，像定时执行firebug那样的去采集，感觉可以降低很多门槛。
比如淘宝商品页的商品介绍图片，可以轻松的拿下了

浏览器

采集

内核

14 条回复 • 1970-01-01 08:00:00 +08:00

binux

2013 年 1 月 5 日

对于采集这件事来说，curl无所不能
浏览器内核？干的是渲染的活

sohoer

2013 年 1 月 5 日

就算是浏览器还有兼容性问题呢，所以只要满足大部份的采集需求就行了

xing393939

2013 年 1 月 5 日

比如 http://item.taobao.com/item.htm?id=162446389 ，想抓取它的商品介绍图片，还得熟悉它的js如何实现的，太费周折了

cxh116

2013 年 1 月 5 日

Watir,主要用来搞浏览器自动化测试,也可以用来采集

cxh116

2013 年 1 月 5 日

之前用过Watir抓取过淘宝联盟的数据,运行久了会失去响应,必须的kill进程,再重启
另外,同时启动多个浏览器,也会出现未知异常,这个得自己多折腾

xing393939

2013 年 1 月 5 日

@cxh116 多谢
相关的一篇论文： http://www.paper.edu.cn/download/downPaper/201012-730

reusFork

2013 年 1 月 5 日 via Android

Phantomjs

xing393939

2013 年 1 月 5 日

@reusFork 爱你!

guolin

2013 年 1 月 6 日

@reusFork 有没有连webkit都不启动，只执行js和解析dom的。因为已启动webkit消耗就大了。

reusFork

2013 年 1 月 6 日

@guolin 不知道

luztak

2013 年 1 月 6 日

@guolin 考虑下自己改v8?
[路过打酱油

vitohe

2013 年 1 月 6 日

淘宝有商品api接口的
http://api.taobao.com/apidoc/api.htm?spm=0.0.0.34.HXhP8A&path=cid:4-apiId:20

clowwindy

2013 年 1 月 6 日 via iPhone

@guolin jsdom

guolin

2013 年 1 月 6 日

@clowwindy 晚上回家试试，比如抓取奇艺的视频，如果用解析js的方式就可以完全仿真的抓取地址。如果用其他方式，如果奇艺的规则变了就没法抓了。