闲来无事想用 Node.js 写点东西练手,同时又想些爬虫,于是乎就有了这样一个爬虫项目。之前有过 Scrapy 的开发经验,于是乎就模仿 Scrpay 的 api 用 Node.js 实现了一套。
附上 github 地址: https://github.com/SteveZhangBit/leiobunum
名字取做 leiobunum 意思是长脚蜘蛛,感觉很形象啊~
本身 Node.js 就是异步 IO ,非常适合爬虫这种高 IO 的程序,并且本身 Scrapy 也是建立在 Twisted 上的,所以用 Node.js 实现起来简直爽歪歪。
自己还加上了一个 Redis 的支持,可以实现简单的分布式,实际测试原来要用数小时的爬去过程,缩短到了 10 来分钟,哈哈哈
欢迎大家 fork 和 star
1
coolicer 2015-11-28 15:04:26 +08:00
什么文档都木有?
|
2
SteveZhang1995 OP @coolicer 呃,文档逐步完善。。。
|
3
jziwenchen 2015-11-28 15:48:07 +08:00
nodejs + jquery 来实现爬虫和数据分析 感觉就像写 前端一样 呵呵.
|
4
carlhan 2015-11-28 15:59:26 +08:00
README 都没有?
|
5
SteveZhang1995 OP 这几天我会尽快完善一下基本文档,给出一个最简单的例子
|
6
fishlee 2015-11-29 08:37:56 +08:00 via Android
不知道能不能搞 search 这种情况: 最终数据要 3 个级联页才能拿到。 get(获取参数), post(中间页面,获取最终页地址及参数), post(结果)
|
7
SteveZhang1995 OP @fishlee 目前爬虫只是最简单的形式,就是请求某个页面。对于这种情况,我觉得可能得用 phantomjs 才行
|
8
kan831019 2016-12-13 16:14:04 +08:00
@SteveZhang1995 casperjs
|