自己写了一个可以把单机 java 爬虫比较快捷的整合成分布式爬虫的框架
框架会为爬虫的工作节点自动分发任务,完成去重功能,而且有比较高的稳定性(牺牲了一些效率),单点故障和集群崩溃都不必担心,关键持久化的步骤都是原子性的,不会丢失数据~
这个框架不关心你使用的是什么爬虫框架,也就说爬虫的业务逻辑跟他无关,是松耦合的,所以适用性是比较好的
项目是基于 zookeeper+hdfs+netty 上的,也就说只要有 zookeeper 和 hadoop 环境就能很快速的部署啦
自己也做了简单的单机测试和集群测试( 7 虚拟机 hadoop 的 HA 集群,逃)
虽然现在功能还不是特别强大,但是整体的框架已经搭好了,未来的规划我也已经做好了,我会努力让它变得强大起来的~
提供了 shell 交互的功能也有 java 的 api,也基于 tomcat 和 AmdinLTE 写了一个网页监控的 demo
后面会推出 python 和 go 的接口~
项目地址在这里~ WebVeins
文档后面我会很细致的去写,把自己踩过的坑和想法都写进去,如果你想学习而且刚刚接触 zookeeper 说不定会有一点点帮助 (逃)
因为暑假以后要准备找工作了,所以想宣传一下自己的这个项目,望大家能支持一下,感激不尽!!
1
qcloud 2017-05-21 18:59:53 +08:00 via iPhone
贼 6
|
2
AsherG 2017-05-21 19:00:28 +08:00
那还是要打啊
|
3
viko16 2017-05-21 20:08:44 +08:00
哈哈,本来是单机打你,现在是集群一齐来打你了 2333
|
4
voocel 2017-05-21 20:12:29 +08:00 via Android
不是爬虫更要打
|
5
leeg810312 2017-05-21 20:56:16 +08:00 via Android
666
|
6
ihuotui 2017-05-21 20:59:59 +08:00 via iPhone
哈哈
|
7
luckyscript 2017-05-22 09:04:02 +08:00
居然是我电的,666
|
8
knight322 2017-05-22 09:05:51 +08:00
啪!!!呀,打错了
|