场景是这样的: 一个爬虫,一个网站。 用户在网站中配置爬虫的参数,爬虫实时根据配置的参数决定其运行状态。
那么,如何将用户修改更新的参数反映到爬虫呢?
当前的做法是,爬虫执行新的一轮爬取前,读取用户配置的 rest api,通过 api 传递数据,但总感觉不优雅,也不是很方便。
是否又专门针对这种场景更好的方式呢?
1
zkqiang 2019-07-23 14:21:31 +08:00 1
将最新配置实时通过 MQ 发送,爬虫开个线程消费 MQ
|
2
misaka19000 2019-07-23 14:23:27 +08:00
信号
|
3
Ehco1996 2019-07-23 16:06:55 +08:00 via iPhone
从 api 拉配置不是很常规的操作么?
我觉得爬虫没必要搞得多复杂 你要觉得不好 爬虫端再开一个线程接受配置的推送? 协议用 api/rpc 之类的都行 |
4
chuanqirenwu OP @zkqiang 看了一下,觉得消息队列比较契合。
|
5
tikazyq 2019-07-23 17:19:52 +08:00
通过数据库来做,Crawlab 就是这么做的,将环境变量存入数据库中,爬虫去数据库中拿环境变量。
http://github.com/tikazyq/crawlab 新版的 crawlab 是用 golang 写的后台,还没发布,预先打个广告。 |
6
lihongjie0209 2019-07-23 17:47:43 +08:00
你需要的是配置中心(zookeeper 之类的), 别用消息队列
|
7
chuanqirenwu OP @lihongjie0209 太重了吧,就是想在用户更新配置后发送给后端,感觉一个轻量级的后端足以应付?
|
8
chuanqirenwu OP @tikazyq 好东西呀!刚好研究一下怎么用。体验了一下 demo,手机端的布局似乎有点问题?响应式不是很完美。element ui 应该能比较好地支持响应式吧
|
9
lihongjie0209 2019-07-24 09:11:00 +08:00
@chuanqirenwu #7 第一次听说 zookeeper 比 mq 重
|
10
tikazyq 2019-07-30 20:28:48 +08:00
@chuanqirenwu 手机布局现在还没有优化,只能暂时用 PC 来看
|