持续性的爬虫。我没有这方面实际应用的经验,这种非 web 的如何部署运行呢?我 google 到的是用 maven 打成可运行 jar ,直接在 linux 下用 java 命令运行,而监控是用 JMX 之类的。
想问下
1 :正式的公司里面是怎么做的?
2 :定时计划任务一般是在程序里面配置好还是用 linux 的 cron 工具呢?
3 :一般如何监控爬虫运行的呢?
谢谢。
1
28ms 2015-12-23 17:58:47 +08:00
我们公司里用 python 的,都是做成定时任务放 crontab ,感觉有点 low
监控爬虫运行靠收 root mail 看日志,呵呵呵 |
2
magnetoeric 2015-12-23 18:17:52 +08:00
我以前在公司用的 nutch 可以自己设定时间抓的
|
3
canesten 2015-12-23 18:18:12 +08:00
个人提议方案
用 Quartz ,运行监控可以写日志嘛 |
4
sweelia 2015-12-23 19:10:13 +08:00
最方便的,套上 web 框架模板,扔进 tomcat 里跟普通 web 应用一样监控。
|