V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
solomaster
V2EX  ›  问与答

一般商业爬虫程序(Java 非 web)是怎么部署到生产环境并运行和监控的?

  •  
  •   solomaster · 2015-12-23 17:55:57 +08:00 · 2814 次点击
    这是一个创建于 3250 天前的主题,其中的信息可能已经有所发展或是发生改变。

    持续性的爬虫。我没有这方面实际应用的经验,这种非 web 的如何部署运行呢?我 google 到的是用 maven 打成可运行 jar ,直接在 linux 下用 java 命令运行,而监控是用 JMX 之类的。
    想问下
    1 :正式的公司里面是怎么做的?
    2 :定时计划任务一般是在程序里面配置好还是用 linux 的 cron 工具呢?
    3 :一般如何监控爬虫运行的呢?

    谢谢。

    5 条回复    2015-12-23 19:45:37 +08:00
    28ms
        1
    28ms  
       2015-12-23 17:58:47 +08:00
    我们公司里用 python 的,都是做成定时任务放 crontab ,感觉有点 low
    监控爬虫运行靠收 root mail 看日志,呵呵呵
    magnetoeric
        2
    magnetoeric  
       2015-12-23 18:17:52 +08:00
    我以前在公司用的 nutch 可以自己设定时间抓的
    canesten
        3
    canesten  
       2015-12-23 18:18:12 +08:00
    个人提议方案
    用 Quartz ,运行监控可以写日志嘛
    sweelia
        4
    sweelia  
       2015-12-23 19:10:13 +08:00
    最方便的,套上 web 框架模板,扔进 tomcat 里跟普通 web 应用一样监控。
    wy315700
        5
    wy315700  
       2015-12-23 19:45:37 +08:00
    @28ms crontab 可以改 Mailto ,可以把运行结果发邮件出来的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2819 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:39 · PVG 17:39 · LAX 01:39 · JFK 04:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.