V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sd87271833
V2EX  ›  DevOps

携程事件后关于运维工程师,安全工程师的问题!!

  •  
  •   sd87271833 · 2015-05-29 16:09:31 +08:00 · 7018 次点击
    这是一个创建于 3465 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1.有专职的运维工程师吗?
    2.有专职的安全工程师吗?
    3.用的什么系统?什么版本管理工具?什么运维管理工具?
    4.如何发布新版本?
    5.会聘请第三方安全机构检测吗?

    我自己先回答:
    创业公司没有专职的运维和安全工程师但是简单的都能搞,linux centos64 6.5 git gitlab shell/python/docker 部分使用jenkins做分发顺便跑准入测试,新版本都是工程师自己上的,小版本迭代,出问题自己回滚,乌云老大比较熟偶尔帮忙检查一下漏洞
    21 条回复    2015-05-29 23:33:00 +08:00
    codeninja
        1
    codeninja  
       2015-05-29 16:14:28 +08:00
    乌云老大比较熟偶尔帮忙检查一下漏洞
    这就满牛逼的了感觉
    publicID001
        2
    publicID001  
       2015-05-29 16:17:09 +08:00
    唉 提交洞总是被miss
    welsmann
        3
    welsmann  
       2015-05-29 16:20:15 +08:00
    乌云老大....剑心?
    johnsmith123
        4
    johnsmith123  
       2015-05-29 16:21:11 +08:00
    再好的系统 也难防内鬼
    lhy360121
        5
    lhy360121  
       2015-05-29 16:31:15 +08:00
    服务器超过千台以后,你会发现你进入了另一个世界。
    markfang
        6
    markfang  
       2015-05-29 16:36:48 +08:00
    @lhy360121 怎么理解?
    AntiGameZ
        7
    AntiGameZ  
       2015-05-29 18:07:07 +08:00
    @markfang 给一台服务器打个补丁,ssh 上去敲几行代码就行。一千台机器还能这么干么?
    phoenixlzx
        8
    phoenixlzx  
       2015-05-29 18:08:17 +08:00
    @AntiGameZ ansible/puppet 是干啥吃的啊(
    RIcter
        9
    RIcter  
       2015-05-29 18:20:14 +08:00
    专职运维倒是都有,但是很多公司没有专职的安全工程师是真的。
    _(:3」∠)_
    等公司大了一般才会去找安全工程师吧。
    像某钩现在还小,不知道找个安全工程师,被爆菊了都不知道呢还。
    erevus
        10
    erevus  
       2015-05-29 18:30:01 +08:00
    专职运维倒是都有,但是很多公司没有专职的安全工程师是真的。
    _(:3」∠)_
    等公司大了一般才会去找安全工程师吧。
    像某ABAB现在还小,不知道找个安全工程师,被爆菊了都不知道呢还。
    wy315700
        11
    wy315700  
       2015-05-29 18:31:43 +08:00
    看了读研的时候选择安全专业是选对了。。。

    当初好多人安利我,说安全没啥用,不会有人关心的。
    9hills
        12
    9hills  
       2015-05-29 18:44:21 +08:00
    @phoenixlzx 然后puppet配错,所有机器都挂了。laf
    Flyshit
        13
    Flyshit  
       2015-05-29 19:46:49 +08:00 via Android
    @erevus 最近好像zone里不见你出现了?
    shinko
        14
    shinko  
       2015-05-29 19:48:39 +08:00
    @9hills 批量操作的时候,我都喜欢先用一两台机器测试通过了,在大量来的。
    mywaiting
        15
    mywaiting  
       2015-05-29 20:16:13 +08:00
    有大量机器的时候,应该分为好批次的机器吧,代码版本按feature打flag,每次上线按flag部署,几个批次的机器迭代着部署,从几台、几十台、几百台最后全部机器部署,线上按flag分小部分流量实际线上测试代码。

    嗯嗯,就是类似facebook那样的上线方式,也不至于像ctrip那样酿成这样的大事故吧。

    听说amazon有个叫apollo的上线系统,几乎可以在线上实现每秒部署一次新代码版本,按照ctrip这玩法,amazon早该被删除几十万次了。

    反正我是不懂ctrip这么多的运维和安全都是干嘛去了,线上代码上线前没有充分的自动测试和小流量测试的么?代码发布没有统一的管理出了问题要大家去找发布邮件(微博看到的所谓内部聊天记录,不知道真假),这ctrip的技术部门感觉好像是拿了工资不作为啊!莫名其妙的。

    而且全部瘫痪这样的事情应该也是线上系统应该考虑的,就没有应急预案和灾备的么?一个NASDAQ上市的大公司这点技术能力都没有,还要恢复这么久,看着我也是醉了。风平浪静的时候,大家都在游泳,潮水退去了,才发现自己在裸泳,这不是一个所谓大公司的技术部的表现啊。

    还好有个elong,好歹也是资本意义上的“灾备”,要不这脸都往那搁啊。

    总而言之,ctrip这搞什么鬼,也只有他们自己知道了。留下很多的教训,是很多很多的教训,怎么汲取这个教训,就看各个公司的了。
    phoenixlzx
        16
    phoenixlzx  
       2015-05-29 20:19:04 +08:00
    @RIcter R菊苣日掉了某钩么!
    RIcter
        17
    RIcter  
       2015-05-29 20:27:32 +08:00
    @phoenixlzx 并不是我干的(
    fancy967
        18
    fancy967  
       2015-05-29 23:08:53 +08:00
    亏我还去笔试过携程的安全工程师,虽然也没上...
    matrix67
        19
    matrix67  
       2015-05-29 23:23:54 +08:00 via Android
    openstack啊
    matrix67
        20
    matrix67  
       2015-05-29 23:24:32 +08:00 via Android   ❤️ 1
    游戏界开服和服玩的不亦乐乎。
    df4VW
        21
    df4VW  
       2015-05-29 23:33:00 +08:00
    这时候就知道docker的好了吧,#灾难恢复#
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2985 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 11:02 · PVG 19:02 · LAX 03:02 · JFK 06:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.