网友提问:
如何有效控制运维风险?
优质回答:
风险意识不是底层员工应该考虑的问题,人家就是一干活的,活干好就行了。
肉食者谋之,风险控制,是领导要考虑的问题,不要甩锅给下属。这个问题有两个因素一方面,是员工不服从管理一方面,是你的系统设计,无法承担必要的风险首先说员工不服从管理的问题。这里有一个很有必要的原则,是礼乐征伐自领导出。礼是规范,规章制度,乐是团队文化,价值观,对外交流和输出,征是团队的目标,方向,工作范围,伐是指监督,考核,奖惩和激励制度。领导必须出礼乐征伐,不能不出,并且一定要确保礼乐征伐的控制权和最终解释权,不然就是天下大乱。但是礼乐征伐有个问题,它不能没有,但是也不能光靠它。光凭礼乐征伐确实能控制风险,但是有时候成本会高到惊人的程度。比如开个飞机,有一大堆格式各样的规范,规定到了每个细节,这是因为飞机的量级小,这样做成本还不高。但是开汽车这种量级巨大的就不能这样,不然有能力拿到驾照的人可能要变成现在的千分之一,每次按流程启动汽车可能要准备个一个小时,对司机的监督考核也会复杂很多,这些都是巨大的成本。所以汽车的规范比飞机要简单得多。系统级别,通过提高容错率的方式控制风险,可以让我们减少礼乐征伐方面的管理成本,因为我们的管理只需要确保员工在系统可以接受的容错率范围就行了,容错率越高管理成本越低,礼乐征伐就越简单,越少繁文缛节。比如,有热备份和冗余,有自动故障检测和切换,有回滚机制,那员工出了点小毛病可能对整体系统毫无影响,就是可以容忍的范围。你管理成本会降低,甚至对员工的能力要求都可以降低 从而连人力成本都省下来了。所以,现在回答一下你那个问题:第一,配置文件的修改方法,有没有明确的操作规范?操作规范的执行情况有没有监督和考核方法,以及对应的奖惩措施?第二,有没有可能在系统级别降低甚至消灭配置文件修改错误导致的风险?比如将其自动化,或者使用冗余喝热切换机制降低影响?
其他网友回答
云端部署系统,有外部服务供应商的介入,能有效将日常维护工作所带来的压力减轻。服务供应商可以对系统配置、测试的过程进行监管,同样他们还能够管理企业应用程序数据。