浅谈在数字化运营服务管理/ITSM中事件管理之“故障复盘”(一)——故障复盘的重要性及总体要求
发布者: 超级管理员 发布时间: 2023-07-05
作者:秦鸿林 紫羚云 CGO兼SaaS负责人
不管是在ITIL V2、V3还是在最新的ITIL4中,事件管理的重要性都是不言而喻的。那么如何做好管理呢?其实在ITIL4中,对事件管理实践的成功因素(PSF)有明确的定义,也就是为了实现事件管理实践的目标,服务提供商需要:
尽早的检测事件
迅速高效地解决事件
持续改进事件管理
这里,我们先回顾一下什么是事件,以及事件管理的目的是什么。
事件:服务的计划外中断或者服务质量的降低。
事件管理的目的:事件管理实践的目的是通过尽快恢复正常的服务操作,最小化事件的负面影响。
如何尽早的检测事件,以及如何高效的解决事件,不是本文的重点,本文的重点是想探讨如何持续改进事件管理,特别是如何进行故障的“复盘”。
在《Incident Management ITIL®4 Practice Guide》这本书里明确提到,持续改进事件管理,就是要为了提高效率,为了分享知识,为了提高用户和客户满意度,周期性的审查在一段时间内发生的事件,针对重大、新的和未解决的事件进行个别关闭后的回顾。确保从事件处理和解决中的吸取教训,并不断改进事件管理的方法。
笔者曾经在一家世界500强负责服务体系建设和管理,我们当时对所有的基础设施和IT系统的故障(影响了可用性)的故障都坚持故障处理后的复盘,对不断提升团队处理事件的能力,不断提升IT系统的在线率,甚至对驱动数字化系统的研发的帮助都很大。
一、在ITIL的故障管理中,故障复盘的的重要意义
在ITIL的事件管理中,故障复盘的重要性如下:
1. 收集问题全面的信息
故障复盘可以让团队全面了解故障发生的根本原因,收集有关问题的详细信息,包括故障发生的条件、影响、修复过程等。这些信息对于未来遇到类似问题时提供宝贵指导。
2. 预防故障再次发生
故障复盘不仅要考虑解决现有问题,更要思考如何预防类似问题的再次发生。通过分析原因并制定计划,可以使团队在未来更好地应对类似的问题。有时候需要倒逼数字化系统的提升,比如对可运维的支持,对高可用性的支持等。
3. 提高协作与沟通
故障复盘可以启发跨职能团队之间的良好沟通和协作,强调共同解决问题、共享信息和知识的重要性。
4. 客户关系管理
通过深入了解和确定问题对客户的影响,团队可以制定可行的解决方案,并提高客户满意度和忠诚度。
5. 提高团队技能
故障复盘不仅是解决故障的手段,还是提高团队技能和能力的机会。团队成员通过学习和探索可以深入了解技术问题和解决方案。
6. 提升应急管理的能力
在故障复盘时,有时候我们除了看到团队的协同的不足,前期对故障的定位不准确,或者应急预案缺乏,这些本质上就是应急管理能力的不足。
7. 改进流程本身
这里不仅仅时包含对事件管理本身,对监控、问题管理、变更管理、甚至容量管理等可能都有促进作用。
对于运维来说,故障是不可避免的,我们只能“在故障中成长,在复盘中强大”,IT人不仅在故障文化中经历一次次的“披荆斩棘”,还得知道在故障发生之后,总结经验,巩固自我,并防范于未然。
复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。虽然我们不愿意故障发生,但是从故障中学习,反而是提升团队和员工能力的最佳手段,所以我们一定要辩证地看待故障这件事情。
二、故障复盘的总体要求
故障复盘的总体要求包括以下方面:
1. 及时性:故障复盘过程需要尽快完成,以便及时掌握故障信息和解决方案,及时为客户提供服务,避免影响客户满意度。原则上,在故障处理完毕后3个工作日内完成,可以本周组织一次,但是对于重大故障要及时进行复盘,因为重大故障本身,一般也需要出具重大故障处理报告,所以可以借助复盘,形成最终版本的故障处理报告。
2. 全面性:故障复盘需要全面收集故障的相关信息和数据,包括故障发生的时间、影响范围、影响程度、初步原因分析、解决方案,对可用性的影响时长等内容。
3. 准确性:故障复盘需要准确分析和说明故障的原因和解决方案,避免过度简化或遗漏关键细节。特别是对事件的定级、对业务的影响,原因分析、责任方要分析准确。
4. 学习性:故障复盘应该具备可持续学习的特点,以便团队在未来遇到类似问题时,可以利用先前的经验和知识,快速解决问题。基于这一点,笔者过去的经验是,可以组织相关团队一起参与故障的复盘,可以相互质问,相互学习和促进。
5. 反馈性:故障复盘需要将故障信息和解决方案反馈给相关人员,包括客户、团队成员、管理层等,以便全面了解问题影响和解决方案的有效性。对于重大故障,应该按照重大故障的要求及时反馈和报告。
6. 创新性:故障复盘需要鼓励创新思维,以便团队可以制定创新解决方案,并提升团队技能和能力。
7. 优先性:对于未及时解决或者未根本解决的故障,故障复盘需要确定故障的优先级和紧急程度,以便及时处理高优先级的故障,提高客户满意度。
另外,我们可以参考传统的可靠性工程故障的“五条归零”的做法,提出的故障复盘的五点要求:
1、过程清楚:核心是从故障发现、报障、响应、排查、定位、执行恢复、完全恢复等要描述到时间点,收到的信息性,处理人的动作等描述清楚。这个的核心是时间线,要描述清楚和准确。
2、影响清楚:要厘清对业务、客户和用户的实际影响,具体包括业务的影响范围、影响的用户数、影响时长、严重程度等。对于有些行业,还要定义清楚对公司品牌是否有影响,是否有资金损失、是否可以追回等。
3、机理清楚:复盘要分析原因、确认引发业务故障的根因,传导过程、技术机理,要尽可能推演复现故障,推导过程令人信服。
4、整改措施有效:整改措施有效是指要确认修复过程所采取的措施是否有效,要能够真正解决问题,可以预防或避免故障再次发生,或者对故障的修复有明显的改进效果。
>>>>整改措施,应该是具体的、可验证的,要有明确的责任人和完成时间。有些整改措施,对于IT系统可能是涉及到一个迭代项目的规模,例如对架构的优化调整等。
5、举一反三:分析是否有类似的问题、风险隐患,是否需要马上处理。例如涉及到某个组件Bug,或者基础环境需要立即升级组件,加强监控和改进告警等。
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
本篇,我们暂时只谈故障复盘的必要性和价值。后续2篇会陆续分析如何高效组织故障复盘,以及故障复盘中的一些注意事项,并给出一个故障复盘的检查表,从各个维度提升故障复盘的质量和效果。
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
文章推荐

企业数字化运营服务管理ITSM之项目建设篇——事件管理从理论到实践的落地
2024-07-08
全球新能源头部企业联袂紫羚云,ITSM革新IT运维,助力数字化转型成效显著获赞誉
2024-06-05
世界500强龙头企业ITSM平台焕新记,“紫羚云”神助攻获客户致信感谢
2024-04-26
企业数字化运营服务管理之项目建设篇——ITSM落地是自研还是外购的必答题
2024-03-25