当前位置:首页 >> 关于我们 >> 新闻动态

浅谈在数字化运营服务管理/ITSM中事件管理之“故障复盘”(一)——故障复盘的重要性及总体要求

发布者:  超级管理员 发布时间: 2023-07-05

作者:秦鸿林  紫羚云 CGO兼SaaS负责人

不管是在ITIL V2、V3还是在最新的ITIL4中,事件管理的重要性都是不言而喻的。那么如何做好管理呢?其实在ITIL4中,对事件管理实践的成功因素(PSF)有明确的定义,也就是为了实现事件管理实践的目标,服务提供商需要:


  • 尽早的检测事件

  • 迅速高效地解决事件

  • 持续改进事件管理

image.png 

这里,我们先回顾一下什么是事件,以及事件管理的目的是什么。


  • 事件:服务的计划外中断或者服务质量的降低。

  • 事件管理的目的:事件管理实践的目的是通过尽快恢复正常的服务操作,最小化事件的负面影响。


如何尽早的检测事件以及如何高效的解决事件不是本文的重点本文的重点是想探讨如何持续改进事件管理特别是如何进行故障的“复盘”


在《Incident Management ITIL®4 Practice Guide》这本书里明确提到,持续改进事件管理,就是要为了提高效率,为了分享知识,为了提高用户和客户满意度,周期性的审查在一段时间内发生的事件,针对重大、新的和未解决的事件进行个别关闭后的回顾。确保从事件处理和解决中的吸取教训,并不断改进事件管理的方法。


笔者曾经在一家世界500强负责服务体系建设和管理,我们当时对所有的基础设施和IT系统的故障(影响了可用性)的故障都坚持故障处理后的复盘,对不断提升团队处理事件的能力,不断提升IT系统的在线率,甚至对驱动数字化系统的研发的帮助都很大。

 

一、ITIL的故障管理中,故障复盘的的重要意义


ITIL的事件管理中,故障复盘的重要性如下:


1. 收集问题全面的信息

故障复盘可以让团队全面了解故障发生的根本原因,收集有关问题的详细信息,包括故障发生的条件、影响、修复过程等。这些信息对于未来遇到类似问题时提供宝贵指导。


2. 预防故障再次发生

故障复盘不仅要考虑解决现有问题,更要思考如何预防类似问题的再次发生。通过分析原因并制定计划,可以使团队在未来更好地应对类似的问题。有时候需要倒逼数字化系统的提升,比如对可运维的支持,对高可用性的支持等。


3. 提高协作与沟通

故障复盘可以启发跨职能团队之间的良好沟通和协作,强调共同解决问题、共享信息和知识的重要性。


4. 客户关系管理

通过深入了解和确定问题对客户的影响,团队可以制定可行的解决方案,并提高客户满意度和忠诚度。


5. 提高团队技能

故障复盘不仅是解决故障的手段,还是提高团队技能和能力的机会。团队成员通过学习和探索可以深入了解技术问题和解决方案。


6. 提升应急管理的能力

在故障复盘时,有时候我们除了看到团队的协同的不足,前期对故障的定位不准确,或者应急预案缺乏,这些本质上就是应急管理能力的不足。


7. 改进流程本身

这里不仅仅时包含对事件管理本身,对监控、问题管理、变更管理、甚至容量管理等可能都有促进作用。

 

对于运维来说,故障是不可避免的,我们只能“在故障中成长,在复盘中强大”,IT人不仅在故障文化中经历一次次的“披荆斩棘”,还得知道在故障发生之后,总结经验,巩固自我,并防范于未然。

复盘的目的是为了从故障中学习,找到我们技术和管理上的不足,然后不断改进。虽然我们不愿意故障发生,但是从故障中学习,反而是提升团队和员工能力的最佳手段,所以我们一定要辩证地看待故障这件事情。

 

二、故障复盘的总体要求

 

故障复盘的总体要求包括以下方面:


1. 及时性:故障复盘过程需要尽快完成,以便及时掌握故障信息和解决方案,及时为客户提供服务,避免影响客户满意度。原则上,在故障处理完毕后3个工作日内完成,可以本周组织一次,但是对于重大故障要及时进行复盘,因为重大故障本身,一般也需要出具重大故障处理报告,所以可以借助复盘,形成最终版本的故障处理报告。


2. 全面性:故障复盘需要全面收集故障的相关信息和数据,包括故障发生的时间、影响范围、影响程度、初步原因分析、解决方案,对可用性的影响时长等内容。


3. 准确性:故障复盘需要准确分析和说明故障的原因和解决方案,避免过度简化或遗漏关键细节。特别是对事件的定级、对业务的影响,原因分析、责任方要分析准确。


4. 学习性:故障复盘应该具备可持续学习的特点,以便团队在未来遇到类似问题时,可以利用先前的经验和知识,快速解决问题。基于这一点,笔者过去的经验是,可以组织相关团队一起参与故障的复盘,可以相互质问,相互学习和促进。


5. 反馈性:故障复盘需要将故障信息和解决方案反馈给相关人员,包括客户、团队成员、管理层等,以便全面了解问题影响和解决方案的有效性。对于重大故障,应该按照重大故障的要求及时反馈和报告。


6. 创新性:故障复盘需要鼓励创新思维,以便团队可以制定创新解决方案,并提升团队技能和能力。


7. 优先性:对于未及时解决或者未根本解决的故障,故障复盘需要确定故障的优先级和紧急程度,以便及时处理高优先级的故障,提高客户满意度。


 image.png

   另外我们可以参考传统的可靠性工程故障的“五条归零”的做法提出的故障复盘的五点要求


1、过程清楚:核心是从故障发现、报障、响应、排查、定位、执行恢复、完全恢复等要描述到时间点,收到的信息性,处理人的动作等描述清楚。这个的核心是时间线,要描述清楚和准确。


2、影响清楚:要厘清对业务、客户和用户的实际影响,具体包括业务的影响范围、影响的用户数、影响时长、严重程度等。对于有些行业,还要定义清楚对公司品牌是否有影响,是否有资金损失、是否可以追回等。


3、机理清楚:复盘要分析原因、确认引发业务故障的根因,传导过程、技术机理,要尽可能推演复现故障,推导过程令人信服。


4、整改措施有效:整改措施有效是指要确认修复过程所采取的措施是否有效,要能够真正解决问题,可以预防或避免故障再次发生,或者对故障的修复有明显的改进效果。


>>>>整改措施应该是具体的可验证的要有明确的责任人和完成时间有些整改措施对于IT系统可能是涉及到一个迭代项目的规模例如对架构的优化调整等


5、举一反三:分析是否有类似的问题、风险隐患,是否需要马上处理。例如涉及到某个组件Bug,或者基础环境需要立即升级组件,加强监控和改进告警等。


>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

本篇我们暂时只谈故障复盘的必要性和价值后续2篇会陆续分析如何高效组织故障复盘以及故障复盘中的一些注意事项并给出一个故障复盘的检查表从各个维度提升故障复盘的质量和效果

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>


640.gif