企业数字化运营服务管理ITSM之项目建设篇——事件管理从理论到实践的落地
发布者: 超级管理员 发布时间: 2024-07-08
企业数字化运营服务管理ITSM之项目建设篇——事件管理从理论到实践的落地
作者:秦鸿林 紫羚云 CGO、资深解决方案专家
一、引言
随着信息技术的飞速发展,特别是各行各业数字化转型的背景下,作为企业数字化转型的保障平台,IT服务管理(IT Service Management,ITSM)已成为企业保持竞争力的关键。事件管理作为ITSM的核心流程之一,是最高频应用的流程,一些大型企业,每天甚至有几百甚至几千的事件工单,其高效实施对于企业的运营效率、客户满意度和业务发展至关重要,特别是还涉及到业务连续性管理或者应急管理等相关重要领域,对于金融企业,还涉及到监管合规等领域。本文将从理论到实践,全面解析事件管理,并给出具体的实施建议。本文暂主要谈谈一般意义的上事件管理,重大事件管理会作为一个专题单独讨论。
二、事件管理重要性及难点
(一)事件管理的重点
事件管理是指对IT服务中发生的任何非计划性中断或异常进行识别、记录、分类、优先排序、处理、监控和关闭的过程。它确保IT服务能够在规定的时间内恢复,减少业务中断的影响。有效的事件管理不仅能提高IT服务的稳定性和可用性,还能提升用户满意度和企业的运营效率。
(二)事件管理的难点
这些难点主要集中在“受众多”、“对象杂”、“压力大”和“协作难”这四个方面:
受众多,管理复杂
事件管理涉及的用户群体广泛,从一线、二线运维人员到开发团队、外部厂商,再到所有用户,包括高层和VIP用户,每个角色都承载着不同的期望和需求。如何在这样的多元化环境中确保信息流通的顺畅和各方需求的满足,是事件管理的一大挑战。这要求我们不仅要具备卓越的沟通能力,还需要建立高效的管理机制,确保各方利益的平衡和用户满意度的提升。
当然,这也是为什么事件管理是ITSM落地的核心流程里,价值最大、用户感知多的一个模块,正如紫羚云最近的一个ITSM案例《紫羚云助力政府核心系统运维提效——一体化运维三级联动护核心,一键式提单万家接入强服务》介绍的一样,系统上线,就已经接入各级接入单位11000+家,三级服务台和二线运维人员300余人(截止2023年12月底)。
对象杂,技术挑战
事件管理的对象涉及多个层面,包括数据、桌面软件和硬件、应用系统、办公网络以及基础设施等,这些服务对象覆盖了SaaS、PaaS和IaaS等不同的技术领域。这种多样性不仅要求事件管理团队具备广泛的技术背景和专业知识,还需要他们具备快速学习和适应新技术的能力。此外,随着技术的不断发展和变化,事件管理团队还需持续关注新技术动态,以便及时调整管理策略和技术手段。
压力大,高效应对
高频发生的事件给事件管理团队带来了巨大的工作压力。特别是在一些大型组织中,每天可能需要处理成百上千个事件,这就要求团队成员具备高度的警觉性和应急处理能力。此外,重大事件一旦处理不当,可能引发用户的强烈不满和投诉,给组织声誉带来负面影响。因此,如何在压力下保持高效的工作状态,确保事件得到及时响应、准确分派和有效解决,是事件管理团队必须面对的问题。如果在压力大,高效应对的同时,还要满足按照要求,使用好ITSM平台,及时录单,及时在平台上处理,自身要成数字化的习惯,在项目初期往往是一个挑战。
协作难,沟通壁垒
事件管理涉及多个部门和团队之间的协作,包括一二三线运维人员、运维和研发团队、内部和外部团队等。然而,在实际操作中,不同部门和团队之间可能存在信息壁垒和沟通障碍,导致信息无法及时共享和传递。此外,文化差异、利益冲突以及服务文化和意识层次不齐等问题也可能影响团队协作的效果。为了打破这些障碍,我们需要建立有效的沟通机制和协作平台,促进不同部门和团队之间的信息共享和协作。
三、事件管理的关键流程
事件管理的关键流程包括:
事件记录与识别
通过服务台、用户报告、监控工具等多种渠道收集用户报告的问题。使用统一的事件记录模板,详细记录事件的详细信息,包括发生时间、影响范围、用户描述等。对事件进行初步判断,确定是否为已知问题或需要进一步调查。
事件分类与优先排序
根据事件的影响范围、紧急程度、业务影响等因素进行分类,使用优先级评估方法(如四象限法、影响与紧急性矩阵等)对事件进行优先排序。
事件分配与处理
根据事件的类型、优先级和团队成员的技能,将事件分配给最合适的IT支持人员。设定明确的处理时间限制,确保事件能够及时处理。IT支持人员按照既定流程进行故障排查、问题解决等操作,并记录处理过程。在选择了对应的服务目录和优先级之后,对应的SLA规则会自动匹配,系统开始计算SLA的时间。
关闭
设定明确的关闭标准,如问题解决确认、用户满意度反馈等。指定专门的团队或人员负责事件关闭管理,负责确认问题是否真正解决、是否满足关闭标准,并与用户进行确认。对于面向业务用户的事件,原则上是在关闭事件之前,与用户进行沟通,获取用户对问题解决的满意度评价。
注意:评价可包括满意度评分、意见和建议等。这些数据是持续改进的关键输入之一,根据用户评价,对事件处理过程进行反馈和改进,提升服务质量和用户满意度。
监控与跟进
利用监控工具对事件处理过程进行实时监控,确保处理流程的顺畅和高效。在事件管理系统中及时更新事件的状态和处理进度。对于处理周期较长的事件,与用户保持沟通,及时反馈处理进展和结果。
四、事件管理的最佳实践与实施建议
标准化流程
制定明确、统一的事件管理流程,确保所有IT支持人员遵循相同的标准和规范。定期对流程进行审查和更新,以适应企业发展和业务需求的变化。
和监控和自动化工具集成
除了监控系统的集成之外,利用自动化工具提高事件处理的效率和准确性,减少人为错误和延误,目前一些AIOps工具,已经有较强的故障自愈的能力。
和服务级别结合
和服务级别管理(SLM)结合,所有人都应该有服务级别协议(SLA)的意识,可以很好的用 服务级别来驱动效率的提升,把数字化组织“卷”起来。
一二三线支撑体系的建立:
在构建事件管理流程时,考虑建立一线、二线和三线支持团队,明确各团队的职责和协作方式,确保事件得到及时有效处理至关重要。在可以考虑一些敏捷实践,可以把L1、L2、L3适当的压缩和合并的。尤其是对于应用系统和基础设施的运维,往往可以考虑压缩事件处理的层级,比如把L1、L2甚至是包括L3,方法是建立一个敏捷高效的全功能团队。笔者曾经经历的一个数字化组织就是,将各个数字化产品线和研发团队和运维团队拉通,处理效率也很高。
建立团队的服务文化:
倡导以客户为中心的服务理念,强调服务质量和客户满意度的重要性。鼓励团队成员主动承担责任,积极解决用户问题,提高服务响应速度和处理效率。定期组织团队建设活动,增强团队凝聚力和向心力。
做好事件复盘:
每次事件处理完成后,进行事件复盘,分析事件的原因、处理过程和结果。总结经验教训,识别存在的问题和改进点,制定改进措施并跟踪执行情况。将复盘结果分享给团队成员,共同学习和提升事件处理能力。具体参考笔者之前的事件复盘的系列文章。
持续改进:
除了复盘之外,定期回顾和总结事件管理过程,发现问题并及时进行改进。包括利用关键绩效指标(KPIs)评估事件管理的效果和质量,如事件响应时间、解决率、用户满意度等。另外,可以鼓励员工提出改进建议和创新想法,持续优化事件管理流程。
事件管理作为数字化运营服务管理ITSM的重要组成部分,其有效实施对于企业的成功至关重要。通过本文的介绍和分析,我们深入了解了事件管理的关键流程、最佳实践以及具体的实施建议。未来,随着技术的不断发展和企业需求的不断变化,事件管理将面临更多的挑战和机遇,比如和AI和大模型的结合,实现自动化和智能化。我们期待看到更多的企业能够成功地将事件管理融入到ITSM实践中,为企业的数字化转型提供有力保障。
五、总结
事件管理作为数字化运营服务管理ITSM的重要组成部分,其有效实施对于企业的成功至关重要。通过本文的介绍和分析,我们深入了解了事件管理的关键流程、最佳实践以及具体的实施建议。未来,随着技术的不断发展和企业需求的不断变化,事件管理将面临更多的挑战和机遇,比如和AI和大模型的结合,实现自动化和智能化。我们期待看到更多的企业能够成功地将事件管理融入到ITSM实践中,为企业的数字化转型提供有力保障。
文章推荐

企业数字化运营服务管理ITSM之项目建设篇——事件管理从理论到实践的落地
2024-07-08
全球新能源头部企业联袂紫羚云,ITSM革新IT运维,助力数字化转型成效显著获赞誉
2024-06-05
世界500强龙头企业ITSM平台焕新记,“紫羚云”神助攻获客户致信感谢
2024-04-26
企业数字化运营服务管理之项目建设篇——ITSM落地是自研还是外购的必答题
2024-03-25