第七份年度报告分析了有关IT和数据中心停机的相关数据,涵盖停机原因、成本及后果

Uptime Institute今日发布其2025年第七份年度停机分析(Annual Outage Analysis)主题报告。对于数据中心所有者和运营商而言,预防数据中心停机仍然是一项战略重点。基础设施设备有所改进,但现代架构的复杂性以及不断演变的外部威胁带来了新的风险,运营商必须积极应对这些风险。

Uptime Intelligence研究连续第四年表明,总体停机频率以及所报告的停机严重程度的总体水平持续下降。然而,网络安全事件呈上升趋势,并且往往会产生严重且持久的影响。

Uptime Intelligence创始成员兼执行董事Andy Lawrence表示:“总体而言,停机情况有所减少。数据中心运营商面临着越来越多超出他们控制范围的外部风险,包括电网限制、极端天气、网络提供商故障以及第三方软件问题。尽管风险环境更加不稳定,但情况仍在改善。”

Uptime的年度停机分析在行业内独树一帜,它综合了多项调查、Uptime Institute成员及合作伙伴提供的信息,以及其公开报告的停机事件数据库。

主要研究结果包括:

  • 相对于数字基础设施的快速增长,停机事件变得越来越不频繁,严重程度也在降低。这一趋势已持续数年,突显了行业在风险管理和可靠性方面的进步。
  • 电力仍然是导致重大停机事件的主要原因。2024年,由IT和网络问题导致的停机事件有所增加,占重大停机事件总数的23%。这一趋势反映了长期以来向托管服务提供商、云计算及其他第三方服务的转变。虽然外包可能会降低一些企业的风险,但重大故障仍时有发生,有时会造成严重后果。这种增长可能是由于IT和网络复杂性增加,导致变更管理问题和配置错误。
  • 基于软件的分布式弹性工具正在不断扩展。这些系统提高了正常运行时间,但也可能引入新的风险和复杂性。将基于软件的弹性策略与物理故障切换/冗余相结合,无疑有助于整体可用性的提升。然而,增加的复杂性带来了自身的挑战,并且可能会模糊故障责任界限,使根本原因分析和停机分类变得更加复杂。
  • 行业转型的步伐正在加快。对AI的需求激增给现有基础设施设计带来了压力,尤其是在电力和冷却方面。与此同时,电网限制和全球贸易紧张局势给供应链和扩张计划带来了新的不确定性。这些压力共同作用,最终可能会影响当前可靠性趋势的稳定性。

2025年,由未遵循程序导致的人为错误相关停机事件的比例比2024年上升了10个百分点。与上一年相比,员工未遵循程序已成为导致停机的更主要原因,这表明通过培训和流程审查来减少此类事件存在重大机会。绝大多数与人为错误相关的停机事件都涉及忽视程序或程序不完善。在过去三年中,近40%的组织曾遭受过由人为错误导致的重大停机事件。在这些事件中,85%源于员工未遵循程序或流程和程序本身存在缺陷。这种上升的原因尚不清楚,但可能是行业快速增长以及许多地区由此导致的人员短缺的结果。虽然改进文档记录和流程仍然很重要,但更加注重员工培训和实时运营支持可能会更有效地降低风险。

在Uptime追踪公开报告的停机事件的九年时间里,第三方IT和数据中心服务提供商(包括云计算和互联网巨头、电信公司以及托管公司)约占所报告停机事件的三分之二。

2024年,归因于数字服务提供商的停机事件有所增加,而来自云计算/互联网巨头的停机事件则有所减少,这可能是由于超大规模企业在分布式弹性和区域故障切换方面的投资。自2020年以来,金融行业的停机频率连续第三年低于长期平均水平。这种改善可能反映了在2021年之前发生的几起重大且备受瞩目的停机事件之后,更严格的监管和监督所产生的影响。

了解更多信息: 如需深入了解Uptime关于数字基础设施故障的最新研究,请在此处注册参加即将于太平洋夏令时5月7日(星期三)上午9点举行的2025年度停机分析网络研讨会。一份9页的执行摘要(这是一份更为详细的26页报告的节选内容)可在此处下载。

如需以评估的方式获取完整的2025年度停机分析报告以及Uptime Intelligence的相关内容,请访问https://intelligence.uptimeinstitute.com/request-evaluation。完整报告可供Uptime Network成员和Uptime Intelligence订阅者获取。(媒体咨询:发送电子邮件至publicrelations@uptimeinstitute.com

关于Uptime Institute

Uptime Institute是全球数字基础设施权威机构。Uptime在全球超过118个国家/地区颁发了3500多个奖项,目前在80多个国家/地区开展1100多个项目,帮助成千上万家公司优化关键IT资产,同时管理成本、资源和效率。30多年来,该公司为数据中心的性能、恢复力、可持续发展和效率建立了行业领先的基准,为客户提供了保障,使他们的数字基础设施能够在各种运行条件下以符合其各自业务需求的水平运行。Uptime的分级标准是IT行业最值得信赖和应用最广泛的全球数据中心设计、建设和运营标准。Uptime提供的服务包括该组织的分级标准和认证、管理与运营审查和评估(包括SCIRA-FSI金融行业风险评估)、可持续性评估以及范围广泛的额外风险管理、性能、可用性和相关服务。超过9万名数据中心专业人士已经成功完成了Uptime Education培训课程,包括备受追捧的ATD(认证专业设计师)和AOS(认证运营专家)课程。2003年,通过收购CNet Training, Ltd.,Uptime Education课程得到了进一步的扩充。

Uptime Institute总部设在纽约州纽约市,在伦敦、圣保罗、迪拜、利雅得、新加坡和台北设有办事处,在全球超过34个国家/地区拥有全职的Uptime专业人员。