Skip to the content.

附录C 事后分析的结果



在Google,我们有一个标准的事后总结模板,使我们能够始终如一地捕获事件的根本原因和触发因素,从而进行趋势分析。我们使用这种趋势分析来帮助我们确定针对系统性根本原因类型的改进,例如错误的软件界面设计或不成熟的变更部署计划。表C-1显示了过去7年中成千上万笔事后抽样的情况,显示了我们造成停机的八大诱因。

表C-1。2010–2017年排名前8位的中断触发因素

Binary push 37%
Configuration push 31%
User behavior change 9%
Processing pipeline 6%
Service provider change 5%
Performance decay 5%
Capacity management 5%
Hardware 2%

表C-2列出了最重要的五个根本原因类别。

表C-2。停机的前五种根本原因类别

Software 41.35%
Development process failure 20.23%
Complex system behaviors 16.90%
Deployment planning 6.74%
Network failure 2.75%