Skip to the content.
The Site Reliability Workbook 站点可靠性工作手册 中文版
The Site Reliability Workbook 站点可靠性工作手册 中文版
View on GitHub
The Site Reliability Workbook 站点可靠性工作手册 中文版
前言 I
前言 II
序言
第1章 SRE和DevOps的关系
第一部分 基础
第2章 实施SLO
第3章 SLO工程案例研究
第4章 监控
第5章 基于SLO发出警报
第6章 消除琐事工作
第7章 简单化
第二部分 实践
第8章 值班
第9章 事件响应
第10章 事后总结文化: 从失败中学习
第11章 管理负载
第12章 介绍非抽象大型系统设计
第13章 数据处理管道
第14章 配置设计和最佳实践
第15章 配置细节
第16章 金丝雀发布
第三部分 流程
第17章 识别过载并从中恢复
第18章 SRE参与模型
第19章 SRE-超越自己
第20章 SRE团队生命周期
第21章 SRE中的组织变革管理
总结
附录A SLO文档示例
附录B 错误预算政策示例
附录C 事后分析的结果
关于编者