BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Google诠释其它企业在实施SRE中的错误

| 作者 Manuel Pais 关注 9 他的粉丝 ,译者 盖磊 关注 2 他的粉丝 发布于 2018年7月6日. 估计阅读时间: 5 分钟 | CNUTCon 了解国内外一线大厂50+智能运维最新实践案例。

在近期的DevOps Enterprise Summit伦敦大会上,Google客户可靠性工程师Stephen Thorne做演讲澄清了SRE(站点可靠性工程,Site Reliability Engineering)的概念,并指出为什么很多企业并不了解SRE的基本前提和优点的原因所在(此处可下载演讲幻灯pdf文件)。Thorne在一些企业中看到的主要误解,在于将SLO(服务级别目标,service level objectives)和SLA(服务级别协议,service level agreements)混为一谈。SLO侧重于早期的故障检测,而SLA通常用做已发生故障的经济补偿,它不强制错误预算(error budgets),也不会让SRE团队花费至少一半的精力去改进系统和工具,而是让人们继续疲于奔命,因此也称为在生产环境中“灭火”。

Thorne补充说,SLO是先期发现问题的基础,理想情况是先于客户感受到问题的影响。好的SLO应符合客户的输出(例如服务可用性、响应时间等),从而反映出一个系统(行为)是否满足用户的需求。系统监视资源的使用情况(例如CPU利用率、网络吞吐量等),但这些度量本身不应做为SLO。Thorne认为,“如果客户满意,那么就满足SLO”。Google的一些典型SLO包括:

  • 每月运行时长99.9%(即每月只有43分钟宕机时间)。
  • 每月99.99%的HTTP请求成功返回“200 OK”。
  • 50%的HTTP在300毫秒内返回。

另一方面,SLA通常在客户已对服务产生不满意时才发挥作用,因此SLA并不会主动提高系统的可靠性。此外,SLA可能会引发错误的行为。例如,如果同时面对一个两小时修复电子邮件问题的SLA和一个一天内修复生产系统严重问题的的SLA,按规程会导致首先处理一个(或多个)电子邮件问题。但是很显然,生产系统出现的问题应该得到优先处理。

Thorne警告说,仅定义SLO是不够的。错误预算策略是通过设置明晰的操作规则(而非货币补偿),在系统接近于SLO的阈值之前达成SLO。一旦系统无法满足用户的需求,SLO也可以最大限度减少运维和开发之间的对抗。Thorne指出,“错误预算是存在于完美可靠性与SLO之间的差距”。Google的典型错误预算政策是,一旦应用用尽其错误预算(例如,本月已超出43分钟的宕机时间预算),就禁止启动新功能;或者根据前期事故后分析(post-mortem analysis)所给出的更正操作,专门建立一个Sprint。

然而Thorne强调指出,一些适用于Google的做法并非适用于每个组织。“SRE需要SLO,结果是在可接受的失败水平与必要的成本和交付速度之间取得平衡”。准确的SLO和政策必须适用于特定的组织,而不是复制和粘贴Google的做法,并且应该是聚焦于不断改善客户体验,而不是设定一些可能适得其反的崇高目标或严厉惩罚。Thorne在演讲中给出了一个例子,一个组织在努力降低推荐系统的处理时间。原先用户平均在6小时后回访网站,才会看到这些推荐情况。一个适当的SLO将在6小时内处理所有建议,这意味着务可以省下三位解决响应时间慢“问题”的非全职工程师工作。

Thorne提出SRE的第三个关键问题,即SRE团队应能够平衡日常(通常是无计划的)运维和规划工作间的工作量,以降低人员的操劳(也称为“灭火”)。在Google,这意味着至少有50%的SRE是用于项目工作,包括尽早研判新系统的架构,发现其中的弹性反模式(resiliency anti-pattern),并避免此后更多的操劳;改进监控,自动执行重复的任务,或协调故障后纠正措施的实施。

Thorne进一步明确给出了一些实现SRE的反模式。例如,在并未率先让SRE原则和机制(SLO、错误预算政策和平衡工作负载)落地的情况下,仅是将运营团队重新命名为SRE团队,或仅是雇佣一些SRE工程师。

Thorne认为SRE的成功实施之路具有5个关键步骤:

  1. 根据场景定义聚焦于客户的SLO;
  2. 定义合理的错误预算策略;
  3. 雇佣(内部或外部)SRE人员,并在领导层支持的情况下对他们授权;
  4. 支持SRE优化调整SLO,并强制执行错误预算策略;
  5. 将任务关键系统的可靠性责任指定给SRE团队,其它系统的责任指定给相应的开发团队。

Google在将自身的经验教训汇总为《SRE宝典——Google生产系统是如何运维的》一书之前,就已在企业内部开发并扩展SRE原则达数年之久。Throne提及,Google将于月末推出相应的《SRE工作手册》一书。

查看英文原文: Google Explains Why Others Are Doing SRE Wrong

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

深度内容

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT