BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Twilio的混沌工程实践

| 作者 Hrishikesh Barua 关注 14 他的粉丝 ,译者 薛命灯 关注 24 他的粉丝 发布于 2017年12月28日. 估计阅读时间: 3 分钟 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。

Twilio团队分享了他们的初次混沌工程实践,他们使用Gremlin往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio提供SMS和电话网关服务,开发者可以在他们的代码中调用Twilio的API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作Ratequeue,由Twilio团队开发。Ratequeue对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用API,所以速率限定是很有必要的,而Twilio将消息推送到电话网络的速度也需要加以控制。Ratequeue是基于Redis开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio团队基于Amazon Kinesis、Nagios和Lazarus开发了自己的解决方案——也就是他们的集群自动化服务。每个Ratequeue副本将主节点的心跳情况发送给Nagios,如果达到某个阈值,Nagios就向Kinesis推送通知。Lazarus监听Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio团队开发了一个叫作Ratequeue Chaos的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作Gremlin的服务,用于将故障注入到系统中,触发失效备援。Gremlin支持可控的故障注入,Ratequeue Chaos通过Gremlin提供的API来调用它。Twilio的staging环境每4个小时会重复一次这个过程。

Twilio团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文Chaos Engineering at Twilio

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

深度内容

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT