BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

Haystack:GitHub的异常监控工具

| 作者 孙镜涛 关注 2 他的粉丝 发布于 2015年8月1日. 估计阅读时间: 3 分钟 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!

对于GitHub而言稳定性和性能是非常重要的,但是和其他大部分软件应用程序一样,它也会产生异常,从Git超时这种系统级的错误到JavaScript错误这种应用级的错误都会发生,这就需要一种方式能够在错误发生的时候尽快地识别它们,然后寻找最合适的团队或者个人去处理,最终实现错误的快速响应。而Haystack就是GitHub应对这一问题的钥匙。

Haystack是GitHub内部的一个开发了6年的异常追踪程序,它能够持续地监控所有应用程序的健康状况,同时具备异常探测功能,GitHub使用它来监控几乎所有的面向用户的特性,包括桌面应用程序。下面是Haystack的一个典型应用场景:

首先,当某个工程师通过chatops部署了新程序的时候,Hubot就会向其推送一条包含异常流水(firehose)链接的消息,通过该链接工程师能够查看新程序部署之后产生的异常信息。

之后,Haystack会通过一些简单的规则进行异常探测,防止不当部署和典型错误行为的发生。通过获取最后一个小时异常数的直方图Haystack能够判定最后时刻的异常数是否超出了配置的标准分数(z-score)。

如果发现异常数有提高,Hubot就会发送一个消息通知最后一个部署程序的工程师进行处理。

在发送的消息中还会包含一些对应用程序当前状态的简要分析,工程师可以通过Haystack的仪表盘查看与每条分析内容相关的详细信息,进而不断追溯并定位问题出现的原因。

最后,如果工程师能够解决问题,他们可以创建一个拉请求(Pull Request)或者问题,并将链接拖放到Haystack让其自动地创建问题与追踪信息之间的交叉引用,以便于工程师之后在这些信息之间来回跳转。另外,如果将来类似的问题再次发生,那么工程师能够通过Haystack查看之前对该问题的讨论以及解决的方法。

总的来说,GitHub能够通过Haystack了解系统发生了什么事情,什么时候发生的,应该通知哪个团队,应该从哪入手解决问题。该系统从2009年开始就已经存在了,在最近几年里GitHub又对其做了大量的改进,但是由于很多改进与一些其他的内部应用程序紧密相关,所以到目前为止Haystack依然无法开源,即便如此GitHub的这种问题处理模式依然有值得借鉴和思考的地方。如果你想了解更多与Haystack相关的信息,请点击这里


感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群InfoQ好读者)。

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT