BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

Twitter 的监控系统是如何处理十亿量级 metrics 的
录制于:

| 作者 黄浩 关注 0 他的粉丝 发布于 2017年2月1日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
46:04

概要
Twitter 的 Observability stack 包含了核心的 Timeseries Database,实时的监控报表系统,报警和自动故障恢复系统,以及分布式的日志分析和 tracing 系统。在 Twitter 它是整个公司最关键的内部架构之一,是保证各个服务可用性的关键。目前整个监控报警系统每分钟处理 25 亿次的 metrics 写入,一百七十万的复杂查询和两万五千次的报警规则。日志分析系统和 tracing 系统是工程师们平时追查问题的主要平台。在本演讲中,黄浩将向大家分享整个架构的设计与演进中的思考和经验。

个人简介

黄浩,Twitter 高级工程师,目前主要负责 Observability team 的监控报警系统。在此之前他曾就职于百度和小米。在百度主要负责大规模分布式 kv 数据库 mola,低功耗存储系统和百度对象云存储系统的搭建,在小米主要负责小米云平台的对象云存储的搭建。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT