BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

滴滴出行海量数据场景下的智能监控与故障定位实践
录制于:

| 作者 李培龙 关注 0 他的粉丝 发布于 2018年3月8日 | Google、Facebook、Pinterest、阿里、腾讯 等顶尖技术团队的上百个可供参考的架构实例!
46:16

概要
随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。 监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡;

个人简介

李培龙,现任滴滴出行质量架构团队负责人,负责滴滴的分布式调用链追踪系统、问题定位系统、基于机器学习的异常检测系统、日志数据及计算服务平台和全链路压测平台。 加入滴滴之前任职于百度质量部,负责业务监控、问题定位、分级发布等稳定性保障技术方向。

全球架构师峰会(International-Architect--Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT