BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

故障测试  在InfoQ上的内容 rss

演讲所属 故障测试 rss

语言 & 开发 关注 539 他的粉丝 滴滴出行海量数据场景下的智能监控与故障定位实践 作者 李培龙 关注 0 他的粉丝 发布于 2018年3月8日 随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。 监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡;

语言 & 开发 关注 539 他的粉丝 阿里巴巴故障治理领域的智能运维实践 作者 王肇刚 关注 0 他的粉丝 发布于 2018年2月24日 本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。 2

语言 & 开��� 关注 539 他的粉丝 基于日志trace的智能故障定位系统 作者 曹轩 关注 0 他的粉丝 发布于 2018年2月4日 传统的trace系统面对大规模系统故障时有以下几个问题: 1.日志回收处理能力强,但对于单PV的精细分析定位受限于人工分析速率,通常在分钟级每PV; 2.大规模复杂异常时,抽样个别PV的定位结论,容易以偏概全,缺少汇聚回归; 3.依赖于人的经验; 因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术: 1.基于GBDT的单PV根因预测模型; 2.数据多维度汇聚与维度间信息熵排序; 3.智能抽样系统; 4.数据获取异步化、维度逐级下钻等一系列工程优化; 最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

新闻所属 故障测试 rss

他的粉丝 Twitter的故障处理机制:故障测试 作者 孙镜涛 关注 2 他的粉丝 发布于 2015年12月30日

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT