BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

基于日志trace的智能故障定位系统
录制于:

| 作者 曹轩 关注 0 他的粉丝 发布于 2018年2月4日 | QCon上海2018 关注大数据平台技术选型、搭建、系统迁移和优化的经验。
28:55

概要
传统的trace系统面对大规模系统故障时有以下几个问题: 1.日志回收处理能力强,但对于单PV的精细分析定位受限于人工分析速率,通常在分钟级每PV; 2.大规模复杂异常时,抽样个别PV的定位结论,容易以偏概全,缺少汇聚回归; 3.依赖于人的经验; 因此,结合机器学习技术的进步,我们实现了一套基于日志trace的智能故障定位系统及其背后的一套技术方案,主要基于以下技术: 1.基于GBDT的单PV根因预测模型; 2.数据多维度汇聚与维度间信息熵排序; 3.智能抽样系统; 4.数据获取异步化、维度逐级下钻等一系列工程优化; 最终能够实现WQPS/sec的PV根因定位能力,并能够根据根因做统计上的多维度汇聚,该系统应用于百度核心搜索系统,极大的提升了重大异常问题定位效率。

个人简介

曹轩,百度搜索运维团队技术负责人,2011年硕士毕业后加入百度搜索运维团队,目前担任搜索运维团队技术负责人,长期从事搜索产品运维工作,积累了大量故障分析定位、大规模故障组织协调的经验,在高可用分布式系统设计、可靠性工程建模、弹性伸缩系统设计等方向,都有深入的见解和丰富的实战经验。

CNUTCon全球运维技术大会是由InfoQ主办的运维&容器技术盛会。大会为期2天,主要面向各行业对运维&容器技术感兴趣的中高端技术人员。秉承着“同步前沿技术、共享实战经验、聚焦最佳实践、激发思想碰撞”的宗旨,CNUTCon致力于帮助参会者了解国内外相关公司的领域动态及应用案例,使企业可以更精准地确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT