BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

阿里巴巴故障治理领域的智能运维实践
录制于:

| 作者 王肇刚 关注 0 他的粉丝 发布于 2018年2月24日 | GMTC大前端的下一站,PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。
37:22

概要
本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。

个人简介

王肇刚,阿里巴巴集团 基础设施事业群-全球运行指挥中心高级技术专家。负责阿里巴巴集团业务指标监控、业务故障管理工作。在时间序列异常检测、业务故障定位及影响面分析、运维数据仓库和其它相关的智能运维相关领域有丰富的技术经验积累和成果产出。其中,业务指标异常检测算法,成功地将阿里巴巴集团核心业务指标监控的正确率提从40%提升到80%,极大地提升了集团业务故障发现的效率和自动化水平。2017年5月,受邀代表阿里巴巴集团参加国际运维领域顶级会议SREcon17,并发表主题演讲,向国际同行介绍阿里巴巴集团在业务指标异常检测算法方面的实践和成果。在加入阿里巴巴之前,作为百度智能运维团队的架构师及核心项目负责人,主导了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发,并对主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。参与过百度运维平台和运维基础组件(中间件)的研发工作。

全球架构师峰会(International-Architect--Summit,下简称ArchSummit)是由InfoQ中文站主办的一次全球性架构师峰会。ArchSummit专门针对架构师人群,讲述与架构和架构师相关的各方面趋势、技术和案例。这也是继QCon之后,InfoQ中文站主办的又一次高端技术盛会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT