BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

您现在处于全屏预览
关闭全屏预览

阿里电商故障治理和故障演练实践
录制于:

| 作者 周洋 关注 0 他的粉丝 发布于 2017年9月26日 | 如何结合区块链技术,帮助企业降本增效?让我们深度了解几个成功的案例。
38:44

概要
为了支持海量用户和多元化的业务,基础设施和系统会趋于复杂。业务的高速发展的同时,对于稳定性也有非常高的要求。从 2011 年到 2015 年,电商域遇到了很多有代表性的故障,积累了非常多的高可用保障经验和解决方案。然而任何基础设施、系统、人、流程都可能出问题,且问题一直在发生。2016 年,我们研发了故障演练系统,把故障以场景化的方式沉淀到系统中,在线上主动回放故障,验证监控报警、限流降级、故障迁移、容灾策略、故障处理的有效性。在双 11 备战中,设计了数百个演练场景设计,通过几十次的演习,发现并解决了大量的问题。 本次分享会探讨经典的故障类型,剖析故障成因,提出解决方案,介绍故障演练系统的设计和演进,提出故障演练的原则和经验。

个人简介

周洋,阿里巴巴技术专家,花名中亭。2011 年加入阿里巴巴中间件 & 高可用架构团队,一直从事稳定性产品研发和架构升级的相关的工作,主导了强弱依赖、灰度发布、线上故障演练等多款高可用产品的研发和建设,见证了阿里高可用产品体系从 1.0 到 3.0 的发展历程,积累了丰富的架构和稳定性经验。 2015 年作为共享事业部的大促 PM,负责大促和常态稳定性的保障工作。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT