注册 / 登录

三七互娱故障追踪和故障自愈系统

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

童传江

三七互娱 运维开发负责人

三七互娱运维开发负责人 ,运维行业7年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。

扫描二维码分享案例

 

案例简述

 

在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障自愈系统,成了质量保证部门的刚需,通过行业标准化的paas平台模式和Trace追踪技术,从而实现整个架构的质量可控。

 

案例目标

 

背景:在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。


解决问题:通过全链路的故障追踪和故障自愈系统降低故障发生的频率,减少故障时间。


如何发生:通过行业标准化的paas平台模式和Trace追踪技术,实现整个架构的质量可控。


预期目标:中级以上故障平均处理时间从20分钟,提升到5分钟左右。

 

成功(或教训)要点

 

一是对于各个组件的抽象,让繁杂的业务模块,抽象成一个个模块,二 减少旁路监控,使用业务本身的状态代表业务质量。

 

案例ROI分析

 

通过半年的开发,对整体业务的质量有了本质的提升。 整个paas和trace系统开发周期2人半年,系统上线后,中级以上故障平均处理时间从20分钟,提升到5分钟左右。

 

案例启示

 

在解决任何计算机问题的时候,就可以把复杂的问题,抽象为简单的模块,比如一个复杂的web系统可以抽象为: 接入层模块,逻辑层模块,存储层模块。 单独去解决某一个模块的问题,从而解决整个系统问题。

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会