注册 / 登录

百度运维自动化向智能化的转型之路

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

哈晶晶

百度 资深架构师

百度云资深架构师,负责自动化运维平台和智能运维解决方案的产品设计和架构研发,致力于AIOps在百度搜索、广告、信息流、AI、云等核心业务落地,同时,输出百度运维理念、自动化运维产品、智能运维解决方案给行业客户。

扫描二维码分享案例

 

案例简述

 

百度运维经历了脚本&工具、自动化运维平台、开放运维平台阶段,在2014年开始智能化运维的探索,并且围绕可用性、成本和效率方向的运维目标在诸多运维场景落地。本次分享将以百度故障处理场景为例,介绍百度故障预防、故障发现、故障诊断和故障止损阶段的AIOps实践经验,同时也会分享百度成熟的智能运维产品和解决方案。

 

案例目标

 

百度运维随着运维业务多样化和业务规模持续增长开启了运维自动化向智能化的转型之路。百度运维利用大数据、算法和开发框架构建了一系列的AIOps解决方案在核心业务落地,极大了保障服务可用性和提升运维效率。同时在百度云ABC(AI+BigData+Cloud)战略模式下,百度运维也推出了智能运维产品和解决方案应用于公有云和私有云行业客户。

 

成功(或教训)要点

 

运维领域主要包括故障管理、变更管理、容量管理和客户咨询四大场景,其中故障管理场景对业务可用性影响大、耗费运维人员精力多。为了提升故障管理场景下的运维痛点问题,百度运维率先使用AIOps技术解决进行运维模式的革新,具体实践如下:


1)故障预防:分级发布智能checker,机器学习训练阈值,无需人工配置,发现异常自动干预变更;


2)故障发现:智能异常检测算法适配不同的监控项,解决人工配置阈值成本高的问题,有效减少监控的漏报和误报;


3)故障诊断:多维度故障诊断方法、指标自动排查方法提升故障诊断效率;


4)故障止损:单机房故障自愈,程序替代人自动止损,提升服务的MTTR,保障服务可用性;

 

案例ROI分析

 

AIOps的核心在于使用大数据和算法变革运维模式,助力业务高速发展,持续提升高质、高效的运维能力,减少自身 dirty work,支撑运营能力提升,为服务增值。在故障发现场景,异常检测算法可减少监控管理的成本,提升监控管理的质量,提升运维人员的能力;在故障预防和故障止损场景,将人的经验进行迁移,使用算法实现智能决策和执行,提供高质量的故障拦截和止损能力,替代运维人员的能力;在较复杂的故障诊断场景中,通过指标关联分析推荐故障的模块和实例,实现智能辅助决策,增强运维人员的能力。

 

案例启示

 

基于AIOps的运维模式实现了运维场景从有条件的自动化到高度自动化层面的跃进。传统的运维模式下,运维的决策规划由人做出而不是运维系统。在高度自动化的运维模式下,人负责:制定优化目标(比如,可用性、效率、成本等),运维系统负责:根据其对待处理的需求、待解决的问题的理解,以及对运维对象的认知(经验),自主做出解决方案(规划)并在控制执行过程中根据目标和运维对象的状态反馈来适时调整执行规划。百度基于AIOps核心组件:运维数据仓库&运维知识库、运维大数据平台&运维工程研发框架、运维策略算法平台&运维大脑,在故障处理场景中的故障预防、故障发现、故障诊断、故障止损场景下发挥作用,已经变革了运维模式,极大提高了业务的可用性和运维效率。而且AIOps中的运维理念和核心组件也可以在服务咨询、部署变更、容量规划等场景探索和落地实施中应用。

 

案例在团队中的意义

 

百度在AIOps领域经历了多年的探索,利用大数据和算法在运维的诸多场景提炼解决方案,并在在搜索、广告、信息流、AI、云等核心业务成功落地,极大的提高了运维质量和效率。该案例希望将百度智能运维实践经验分享给在AIOps领域探索的同行,希望可以提供一些参考和借鉴。

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会