注册 / 登录

美图基于开源,打造端到端的一体化监控体系

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

石鹏

美图 运维架构师

负责美图商业化,金融创新,广告,美图社区等核心业务,同时也负责构建智能化监控体系;在美图的几年里,见证了很多系统和工具从0到1的构建过程!

扫描二维码分享案例

 

案例简述

 

以“让更多人变美”为使命,怀揣着“打造美丽生态链,让每个人都使用美图产品”的愿景,美图公司产品矩阵目前在全球15亿台设备激活,DAU超过4亿,知名的产品如美图社区,美图秀秀工具,美颜相机,美拍,美图手机,美图美妆等,覆盖工具产品,社交,电商,智能硬件及区块链等软硬件领域。本次分享主要介绍,我们是如何支撑这么大规模产品快速交付,如何构建整套智能化监控体系,以及AIops在其中扮演的关键作用。

 

案例目标

 

1)构建端到端的,统一化的监控体系,业务低成本即可接入整套体系,具备从用户端中的各种指标,再到服务端的业务体系指标,囊括物理资源维度,业务维度,中间件维度的一体化指标体系

2)具有统一化的告警收敛平台

3) 具有统一化的对外可视化Dashboard

4)基于AIOps,构建异常检测系统

 

成功(或教训)要点

 

一个成熟的监控体系,必须具备监控指标覆盖全,报警准确无误,监控数据可视化的用户体验好,能帮助到业务的监控体系才好的监控体系!

 

案例ROI分析

 

1) 监控是运维中最重要的一环,这块做的好,对提升业务产品的稳定性,降低故障率,甚至问题排查的速度都是至关重要的,每个运维个体其实很多工作就在监控这块,每个公司都有其自己的思路,如何掌握这块的知识体系,构建适合自己业务场景的一体化监控是非常重要的,本次分享就会专门详解这块儿的实践经验。

2)实践中证明:监控做的如何,直接决定一个运维团队的运维能力,也能提升运维团队的PR值

 

案例启示

 

1)如何构建一套成体系的监控系统

2)如何用开源技术,大数据技术解决大规模下的监控系统问题

3)如何降低每个团队,每个个体收到的报警,优化告警收敛策略,业务的关联关系告警等核心问题

4)如何建立全公司统一的可视化Dashboard,以及可视化监控大屏

5)AIOps时代,在监控体系中如何大有可为的应用

 

案例在团队中的意义

 

美图一体化监控体系,自上线1年多以来,90%的业务均已接入这套体系,业务方收益良多,指标覆盖全,基础报表,SLA报表,业务依赖(http依赖,MySQL等后端资源依赖)等均可视化展示,预先发下问题和排查问题效率极大的提高,深受业务方的欢迎。

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会