注册 / 登录

蘑菇街SRE&CRE体系建设实践

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

赵成

美丽联合 技术总监

资深DevOps和运维专家,专栏作家,著有《进化:运维技术变革与实践探索》一书,腾讯云TVP,现任美丽联合集团技术总监。

扫描二维码分享案例

 

案例简述

 

随着运维自动化和效率体系的不断完善,运维关注的重点和面临的挑战更多的聚焦在稳定性层面。近两年,随着Google SRE理念的传播和落地,对于稳定性体系建设起到了非常好的引导示范作用。
本议题主要分享,蘑菇街在SRE实践方面的经验,以及蘑菇街业务整体搬迁上公有云之后,与云厂商之间的CRE体系建设实践。

 

案例目标

 

蘑菇街在2018年初全面上云,无论是业务、技术还是数据都在不断的云化。在我们使用云服务的同时,稳定性保障方面,也由之前我们完全自主控住,变为与公有云厂商共同合作。本议题主要分享,蘑菇街在SRE实践方面的经验,以及蘑菇街业务整体搬迁上公有云之后,与云厂商之间的CRE体系建设实践。

 

成功(或教训)要点

 

1)如何保证稳定性?
a.未雨绸缪,如何做好保障?
b.临危不惧,快速恢复(Design for Failure)
c.为时未晚,有效复盘


2)Google SRE实践
a.SRE的关键原则
b.3S(SLO、SLI、SLA)稳定性体系建设
c.团队转型


3)蘑菇街公有云上的CRE实践

 

案例ROI分析

 

通过SRE和稳定性体系的建设,大大提升了对系统稳定性的把控程度,在3S体系的运作下,也极大的提升了与云厂商的配合效率。

 

案例启示

 

在分布式架构体系下,稳定性保障是一个极为复杂体系建设过程,不同的阶段,会有不同的挑战。通过学习和借鉴国内外优秀的实践经验,在我们自己的业务场景中逐步落地,一样可以形成最佳实践。除了技术经验性的借鉴外,思路和模式上的转变也非常的重要。

 

案例在团队中的意义

 

优秀经验的最佳实践

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会