注册 / 登录

蘑菇街SRE体系建设实践

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

赵成

蘑菇街 技术总监

资深DevOps和运维专家,专栏作家,著有《进化:运维技术变革与实践探索》一书,腾讯云TVP,现任蘑菇街集团技术总监。

扫描二维码分享案例

 

案例简述

 

蘑菇街在2015年开始,软件架构全面服务化,在这种背景下,运维也在不断转变和探索,这期间正好Google SRE的实践在国内传播起来,在这个过程中,我们不断学习和借鉴其中的优秀经验,也落地了一些实践。

本议题主要分享,蘑菇街在SRE方面的一些实践和感悟,以及为整个团队带来的一些改变。

 

案例目标

 

蘑菇街在2018年初全面上云,无论是业务、技术还是数据都在不断的云化。在我们使用云服务的同时,稳定性保障方面,也由之前我们完全自主控住,变为与公有云厂商共同合作。本议题主要分享,蘑菇街在SRE实践方面的经验,以及蘑菇街业务整体搬迁上公有云之后,与云厂商之间的CRE体系建设实践。

 

成功(或教训)要点

 

1、我们所理解的SRE

* SRE产生的背景

* 对我们的借鉴意义和启发

* 运维的转变



2、蘑菇街SRE实践

* 稳定性保障的基本思路

* 意识、标准和文化三步

* 3S(SLO、SLI、SLA)稳定性体系建设



3、蘑菇街SRE组织架构

* 国内外模式分析

* 蘑菇街的模式

 

案例ROI分析

 

通过SRE和稳定性体系的建设,大大提升了对系统稳定性的把控程度,在3S体系的运作下,也极大的提升了与云厂商的配合效率。

 

案例启示

 

在分布式架构体系下,稳定性保障是一个极为复杂体系建设过程,不同的阶段,会有不同的挑战。通过学习和借鉴国内外优秀的实践经验,在我们自己的业务场景中逐步落地,一样可以形成最佳实践。除了技术经验性的借鉴外,思路和模式上的转变也非常的重要。

 

案例在团队中的意义

 

优秀经验的最佳实践