注册 / 登录

小米DCOS实战

分会场:  质量管理/智能运维/DevOps

分享时间: 2017年11月9日 - 12日

案例来源 :

案例讲师

孙寅

小米 云平台负责人及架构师

前百度资深架构师、运维TC成员,现小米基础架构资深架构师。

扫描二维码分享案例

 

案例简述

 

介绍小米第二代运维体系平台DCOS(Ocean),是在什么样的背景下出生的,它目前的架构是什么样的,它的很多基础设计,包括容器网络和存储、构建镜像、容器Init等,及实施中遇到的各种技术难题和解决方案
介绍弹性调度后如何解决新的挑战,如服务发现、动态安全
介绍与现有基础设施的联合设计或体系融合,如何发挥1+1>3的效果
介绍有状态服务化组件在DCOS中的抽象和实现
介绍未来DCOS的规划,如服务容量自动测量、服务依赖与自动迁移、服务治理与故障自愈等

 

案例目标

 

小米第一代运维平台和基础设施已经成熟,各种具体的运维场景已经可以做到自动化。
但更高的技术追求来临了:我们希望设计一个平台体系,可以像操作系统一样管理整个数据中心,能够自动调度其中的资源,如服务器、网络;能够便捷地运行起业务APP、数据库、负载均衡等并构建整个业务服务;这些运行中的服务能够故障自愈,等等。
因此小米第二代DCOS平台应运而生。

 

成功(或教训)要点

 

1.容器化落地
2.服务发现
3.动态安全
4.弹性调度
5.有状态服务化组件
6.自动容灾

 

案例ROI分析

 

基础架构组件,越来越多以开源的方式,它们为科技行业提供了很多很好的“砖石”。
对于初创公司而言,由于场景简单、业务规模小,可以越来越容易地用开源基础架构组件组装出自己的基础架构。
对于预期规模较大、场景较复杂的公司而言,由于越底层的基础设施,迭代成本越高, 因此需要更前置地设计,需要让基础设施在功能和容量具备更好的扩展性;同时还要体系化地考虑所有基础设施的设计,使它们能够很好得彼此融合,甚至发挥1+1>3的效果。也正因此,虽然越来越多的开源基础架构组件出现,但大容量科技公司内的基础设施,仍然需要通过不断地迭代来完善。

 

案例启示

 

无规范,不平台
基础架构的体系化设计,1+1>3
基础架构技术做到极致,往往是为了解决A问题,附带解决了B问题