注册 / 登录

1亿小目标——大规模在线服务混部实践

分会场:  爆款架构/数据平台/工程实践

 

案例来源 :

案例讲师

田健

百度 核心搜索部资深研发工程师

2012年毕业于东北大学取得计算机硕士学位,后加入百度。先后负责百度搜索调研架构、服务治理、在线业务混部等方向,主持设计了搜索业务新一代PaaS系统,承载数万台服务器和五十余万实例,主导并实施了大规模在线业务混部项目,节省数千台服务器资源。目前专注于分布式架构、虚拟化和容器技术、服务混部等方向。

扫描二维码分享案例

 

案例简述

 

百度搜索在线业务拥有数万台服务器,上面部署了数十万服务实例。由于各种服务资源需求不一,且运行在数百个割裂的机器池中,服务器资源长期处于利用率低、周转困难的困局中。在此基础上,考虑利用业务间资源特性做资源互补,并逐步统一资源池,实现成本和效率的双赢。在线业务混部不同于离线或者在离线混部,其在延时、稳定性、可重入上有更高的要求,且资源需求刚性,无法挤占。在线业务另一大特点是存在大量有状态服务,难以做到数据的管理,原生不支持容量调节,更需要谨慎设计混部和迁移方案。

本案例中,综合运用容器的资源隔离、限制等技术,以及统一的资源管理框架配合丰富的调度算法,解决在线业务之间混部的难题,并给出了在混部条件下的naming管理、机器运维等方面的工程实践方法,对于大规模集群服务混部具有较强的借鉴意义。

 

案例目标

 

案例主要解决在线业务资源率低、周转困难等问题。在线业务往往为了满足时延、稳定等方面极为严苛的要求,易造成独立部署、资源割裂、使用浪费等问题。案例实践中,对于集群的cpu利用率从26%+提升到47%,基本达到理论极限值,实现大量的机器和运维成本节约。

 

成功(或教训)要点

 

在线业务混部不同于离线业务或者离在线业务混部,其资源刚性,无法挤占,且业务需求严苛,需要谨慎的设计资源隔离和容器编排方案,尽量减少或者避免资源竞争。更甚者,对于有状态服务存在着不支持容量调节的特殊性,在混部设计中需要谨慎对待并设计针对性算法。另一方面,在线服务全部为LRS,资源长期占用且存在饥饿问题,需要资源管理和容器编排满足不同场景下的资源重调度等功能。

 

案例ROI分析

 

案例中平均每年节省资源成本过亿。

 

案例启示

 

即将上线

 

案例在团队中的意义

 

大幅降低资源、研发成本

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会