案例简述
互联网技术运维有三座大山:大活动、大变更和大故障。这几个运维场景非常消耗运维人力,也非常体现运维组织在标准化、自动化、容量管理及资源弹性等方面的建设能力和发展水平。
2016年跨年除夕,QQ有2.6亿在线用户刷了729亿次的各类春节红包,堪比春运规模的大流量并发用户场景下,社交网络运营团队二周内扩容了2万台虚拟机和3千台数据库服务器,并进行了一系列的保障行动,完美支撑了大活动的顺利进行。
案例将从其中一个红包业务场景”刷一刷红包”着手,从该红包活动的业务架构、活动背景、计划扩容、压测和演习、运维策略及活动现场等依次展开,分享社交业务活动型背后的运营体系和运维支撑能力。
案例目标
在互联网海量用户高并发大流量活动场景下,运维团队如何通过运维方法来支撑业务活动,在效率、质量和成本上给业务获得收益,保证业务持续性服务。
成功(或教训)要点
运维标准化的梳理和落地实践,分层管理,自动化平台的持续演进,异地多活,监控体系建设,大活动预案及演习,容量系统,资源管理等。
案例ROI分析
1)运维团队二个多月的支撑工作
2)2.6亿QQ用户在线
3)用户刷出729亿次红包
4)服务实现4个9的高可用
案例启示
1)技术运维标准化、自动化和智能化
2)保障互联网高并发活动的一系列运维保障方法
3)自动化扩缩容的方法实践
4)以CMDB为中心的高效运维
案例在团队中的意义
互联网海量社交业务的运维体系