注册 / 登录

百亿次QQ红包背后的技术运维体系

分会场:  质量管理/智能运维/DevOps

分享时间: 2017年11月9日 - 12日

案例来源 :

案例讲师

周小军

腾讯SNG社交网络运营部 leader

资深运维专家,拥有十几年的IT运维经验,擅长互联网网站架构、云计算平台及运维、自动化运维开发等领域,具有十万台级规模的基础设施规划及运营能力,腾讯学院讲师。 目前在腾讯社交网络运营中心负责数据运维和接入运维工作。

扫描二维码分享案例

为什么这个案例值得分享?

互联网海量社交业务的运维体系

 

 

案例简述

 

互联网技术运维有三座大山:大活动、大变更和大故障。这几个运维场景非常消耗运维人力,也非常体现运维组织在标准化、自动化、容量管理及资源弹性等方面的建设能力和发展水平。

2016年跨年除夕,QQ有2.6亿在线用户刷了729亿次的各类春节红包,堪比春运规模的大流量并发用户场景下,社交网络运营团队二周内扩容了2万台虚拟机和3千台数据库服务器,并进行了一系列的保障行动,完美支撑了大活动的顺利进行。

案例将从其中一个红包业务场景”刷一刷红包”着手,从该红包活动的业务架构、活动背景、计划扩容、压测和演习、运维策略及活动现场等依次展开,分享社交业务活动型背后的运营体系和运维支撑能力。

 

案例目标

 

在互联网海量用户高并发大流量活动场景下,运维团队如何通过运维方法来支撑业务活动,在效率、质量和成本上给业务获得收益,保证业务持续性服务。

 

成功(或教训)要点

 

运维标准化的梳理和落地实践,分层管理,自动化平台的持续演进,异地多活,监控体系建设,大活动预案及演习,容量系统,资源管理等。

 

案例ROI分析

 

1)运维团队二个多月的支撑工作
2)2.6亿QQ用户在线
3)用户刷出729亿次红包
4)服务实现4个9的高可用

 

案例启示

 

1)技术运维标准化、自动化和智能化
2)保障互联网高并发活动的一系列运维保障方法
3)自动化扩缩容的方法实践
4)以CMDB为中心的高效运维

 

案例在团队中的意义

 

互联网海量社交业务的运维体系