注册 / 登录

运维智能化@Pinterest

分会场:  质量管理/智能运维/DevOps

分享时间: 2017年11月9日 - 12日

案例来源 :

案例讲师

Evan Jones

Pinterest SRE manager

Managing the Core Site Reliability Engineering and Traffic Engineering teams at Pinterest. Working to make sure that Pinterest stays fast and reliable as we grow our infrastructure and global network footprint.

扫描二维码分享案例

为什么这个案例值得分享?

运维智能化是所有基于云计算的公司未来趋势。本案例提供了运维智能化方面的实践上的探索。

 

 

案例简述

 

PINTEREST作为一个大型图片分享平台,后台的计算平台和软件架构非常庞大而复杂,如何用最少的人力和资源成本保证高质量的运维,是一个巨大的挑战。为此,我们监控部门搭建了一套集成式的监控平台,该监控平台有几个特点:1) 高伸缩性,可以处理每秒百万级的数据量;2)集成式,把各种平台运行数据有机的联系起来,构建了一个完整的对故障的描述场景;3)智能化,对数据的深度挖掘使得该平台可以主动发现潜在的运维故障。在该监控平台的支持下,我们的运维人员可以有效率地保障整个计算平台的稳定。

 

案例目标

 

运维是所有IT公司必须有的重要一环,有大量的从业人员。 通过描述一个大型运维监控系统的实践,以及本人和硅谷监控创业公司广泛的交流,引导大家对未来运维趋势的思考。

 

成功(或教训)要点

 

运维智能化最关键的是工具的搭建和对数据的挖掘。
(1)工具的搭建上,一定要从运维(以及软件开发)人员的角度出发,了解他们工作的流程,分析他们在解决问题上的痛点。搭建工具的过程中,不断的获得他们的反馈并快速迭代。工具的开发者加入到运维的实践中也非常重要,这样可以深入了解哪些功能是最有价值的。
(2)目前,对运营数据的深度处理还没有在实践中得到广泛的应用。但我们在这方面的初步实践证明运营数据里蕴含着丰富的信息,对该数据的挖掘有很大的提高运维效率的潜力。

 

案例ROI分析

 

正在更新中

 

案例启示

 

传统上人们认为运维是一个人力密集型,创新缓慢的领域。但运维智能化带来了很多机会,有可能快速地改变该领域。

 

案例在团队中的意义

 

运维智能化是所有基于云计算的公司未来趋势。本案例提供了运维智能化方面的实践上的探索。