注册 / 登录

京东大数据平台进化之路

分会场:  人工智能/AI驱动/AI实践

 

案例来源 :

案例讲师

王哲涵

京东 离线平台研发团队负责人

2015年加入京东,于大数据平台研发部工作, 目前负责京东大数据平台的架构与研发工作.

扫描二维码分享案例

 

案例简述

 

时下大数据技术趋于成熟与稳定的今天, hadoop相关服务也不在高高在上, 已是作为如同数据库般的作为基础软件设施提供计算与存储服务, 京东大数据平台从无到有, 从量到质, 从微创到革新经历五年的时间, 集群规模一步步由数百到数万规模的演化过程, 此次分享主要涵盖面对业务多元化发展, 京东大数据平台持续进化过程中遇到的问题与我们的解决方案

 

案例目标

 

1)面对进化的岔路口: 集中式 和 多集群

2)如何突破规模增长与性能下降的魔咒(达到万台)

3)如何保证任务SLA稳定完成

4)如何能保证物理资源发挥200%的效能

5)如何降低部分slave节点故障对整个集群的影响

6)如何保持集群每日上线, 并能够保证故障隔离

7)关于大数据服务(跨机房)(多主多活)的架构设计


 

成功(或教训)要点

 

1)关注运营, 重视技术, 寻找到风险与创新的平衡点, 鼓励团队创新求突破的行为.

2)组建持续迭代的研发团队, 设立区域制上线, 瞬时隔离影响, 建立集群秒级的故障恢复机制, 拥有高度负责SRE与研发团队.

3)持续优化, 永无止境.

 

案例ROI分析

 

单集群规模(Yarn/HDFS) : 万台规模

逻辑集群规模(Yarn/HDFS-Router) : 过数万台

稳定性 : 近半年SLA的达成率100%

资源使用率提升 : 200%


 

案例启示

 

勇敢的, 持续的, 深入的面向技术创新, 改变固有模式下的不可能, 并将成果反馈于社区共同进步, 建立良好与社区互动的方式与渠道. 不仅仅只执着关注大数据软件, 同时包括系统内核, JVM等一切相关的服务都是优化手段.

 

案例在团队中的意义

 

讲述大规模集群的演化路线, 分享一路的风雨与彩虹, 与众共勉之

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会