注册 / 登录

Apache Beam: 领英流式计算平台的最新实践

分会场:  爆款架构/数据平台/工程实践

 

案例来源 :

案例讲师

吕海

LinkedIn Tech Lead&Staff software engineer

领英实时流计算基础架构团队(Streaming Infrastructure)资深工程师与技术负责人。在流式计算与大数据领域拥有多年经验。当前主要工作和兴趣在于探索实时流计算平台对机器学习的支持,以及领英自研流式计算平台Apache Samza与领先的开源数据处理框架Apache Beam的整合。

扫描二维码分享案例

 

案例简述

 

领英的技术团队深耕流式计算多年,研发并开源了Apache Kafka, Apache Samza等项目。本次分享我们将介绍团队在这一领域的最新进展和实践,尤其着重介绍我们与Apache Beam的整合。Apache Beam是一套由Google开源的先进的数据处理的API,它统一了批处理和流式处理,并提供多种编程语言的支持. 我们将介绍Beam在领英的经验,现状和展望。

 

案例目标

 

1)领英流式计算架构的现状Apache Kafka + Apache Samza,语言上仅支持Java。 离线计算任务(批处理)主要采用Spark, Pig, Hadoop等等。


2)为什么选型Apache Beam:统一而可靠的API; 强大的表达能力。


3)Beam + Samza


a.整合的动机:event time的支持;多语言的支持 (Java, Python, Go);


b.应用场景:复杂的流式计算任务;同时进行在线与离线计算的任务


c.效果:已经运行在生产坏境中



 

成功(或教训)要点

 

在关键的中间件/基础架构中将前端(接口;API)与后端(实际运行环境)分离;从而在促进前端不断创新的同时保证后端的稳定。

 

案例ROI分析

 

即将上线。

 

案例启示

 

在关键的中间件/基础架构中将前端(接口;API)与后端(实际运行环境)分离;从而在促进前端不断创新的同时保证后端的稳定。

 

案例在团队中的意义

 

这个案例体现了领英在流式计算领域的最新探索和进展;并对Apache Beam这一先进的计算框架进行一定介绍。

 

领取大会PPT

我要参会

大会全套演讲PPT

立即领取

大会即将开幕,点击抢票!

我要参会