登录    / 注册

基于Apache Kylin的大数据在线应用案例

分享时间: 2016年12月9日 - 12日

分会场: 设计匠艺/流程再造

案例讲师

李扬

Kyligence Inc. 联合创始人兼CTO

Kyligence联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。

扫描二维码分享案例

 

案例简述

 

由于查询速度缓慢,并发能力差,大数据一直以来处于一个离线应用的状态。Apache Kylin带来的技术体系变革,打开了交互式大数据分析的窗口,使在线大数据应用成为可能。本例将介绍一系列基于新技术体系的大数据在线案例,比如海量数据多维分析平台、高并发统计报表/仪表盘、自助数据探索平台、用户画像平台、大数据服务平台等。

 

案例目标

 

大数据有巨大的商业价值,这已经是一般的共识。但大数据平台投入高,回报周期长的特点,一直困扰着企业在大数据领域的建设步伐。这其中有大数据商业模式的问题,也有技术局限性的问题。商业模式是指如何使用大数据创造商业价值,将数据优势转化为商业竞争优势。技术方面则是指生产效率,如何让大数据查询更高速,并发量更大,从而提高生产效率,在单位时间里完成更多的数据到利润的转换。本文主要从技术角度展开讨论。

 

成功(或教训)要点

 

大数据商业要成功,有以下关键因素。

- 拥有大数据。首先企业必需有数据,自行收集或者购买,不然后面无从谈起。
- 数据商业模式。其次是找到数据的商业模式,例如精准营销、个性化推荐、风险控制、数据服务等都是成熟的模式。也可以由数据科学家自行探索。
- 大数据平台。技术角度,大数据平台负责数据的管理,包括存储、计算、导入导出等等。
- 高速高并发技术。有了上述的基础,高速高并发技术就是数据转化利润的引擎。发动机越快 ,转化效率越高,利润就越高。传统大数据技术在此处是短板,查询时间一般在分钟级别,并发在百用户左右。Apache Kylin协同Hive, HBase, Kafka, MapReduce, Spark等形成的新技术架构,能百倍的提升查询速度和并发能力,百倍的提升大数据生产力。

本案例将详细介绍在精准营销(海量数据多维分析平台),风险控制(高并发统计报表/仪表盘),自助数据探索平台(数据仓库),大数据服务,这几个经典案例中的技术体系架构。

 

案例ROI分析

 

- 某电商通过大数据精准营销可以提升受益5%以上。
- 某电商通过流量风险控制规避由外部渠道导入流量不稳定带来的商业风险。
- 自助数据探索平台百倍提升数据科学家的工作效率。
- 大数据服务按查询计费,新技术带来百倍的业务能力提升。

 

案例启示

 

从整体上,大数据从数据建议,到技术建设,到最后产生价值,是一个螺旋上升的过程。整个过程即需要足够(且合理)的启动资金,也需要不断的风险评估和控制。管理在其中有战略性的重要位置。

技术突破扮演关键角色。近期由技术突破带来的成百倍的查询和并发能力的提升,对大数据行业是重大的利好。许多之前无法实现的在线应用场景成为了可能,打开了许多经典案例在大数据上的应用可能。

大数据技术的运营是主要的技术成本。相对传统软件系统,大数据平台和应用的运营难度更大,运营成本在总持有成本中占绝对主要的位置。如何高效低价的运营大数据平台,是企业IT的关键问题。

 

案例在团队中的意义

 

由于查询速度缓慢,并发能力差,大数据一直以来处于一个离线应用的状态。Apache Kylin带来的技术体系变革,使得千亿数据规模上的秒级查询和互联网级并发成为了可能。从此大数据可以被在线应用像传统数据库一样高速查询了,打开了无限的应用可能。

在实践过程中,Kyligence积累了很多此类的应用场景和系统架构,如海量数据多维分析平台、高并发统计报表/仪表盘、自助数据探索平台、用户画像平台、大数据服务平台等等。值得分享。