注册 / 登录

百度实时搜索技术的架构演变

分会场:  架构演进/工程实践/大前端

分享时间: 2017年11月9日 - 12日

案例来源 :

案例讲师

郑然

百度 架构师

郑然于2009年加入百度网页搜索部, 在网页搜索部工作的8年时间里, 一直从事百度搜索引擎架构的研发工作, 先后负责过百度搜索引擎的大规模索引构建工作, 大数据离线平台架构工作. 近几年来一直从事大规模服务治理和分布式存储系统的相关工作, 包括支撑大规模服务变更的PaaS系统, 保障百度搜索引擎99.995%可靠性的高可用架构和中间件, 以及分布式表格系统Tera. 对于分布式系统和高性能计算方向非常感兴趣.

扫描二维码分享案例

 

案例简述

 

介绍百度搜索引擎架构从最简单的伪分布式系统演变到批处理系统, 再演变到实时系统的过程, 让大家了解百度搜索引擎是如何运用复杂的大数据技术而实现千亿规模数据的实时搜索的.

 

案例目标

 

揭示了百度千亿网页数据实时检索的架构设计方法, 让广大听众了解可扩展的大规模数据处理系统的架构实践过程。

 

成功(或教训)要点

 

基于大规模实时数据存储系统Tera以及大规模服务治理技术, 百度搜索引擎成功的实现了支撑千亿网页数据的实时搜索系统, 是一个典型的综合运用各种大数据技术而构建的复杂系统的案例。

 

案例ROI分析

 

支撑百度实时搜索的分布式存储系统Tera已经开源, 运用的其他大数据技术的思想是来源于相关的开源技术, 听众了解了整体思路之后, 也可以运用在一定规模的搜索或者推荐系统之上。

 

案例启示

 

批量处理计算技术虽然实现简单, 但是无法满足较高的时效性要求, 而且批处理技术存在着比较严重的长尾效应. 百度搜索引擎从批处理技术向实时计算技术的演变揭示了实时计算技术的广阔运用空间, 结合着大规模分布式存储系统Tera, 可以更好的解决有状态服务的状态存储问题, 从而高效的实现大规模分布式实时计算系统。