注册 / 登录

大规模分布式文件系统的元数据管理的设计和实现

分会场:  架构演进/工程实践/大前端

 

案例来源 :

案例讲师

任恺

Instagram 研究科学家

Instagram研究科学家。卡内基梅隆大学计算机博士。主要研究方向为分布式系统和大数据分析。在顶级会议上发表多篇文章,曾获得2014年世界超算大会最佳论文奖。

扫描二维码分享案例

 

案例简述

 

本次分享介绍如何设计大规模分布式存储系统以满足大数据时代日益增长的存储需求。主要介绍分布式存储系统优化的两个方面:一是如何单机存储的性能,二是如何提高分布式元数据管理的性能。

 

案例目标

 

为了解决大数据存储系统的性能瓶颈,尤其是元数据管理的性能瓶颈。

 

成功(或教训)要点

 

a)合理利用硬件资源合理设计系统,达到资源利用最大化;
b)针对业务场景来优化系统的瓶颈,避免过度优化。

 

案例启示

 

主要介绍分布式存储系统优化的两个方面:一是如何单机存储的性能,二是如何提高分布式元数据管理的性能。对于单机存储,分享主要介绍新的提高KV存储的技术,例如内存索引的压缩以及对Compaction的动态优化。利用这些技术能对已有的LevelDB和RocksDB提高近一倍的写速度和加少50%的最坏读取延迟。对于分布式文件系统元数据的管理,本次分享将主要讨论如何将划话元数据空间到多台机器,如何合理利用缓存实现元数据访问的负载均衡。综合这些技术,新系统IndexFS的元数据管理系统能扩容到百台机器,大大超越现有HDFS的单机元数据管理系统。