深度剖析Hadoop HDFS 作者:林意群
深度剖析Hadoop HDFS 出版社:机械工业出版社
深度剖析Hadoop HDFS 内容简介
本书基于Hadoop 2.7.1版本进行分析,全面描述了HDFS 2.X的核心技术与解决方案,书中描述了HDFS内存存储、异构存储等几大核心设计,包括源码细节层面的分析,对于HDFS中比较特殊的几个场景过程也做了细粒度的分析。还分享了作者在实际应用中的解决方案及扩展思路。阅读本书可以帮助读者从架构设计与功能实现角度了解HDFS 2.X,同时还能学习HDFS 2.X框架中优秀的设计思想、设计模式、Java语言技巧等。这些对于读者全面提高自己分布式技术水平有很大的帮助。本书分为三大部分:核心设计篇、细节实现篇、解决方案篇,“核心设计篇”包括HDFS的数据存储原理、HDFS的数据管理与策略选择机制、HDFS的新颖功能特性;“细节实现篇”包括HDFS的块处理、流量处理等细节,以及部分结构分析;“解决方案篇”包括HDFS的数据管理、HDFS的数据读写、HDFS的异常场景等。本书适合于云计算相关领域研发人员、云计算相关运维工程师、高年级研究生或本科、热衷于分布式计算研究的人。
深度剖析Hadoop HDFS 目录
前言
第一部分 核心设计篇
第1章 HDFS的数据存储
1.1 HDFS内存存储
1.2 HDFS异构存储
1.3 小结
第2章 HDFS的数据管理与策略选择
2.1 HDFS缓存与缓存块
2.2 HDFS中心缓存管理
2.3 HDFS快照管理
2.4 HDFS副本放置策略
2.5 HDFS内部的认证机制
2.6 HDFS内部的磁盘目录服务
2.7 小结
第3章 HDFS的新颖功能特性
3.1 HDFS视图文件系统:ViewFileSystem
3.2 HDFS的Web文件系统:WebHdfsFileSystem
3.3 HDFS数据加密空间:Encryption zone
3.4 HDFS纠删码技术
3.5 HDFS对象存储:Ozone
3.6 小结
第二部分 细节实现篇
第4章 HDFS的块处理
4.1 HDFS块检查命令fsck
4.2 HDFS如何检测并删除多余副本块
4.3 HDFS数据块的汇报与处理
4.4 小结
第5章 HDFS的流量处理
5.1 HDFS的内部限流
5.2 数据平衡
5.3 HDFS节点内数据平衡
5.4 小结
第6章 HDFS的部分结构分析
6.1 HDFS镜像文件的解析与反解析
6.2 DataNode数据处理中心DataXceiver
6.3 HDFS邻近信息块:BlockInfoContiguous
6.4 小结
第三部分 解决方案篇
第7章 HDFS的数据管理
7.1 HDFS的读写限流方案
7.2 HDFS数据资源使用量分析以及趋势预测
7.3 HDFS数据迁移解决方案
7.4 DataNode迁移方案
7.5 HDFS集群重命名方案
7.6 HDFS的配置管理方案
7.7 小结
第8章 HDFS的数据读写
8.1 DataNode引用计数磁盘选择策略
8.2 Hadoop节点“慢磁盘”监控
8.3 小结
第9章 HDFS的异常场景
9.1 DataNode慢启动问题
9.2 Hadoop中止下线操作后大量剩余复制块问题
9.3 DFSOutputStream的DataStreamer线程泄漏问题
9.4 小结
附录 如何向开源社区提交自己的代码
深度剖析Hadoop HDFS 精彩文摘
HDFS的内存存储是HDFS所有数据存储方式中比较特殊的一种,与之后将会提到的HDFS缓存有一些相同之处:都用机器的内存作为存储数据的载体。不同之处在于:HDFS缓存需要用户主动设置目标待缓存的文件、目录,其间需要使用HDFS缓存管理命令。而HDFS内存存储策略:LAZY_PERSIST则直接将内存作为数据存放的载体,可以这么理解,此时节点的内存也充当了一块“磁盘”。只要将文件设置为内存存储方式,最终会将其存储在节点的内存中。综合地看,HDFS缓存更像是改进用户使用的一种功能,而HDFS内存存储则是从底层扩展了HDFS的数据存储方式。本节将对HDFS内存存储策略进行更细致的分析。
→→→→→→→→→→→→→→→→→→→→查找获取
评论