实战Hadoop 开启通向云计算的捷径pdf

图书网 2017年12月8日15:51:4121.6K
摘要

《实战Hadoop:开启通向云计算的捷径》一书深入浅出、生动而详细地讲述Hadoop的基本原理,并配以实际应用案例,相信本书会对推动Hadoop在国内的应用和研究起到极大的作用。 《实战Hadoop——开启通向云计算的捷径》包括: HDFS、MapReduce、Hbase、Hive、Pig、Cassandra、Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。

实战Hadoop 开启通向云计算的捷径 内容简介

作为谷歌云计算基础架构的模仿实现,Hadoop堪称业界最经典的开源云计算平台软件。《实战Hadoop--开启通向云计算的捷径》(作者刘鹏)是原著的Hadoop编程技术书籍,是云计算专家刘鹏教授继《云计算》教材取得成功后,再次组织团队精心编写的又一力作,其作者均来自拥有丰富实践经验的云计算技术研发和教学团队。

《实战Hadoop--开启通向云计算的捷径》强调动手、强调实战,以风趣幽默的语言和一系列生动的实战应用案例,系统地讲授了Hadoop的核心技术和扩展技术,包括:HDFS、MapReduce、HBase、Hive、Pig、Cassandra、 Chukwa和ZooKeeper等,并给出了3个完整的Hadoop云计算综合应用实例,最后介绍了保障Hadoop平台可靠性的方法。

本书读者对象为各类云计算相关企业、高校和科研机构的研发人员,亦适合作为高校研究生和本科生教材。

实战Hadoop 开启通向云计算的捷径 目录

第1章 神奇的大象——Hadoop

1.1 初识神象

1.2 Hadoop初体验

1.2.1 了解Hadoop的构架

1.2.2 查看Hadoop活动

1.3 Hadoop族群

1.4 Hadoop安装

1.4.1 在Linux系统中安装Hadoop

1.4.2 在Windows系统中安装Hadoop

1.4.3 站在象背上说“hello”

1.4.4 Eclipse下的Hadoop应用开发

参考文献

第2章 HDFS——不怕故障的海量存储

2.1 开源的GFS——HDFS

2.1.1 设计前提与目标

2.1.2 HDFS体系结构

2.1.3 保障HDFS可靠性措施

2.2 HDFS常用操作

2.2.1 HDFS下的文件操作

2.2.2 管理与更新

2.3 HDFS API之旅

2.4 实战:用HDFS存储海量视频数据

2.4.1 应用场景

2.4.2 设计实现

参考文献

第3章 分久必合——MapReduce

3.1 MapReduce基础

3.1.1 MapReduce编程模型

3.1.2 MapReduce的集群行为

3.2 样例分析:单词计数

3.2.1 WordCount源码分析

3.2.2 WordCount处理过程

3.3 MapReduce,你够了解吗

3.3.1 没有map、reduce的MapReduce

3.3.2 多少个Reducers最佳

3.4 实战:倒排索引

3.4.1 倒排索引简介

3.4.2 分析与设计

3.4.3 倒排索引完整源码

参考文献

第4章 一张无限大的表——HBase

4.1 HBase简介

4.1.1 逻辑模型

4.1.2 物理模型

4.1.3 Region服务器

4.1.4 主服务器

4.1.5 元数据表

4.2 HBase入门

4.2.1 HBase的安装配置

4.2.2 HBase用户界面

4.3 HBase操作演练

4.3.1 基本shell操作

4.3.2 基本API使用

4.4 实战:使用MapReduce构建HBase索引

4.4.1 索引表蓝图

4.4.2 HBase和MapReduce

4.4.3 实现索引

参考文献

第5章 更上一层楼——MapReduce进阶

5.1 简介

5.2 复合键值对的使用

5.2.1 把小的键值对合并成大的键值对

5.2.2 巧用复合键让系统完成排序

5.3 用户定制数据类型

5.3.1 Hadoop内置的数据类型

5.3.2 用户自定义数据类型的实现

5.4 用户定制输入/输出格式

5.4.1 Hadoop内置的数据输入格式和RecordReader

5.4.2 用户定制数据输入格式与RecordReader

5.4.3 Hadoop内置的数据输出格式与RecordWriter

5.4.4 用户定制数据输出格式与RecordWriter

5.4.5 通过定制数据输出格式实现多集合文件输出

5.5 用户定制Partitioner和Combiner

5.5.1 用户定制Partitioner

5.5.2 用户定制Combiner

5.6 组合式MapReduce计算作业

5.6.1 迭代MapReduce计算任务

5.6.2 顺序组合式MapReduce作业的执行

5.6.3 具有复杂依赖关系的组合式MapReduce作业的执行

5.6.4 MapReduce前处理和后处理步骤的链式执行

5.7 多数据源的连接

5.7.1 基本问题数据示例

5.7.2 用DataJoin类实现Reduce端连接

5.7.3 用全局文件复制方法实现Map端连接

5.7.4 带Map端过滤的Reduce端连接

5.7.5 多数据源连接解决方法的限制

5.8 全局参数/数据文件的传递与使用

5.8.1 全局作业参数的传递

5.8.2 查询全局MapReduce作业属性

5.8.3 全局数据文件的传递

5.9 关系数据库的连接与访问

5.9.1 从数据库中输入数据

5.9.2 向数据库中输出计算结果

参考文献

第6章 Hive——飞进数据仓库的小蜜蜂

6.1 Hive的组成

6.2 搭建蜂房——Hive安装

6.3 Hive的服务

6.3.1 Hive shell

6.3.2 JDBC/ODBC支持

6.3.3 Thrift服务

6.3.4 Web接口

6.3.5 元数据服务

6.4 HiveQL的使用

6.4.1 HiveQL的数据类型

6.4.2 HiveQL常用操作

6.5 Hive示例

6.5.1 UDF编程示例

6.5.2 UDAF编程示例

6.6 实战:基于Hive的Hadoop日志分析

参考文献

第7章 Pig——一头什么都能吃的猪

7.1 Pig的基本框架

7.2 Pig的安装

7.2.1 开始安装Pig

7.2.2 验证安装

7.3 Pig的使用

7.3.1 Pig的MapReduce模式

7.3.2 使用Pig

7.3.3 Pig的调试

7.4 Pig Latin编程语言

7.4.1 数据模型

7.4.2 数据类型

7.4.3 运算符

7.4.4 常用操作

7.4.5 用户自定义函数

7.5 实战:基于Pig的通话记录查询

7.5.1 应用场景

7.5.2 设计实现

参考文献

第8章 Facebook的女神——Cassandra

8.1 洞察Cassandra的全貌

8.1.1 目标及特点

8.1.2 体系结构

8.1.3 存储机制

8.1.4 数据操作过程

8.2 让Cassandra飞

8.2.1 Windows 7下单机安装

8.2.2 Linux下分布式安装

8.3 Cassandra操作示例

8.3.1 客户端命令代码跟踪

8.3.2 增删Cassandra节点

8.3.3 Jconsole监控Cassandra

8.4 Cassandra与MapReduce结合

8.4.1 需求分析

8.4.2 编码流程分析

8.4.3 MapReduce的核心代码

参考文献

第9章 Chukwa——收集数据的大乌龟

9.1 初识Chukwa

9.1.1 为什么需要Chukwa

9.1.2 什么是Chukwa

9.2 Chukwa架构与设计

9.2.1 代理与适配器

9.2.2 元数据

9.2.3 收集器

9.2.4 MapReduce作业

9.2.5 HICC

9.2.6 数据接口与支持

9.3 Chukwa安装与配置

9.3.1 Chukwa安装

9.3.2 源节点代理配置

9.3.3 收集器

9.3.4 Demux作业与HICC配置

9.4 Chukwa小试

9.4.1 数据生成

9.4.2 数据收集

9.4.3 数据处理

9.4.4 数据析取

9.4.5 数据稀释

9.4.6 数据显示

参考文献

第10章 一统天下——ZooKeeper

10.1 Zookeeper是个谜

10.1.1 ZooKeeper工作原理

10.1.2 ZooKeeper的特性

10.2 ZooKeeper安装和编程

10.2.1 ZooKeeper的安装和配置

10.2.2 ZooKeeper的编程实现

10.3 ZooKeeper演练:进程调度系统

10.3.1 设计方案

10.3.2 设计实现

10.4 实战演练:ZooKeeper实现NameNode自动切换

10.4.1 设计思想

10.4.2 详细设计

10.4.3 编码

10.4.4 实战总结

参考文献

第11章 综合实战1——打造一个搜索引擎

11.1 系统工作原理

11.2 网页搜集与信息提取

11.2.1 网页搜集

11.2.2 网页信息的提取与存储

11.3 基于MapReduce的预处理

11.3.1 元数据过滤

11.3.2 生成倒排文件

11.3.3 建立二级索引

11.3.4 小节

11.4 建立Web信息查询服务

11.4.1 建立前台查询接口

11.4.2 后台信息查询与合并

11.4.3 返回显示结果

11.5 系统优化

11.5.1 存储方面的优化

11.5.2 计算方面的优化

11.6 本章总结

参考文献

第12章 综合实战2——生物信息学应用

12.1 背景

12.2 总体框架

12.3 系统实现

12.3.1 序列数据库的切分和存储

12.3.2 构造单词列表和扫描器

12.3.3 Map:扫描和扩展

12.3.4 主控程序

12.4 扩展性能测试

12.5 本章总结

参考文献

第13章 综合实战3——移动通信信令监测与查询

13.1 分析与设计

13.1.1 CDR数据文件的检测与索引创建任务调度

13.1.2 从HDFS读取数据并创建索引

13.1.3 查询CDR信息

13.2 实现代码

13.2.1 CDR文件检测和索引创建任务调度程序

13.2.2 读取CDR数据和索引创建处理

13.2.3 CDR查询

13.3 本章总结

参考文献

第14章 高枕无忧——Hadoop容错

14.1 Hadoop的可靠性

14.1.1 HDFS中NameNode单点问题

14.1.2 HDFS数据块副本机制

14.1.3 HDFS心跳机制

14.1.4 HDFS负载均衡

14.1.5 MapReduce容错

14.2 Hadoop的SecondaryNameNode机制

14.2.1 磁盘镜像与日志文件

14.2.2 SecondaryNameNode更新镜像的流程

14.3 Avatar机制

14.3.1 系统架构

14.3.2 Avatar元数据同步机制

14.3.3 故障切换过程

14.3.4 Avatar运行流程

14.3.5 Avatar故障切换流程

14.4 Avatar实战

14.4.1 实验环境

14.4.2 编译Avatar

14.4.3 Avatar安装和配置

14.4.4 Avatar启动运行与宕机切换

参考文献

实战Hadoop 开启通向云计算的捷径 精彩文摘

第1章  神奇的大象——Hadoop

这是一个信息爆炸的时代,互联网上的信息正在以几何级数的速度增长。在这个大背景下,消耗CPU最多的计算逐渐从“提升软件本身性能”方面转移到信息处理方面。与此同时,摩尔定律似乎也不再像以前那么准确地发挥作用了。在这样的严峻形势下,各大厂商面临着极大的挑战——他们需要从TB乃至PB级的数据中挖掘出有用的信息,并对这些海量的数据进行快捷、高效的处理。在这段特殊时期,Google公司以MapReduce为基石,结合GFS、Bigtable逐步发展成为全球互联网企业的领头羊。然而,出于技术保密的原因,Google公司并没有开源其MapReduce的实现细节,这使得人们无法深入了解和认识它。就在这时,一头神秘的大象——Hadoop从天而降,它的开源给人们带来了新的希望。

1.1  初识神象

要认识Hadoop这头神象,便不得不提它的“父亲”DougCuttin9,以及它的“近亲”Nutch和Lucene。“父亲”DougCuttin9本人不仅是Nutch的创始人,还是Lucene项目的创始人,他就像希腊神话中的“盗火人”普罗米修斯,把高深莫测的搜索技术形成产品贡献给普罗大众。“近亲”Lucene是一个Java高性能全文索引引擎工具包,它可以方便地嵌入到各种实际应用中实现全文索引搜索功能。而Nutch则是一个应用程序,它是一个以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的APl。与此同时,Nutch不仅提供了搜索功能,而且还提供了数据抓取的功能。此外,Nutch中还包含一个分布式文件系统用于存储数据。

图书网:实战Hadoop 开启通向云计算的捷径pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

数据结构 C语言版 第2版pdf 程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
C++捷径教程 第3版pdf 程序设计

C++捷径教程 第3版pdf

C++捷径教程 第3版 作者:(美) Herbert Schildt C++捷径教程 第3版 出版社:清华大学出版社 C++捷径教程 第3版 内容简介 本书是程序设计大师Herbert Schildt...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:2   其中:访客  1   博主  1
    • Tear l 造梦先生╮
      Tear l 造梦先生╮ 0

      很给力