Hadoop权威指南第2版中文版pdf

图书网 2017年12月8日15:35:55
评论
3.1K

Hadoop权威指南第2版中文版 内容简介

本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,最后还提供了丰富的案例分析。

本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。

Hadoop权威指南第2版中文版 目录

第1章 初识Hadoop

数据!数据!

数据存储与分析

与其他系统相比

关系型数据库管理系统

网格计算

志愿计算

1.3.4 Hadoop 发展简史

Apache Hadoop和Hadoop生态圈

第2章 关于MapReduce

一个气象数据集

数据的格式

使用Unix工具进行数据分析

使用Hadoop分析数据

map阶段和reduce阶段

横向扩展

合并函数

运行一个分布式的MapReduce作业

Hadoop的Streaming

Ruby版本

Python版本

Hadoop Pipes

编译运行

第3章 Hadoop分布式文件系统

HDFS的设计

HDFS的概念

数据块

namenode和datanode

命令行接口

基本文件系统操作

Hadoop文件系统

接口

Java接口

从Hadoop URL中读取数据

通过FileSystem API读取数据

写入数据

目录

查询文件系统

删除数据

数据流

文件读取剖析

文件写入剖析

一致模型

通过 distcp并行拷贝

保持 HDFS 集群的均衡

Hadoop的归档文件

使用Hadoop归档文件

不足

第4章 Hadoop I/O

数据完整性

HDFS的数据完整性

LocalFileSystem

ChecksumFileSystem

压缩

codec

压缩和输入切分

在MapReduce中使用压缩

序列化

Writable接口

Writable类

实现定制的Writable类型

序列化框架

Avro

依据文件的数据结构

写入SequenceFile

MapFile

第5章 MapReduce应用开发

配置API

合并多个源文件

可变的扩展

配置开发环境

配置管理

辅助类GenericOptionsParser,Tool和ToolRunner

编写单元测试

mapper

reducer

本地运行测试数据

在本地作业运行器上运行作业

测试驱动程序

在集群上运行

打包

启动作业

MapReduce的Web界面

获取结果

作业调试

使用远程调试器

作业调优

分析任务

MapReduce的工作流

将问题分解成MapReduce作业

运行独立的作业

第6章 MapReduce的工作机制

剖析MapReduce作业运行机制

作业的提交

作业的初始化

任务的分配

任务的执行

进度和状态的更新

作业的完成

失败

任务失败

tasktracker失败

jobtracker失败

作业的调度

Fair Scheduler

Capacity Scheduler

shuffle和排序

map端

reduce端

配置的调优

任务的执行

推测式执行

重用JVM

跳过坏记录

任务执行环境

第7章 MapReduce的类型与格式

MapReduce的类型

默认的MapReduce作业

输入格式

输入分片与记录

文本输入

二进制输入

多种输入

数据库输入(和输出)

输出格式

文本输出

二进制输出

多个输出

延迟输出

数据库输出

第8章 MapReduce的特性

计数器

内置计数器

用户定义的Java计数器

用户定义的Streaming计数器

排序

准备

部分排序

总排序

二次排序

联接

map端联接

reduce端联接

边数据分布

利用JobConf来配置作业

分布式缓存

MapReduce库类

第9章 构建Hadoop集群

集群规范

网络拓扑

集群的构建和安装

安装Java

创建Hadoop用户

安装Hadoop

测试安装

SSH配置

Hadoop配置

配置管理

环境设置

Hadoop守护进程的关键属性

Hadoop守护进程的地址和端口

Hadoop的其他属性

创建用户帐号

安全性

Kerberos和Hadoop

委托令牌

其他安全性改进

利用基准测试程序测试Hadoop集群

Hadoop基准测试程序

用户的作业

云上的Hadoop

Amazon EC2上的Hadoop

第10章 管理Hadoop

HDFS

永久性数据结构

安全模式

日志审计

工具

监控

日志

度量

Java管理扩展(JMX)

维护

日常管理过程

委任节点和解除节点

升级

第11章 Pig简介

安装与运行Pig

执行类型

运行Pig程序

Grunt

Pig Latin编辑器

示例

生成示例

与数据库比较

PigLatin

结构

语句

表达式

1.4.4 类型

模式

函数

用户自定义函数

过滤UDF

计算UDF

加载UDF

数据处理操作

加载和存储数据

过滤数据

分组与连接数据

对数据进行排序

组合和分割数据

Pig实战

并行处理

参数代换

第12章 Hive

1.1 安装Hive

1.1.1 Hive外壳环境

1.2 示例

1.3 运行Hive

1.3.1 配置Hive

1.3.2 Hive服务

1.3.3 Metastore

1.4 和传统数据库进行比较

1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite)

1.4.2 更新、事务和索引

1.5 HiveQL

1.5.1 数据类型

1.5.2 操作和函数

1.6 表

1.6.1 托管表(Managed Tables)和外部表(External Tables)

1.6.2 分区(Partitions)和桶(Buckets)

1.6.3 存储格式

1.6.4 导入数据

1.6.5 表的修改

1.6.6 表的丢弃

1.7 查询数据

1.7.1 排序(Sorting)和聚集(Aggregating)

1.7.2 MapReduce脚本

1.7.3 连接

1.7.4 子查询

1.7.5 视图(view)

1.8 用户定义函数(User-Defined Functions)

1.8.1 编写UDF

1.8.2 编写UDAF

第13章 HBase

2.1 HBasics

2.1.1 背景

2.2 概念

2.2.1 数据模型的“旋风之旅”

2.2.2 实现

2.3 安装

2.3.1 测试驱动

2.4 客户机

2.4.1 Java

2.4.2 Avro,REST,以及Thrift

2.5 示例

2.5.1 模式

2.5.2 加载数据

2.5.3 Web查询

2.6 HBase和RDBMS的比较

2.6.1 成功的服务

2.6.2 HBase

2.6.3 实例:HBase在Streamy.com的使用

2.7 Praxis

2.7.1 版本

2.7.2 HDFS

2.7.3 用户接口(UI)

2.7.4 度量(metrics)

2.7.5 模式设计

2.7.6 计数器

2.7.7 批量加载(bulkloading)

第14章 ZooKeeper

安装和运行ZooKeeper

示例

ZooKeeper中的组成员关系

创建组

加入组

列出组成员

ZooKeeper服务

数据模型

操作

实现

一致性

会话

状态

使用ZooKeeper来构建应用

配置服务

具有可恢复性的ZooKeeper应用

锁服务

生产环境中的ZooKeeper

可恢复性和性能

配置

第15章 开源工具Sqoop

获取Sqoop

一个导入的例子

生成代码

其他序列化系统

深入了解数据库导入

导入控制

导入和一致性

直接模式导入

使用导入的数据

导入的数据与Hive

导入大对象

执行导出

深入了解导出

导出与事务

导出和SequenceFile

第16章 实例分析

Hadoop 在Last.fm的应用

Last.fm:社会音乐史上的革命

Hadoop a Last.fm

用Hadoop产生图表

Track Statistics程序

总结

Hadoop和Hive在Facebook的应用

概要介绍

Hadoop a Facebook

假想的使用情况案例

Hive

问题与未来工作计划

Nutch 搜索引擎

背景介绍

数据结构

Nutch系统利用Hadoop进行数据处理的精选实例

总结

Rackspace的日志处理

简史

选择Hadoop

收集和存储

日志的MapReduce模型

关于Cascading

字段、元组和管道

操作

Tap类,Scheme对象和Flow对象

Cascading实战

灵活性

Hadoop和Cascading在ShareThis的应用

总结

在Apache Hadoop上的TB字节数量级排序

使用Pig和Wukong来探索10亿数量级边的 网络图

测量社区

每个人都在和我说话:Twitter回复关系图

degree(度)

对称链接

社区提取

附录A 安装Apache Hadoop

先决条件

安装

配置

本机模式

伪分布模式

全分布模式

附录B Cloudera’s Distribution for Hadoop

附录C 准备NCDC天气数据

索引

Hadoop权威指南第2版中文版 精彩文摘

数据存储与分析

我们遇到的问题很简单:多年来磁盘存储容量快速增加的同时,其访问速度——磁盘数据读取速度——却未能与时俱进。1990年,一个普通磁盘可存储1370 MB的数据并拥有4.4 MB/s的传输速度,因此,读取整个磁盘中的数据只需要5分钟。20年后,1 TB的磁盘逐渐普及,但其数据传输速度约为100 MB/s,因此读取整个磁盘中的数据需要约两个半小时。

读取一个磁盘中所有的数据需要很长的时间,写甚至更慢。一个很简单的减少读取时间的办法是同时从多个磁盘上读取数据。试想,如果我们拥有100个磁盘,每个磁盘存储1%的数据,并行读取,那么不到两分钟就可以读取所有数据。

仅使用磁盘容量的1%似乎很浪费。但是我们可以存储100个数据集,每个数据集1 TB,并实现共享磁盘的访问。可以想象,该类系统的用户会很乐意使用磁盘共享访问以便缩短数据分析时间;并且,从统计角度来看,用户的分析工作会在不同的时间点进行,所以互相之间的干扰不会太大。

尽管如此,但要实现对多个磁盘数据的并行读写,还有更多的问题要解决。

图书网:Hadoop权威指南第2版中文版pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: