实时分析 流数据的分析与可视化技术pdf

图书网 2018年8月28日22:51:4733.6K

实时分析 流数据的分析与可视化技术 内容简介

本书共11章。第1章介绍常见的流数据的来源、应用以及三个重要特性:持续交付、结构松散和高基数,并阐释对流数据使用基础架构和算法的重要性。第2~6章介绍实时流架构的各组件涉及的软件、框架和方法。第2章概述实时流架构设计涉及的组件、特性、编程语言等。第3章介绍实时流架构的服务配置和协调,重点介绍协调服务器ZooKeeper。第4章阐述实时流架构中数据流程的管理,涉及用来管理数据流程的两个软件包Kafka和Flume。第5章分析流数据的处理,涉及如何用Storm或Samza来处理数据。第6章介绍流数据的存储问题。第7~11章重点关注流数据架构的应用构建问题。第7章讨论从流环境向终用户的数据交付问题。这是构建仪表板以及其他监控应用所使用的核心机制。第8章涵盖流环境下的聚集计算问题,特别是对多分辨率时间序列数据的聚集计算问题。第9章简要介绍统计学和概率论的基础知识。第10章讨论略图,略图通常具有更快的更新速度和更小的内存占用空间,特别适合流环境。第11章讨论聚集计算之外能够应用于流数据的一些更深入的话题。

实时分析 流数据的分析与可视化技术 目录

第1章 流数据简介

1.1流数据的来源

1.1.1运行监控

1.1.2 Web分析

1.1.3在线广告

1.1.4社交媒体

1.1.5移动数据和物联网

1.2流数据的特别之处

1.2.1始终在线,持续流动

1.2.2松散结构

1.2.3高基数的存储

1.3基础架构和算法

1.4总结

第一部分 流分析架构

第2章 实时流架构设计

2.1实时架构的组件

2.1.1数据采集

2.1.2数据流程

2.1.3数据处理

2.1.4数据存储

2.1.5数据交付

2.2实时架构的特性

2.2.1高可用性

2.2.2低延迟

2.2.3水平可扩展性

2.3实时编程语言

2.3.1 Java

2.3.2 Scala和Clojure

2.3.3 JavaScript

2.3.4 Go语言

2.4实时架构概览

2.4.1数据采集

2.4.2数据流程

2.4.3数据处理

2.4.4数据存储

2.4.5数据交付

2.5总结

第3章 服务配置和协调

3.1配置和协调系统的研发动机

3.2维护分布式状态

3.2.1不可靠的网络连接

3.2.2时钟同步

3.2.3不可靠环境下的一致性

3.3 Apache ZooKeeper

3.3.1 znode

3.3.2监视和通知

3.3.3保持一致性

3.3.4创建ZooKeeper集群

3.3.5 ZooKeeper本地Java客户端

3.3.6 Curator客户端

3.3.7 Curator Recipes组件

3.4总结

第4章 流分析中的数据流程管理

4.1分布式数据流程

4.1.1至少交付一次

4.1.2 “n + 1”问题

4.2 Apache Kafka:高吞吐量分布式消息机制

4.2.1设计与实现

4.2.2配置Kafka环境

4.2.3与Kafka代理交互

4.3 Apache Flume:分布式日志采集系统

4.3.1 Flume agent

4.3.2配置agent

4.3.3 Flume数据模型

4.3.4 channel选择器

4.3.5 Flume source

4.3.6 Flume sink

4.3.7 sink processor

4.3.8 Flume channel

4.3.9 Flume Interceptor

4.3.10集成定制Flume组件

4.3.11运行Flume agent

4.4总结

第5章 流数据的处理

5.1分布式流数据处理

5.1.1协调

5.1.2分区和融合

5.1.3事务

5.2用Storm处理数据

5.2.1 Storm集群的组件

5.2.2配置Storm集群

5.2.3分布式集群

5.2.4本地集群

5.2.5 Storm拓扑

5.2.6实现bolt

5.2.7实现并使用spout

5.2.8分布式远程过程调用

5.2.9 Trident: Storm的DSL

5.3用Samza处理数据

5.3.1 Apache YARN

5.3.2从YARN和Samza开始

5.3.3将Samza集成进数据流程

5.3.4 Samza作业

5.4总结

第6章 流数据的存储

6.1一致性哈希

6.2 “NoSQL”存储系统

6.2.1 Redis

6.2.2 MongoDB

6.2.3 Cassandra

6.3其他存储技术

6.3.1关系数据库

6.3.2分布式内存数据网格

6.4存储技术的选择

6.4.1键-值存储

6.4.2文档存储

6.4.3分布式哈希表存储

6.4.4内存网格

6.4.5关系数据库

6.5数据仓库

6.5.1将Hadoop作为ETL和数据仓库

6.5.2 Lambda架构

6.6总结

第二部分 流分析与可视化

第7章 流度量的交付

7.1流Web应用

7.1.1使用Node

7.1.2用NPM管理Node项目

7.1.3基于Node开发Web应用

7.1.4基本的流仪表板

7.1.5向Web应用加入流

7.2数据可视化

7.2.1 HTML5 Canvas和内联SVG

7.2.2数据驱动文档:D3 js

7.2.3高层工具

7.3移动流应用

7.4总结

第8章 精确的聚集计算和交付

8.1定时计数与求和

8.1.1基于Bolt的计数

8.1.2基于Trident的计数

8.1.3基于Samza的计数

8.2多分辨率时间序列的聚集计算

8.3随机优化

8.4时间序列数据的交付

8.4.1用D3 js绘制带状图

8.4.2高速Canvas图

8.4.3地平线图

8.5总结

第9章 流数据的统计近似

9.1数值计算库

9.2概率和分布

9.2.1期望和方差

9.2.2统计分布

9.2.3离散分布

9.2.4连续分布

9.2.5联合分布

9.3参数估计

9.3.1参数推断

9.3.2 Delta方法

9.3.3分布不等式

9.4随机数产生器

9.5抽样过程

9.5.1从固定数据集中抽样

9.5.2从流数据中抽样

9.5.3有偏流抽样

9.6总结

第10章 使用略图近似流数据

10.1寄存器和哈希函数

10.1.1寄存器

10.1.2哈希函数

10.2集合

10.3 Bloom Filter

10.3.1算法

10.3.2 Bloom Filter大小的选择

10.3.3并集和交集

10.3.4基数估计

10.3.5有趣的变体

10.4 Distinct Value略图

10.4.1 Min-Count算法

10.4.2 HyperLogLog算法

10.5 Count-Min略图

10.5.1点查询

10.5.2 Count-Min略图的实现

10.5.3 Top-K和“Heavy Hitters”

10.5.4范围查询和分位数查询

10.6其他应用

10.7总结

第11章 流数据的应用

11.1实时数据模型

11.1.1简单时间序列模型

11.1.2线性模型

11.1.3逻辑回归

11.1.4神经网络模型

11.2用模型预测

11.2.1指数平滑法

11.2.2回归法

11.2.3神经网络法

11.3监控

11.3.1离群点检测

11.3.2变化检测

11.4实时优化

11.5总结

实时分析 流数据的分析与可视化技术 精彩文摘

1.1流数据的来源

流数据的来源多种多样,这一节只介绍一些主要的数据类别。尽管卅现了越来越多的数据来源,也会有许多专用的数据来源,本节还是只讨论令流数据受到关注的应用领域中的数据类别。我们主要按照时间先后对这些应用领域排序。对书中讨论的软件追根溯源,它们中很多都是在解决这些特定应用领域中的问题时产生的。

书中给出的数据移动系统,刚开始是为Linkedln、Yahoo!和Facebook的网站分析与在线广告处理数据。设计这样的处理系统是为了应对Twitter和LinkedIn这样的社交网络所带来的社交媒体数据处理的挑战。

Google公司的商业帝国与在线广告息息相关,它们大量使用的高级算法与第11章中的算法异曲同工。Google对一项名为深度学习的技术特别感兴趣,该技术利用超大规模神经网络来学习复杂模式。

通过使物联网以及其他高度分布式的数据采集手段经济可行,这些系统甚至正在开辟数据采集和分析的全新领域。我们希望,通过对以往应用领域的勾勒,能够对这些技术尚未预见的应用有所启示。

图书网:实时分析 流数据的分析与可视化技术pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:3   其中:访客  3   博主  0
    • 和谐中国
      和谐中国 9

      支持!

      • 想要
        想要 9

        写的很好,正是我需要的

        • frueyang
          frueyang 0

          写的很好,正是想找的一本书