Flink基础教程pdf

图书网 2018年12月20日09:05:1343.2K1
摘要

作为新一代的开源流处理器,Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理,并能同时满足高吞吐、低延迟和容错的需求。本书由Flink项目核心成员执笔,系统阐释Flink的适用场景、设计理念、功能、用途和性能优势。
– Flink的适用场景
– 流处理架构相较于批处理架构的优势
– Flink中的时间概念
– Flink的检查点机制
– Flink的性能优势

Flink基础教程 内容简介

近年来,流处理变得越来越流行。作为高度创新的开源流处理器,Flink拥有诸多优势,包括容错性、高吞吐、低延迟,以及同时支持流处理和批处理的能力。本书分为6章,侧重于介绍Flink的核心设计理念、功能和用途,内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评,以及Flink如何实现批处理。

本书面向有兴趣学习如何分析大规模流数据的读者。

Flink基础教程 目录

前言 ix

第 1章 为何选择Flink 1

1.1 流处理欠佳的后果 2

1.1.1 零售业和市场营销 2

1.1.2 物联网 3

1.1.3 电信业 5

1.1.4 银行和金融业 5

1.2 连续事件处理的目标 6

1.3 流处理技术的演变 6

1.4 初探Flink 9

1.5 生产环境中的Flink 12

1.5.1 布衣格电信 13

1.5.2 其他案例 14

1.6 Flink的适用场景 15

第 2章 流处理架构 17

2.1 传统架构与流处理架构 17

2.2 消息传输层和流处理层 18

2.3 消息传输层的理想功能 19

2.3.1 兼具高性能和持久性 20

2.3.2 将生产者和消费者解耦 20

2.4 支持微服务架构的流数据 21

2.4.1 数据流作为中心数据源 22

2.4.2 欺诈检测:流处理架构用例 22

2.4.3 给开发人员带来的灵活性 24

2.5 不限于实时应用程序 24

2.6 流的跨地域复制 26

第3章 Flink 的用途 29

3.1 不同类型的正确性 29

3.1.1 符合产生数据的自然规律 29

3.1.2 事件时间 31

3.1.3 发生故障后仍保持准确 32

3.1.4 及时给出所需结果 33

3.1.5 使开发和运维更轻松 33

3.2 分阶段采用Flink 34

第4章 对时间的处理 35

4.1 采用批处理架构和Lambda 架构计数 35

4.2 采用流处理架构计数 38

4.3 时间概念 40

4.4 窗口 41

4.4.1 时间窗口 41

4.4.2 计数窗口 43

4.4.3 会话窗口 43

4.4.4 触发器 44

4.4.5 窗口的实现 44

4.5 时空穿梭 44

4.6 水印 45

4.7 真实案例:爱立信公司的Kappa 架构 47

第5章 有状态的计算 49

5.1 一致性 50

5.2 检查点:保证exactly-once 51

5.3 保存点:状态版本控制 59

5.4 端到端的一致性和作为数据库的流处理器 62

5.5 Flink 的性能 65

5.5.1 Yahoo! Streaming Benchmark 65

5.5.2 变化1:使用Flink 状态 66

5.5.3 变化2:改进数据生成器并增加吞吐量 67

5.5.4 变化3:消除网络瓶颈 68

5.5.5 变化4:使用MapR Streams 69

5.5.6 变化5:增加key 基数 69

5.6 结论 71

第6章 批处理:一种特殊的流处理 73

6.1 批处理技术 75

6.2 案例研究:Flink 作为批处理器 76

附录 其他资源 79

关于作者 84

Flink基础教程 精彩文摘

1.1 流处理欠佳的后果谁需要和流数据打交道呢?首先映入脑海的是从事传感器测量和金融交易的工作人员。对于他们来说,流处理非常有用。但是流数据来源非常广泛,两个常见的例子是:网站获得的能够反映用户行为的点击流数据,以及私有数据中心的机器日志。事实上,流数据来源无处不在,但是从连续事件中获得数据并不意味着可以在批量计算中使用这些数据。如今,处理大规模流数据的新技术正在改变这一状况。

如果说处理大规模流数据是一个历史性难题,我们为什么还要不厌其烦地尝试打造更好的流处理系统呢?在介绍支持流处理的新架构及新技术之前,我们先来谈谈不能很好地处理流数据会有什么后果。

图书网:Flink基础教程pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

影印版

精通MATLAB科学计算与数据统计应用pdf

341个精心设计的MATLAB应用实战案例。 103个精心编写的MATLAB工具箱函数。 4个精心挑选的MATLAB工程性综合案例。 理论知识与应用案例的无缝连接,体现出科学计算在...
影印版

一本书读懂大数据时代pdf

◆大数据=大决策,本书将带你从巨量资料中找到人潮、钱潮、资讯潮! ◆一本改变读者在复杂的社会时代寻找因果关系的思维变革指南书! ◆一本帮助读者在互联网时代有效使用大数据工具的行为指...
影印版

Spark快速大数据分析pdf

《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:4   其中:访客  4   博主  0
    • 人与人
      人与人 9

      不错

      • 234423425
        234423425 9

        hello 你好

        • 玉之月轮
          玉之月轮 9

          很不错的书,希望可以给我带来帮助

          • xuxuat
            xuxuat 9

            很好,很nice