Kafka入门与实践pdf

图书网 2019年12月5日22:11:26
评论
2.6K1
摘要

Kafka最初是由LinkedIn公司开发的消息系统,现在已成为Apache的开源项目。早期版本的Kafka主要是作为一个分布式、可分区和具有副本的消息系统,随着版本的不断迭代,在0.10.x版本之后Kafka已成为一个分布式流数据处理平台,特别是KafkaStreams的出现,使得Kafka对流数据处理变得更加简单。
Kafka发展至今已具备很多特性,如分布式、高吞吐量、低延迟、高水平扩展性、高容错性等,也正是由于Kafka具备这些特性,使Kafka在大数据处理、日志收集、实时监控、离线统计分析等应用场景都被广泛使用。
本书内容按照从抽象到具体、从点到线再到面的学习思维模式进行编排,由浅入深、理论与实践相结合地对Kafka进行了讲解和分析。剖析Kafka实现原理时,Kafka核心组件各成一节;讲解Kafka基本操作及应用实践时,从简单操作拓展到高级应用。全书的各章之间没有很强的依赖关系,读者可以从其中任何一章开始阅读。
本书虽适合作为入门书籍,但其内容丰富又不失深度,既深入剖析了Kafka核心原理,又侧重实际操作实战。阅读本书读者不仅可以掌握如何应用Kafka,更重要的是还可以了解Kafka性能优化和Kafka相关功能改造方面的方法和理论。
本书是基于Kafka的0.10.1.1版本编写的。

Kafka入门与实践 作 者 :牟大恩

Kafka入门与实践 出版社: 人民邮电出版社

Kafka入门与实践 内容简介

《Kafka入门与实践》以Kafka 0.10.1.1版本以基础,对Kafka的基本组件的实现细节及其基本应用进行了详细介绍,同时,通过对Kafka与当前大数据主流框架整合应用案例的讲解,进一步展现了Kafka在实际业务中的作用和地位。本书共10章,按照从抽象到具体、从点到线再到面的学习思维模式,由浅入深,理论与实践相结合,对Kafka进行了分析讲解。

《Kafka入门与实践》中的大量实例来源于作者在实际工作中的实践,具有现实指导意义。相信读者阅读完本书之后,能够全面掌握Kafka的基本实现原理及其基本操作,能够根据书中的案例举一反三,解决实际工作和学习中的问题。此外,在阅读本书时,读者可以根据本书对Kafka理论的分析,再结合Kafka源码进行定位学习,了解Kafka的设计和思想以及更多的编码技巧。

《Kafka入门与实践》适合应用Kafka的专业技术人员阅读,包括但不限于大数据相关应用的开发者、运维者和爱好者,也适合高等院校、培训结构相关专业的师生使用。

Kafka入门与实践 目录

前言

第1章 Kafka简介

1.1 Kafka背景

1.2 Kafka基本结构

1.3 Kafka基本概念

1.4 Kafka设计概述

1.5 本书导读

1.6 小结

第2章 Kafka安装配置

2.1 基础环境配置

2.2 Kafka单机环境部署

2.3 Kafka伪分布式环境部署

2.4 Kafka集群环境部署

2.5 Kafka Manager安装

2.6 Kafka源码编译

2.7 小结

第3章 Kafka核心组件

3.1 延迟操作组件

3.2 控制器

3.3 协调器

3.4 网络通信服务

3.5 日志管理器

3.6 副本管理器

3.7 Handler

3.8 动态配置管理器

3.9 代理健康检测

3.10 Kafka内部监控

3.11 小结

第4章 Kafka核心流程分析

4.1 KafkaServer启动流程分析

4.2 创建主题流程分析

4.3 生产者

4.4 消费者

4.5 小结

第5章 Kafka基本操作实战

5.1 KafkaServer管理

5.2 主题管理

5.3 生产者基本操作

5.4 消费者基本操作

5.5 配置管理

5.6 分区操作

5.7 连接器基本操作

5.8 Kafka Manager应用

5.9 Kafka安全机制

5.10 镜像操作

5.11 小结

第6章 Kafka API编程实战

6.1 主题管理

6.2 生产者API应用

6.3 消费者API应用

6.4 自定义组件实现

6.5 Spring与Kafka整合应用

6.6 小结

第7章 Kafka Streams

7.1 Kafka Streams简介

7.2 Kafka Streams基本概念

7.3 Kafka Streams API介绍

7.4 接口恶意访问自动检测

7.5 小结

第8章 Kafka数据采集应用

8.1 Log4j集成Kafka应用

8.2 Kafka与Flume整合应用

8.3 Kafka与Flume和HDFS整合应用

8.4 小结

第9章 Kafka与ELK整合应用

9.1 ELK环境搭建

9.2 Kafka与Logstash整合

9.3 日志采集分析系统

9.4 服务器性能监控系统

9.5 小结

第10章 Kafka与Spark整合应用

10.1 Spark简介

10.2 Spark基本操作

10.3 Spark在智能投顾领域应用

10.4 热搜词统计

10.5 小结

Kafka入门与实践 精彩文摘

Kafka是一个高吞吐量、分布式的发布—订阅消息系统。据Kafka官方网站介绍,当前的Kafka已经定位为一个分布式流式处理平台(a distributed streaming platform),它很初由LinkedIn公司开发,后来成为Apache项目的一部分。Kafka核心模块使用Scala语言开发,支持多语言(如Java、C/C++、Python、Go、Erlang、Node.js等)客户端,它以可水平扩展和具有高吞吐量等特性而被广泛使用。目前越来越多的开源分布式处理系统(如Flume、Apache Storm、Spark、Flink等)支持与Kafka集成,本书第8章至第10章将通过具体案例详细介绍Kafka与当前一些流行的分布式处理系统的集成应用。接下来我们将对Kafka相关知识做进一步深入介绍。

随着信息技术的快速发展及互联网用户规模的急剧增长,计算机所存储的信息量正呈爆炸式增长,目前数据量已进入大规模和超大规模的海量数据时代,如何高效地存储、分析、处理和挖掘海量数据已成为技术研究领域的热点和难点问题。当前出现的云存储、分布式存储系统、NoSQL数据库及列存储等前沿技术在海量数据的驱使下,正日新月异地向前发展,采用这些技术来处理大数据成为一种发展趋势。而如何采集和运营管理、分析这些数据也是大数据处理中一个至关重要的组成环节,这就需要相应的基础设施对其提供支持。针对这个需求,当前业界已有很多开源的消息系统应运而生,本书介绍的Kafka就是当前流行的一款非常优秀的消息系统。

Kafka 是一款开源的、轻量级的、分布式、可分区和具有复制备份的(Replicated)、基于ZooKeeper 协调管理的分布式流平台的功能强大的消息系统。与传统的消息系统相比,Kafka能够很好地处理活跃的流数据,使得数据在各个子系统中高性能、低延迟地不停流转。

据Kafka官方网站介绍,Kafka定位就是一个分布式流处理平台。在官方看来,作为一个流式处理平台,必须具备以下3个关键特性。

能够允许发布和订阅流数据。从这个角度来讲,平台更像一个消息队列或者企业级的消息系统。

存储流数据时提供相应的容错机制。

当流数据到达时能够被及时处理。

Kafka能够很好满足以上3个特性,通过Kafka能够很好地建立实时流式数据通道,由该通道可靠地获取系统或应用程序的数据,也可以通过Kafka方便地构建实时流数据应用来转换或是对流式数据进行响应处理。特别是在0.10版本之后,Kafka推出了Kafka Streams,这让Kafka对流数据处理变得更加方便。

Kafka已发布多个版本。截止到编写本书时,Kafka的很新版本为0.10.1.1,因此本书内容都是基于该版本进行讲解。

通过前面对Kafka背景知识的简短介绍,我们对Kafka是什么有了初步的了解,本节我们将进一步介绍Kafka作为消息系统的基本结构。我们知道,作为一个消息系统,其基本结构中至少要有产生消息的组件(消息生产者,Producer)以及消费消息的组件(消费者,Consumer)。虽然消费者并不是必需的,但离开了消费者构建一个消息系统终究是毫无意义的。

图书网:Kafka入门与实践pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

程序设计

重构 改善既有代码的设计(中文版)pdf

《重构:改善既有代码的设计》(中文版)所提的这些重构准则将帮助你一次一小步地修改你的代码,这就减少了过程中的风险。很快你就会把这些重构准则和其名称加入自己的开发词典中,并且朗朗上口...
程序设计

数据结构 C语言版 第2版pdf

适读人群 :普通高校电子信息大类本科生学习、考研,同时也适合零售和培训。 采用“案例驱动”的编写模式。书中结合实际应用,将各章按照“案例引入——数据结构及其操作——案例分析与实现”...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: