数据湖架构pdf

图书网 2019年4月19日12:19:41143.5K1
摘要

众多公司花费了大量的时间和金钱获取数据,并将大量的数据保存在一个叫做数据湖的数据容器中。但是,其中又能有多少公司把数据从数据湖中取回并加以利用呢?事实上,很少有公司能把数据湖当成信息的金矿来使用。多数公司得到的仅仅是一个垃圾场。
本书将会告诉你如何去构建一个有用的数据湖,从而让数据科学家与数据分析师能够面对业务挑战并发现新的商机。
通过阅读本书,你将能够学习如何:
构建数据湖并模拟数据;
应用数据及基于文本的数据池,从而将业务价值化;
理解原始数据池的角色定位;
掌握使用归档数据池的时机;
利用4大核心组件:元数据、业务的整合对应,语境及元过程信息。
本书的作者曾经让我们放眼于数据仓库的架构与成效,如今他又将我们带入到数据湖架构的新高度。

数据湖架构 内容简介

随着大数据的蓬勃发展,不少机构开始将源源不断的数据流导入到一个叫“数据湖”的设备中去。

本书是“数据仓库”之父撰写的新著作,是帮助读者认识数据湖架构,并把数据湖打造成公司资产的指导手册。全书共15章,分别涉及数据湖简介、数据池据湖内部结构、数据池及其结构、各种类型的数据池等技术话题,目的在于讲解如何构建有用的数据湖,以便数据科学家和数据分析师能够解决商业挑战并找出新的商业机会。

本书适合数据管理者、学生、系统开发人员、架构师、程序员以及最终用户阅读。

数据湖架构 目录

前言

第1章 数据的湖泊

1.1 大数据来了

1.2 数据湖来了

1.3 “单向”的数据湖

1.4 小结

第2章 改造数据湖

2.1 元数据

2.2 整合图谱

2.3 语境

2.4 元过程

2.5 数据科学家

2.6 通用性

2.7 小结

第3章 数据湖内部

3.1 模拟信号数据

3.2 应用程序数据

3.3 文本数据

3.4 另一个视角

3.5 小结

第4章 数据池

4.1 数据修整

4.2 初始数据池

4.3 模拟信号数据池

4.4 应用程序数据池

4.5 文本数据池

4.6 将数据直接传入数据池

4.7 归档数据池

4.8 小结

第5章 数据池的通用结构

5.1 数据池描述

5.2 数据池目标

5.3 数据池数据

5.4 数据池元数据

5.5 数据池元过程

5.6 数据转换标准

5.7 小结

第6章 模拟信号数据池

6.1 模拟信号数据问题

6.2 数据描述

6.3 捕获初始数据、转换初始数据

6.4 转换/调整初始模拟信号数据

6.5 数据切除

6.6 聚类数据

6.7 数据关系

6.8 未来使用的可能性

6.9 异常值

6.10 临时性的特定分析

6.11 小结

第7章 应用程序数据池

7.1 数据的基因

7.2 数据描述

7.3 标准数据库格式

7.4 数据的基本组织

7.5 数据的整合

7.6 数据模型

7.7 整合的必要性

7.8 从一个应用指向到下一个应用

7.9 交并应用

7.10 应用程序数据池内的数据子集

7.11 小结

第8章 文本数据池

8.1 统一化的数据与计算机

8.2 宝贵的文本

8.3 文本消歧

8.4 传入数据池的文本

8.5 文本消歧的输出

8.6 固有的复杂性

8.7 文本消歧的功能

8.8 分类与本体

8.9 文本与语境的价值

8.10 对文本追根溯源

8.11 消歧的机制

8.12 分析数据库

8.13 将结果可视化

8.14 小结

第9章 数据池间的对比

9.1 数据池的相似性

9.2 数据池的差异性

9.3 数据最终状态的关系型格式

9.4 技术间差异

9.5 数据池中数据的总预期容量

9.6 数据池间的数据移动

9.7 在多个数据池进行分析

9.8 使用元数据来关联不同数据池内的数据

9.9 假如……

9.10 小结

第10章 利用基础架构

10.1 “单向”数据湖

10.2 改造数据湖

10.3 转换技术

10.4 一些分析问题

10.5 查询文本数据

10.6 真实的分析

10.7 小结

第11章 搜索与分析

11.1 供应商所散布的困惑

11.2 小结

第12章 数据池中的业务价值

12.1 模拟信号数据池中的业务价值

12.2 应用程序数据池中的业务价值

12.3 文本数据池中的业务价值

12.4 记录中的业务价值比例

12.5 小结

第13章 一些额外话题

13.1 高层系统级别文档

13.2 详细的数据池级别文档

13.3 什么样的数据会流入数据湖/数据池

13.4 分析在何处发生

13.5 数据的年龄

13.6 数据的安全

13.7 小结

第14章 分析与整合工具

14.1 可视化

14.2 搜索与修正

14.3 文本消歧

14.4 统计分析

14.5 经典的ETL处理

14.6 小结

第15章 归档数据池

15.1 数据的移除标准

15.2 结构性改动

15.3 为归档数据池建立单独的索引

15.4 小结

术语表

参考资料

数据湖架构 精彩文摘

通过创建数据库,计算机就可以执行繁重的分析任务。举个例子,假设有一个连锁餐馆的接受餐馆顾客的反馈。许多顾客每天都发送消息。

这些消息包含了广泛的主题。有些人讨论菜单:一个说太咸了,另一些说太烫了,还有一些说分量太少了。有些人讨论男女服务员:说服务员速度太慢,服务员态度不好,女服务员非常友善。有些话题讨论清洁状况:地板是湿的,桌面没有被擦过,灯光太昏暗。其他的话题你大概也能猜到:停车位、洗手间、自动售卖机,等等。

在一个月时间里,连锁餐厅从顾客处收到了超过10万条消息。对于任何人来说,阅读并吸收内化这些消息都是困难的,因为太多了。然而,另一方面,这些反馈对顾客的满意度来说却是至关重要的。同时顾客的满意度又是顾客忠诚度和业务复制的关键。在很大程度上,连锁餐厅顺应顾客是天经地义的。

所以连锁餐厅决定对顾客反馈采用文本消歧。在读取了每月10万条的信息之后,一个数据库被创建出来了。数据库之后被标准的分析软件读取,这使得它们可以持续供应标准化的服务,同时还能够给予自动化的个性化回复。

图书网:数据湖架构pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

数据库

Kali Linux & BackTrack渗透测试实战pdf

本书基于编写团队的实际经验,围绕渗透测试进行了全面介绍,并选择“Kali Linux(包含BackTrack)” Live CD作为讲解工具。下载BackTrack Live CD和Kali Linu...
数据库

SQL进阶教程pdf

数据库工程师进阶中级实用指南 挖掘SQL常见技术的新用法 基于标准SQL编写 示例程序均可下载 本书适合具有一定SQL编程经验的工程师阅读 本书特色 1.转变面向过程语言的思维定式,学习SQL常见技术...
数据库

锋利的SQLpdf

锋利的SQL 作者:张洪举 锋利的SQL 出版社:人民邮电出版社 锋利的SQL 内容简介 《锋利的SQL》从基础、开发、性能调整和实战4个方面介绍了SQL技术及其应用,包括数据库管理、表管理、索引管理...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:14   其中:访客  14   博主  0
    • 晨曦
      晨曦 9

      最近在学习数据湖,希望能看一下这本书

      • 123
        123 9

        太赞了!

        • gst受伤
          gst受伤 9

          • eksong
            eksong 9

            太好了,谢谢分享

            • 李自
              李自 9

              xiexie分享

              • 123
                123 9

                我在学习数据湖,希望可以提供给我

                • 默然
                  默然 1

                  希望能下载到这本书,谢谢楼主了

                    • 图书网
                      图书网

                      @ 默然 https://pan.baidu.com/share/init?surl=htwi6QY3VZIMiW4o3owvUQ

                        • 默然
                          默然 1

                          @ 图书网 您好,首先感谢您的回复,请问下提取码是多少呢?

                          • 默然
                            默然 1

                            @ 图书网 邮箱已收取到提取码了,感谢感谢

                        • 吸猫小分队
                          吸猫小分队 0

                          最近需要搭建数据湖,不清楚如何实践

                          • KG666
                            KG666 0

                            谢谢,好好学习,天天向上

                            • deepin
                              deepin 0

                              好书,希望能看下这本书。感谢分享!