自然语言处理技术入门与实战pdf

图书网 2020年11月7日21:24:3021.9K
摘要

全书主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。每一个算法又分别从应用原理、数学原理、代码实现,以及对当前方法的思考四个方面进行讲解。
1)语义模型详解:从应用的角度介绍自然语言处理中的一些语义处理模型,比如关键词提取、计算词距离、文本自动生成等。
2)自然语言处理系统基础算法:这一部分主要是从基础系统搭建的角度对相关算法进行介绍。包括分词、词性标注、句法分析等。
3)系统案例实战:介绍了搭建一个舆情分析和挖掘系统所涉及的环节、各个环节的算法实现,以及部分实现代码。

自然语言处理技术入门与实战 作者:兰红云

自然语言处理技术入门与实战 出版社:电子工业出版社

自然语言处理技术入门与实战 内容简介

《自然语言处理技术入门与实战》主要从语义模型详解、自然语言处理系统基础算法和系统案例实战三个方面,介绍了自然语言处理中相关的一些技术。对于每一个算法又分别从应用原理、数学原理、代码实现,以及对当前方法的思考四个方面进行讲解。

《自然语言处理技术入门与实战》面向的读者为有志于从事自然语言处理相关工作的在校学生、企事业单位工作人员等人群。本书的结构是由浅入深地进行相关内容的介绍,以满足不同层次读者的学习需求

自然语言处理技术入门与实战 目录

前言

第1篇 语义模型详解

第1章 关键词抽取模型

1.1 TF-IDF算法实现关键词抽取

1.2 TextRank算法实现关键词抽取

1.3 基于语义的统计语言模型实现关键词抽取

第2章 短语抽取模型

2.1 基于互信息和左右信息熵实现短语抽取

2.2 TextRank算法实现短语抽取

2.3 LDA算法实现短语抽取

第3章 自动摘要抽取模型

3.1 决策树算法实现自动摘要

3.2 基于逻辑回归算法实现自动摘要

3.3 贝叶斯算法实现自动摘要

第4章 深度学习——计算任意词距离模型

4.1 FP-Growth算法实现词距离计算

4.2 N-Gram算法实现词距离计算

4.3 BP算法实现词距离计算

第5章 拼音汉字混合识别模型

5.1 贝叶斯模型实现拼音汉字混合识别

5.2 HMM模型实现拼音汉字混合识别

5.3 RNN神经网络模型实现拼音汉字混合识别

第6章 文本自动生成模型

6.1 基于关键词的文本自动生成模型

6.2 RNN模型实现文本自动生成

第2篇 自然语言处理系统基础算法

第7章 Dijkstra算法

7.1 算法应用原理介绍

7.2 算法数学原理介绍

7.3 算法源码说明

7.4 算法应用扩展

第8章 AC-DoubleArrayTrie算法

8.1 算法应用原理介绍

8.2 算法数学原理介绍

8.3 算法应用扩展

第9章 最大熵算法

9.1 算法应用原理介绍

9.2 算法数学原理介绍

9.3 算法源码说明

9.4 算法应用扩展

第10章 CRF算法

10.1 算法应用原理介绍

10.2 算法数学原理介绍

10.3 算法源码说明

10.4 算法应用扩展

第11章 马尔可夫逻辑网算法

11.1 算法应用原理介绍

11.2 算法数学原理介绍

11.3 算法源码说明

11.4 算法应用扩展

第12章 DIPRE算法

12.1 算法应用原理介绍

12.2 算法数学原理介绍

12.3 算法源码说明

12.4 算法应用扩展

第13章 LSTM算法

13.1 算法应用原理介绍

13.2 算法数学原理介绍

13.3 算法源码说明

13.4 算法应用扩展

第14章 TransE算法

14.1 算法应用原理介绍

14.2 算法数学原理介绍

14.3 算法源码说明

14.4 算法应用扩展

第3篇 系统案例实战

第15章 搭建舆情分析与挖掘的系统

15.1 系统功能设计简述

15.2 系统模块实现详解

15.3 系统实现源码说明

自然语言处理技术入门与实战 精彩文摘

首先我们向读者介绍的是关键词提取模型,关键词提取能让我们快速地了解一篇文章,或者从大量的语料中快速找到其想要说明的主题。特别是在信息爆炸的时代,能够有效提取文本的关键词,则对于快速、及时、高效地获取信息是非常有帮助的。

TF-IDF算法是关键词提取算法中基础并且有效的一种算法,因为它的实现简单,并且效果显著,所以应用非常广泛。

1.1.1 场景

假设现在有一批短文本,比如很多条一句话新闻。现在需要提取这些一句话新闻的关键词。有哪些方法可以使你采用呢?这里介绍一种非常基础的,也非常好用的算法,叫做TF-IDF算法。

TF-IDF(term frequency-inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数呈正比地增加,但同时也会随着它在语料库中出现的频率呈反比地下降。

1.1.2 原理

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率(Term Frequency,TF)高,并且在其他文章中很少出现,即反文档频率(Inverse Document Frequency,IDF)低,则认为此词或者短语具有很好的类别区分能力,适合用来分类。那么对于这篇文章来说,这个词也就可以算作该文章的一个关键性的词语。基于上述思想,就提出了 TF-IDF算法,具体计算公式如下:

其中,

tfidfi,j:是指词i相对于文档j的重要性值。

tfi,j:指的是某一个给定的词语在指定文档中出现的次数占比。即给定的词语在该文档中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文档。计算公式如下:

其中

ni,j是该词在文件dj中出现的次数。

∑k nk,j是在文件dj中所有字词的出现次数之和。

idfi:指的是词 i 的逆向文档频率,是用总文档数目除以包含指定词语的文档的数目,再将得到的商取对数得到。这是一种度量词语重要性的指标。计算公式如下:

其中

|D|为语料库中的文档总数。

|{j:ti∈dj}|为包含词语ti的文档数目。

至此,我们对TF-IDF算法有了一个初步的了解,下面从一个具体的例子来看看这个算法在实际例子中的应用。

1.1.3 实例

在开篇的场景部分,我们提了一个场景,对短文本进行关键词提取。这里就以这样的一个例子进行算法说明。

先看看测试数据(以下数据摘自百度百科)。

文档 1:程序员(Programmer)是从事程序开发、维护的专业人员。一般将程序员分为程序设计人员和程序编码人员,但两者的界限并不非常清楚,特别是在中国。软件从业人员分为初级程序员、高级程序员、系统分析员和项目经理四大类。

文档 2:现在网络流行上把男程序员称为“程序猿”,女程序员称为“程序媛”。目前从事IT技术行业的大多数为男性,女性多数从事其他(如:会计,行政,人力资源等)种类的工作,在IT技术里女程序员是很受欢迎的,因此现在人们爱称女程序员为“程序媛”。

因为TF-IDF对词的顺序不关心,所以分词部分就不作说明了。假设我们对上述两个文档完成了分词,并且将每个文档中的词按照空格分隔存储在一起。并且对每一句话存储一行。

图书网:自然语言处理技术入门与实战pdf

继续阅读

→→→→→→→→→→→→→→→→→→→→查找获取

计算机教材

网站建设运营推广从入门到精通pdf

网站建设运营推广从入门到精通 作者:张婷 网站建设运营推广从入门到精通 出版社:人民邮电出版社 网站建设运营推广从入门到精通 内容简介 本书全面、详实地介绍了网站设计、开发、维护、推广的具体方法和步骤...
计算机教材

电脑快速入门pdf

电脑快速入门 作者:文丰科技 电脑快速入门 出版社:清华大学出版社 电脑快速入门 内容简介 《电脑快速入门》是“学电脑7日通”系列之一,以通俗易懂的语言、翔实生动的操作案例,全面讲解了电脑操作方面的知...
计算机教材

用商业案例学R语言数据挖掘pdf

本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,...
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

评论:2   其中:访客  2   博主  0
    • 学习
      学习 9

      学习《自然语言处理技术入门与实战》

      • aaa
        aaa 9

        学习