自然语言处理综论（第二版） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

Daniel Jurafsky（D.朱夫斯凯），James H.Martin（J.H.马丁）著，冯志伟译

图书标签:

自然语言处理
NLP
计算语言学
机器学习
深度学习
文本分析
信息检索
语言模型
人工智能
综述

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到新城书站

book.cndgn.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121250583

版次：2

商品编码：12330818

包装：平装

丛书名：经典译丛·人类语言技术

开本：16开

出版时间：2018-03-01

用纸：胶版纸

页数：816

字数：1372000

正文语种：中文

具体描述

编辑推荐

适读人群：本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材，也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。

从本书*一版出版以来，一直好评如潮，被国外许多大学选作自然语言处理或计算语言学的教材，被认为该领域教材的“黄金标准”。

本书第一版综合了自然语言处理、计算语言学和语音识别的内容，全面论述计算机自然语言处理，深入探讨计算机处理自然语言的词汇、句法、

语义、语用等各个方面的问题，介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写，增加了大量反映自然语言处理*新成就

的内容，特别是增加了语音处理和统计技术方面的内容，全书面貌为之一新。

本书四大特色：

覆盖全面强调实用注重评测语料为本

内容简介

从本书第一版出版以来，一直好评如潮，被国外许多大学选作自然语言处理或计算语言学的教材，被认为该领域教材的“黄金标准”。本书第一版综合了自然语言处理、计算语言学和语音识别的内容，全面论述计算机自然语言处理，深入探讨计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题，介绍了自然语言处理的各种现代技术。该版对于第一版做了全面的改写，增加了大量反映自然语言处理*新成就的内容，特别是增加了语音处理和统计技术方面的内容，全书面貌为之一新。本书四大特色：覆盖全面强调实用注重评测语料为本内容简介本书全面论述了自然语言处理技术。本书在第一版的基础上增加了自然语言处理的*新成就，特别是增加了语音处理和统计技术方面的内容，全书面貌为之一新。本书共分五个部分。第一部分“词汇的计算机处理”，讲述单词的计算机处理，包括单词切分、单词的形态学、*小编辑距离、词类，以及单词计算机处理的各种算法，包括正则表达式、有限状态自动机、有限状态转录机、N元语法模型、隐马尔可夫模型、*大熵模型等。第二部分“语音的计算机处理”，介绍语音学、语音合成、语音自动识别以及计算音系学。第三部分“句法的计算机处理”，介绍英语的形式语法，讲述句法剖析的主要算法，包括CKY剖析算法、Earley剖析算法、统计剖析，并介绍合一与类型特征结构、Chomsky层级分类、抽吸引理等分析工具。第四部分“语义和语用的计算机处理”，介绍语义的各种表示方法、计算语义学、词汇语义学、计算词汇语义学，并介绍同指、连贯等计算机话语分析问题。第五部分“应用”，讲述信息抽取、问答系统、自动文摘、对话和会话智能代理、机器翻译等自然语言处理的应用技术。本书写作风格深入浅出，实例丰富，引人入胜。本书可作为高等学校自然语言处理或计算语言学的本科生和研究生的教材，也可以作为从事人工智能、自然语言处理等领域的研究人员和技术人员的必备参考。

作者简介

Daniel Jurafsky现任斯坦福大学语言学系和计算机科学系副教授。在此之前，他曾在博尔德的科罗拉多大学语言学系、计算机科学系和认知科学研究所任职。他出生于纽约州的Yonkers，1983年获语言学学士，1992年获计算机科学博士，两个学位都在伯克利加利福尼亚大学获得。他于1998年获得美国国家基金会CAREER奖，2002年获得Mac-Arthur奖。他发表过90多篇论文，内容涉及语音和语音处理的广泛领域。James H. Martin现任博尔德的科罗拉多大学语言学系、计算机科学系教授，认知科学研究所研究员。他出生于纽约市，1981年获可伦比亚大学计算机科学学士，1988年获伯克利加利福尼亚大学计算机科学博士。他写过70多篇关于计算机科学的论著，出版过《隐喻解释的计算机模型》（A Computational Model of Metaphor Interpretation）一书。
冯志伟：先后在北京大学和中国科学技术大学研究生院两次研究生毕业，获双硕士学位。任中国科学技术信息研究所计算中心机器翻译研究组组长、教育部语言文字应用研究所计算语言学研究室主任、杭州师范大学外国语学院高端特聘教授。长期从事语言学和计算机科学的跨学科研究，是我国计算语言学事业的开拓者之一。在中国，他是中国语文现代化学会副会长、中国应用语言学学会常务理事、中国人工智能学会理事、国家语言文字工作委员会21世纪语言文字规范（标准）审定委员会委员、全国科学技术名词审定委员会委员、全国术语标准化技术委员会委员、中国外语教育研究中心学术委员会委员、《数学辞海》总编辑委员会委员、《中国大百科全书》(《语言文字卷》)编辑委员会成员。在国际上，他是TELRI(Trans-European Language Resources Infrastructure)、LREC(Language Resources and Evaluation Conference)、COLING-2010（Computational Linguistics Conference）的顾问委员会委员，并担任IJCL(International Journal of Corpus Linguistics)、IJCC(International Journal of Chinese and Computing)等重要学术期刊编委以及英国Continuum出版公司系列丛书Research in Corpus and Discourse编委。承担国家自然科学基金项目和国家社会科学基金项目多项，出版专著30余部，发表论文300余篇。孙乐：1998年5月毕业于南京理工大学，获博士学位。1998年9月至2000年10月在中国科学院软件研究所从事博士后研究，博士后出站后留研究所工作至今，现为中国科学院软件研究所基础软件国家工程中心研究员，博士生导师。曾于2003年和2004年，先后在英国Birmingham大学、加拿大Montreal大学做访问学者，从事平行语料库和高精度信息检索方面的研究。目前主要研究方向：基于知识的自然语言理解、下一代信息检索模型、信息抽取与问答系统等。作为项目负责人承担国家自然科学基金项目、国家“863”项目和国际合作项目等10余项，在国内外重要学术刊物和会议上发表论文80多篇。

第1章导论
1．1语音与语言处理中的知识
1．2歧义
1．3模型和算法
1．4语言、思维和理解
1．5学科现状与近期发展
1．6语音和语言处理简史
1．6．1基础研究：20世纪40年代和20世纪50年代
1．6．2两个阵营：1957年至1970年
1．6．3四个范型：1970年至1983年
1．6．4经验主义和有限状态模型的复苏：1983年至1993年
1．6．5不同领域的合流：1994年至1999年
1．6．6机器学习的兴起：2000年至2008年
1．6．7关于多重发现
1．6．8心理学的简要注记
1．7小结
1．8文献和历史说明
第一部分词汇的计算机处理
第2章正则表达式与自动机
2．1正则表达式
2．1．1基本正则表达式模式
2．1．2析取、组合与优先关系
2．1．3一个简单的例子
2．1．4一个比较复杂的例子
2．1．5高级算符
2．1．6正则表达式中的替换、存储器与ELIZA
2．2有限状态自动机
2．2．1用FSA来识别羊的语言
2．2．2形式语言
2．2．3其他例子
2．2．4非确定FSA
2．2．5使用NFSA接收符号串
2．2．6识别就是搜索
2．2．7确定自动机与非确定自动机的关系
2．3正则语言与 FSA
2．4小结
2．5文献和历史说明
第3章词与转录机
3．1英语形态学概观
3．1．1屈折形态学
3．1．2派生形态学
3．1．3附着
3．1．4非毗连形态学
3．1．5一致关系
3．2有限状态形态剖析
3．3有限状态词表的建造
3．4有限状态转录机
3．4．1定序转录机和确定性
3．5用于形态剖析的FST
3．6转录机和正词法规则
3．7把FST词表与规则相结合
3．8与词表无关的FST：Porter词干处理器
3．9单词和句子的词例还原
3．9．1中文的自动切词
3．10拼写错误的检查与更正
3．11最小编辑距离
3．12人是怎样进行形态处理的
3．13小结
3．14文献和历史说明
第4章 N元语法
4．1语料库中单词数目的计算
4．2简单的（非平滑的）N元语法
4．3训练集和测试集
4．3．1N元语法及其对训练语料库的敏感性
4．3．2未知词：开放词汇与封闭词汇
4．4N元语法的评测：困惑度
4．5平滑
4．5．1Laplace平滑
4．5．2Good Turing打折法
4．5．3Good Turing估计的一些高级专题
4．6插值法
4．7回退法
4．7．1高级专题：计算Katz回退的α和P*
4．8实际问题：工具包和数据格式
4．9语言模型建模中的高级专题
4．9．1高级的平滑方法：Kneser Ney平滑法
4．9．2基于类别的N元语法
4．9．3语言模型的自适应和网络（Web）应用
4．9．4长距离信息的使用：简要的综述
4．10信息论背景
4．10．1用于比较模型的交叉熵
4．11高级问题：英语的熵和熵率均衡性
4．12小结
4．13文献和历史说明
第5章词类标注
5．1（大多数）英语词的分类
5．2英语的标记集
5．3词类标注
5．4基于规则的词类标注
5．5基于隐马尔可夫模型的词类标注
5．5．1计算最可能的标记序列：一个实例
5．5．2隐马尔可夫标注算法的形式化
5．5．3使用Viterbi算法来进行HMM标注
5．5．4把HMM扩充到三元语法
5．6基于转换的标注
5．6．1怎样应用TBL规则
5．6．2怎样学习TBL规则
5．7评测和错误分析
5．7．1错误分析
5．8词类标注中的高级专题
5．8．1实际问题：标记的不确定性与词例还原
5．8．2未知词
5．8．3其他语言中的词类标注
5．8．4标注算法的结合
5．9高级专题：拼写中的噪声信道模型
5．9．1上下文错拼更正
5．10小结
5．11文献和历史说明
第6章隐马尔可夫模型与最大熵模型
6．1马尔可夫链
6．2隐马尔可夫模型
6．3似然度的计算：向前算法
6．4解码：Viterbi算法
6．5HMM的训练：向前向后算法
6．6最大熵模型：背景
6．6．1线性回归
6．6．2逻辑回归
6．6．3逻辑回归：分类
6．6．4高级专题：逻辑回归的训练
6．7最大熵模型
6．7．1为什么称为最大熵
6．8最大熵马尔可夫模型
6．8．1MEMM的解码和训练
6．9小结
6．10文献和历史说明
第二部分语音的计算机处理
第7章语音学
7．1言语语音与语音标音法
7．2发音语音学
7．2．1发音器官
7．2．2辅音：发音部位
7．2．3辅音：发音方法
7．2．4元音
7．2．5音节
7．3音位范畴与发音变异
7．3．1语音特征
7．3．2语音变异的预测
7．3．3影响语音变异的因素
7．4声学语音学和信号
7．4．1波
7．4．2语音的声波
7．4．3频率与振幅：音高和响度
7．4．4从波形来解释音子
7．4．5声谱和频域
7．4．6声源滤波器模型
7．5语音资源
7．6高级问题：发音音系学与姿态音系学
7．7小结
7．8文献和历史说明
第8章语音合成
8．1文本归一化
8．1．1句子的词例还原
8．1．2非标准词
8．1．3同形异义词的排歧
8．2语音分析
8．2．1查词典
8．2．2名称
8．2．3字位-音位转换
8．3韵律分析
8．3．1韵律的结构
8．3．2韵律的突显度
8．3．3音调
8．3．4更精巧的模型：ToBI
8．3．5从韵律标记计算音延
8．3．6从韵律标记计算F0
8．3．7文本分析的最后结果：内部表示
8．4双音子波形合成
8．4．1建立双音子数据库的步骤
8．4．2双音子毗连和用于韵律的TD-PSOLA
8．5单元选择（波形）合成
8．6评测
8．7文献和历史说明
第9章语音自动识别
9．1语音识别的总体结构
9．2隐马尔可夫模型应用于语音识别
9．3特征抽取：MFCC矢量
9．3．1预加重
9．3．2加窗
9．3．3离散傅里叶变换
9．3．4Mel滤波器组和对数
9．3．5倒谱：逆向傅里叶变换
9．3．6Delta特征与能量
9．3．7总结：MFCC
9．4 声学似然度的计算
9．4．1矢量量化
9．4．2高斯概率密度函数
9．4．3概率、对数概率和距离函数
9．5词典和语言模型
9．6搜索与解码
9．7嵌入式训练
9．8评测：词错误率
9．9小结
9．10文献和历史说明
第10章语音识别：高级专题
10．1多遍解码：N最佳表和格
10．2A*解码算法（“栈”解码算法）
10．3依赖于上下文的声学模型：三音子
10．4分辨训练
10．4．1最大互信息估计
10．4．2基于后验分类器的声学模型
10．5语音变异的建模
10．5．1环境语音变异和噪声
10．5．2说话人变异和说话人适应
10．5．3发音建模：由于语类的差别而产生的变异
10．6元数据：边界、标点符号和不流利现象
10．7人的语音识别
10．8小结
10．9文献和历史说明
第11章计算音系学
11．1有限状态音系学
11．2高级有限状态音系学
11．2．1元音和谐
11．2．2模板式形态学
11．3计算优选理论
11．3．1优选理论中的有限状态转录机模型
11．3．2优选理论的随机模型
11．4音节切分
11．5音位规则和形态规则的机器学习
11．5．1音位规则的机器学习
11．5．2形态规则的机器学习
11．5．3优选理论中的机器学习
11．6小结
11．7文献和历史说明
第三部分句法的计算机处理
第12章英语的形式语法
12．1组成性
12．2上下文无关语法
12．2．1上下文无关语法的形式定义
12．3英语的一些语法规则
12．3．1句子一级的结构
12．3．2子句与句子
12．3．3名词短语
12．3．4一致关系
12．3．5动词短语和次范畴化
12．3．6助动词
12．3．7并列关系
12．4树库
12．4．1树库的例子：宾州树库课题
12．4．2作为语法的树库
12．4．3树库搜索
12．4．4中心词与中心词的发现
12．5语法等价与范式
12．6有限状态语法和上下文无关语法
12．7依存语法
12．7．1依存和中心词之间的关系
12．7．2范畴语法
12．8口语的句法
12．8．1不流畅现象与口语修正
12．8．2口语树库
12．9语法和人的语言处理
12．10小结
12．11文献和历史说明
第13章句法剖析
13．1剖析就是搜索
13．1．1自顶向下剖析
13．1．2自底向上剖析
13．1．3自顶向下剖析与自底向上剖析比较
13．2歧义
13．3面对歧义的搜索
13．4动态规划剖析方法
13．4．1CKY剖析
13．4．2Earley算法
13．4．3线图剖析
13．5局部剖析
13．5．1基于规则的有限状态组块分析
13．5．2基于机器学习的组块分析方法
13．5．3组块分析系统的评测
13．6小结
13．7文献和历史说明
第14章统计剖析
14．1概率上下文无关语法
14．1．1 PCFG用于排歧
14．1．2PCFG用于语言建模
14．2PCFG的概率CKY剖析
14．3PCFG规则概率的学习途径
14．4PCFG的问题
14．4．1独立性假设忽略了规则之间的结构依存关系
14．4．2缺乏对词汇依存关系的敏感性
14．5使用分离非终极符号的办法来改进PCFG
14．6概率词汇化的CFG
14．6．1Collins剖析器
14．6．2高级问题：Collins剖析器更多的细节
14．7剖析器的评测
14．8高级问题：分辨再排序
14．9高级问题：基于剖析器的语言模型
14．10人的剖析
14．11小结
14．12文献和历史说明
第15章特征与合一
15．1特征结构
15．2特征结构的合一
15．3语法中的特征结构
15．3．1一致关系
15．3．2中心语特征
15．3．3次范畴化
15．3．4长距离依存关系
15．4合一的实现
15．4．1合一的数据结构
15．4．2合一算法
15．5带有合一约束的剖析
15．5．1把合一结合到Earley剖析器中
15．5．2基于合一的剖析
15．6类型与继承
15．6．1高级问题：类型的扩充
15．6．2合一的其他扩充
15．7小结
15．8文献和历史说明
第16章语言和复杂性
16．1Chomsky 层级
16．2怎么判断一种语言不是正则的
16．2．1抽吸引理
16．2．2证明各种自然语言不是正则语言
16．3自然语言是上下文无关的吗
16．4计算复杂性和人的语言处理
16．5小结
16．6文献和历史说明
第四部分语义和语用的计算机处理
第17章意义的表示
17．1意义表示的计算要求
17．1．1可验证性
17．1．2无歧义性
17．1．3规范形式
17．1．4推理与变量
17．1．5表达能力
17．2模型论语义学
17．3一阶逻辑
17．3．1一阶逻辑基础
17．3．2变量和量词
17．3．3λ表示法
17．3．4一阶逻辑的语义
17．3．5推理
17．4事件与状态的表示
17．4．1时间表示
17．4．2体
17．5描述逻辑
17．6意义的具体化与情境表示方法
17．7小结
17．8文献和历史说明
第18章计算语义学
18．1句法驱动的语义分析
18．2句法规则的语义扩充
18．3量词辖域歧义及非确定性
18．3．1存储与检索方法
18．3．2基于约束的方法
18．4基于合一的语义分析方法
18．5语义与Earley分析器的集成
18．6成语和组成性
18．7小结
18．8文献和历史说明
第19章词汇语义学
19．1词义
19．2含义间的关系
19．2．1同义关系和反义关系
19．2．2上下位关系
19．2．3语义场
19．3WordNet：词汇关系信息库
19．4事件参与者
19．4．1题旨角色
19．4．2因素交替（Diathesis Alternations）
19．4．3题旨角色的问题
19．4．4命题库
19．4．5FrameNet
19．4．6选择限制
19．5基元分解
19．6高级问题：隐喻
19．7小结
19．8文献和历史说明
第20章计算词汇语义学
20．1词义排歧：综述
20．2有监督词义排歧
20．2．1监督学习的特征抽取
20．2．2朴素贝叶斯分类器和决策表分类器
20．3WSD评价方法、基准线和上限
20．4WSD：字典方法和同义词库方法
20．4．1Lesk算法
20．4．2选择限制和选择优先度
20．5最低限度的监督WSD：自举法
20．6词语相似度：语义字典方法
20．7词语相似度：分布方法
20．7．1定义词语的共现向量
20．7．2度量与上下文的联系
20．7．3定义两个向量之间的相似度
20．7．4评价分布式词语相似度
20．8下位关系和其他词语关系
20．9语义角色标注
20．10高级主题：无监督语义排歧
20．11小结
20．12文献和历史说明
第21章计算话语学
21．1话语分割
21．1．1无监督话语分割
21．1．2有监督话语分割
21．1．3话语分割的评价
21．2文本连贯性
21．2．1修辞结构理论
21．2．2自动连贯指派
21．3指代消解
21．4指代现象
21．4．1指示语的五种类型
21．4．2信息状态
21．5代词指代消解所使用的特征
21．5．1用来过滤潜在指代对象的特征
21．5．2代词解释中的优先关系
21．6指代消解的三种算法
21．6．1代词指代基准系统：Hobbs算法
21．6．2指代消解的中心算法
21．6．3代词指代消解的对数线性模型
21．6．4代词指代消解的特征
21．7共指消解
21．8共指消解的评价
21．9高级问题：基于推理的连贯判定
21．10所指的心理语言学研究
21．11小结
21．12文献和历史说明
第五部分应用
第22章信息抽取
22．1命名实体识别
22．1．1命名实体识别中的歧义
22．1．2基于序列标注的命名实体识别
22．1．3命名实体识别的评价
22．1．4实用NER架构
22．2关系识别和分类
22．2．1用于关系分析的有监督学习方法
22．2．2用于关系分析的弱监督学习方法
22．2．3关系分析系统的评价
22．3时间和事件处理
22．3．1时间表达式的识别
22．3．2时间的归一化
22．3．3事件检测和分析
22．3．4TimeBank
22．4模板填充
22．4．1模板填充的统计方法
22．4．2有限状态机模板填充系统
22．5高级话题：生物医学信息的抽取
22．5．1生物学命名实体识别
22．5．2基因归一化
22．5．3生物学角色和关系
22．6小结
22．7文献和历史说明
第23章问答和摘要
23．1信息检索
23．1．1向量空间模型
23．1．2词语权重计算
23．1．3词语选择和建立
23．1．4信息检索系统的评测
23．1．5同形关系、多义关系和同义关系
23．1．6改进用户查询的方法
23．2事实性问答
23．2．1问题处理
23．2．2段落检索
23．2．3答案处理
23．2．4事实性答案的评价
23．3摘要
23．4单文档摘要
23．4．1无监督的内容选择
23．4．2基于修辞分析的无监督摘要
23．4．3有监督的内容选择
23．4．4句子简化
23．5多文档摘要
23．5．1多文档摘要的内容选择
23．5．2多文档摘要的信息排序
23．6主题摘要和问答
23．7摘要的评价
23．8小结
23．9文献和历史说明
第24章对话与会话智能代理
24．1人类会话的属性
24．1．1话轮和话轮转换
24．1．2语言作为行动：言语行为
24．1．3语言作为共同行动：对话的共同基础
24．1．4会话结构
24．1．5会话隐含
24．2基本的对话系统
24．2．1ASR组件
24．2．2NLU组件
24．2．3生成和TTS组件
24．2．4对话管理器
24．2．5错误处理：确认和拒绝
24．3VoiceXML
24．4对话系统的设计和评价
24．4．1设计对话系统
24．4．2评价对话系统
24．5信息状态和对话行为
24．5．1使用对话行为
24．5．2解释对话行为
24．5．3检测纠正行为
24．5．4生成对话行为：确认和拒绝
24．6马尔可夫决策过程架构
24．7高级问题：基于规划的对话行为
24．7．1规划推理解释和生成
24．7．2对话的意图结构
24．8小结
24．9文献和历史说明
第25章机器翻译
25．1为什么机器翻译如此困难
25．1．1类型学
25．1．2其他的结构差异
25．1．3词汇的差异
25．2经典的机器翻译方法与Vauquois三角形
25．2．1直接翻译
25．2．2转换方法
25．2．3传统机器翻译系统中的直接和转换相融合的方法
25．2．4中间语言的思想：使用意义
25．3统计机器翻译
25．4P(F|E)：基于短语的翻译模型
25．5翻译中的对齐
25．5．1IBM模型1
25．5．2HMM对齐
25．6对齐模型的训练
25．6．1训练对齐模型的EM算法
25．7用于基于短语机器翻译的对称对齐
25．8基于短语统计机器翻译的解码
25．9机器翻译评价
25．9．1使用人工评价者
25．9．2自动评价：BLEU
25．10高级问题：机器翻译的句法模型
25．11高级问题：IBM模型3和繁衍度
25．11．1模型3的训练
25．12高级问题：机器翻译的对数线性模型
25．13小结
25．14文献和历史说明
参考文献

前言/序言

译者简介

冯志伟

先后在北京大学和中国科学技术大学研究生院两次研究生毕业，获双硕士学位。1978年至1981年，在法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(CETA)师从法国著名数学家、国际计算语言学委员会主席B.Vauquois教授，专门研究数理语言学和机器翻译问题。回国后，先后担任中国科学技术信息研究所计算中心机器翻译研究组组长、教育部语言文字应用研究所计算语言学研究室主任、杭州师范大学外国语学院高端特聘教授。1986年至2004年，在德国Fraunhofer研究院）（FhG）、Trier大学、Konstanz高等技术学院、韩国Korean Advanced Institute of Science and Technology （KAIST）、英国Birmingham大学担任教授或研究员，长期从事语言学和计算机科学的跨学科研究，是我国计算语言学事业的开拓者之一。在中国，他是中国语文现代化学会副会长、中国应用语言学学会常务理事、中国人工智能学会理事、国家语言文字工作委员会21世纪语言文字规范（标准）审定委员会委员、全国科学技术名词审定委员会委员、全国术语标准化技术委员会委员、中国外语教育研究中心学术委员会委员、《数学辞海》总编辑委员会委员、《中国大百科全书》（《语言文字卷》）编辑委员会成员。在国际上，他是TELRI（Trans European Language Resources Infrastructure）、LREC（Language Resources and Evaluation Conference）、COLING 2010（Computational Linguistics Conference）的顾问委员会委员，并担任IJCL（International Journal of Corpus Linguistics）、IJCC（International Journal of Chinese and Computing）等重要学术期刊编委以及英国Continuum出版公司系列丛书Research in Corpus and Discourse编委。承担国家自然科学基金项目和国家社会科学基金项目多项，出版专著30余部，发表论文300余篇。

孙乐

1998年5月毕业于南京理工大学，获博士学位。1998年9月至2000年10月在中国科学院软件研究所从事博士后研究，现为中国科学院软件研究所中文信息处理研究室研究员、博士生导师。曾先后在英国Birmingham大学、加拿大Montreal大学做访问学者。目前主要研究方向：自然语言理解、知识图谱、信息抽取、问答系统等。作为项目负责人承担国家自然科学基金重点项目、国家“863”项目、国际合作项目等30多项，在ACL、SIGIR、EMNLP等重要国际会议和国内核心期刊发表论文50多篇。现为中国中文信息学会副理事长兼秘书长、中文信息学报副主编、国家语委语言文字规范标准审定委员会委员、国际测评NTCIR MOAT中文简体任务的组织者、第23届国际计算语言学大会（COLING 2010）组织委员会联席主席、第13届国际机器翻译峰会（MT Summit 2011）组织委员会联席主席、第53届国际计算语言学年会（ACL2015）组织委员会联席主席。

中文版序言

The goal of a textbook author is the same as the goal of any teacher: passing on our love for our field to a new generation of students, encouraging them to do innovative and creative new work, and helping them to advance the state of human knowledge. For a textbook in the interdisciplinary area of speech and language processing, there are the additional goals of enabling students from differing backgrounds (computer science, linguistics, electrical engineering) to acquire the knowledge and tools of the new interdisciplinary field, and to develop an appreciation for the beauty and complexity and variety of human language. We therefore feel extremely lucky that Professor Feng Zhiwei, aided by Dr. Sun Le, undertook the arduous job of translating this book. Prof. Feng is the perfect scholar for the job of translating such a book, because of his long experience in our field, his wide breadth of research interests throughout computational linguistics in general and Chinese computational linguistics specifically, his remarkable familiarity with the state of our field across the world, from China to France, from Korea to Germany, and of course his expertise on translation as a research area! We are also very excited that this translation into Chinese is the first translation of our book out of English. China＇s long history of the study of language is of course well known, and in this new century the young scientists of China are already playing a key role in the important scientific advances of our field. We look forward to even more amazing contributions from China and hope that our small book, now with the help of Prof. Feng and Dr. Sun, can provide a small aide in the great role that Chinese scientists are playing on the world scientific stage!

Daniel Jurafsky and James H. Martin

Palo Alto, California, and Boulder, Colorado

—译文—

教材的作者与所有教师有着相同的目标：即把我们对于本专业的热爱传达给新一代的学生，鼓励他们去进行创新性的研究和探索，帮助他们把人类知识进一步向前推进。由于语音和语言的计算机处理属于交叉学科的领域，所以，我们这本关于这个交叉学科领域的教材还有其特定的目标。这些特定的目标就是使来自不同知识背景（计算机科学、语言学和电子工程）的学生掌握这门新的交叉学科的基本知识和工具，并在学习过程中一步一步地来感受人类语言的美妙性、复杂性和多样性。因此，当我们了解到冯志伟教授在孙乐研究员的协助下承担了把这本教材翻译成中文的艰辛工作的时候，我们感到无比的荣幸。我们认为，冯志伟教授是翻译这本教材的最理想的学者，因为他在这个专业领域具有多年的经验；他的研究兴趣涉及面广，既包括普遍的计算语言学研究，也包括具体的汉语计算语言学的研究；他对于这个学科在全世界的情况了如指掌，从中国到法国，从韩国到德国，他都亲身参与了这些国家的计算语言学研究工作；并且，翻译一直是冯教授长期从事的一个研究领域，他当然也是精研通达的翻译内行！这个中文译本是英文原著的第一个外文译本，它的出版使我们非常之激动和振奋。众所周知，中国在语言研究方面有着悠久的历史，在新世纪，中国年轻一代的科学工作者在这个领域的一些重要的科学进展方面已经起着关键性的作用。我们期待着中国在这个领域里进一步做出更加出色的贡献，并且希望，在中国科学工作者为全世界的科学进步事业所发挥的巨大作用中，由于冯志伟教授和孙乐研究员的帮助，拙著也能够为此尽我们的绵薄之力！

Daniel Jurafsky

James H. Martin

译者序

采用计算机技术来研究和处理自然语言是20世纪40年代末期和20世纪60年代才开始的， 60多年来，这项研究取得了长足的进展，成为了计算机科学中一门重要的新兴学科——自然语言处理（Natural Language Processing，NLP）。

我们认为，计算机对自然语言的研究和处理，一般应经过如下4个方面

《信息时代的知识宝库：重塑理解与沟通的未来》在信息爆炸的洪流中，如何从海量数据中提取有价值的信息，如何让机器理解人类的语言，进而实现更深层次的交流与协作，已成为推动社会进步的关键。本书《信息时代的知识宝库：重塑理解与沟通的未来》正是这样一本致力于揭示信息时代核心驱动力、探索人机智能交互前沿、并为读者勾勒未来发展蓝图的著作。它并非一本技术手册，也不是对某个具体领域进行浅尝辄止的介绍，而是站在宏观视角，深入剖析构成信息时代基石的各种技术、理念及其相互作用，最终落脚于如何通过更智能化的方式来理解和运用信息，从而彻底改变我们获取知识、处理问题以及与世界互动的方式。本书的独特之处在于，它并没有局限于某个单一学科的界限，而是汇聚了来自计算机科学、认知科学、语言学、信息论乃至社会学等多个领域的智慧精华。作者通过清晰的脉络和严谨的逻辑，将这些看似分散的知识点有机地串联起来，构建起一幅关于信息如何被创造、传播、处理、理解和利用的宏大画卷。书中，读者将踏上一段关于“信息”本质的探索之旅。从信息论的经典原理出发，追溯信息在物理世界和数字世界的演变，理解其从简单的比特到复杂的语义的升华过程。本书将深入浅出地讲解信息编码、解码、压缩、纠错等核心概念，使读者对信息的量化和传输有深刻的认识。随后，本书将视角转向如何让机器“理解”信息，尤其是人类语言这一复杂而微妙的载体。这部分内容将重点探讨信息处理的智能化路径，以及如何赋予机器感知、分析、推理和生成信息的能力。读者将了解到，机器理解语言并非简单的词汇匹配，而是涉及语法结构分析、语义理解、语境推理，甚至情感色彩的识别。本书将介绍一系列支撑这一能力的关键技术，例如，如何从文本中提取关键实体和关系，如何进行文本分类和情感分析，如何构建知识图谱来捕捉事物间的关联，以及如何利用机器学习模型来学习和预测语言模式。更进一步，本书将深入探讨“智能”在信息处理中的角色。它不仅仅是算法的堆砌，更是对人类认知过程的模仿与超越。作者将引导读者思考，机器是如何通过学习来提升其理解和生成信息的能力的，特别是当前在人工智能领域备受瞩目的深度学习技术，本书将从原理上对其进行介绍，并阐述其在信息处理中的强大应用，比如如何通过神经网络处理海量文本数据，生成流畅自然的语言，甚至创作出具有创意的文本内容。同时，本书也会关注如何让机器不仅仅是“模仿”人类，而是能够进行更深层次的推理和决策，从而在解决复杂问题时发挥更大的作用。本书的另一大亮点是其对“沟通”这一人类核心能力的深入剖析。在信息时代，沟通的渠道和方式发生了翻天覆地的变化，效率和质量也面临新的挑战。本书将探讨如何利用先进的信息处理技术来优化人与人之间、人与机器之间的沟通。这包括但不限于智能搜索、个性化推荐、多模态信息交互（如语音、图像、视频的融合处理），以及构建能够进行自然对话的智能助手。读者将了解到，通过智能化的信息处理，我们可以突破语言障碍，实现跨文化交流，甚至在虚拟空间中构建更具沉浸感的沟通体验。《信息时代的知识宝库：重塑理解与沟通的未来》并非一本止步于理论的著作。书中穿插了大量的现实案例和前沿研究进展，从智能客服的普及，到智能驾驶的实现，从个性化医疗的探索，到科学研究的加速，都无不体现着信息处理与智能交互的深刻影响。作者将引导读者思考，这些技术是如何改变我们的工作方式、学习模式，乃至社会结构的。本书还会对未来进行大胆的展望，预测信息技术将如何继续推动人类文明的进步，以及我们可能面临的机遇与挑战。本书面向的读者群体非常广泛。无论是对信息技术充满好奇的普通读者，希望了解人工智能如何影响生活的社会大众，还是希望拓宽知识视野的在校学生，或是致力于在相关领域进行研究和开发的专业人士，都能从中获得宝贵的启示。本书以其宏大的视野、深刻的洞察、严谨的论证和前瞻性的思考，旨在为读者提供一个理解信息时代全貌的全新视角，并激励大家积极参与到这场由信息技术驱动的深刻变革之中，共同塑造一个更加智能、互联、高效的未来。它是一扇通往知识前沿的窗口，更是开启未来无限可能的钥匙。

用户评价

评分☆☆☆☆☆

我一直觉得，评价一本技术书籍的好坏，关键在于它是否能够帮助读者解决实际问题，并且培养他们的独立思考能力。《自然语言处理综论（第二版）》在这方面做得非常出色。它没有回避那些复杂的数学公式和算法细节，而是鼓励读者去深入理解它们。我之前在工作中遇到一些文本分类的问题，一直找不到特别好的解决方案。当我读到这本书中关于特征工程和分类模型的部分时，我突然找到了很多灵感。书中提供了一些非常实用的技巧和方法，让我能够根据具体的问题来选择合适的模型和调整参数。而且，这本书的写作风格也很有特点，它不像某些技术书籍那样枯燥乏味，而是充满了作者的思考和洞察。比如，在讲到一些前沿技术时，作者会给出自己的一些观点和展望，让我觉得自己在和一位经验丰富的同行交流，而不是在被动地接受信息。这种互动式的学习体验，是我非常看重的。

评分☆☆☆☆☆

这本书对我来说，更像是一次“思维的洗礼”。我之前对NLP的理解，更多地停留在一些表面的概念和应用层面，觉得它就是把文本变成机器能懂的东西。但《自然语言处理综论（第二版）》让我看到了NLP更深层次的魅力，它涉及到语言学、计算机科学、统计学等多个学科的交叉融合。我尤其欣赏作者在梳理历史发展脉络方面的功力，从早期的符号主义到现在的统计学习和深度学习，每一个阶段的代表性成果都被清晰地呈现出来，让我能够理解NLP是如何一步步走到今天的。这本书对我最大的启发在于，它让我意识到，理解自然语言的本质，不仅仅是建立模型，更重要的是理解人类的认知和交流方式。这种宏观的视角，让我对NLP这个领域有了更深层次的敬畏。虽然我还没有完全读完，但我已经能够感受到，这本书不仅仅是在传授知识，更是在培养一种解决问题的能力和一种探索未知的勇气。

评分☆☆☆☆☆

坦白讲，我买这本书更多的是出于一种“收集癖”，想把NLP相关的经典书籍都摆在书架上。但当我真的开始翻阅《自然语言处理综论（第二版）》时，才发现它绝不仅仅是一本“摆设”。这本书的结构非常清晰，从最基础的语言模型讲起，一直延伸到各种复杂的深度学习模型。我之前对深度学习在NLP中的应用了解不多，这本书给我打开了一扇新的大门。它对RNN、LSTM、Transformer等模型的讲解，都做得非常到位，不仅有理论的推导，还有代码实现上的指导。我尤其喜欢书中关于Attention机制的讲解，感觉作者花了很大力气去把这个概念讲透，从最初的简单形式到后来的多头自注意力机制，都解释得非常清楚。这本书也让我认识到，NLP领域的发展真是日新月异，很多技术更新得非常快，但基础的原理和模型才是理解这一切的基石。我每次读完一个章节，都会有一种“原来如此”的感觉，好像我之前对NLP的零散认知，终于被这本书串联起来了，形成了一个更完整的知识体系。

评分☆☆☆☆☆

说实话，我拿到这本《自然语言处理综论（第二版）》的时候，其实并没有抱太大的期望，我只是想找一本比较全面的NLP入门读物，毕竟我之前对这个领域的研究不算太深入。结果，这本书完全超出了我的预期。它给我的感觉就像是一位经验丰富的导师，循序渐进地带着我认识NLP这个广阔的世界。我尤其喜欢它在讲解基础概念时那种严谨又不失趣味的风格。比如，在介绍文本预处理的时候，它不仅仅是简单地罗列一些方法，而是会详细解释每种方法的作用、适用的场景，甚至还会给出一些潜在的陷阱。我记得里面有一个关于词性标注的章节，它从早期的基于规则的方法讲到隐马尔可夫模型（HMM），再到条件随机场（CRF），循序渐进，层层递进，让我这个“小白”也能理解其中的演进和优势。而且，书中还穿插了很多实际案例，让我能够将理论知识与实际应用联系起来，而不是死记硬背。我之前看一些书，总觉得讲得太抽象，感觉自己像是在听天书，而这本书则让我觉得NLP触手可及，充满了探索的乐趣。

评分☆☆☆☆☆

这本书我读了好久，真的可以说是“慢工出细活”。我属于那种喜欢把一本书啃得特别透的人，而且我对学术类的书籍有种莫名的执着，总觉得不把里面的每个概念都弄明白，就好像吃了顿没营养的饭。所以，当我拿到《自然语言处理综论（第二版）》的时候，心里就暗暗下定决心，一定要把它彻底“消化”掉。这本书的内容量确实不小，而且很多地方都涉及到了底层的数学原理和算法推导，这对我来说既是挑战也是乐趣。我花了很多时间去理解那些公式，去追溯它们是怎么来的，又怎么应用到实际的NLP问题中的。有时候，一个概念可能需要我反复看好几遍，甚至结合网上的一些资料才能豁然开朗。比如，在讲到词嵌入那一部分的时候，我之前虽然接触过一些，但总觉得理解不够深入。这本书就花了相当大的篇幅去讲解Word2Vec、GloVe这些经典的模型，不仅给出了详细的算法流程，还深入分析了它们背后的理论依据，比如负采样、窗口大小等等。我当时为了理解那个负采样，还特意找了些机器学习相关的统计学知识来看，感觉自己像在做一次小小的学术研究一样。这种深入挖掘的感觉，让我觉得学习过程本身就非常有价值，而不是仅仅为了应付考试或者工作。

评分☆☆☆☆☆

书质量不错

评分☆☆☆☆☆

打折的时候购买的，发货很快

评分☆☆☆☆☆

非常好，翻译的很通顺，易懂

评分☆☆☆☆☆

此用户未填写评价内容

评分☆☆☆☆☆

翻译流畅，作者很权威，包装完整，快递很快，整体不错。

评分☆☆☆☆☆

很好的书，值得购买！