发表于2024-11-22
资深软件开发专家、架构师撰写,系统且深入阐释ElasticSearch涉及的工具、方法、原则和实践
深入剖析ElasticSearch应用过程中遇到的各个层面的问题,涉及分布式索引机制、系统监控及性能优化、用户体验改善、Java API应用,以及自定义插件开发
资深软件开发专家、架构师撰写,系统且深入阐释ElasticSearch涉及的工具、方法、原则和实践,深入剖析ElasticSearch应用过程中遇到的各个层面的问题,涉及分布式索引机制、系统监控及性能优化、用户体验改善、Java API应用,以及自定义插件开发等,能为工程师与架构师快速提高ElasticSearch水平提供有效指导。
本书共9章,第1章介绍Apache Lucene的工作方式、ElasticSearch的基本概念以及ElasticSearch的工作机制;第2章描述Lucene评分机制、如何进行查询重写,以及ElasticSearch的批处理API和如何使用过滤器来优化查询;第3章描述如何修改Lucene评分,如何使用不同的倒排索引格式来改变索引字段的结构;第4章阐述如何选择恰当的索引分片、路由工作机制、索引分片机制;第5章介绍如何为具体应用选择正确的目录实现,同时阐述发现、网关、恢复模块及其配置方式,以及调优ElasticSearch的缓存机制;第6章介绍JVM垃圾收集的工作原理、重要性以及如何调优;第7章介绍帮助修正查询中的拼写错误以及构建高效的自动完成机制——查询建议,还展示如何通过使用不同查询类型和ElasticSearch的其他功能来提高查询相关性;第8章重点阐释ElasticSearch的JAVA API;第9章通过演示如何开发你自己的河流和语言处理插件来介绍ElasticSearch的插件开发。
Rafa· Ku,资深软件开发专家,现任Sematext集团公司咨询专家及软件工程师。他专注于Apache Lucene、Solr、ElasticSearch、Hadoop stack等开源技术,拥有超过11年的软件研发经验。他还是solr.pl网站的联合创始人,该网站致力于帮助人们解决Solr、Lucene的相关问题。
Marek Rogozińskis,资深软件架构师和咨询师,拥有超过10年的行业从业经验,专注基于开源搜索引擎(如Solr、ElasticSearch等)的解决方案及大数据分析技术(如Hadoop、HBase、Twitter Storm等)。他是solr.pl网站的联合创始人,除本书外,还著有《ElasticSearch Server》。
ElasticSearch是一个优秀的开源分布式搜索引擎,同时有良好的社区和商业支持。对于中小型的垂直搜索引擎,ElasticSearch是一个不错的选择。本书是一本ElasticSearch的进阶教材,深入剖析DSL、索引控制、分布式实现、系统运维等高级内容,特别适合深入研究ElasticSearch。
—— 徐川 明星衣橱CTO,前雅虎高级工程师
ElasticSearch的出现,让开源搜索产品真正进入分布式时代。本书是一本不可多得的关于ElasticSearch的著作,既对ElasticSearch的全文索引、IR模型、分布式机制有深入剖析,又有生动翔实的示例,能帮助读者快速提升在该领域的技术水平。
—— 高剑林 腾讯(架构平台部)资深技术专家
除了用于搜索,ElasticSearch也是日志存储、离线数据分析挖掘的利器。本书深入浅出,案例丰富,在信息检索模型、准实时搜索、分布式架构、系统优化等诸多方面都有精彩的论述。
—— 李伟博士 微软(bing)数据挖掘组高级工程师
很高兴看到《Mastering ElasticSearch》中文版面市,本书对ElasticSearch的分布式系统架构、系统调优有较深入的探讨,是一本进阶的好读物,其中一些系统设计思维对于文件系统研发人员也是有所裨益的。
—— 许加强 前IBM(GPFS)资深工程师
尽管ElasticSearch是一个开源搜索产品,它在百度也被广泛应用。目前已经覆盖到20多个业务线。这本书针对性较强,既不乏典型实例,也有一定的理论深度。非常适合进阶用户阅读。
—— 陈铁兵 百度网页搜索部高级工程师
译者序
前言
致谢
作者简介
评审者简介
第1章 ElasticSearch简介1
1.1 Apache Lucene简介1
1.1.1 熟悉Lucene2
1.1.2 Lucene的总体架构2
1.1.3 分析你的数据3
1.1.4 Lucene查询语言4
1.2 ElasticSearch简介6
1.2.1 ElasticSearch的基本概念7
1.2.2 ElasticSearch架构背后的关键概念8
1.2.3 ElasticSearch的工作流程9
1.3 小结13
第2章 查询DSL进阶14
2.1 Apache Lucene默认评分公式解释14
2.1.1 何时文档被匹配上15
2.1.2 TF/IDF评分公式15
2.1.3 ElasticSearch如何看评分16
2.2 查询改写17
2.2.1 前缀查询范例17
2.2.2 回顾Apache Lucene19
2.2.3 查询改写的属性20
2.3 二次评分21
2.3.1 理解二次评分21
2.3.2 范例数据21
2.3.3 查询22
2.3.4 二次评分查询的结构22
2.3.5 二次评分参数配置23
2.3.6 小结24
2.4 批量操作24
2.4.1 批量取24
2.4.2 批量查询26
2.5 排序27
2.5.1 基于多值字段的排序28
2.5.2 基于多值geo字段的排序28
2.5.3 基于嵌套对象的排序30
2.6 数据更新API31
2.6.1 简单字段更新31
2.6.2 使用脚本按条件更新32
2.6.3 使用更新 API创建或删除文档33
2.7 使用过滤器优化查询33
2.7.1 过滤器与缓存34
2.7.2 词项查找过滤器36
2.8 ElasticSearch切面机制中的过滤器与作用域40
2.8.1 范例数据40
2.8.2 切面计算和过滤41
2.8.3 过滤器作为查询的一部分42
2.8.4 切面过滤器44
2.8.5 全局作用域45
2.9 小结47
第3章 底层索引控制48
3.1 改变Apache Lucene的评分方式48
3.1.1 可用的相似度模型49
3.1.2 为每字段配置相似度模型49
3.2 相似度模型配置50
3.2.1 选择默认的相似度模型51
3.2.2 配置被选用的相似度模型52
3.3 使用编解码器53
3.3.1 简单使用范例53
3.3.2 工作原理解释54
3.3.3 可用的倒排表格式55
3.3.4 配置编解码器56
3.4 准实时、提交、更新及事务日志58
3.4.1 索引更新及更新提交59
3.4.2 事务日志60
3.4.3 准实时读取62
3.5 深入理解数据处理62
3.5.1 输入并不总是进行文本分析62
3.5.2 范例的使用65
3.5.3 索引期更换分词器67
3.5.4 搜索时更换分析器68
3.5.5 陷阱与默认分析68
3.6 控制索引合并68
3.6.1 选择正确的合并策略69
3.6.2 合并策略配置70
3.6.3 调度72
3.7 小结73
第4章 分布式索引架构74
4.1 选择合适的分片和副本数74
4.1.1 分片和过度分配75
4.1.2 一个过度分配的正面例子75
4.1.3 多分片与多索引76
4.1.4 副本76
4.2 路由76
4.2.1 分片和数据77
4.2.2 测试路由功能77
4.2.3 索引时使用路由80
4.2.4 别名83
4.2.5 多个路由值83
4.3 调整默认的分片分配行为84
4.3.1 分片分配器简介84
4.3.2 even_shard 分片分配器84
4.3.3 balanced分片分配器85
4.3.4 自定义分片分配器85
4.3.5 裁决者86
4.4 调整分片分配88
4.4.1 部署意识89
4.4.2 过滤91
4.4.3 运行时更新分配策略92
4.4.4 确定每个节点允许的总分片数93
4.4.5 更多的分片分配属性96
4.5 查询执行偏好97
4.6 应用我们的知识99
4.6.1 基本假定99
4.6.2 配置100
4.6.3 变化来了104
4.7 小结105
第5章 管理ElasticSearch106
5.1 选择正确的目录实现-存储模块106
5.2 发现模块的配置109
5.2.1 Zen发现109
5.2.2 亚马逊EC2发现111
5.2.3 本地网关114
5.2.4 恢复配置115
5.3 索引段统计116
5.3.1 segments API简介116
5.3.2 索引段信息的可视化118
5.4 理解ElasticSearch缓存119
5.4.1 过滤器缓存119
5.4.2 字段数据缓存121
5.4.3 清除缓存126
5.5 小结127
第6章 故障处理129
6.1 了解垃圾回收器129
6.1.1 Java内存130
6.1.2 处理垃圾回收问题131
6.1.3 在类UNIX系统中避免内存交换135
6.2 关于I/O调节136
6.2.1 控制IO节流136
6.2.2 配置136
6.3 用预热器提升查询速度138
6.3.1 为什么使用预热器138
6.3.2 操作预热器138
6.3.3 测试预热器141
6.4 热点线程144
6.4.1 澄清热点线程API的用法误区145
6.4.2 热点线程API的响应信息145
6.5 现实场景146
6.5.1 越来越差的性能146
6.5.2 混杂的环境和负载不平衡148
6.5.3 我的服务器出故障了149
6.6 小结150
第7章 改善用户搜索体验151
7.1 改正用户拼写错误151
7.1.1 测试数据152
7.1.2 深入技术细节152
7.1.3 completion suggester168
7.2 改善查询相关性172
7.2.1 数据172
7.2.2 改善相关性的探索之旅174
7.3 小结188
第8章 ElasticSearch Java API189
8.1 ElasticSearch Java API简介189
8.2 代码190
8.3 连接到集群191
8.3.1 成为ElasticSearch节点191
8.3.2 使用传输机连接方式192
8.3.3 选择合适的连接方式193
8.4 API剖析194
8.5 CRUD操作195
8.5.1 读取文档195
8.5.2 索引文档197
8.5.3 更新文档199
8.5.4 删除文档201
8.6 ElasticSearch查询203
8.6.1 准备查询请求203
8.6.2 构造查询203
8.6.3 分页206
8.6.4 排序207
8.6.5 过滤207
8.6.6 切面计算208
8.6.7 高亮209
8.6.8 查询建议209
8.6.9 计数210
8.6.10 滚动211
8.7 批量执行多个操作211
8.7.1 批量操作211
8.7.2 根据查询删除文档212
8.7.3 Multi GET212
8.7.4 Multi Search212
8.8 Percolator213
8.9 explain API214
8.10 构造JSON格式的查询和文档214
8.11 管理API216
8.11.1 集群管理API216
8.11.2 索引管理API219
8.12 小结226
第9章 开发ElasticSearch插件227
9.1 建立Apache Maven项目结构227
9.1.1 了解基本知识228
9.1.2 Maven Java项目的结构228
9.1.3 POM的理念228
9.1.4 运行构建过程229
9.1.5 引入Maven装配插件230
9.2 创建一个自定义river插件232
9.2.1 实现细节232
9.2.2 测试river238
9.3 创建自定义分析插件240
9.3.1 实现细节240
9.3.2 测试自定义分析插件247
9.4 小结249
欢迎来到ElasticSearch的世界。通过阅读本书,我们将带你接触与ElasticSearch紧密相关的各种话题。本书会从介绍Apache Lucene及ElasticSearch的基本概念开始。即使读者熟悉这些知识,简略的介绍也是很有必要的,掌握背景知识对于全面理解集群构建、索引文档、搜索这些操作背后到底发生了什么至关重要。
之后,读者将学习Lucene的评分过程是如何工作的,如何影响评分,以及如何让ElasticSearch选择不同的评分算法。本书也将介绍什么是查询重写以及进行查询重写的原因。除此之外,本书还将介绍如何修改查询来影响ElasticSearch的缓存功能以及如何最大限度地使用缓存。
接着你将学习索引控制的相关知识:如何通过设置不同的倒排表格式(posting format)来改变索引字段的写入模式;索引的段合并机制和段合并的重要性,以及如何调整段合并来适应应用场景;深入探讨索引分片(shard)的分配机制、路由机制,以及当数据量、查询量日渐增长时的应对策略。
当然本书也不会遗漏垃圾收集的相关内容,包括垃圾收集的工作原理、触发时间以及如何调整垃圾收集的行为。此外,本书也将涉及ElasticSearch状态诊断的介绍,例如,描述系统段合并状况,ElasticSearch在高级API背后是如何工作以及如何限制I/O操作的。然而,本书并不仅限于讨论ElasticSearch的底层机制,同时也涵盖了如何改进用户搜索体验,例如处理拼写检查,高效地输入自动提示以及如何改进查询等内容。
除了前面介绍的那些,本书还将指导读者熟悉ElasticSearch的Java API,并演示它的使用方法,其中不仅包含CRUD(增删查改)等基本功能,同时也包含集群、索引的维护与操作等高级功能。最后,读者将通过开发一个用于数据索引的自定义river插件,以及一个在检索期和索引期用于数据分析的自定义分析插件来深入了解ElasticSearch的扩展机制。
本书主要内容第1章介绍Apache Lucene的工作方式,以及ElasticSearch的基本概念,并演示Elastic-Search的内部工作机制。
第2章描述Lucene评分过程是如何工作的,为什么要进行查询重写,以及查询二次评分(rescore)是如何工作的。除此之外,还将介绍ElasticSearch的批处理API,以及如何使用过滤器(filter)来优化查询。
第3章描述如何修改Lucene评分,并使用不同的倒排索引格式来改变索引字段的结构。此外还会介绍ElasticSearch的准实时搜索和索引,事务日志的使用,理解索引的段合并以及如何调整段合并来适应应用场景。
第4章介绍以下技术:如何选择恰当的索引分片及复制(replicas)数量,路由是如何工作的,索引分片机制是如何工作的以及如何影响分片行为。同时还介绍ElasticSearch如何进行系统初始配置,以及当数据量和查询量急剧增长时如何调整系统配置。
第5章介绍如何为具体应用选择正确的目录(directory)实现,什么是发现(Discovery)、网关(Gateway)、恢复(Recovery)模块,如何配置这些模块,以及有哪些令人困扰的疑难点。最后介绍如何通过ElasticSearch来查看索引段信息,以及如何进行ElasticSearch缓存机制的调优。
第6章介绍JVM垃圾收集的工作原理和重要意义,以及如何对它进行调优。同时还介绍如何控制ElasticSearch的I/O操作数量,什么是预热器(warmer)以及如何使用它,最后介绍如何诊断ElasticSearch中的问题。
第7章介绍查询建议(suggester),它能帮助修正查询中的拼写错误以及构建高效的自动完成(autocomplete)机制。除此之外,将通过实际的案例展示如何使用不同查询类型和ElasticSearch的其他功能来提高查询相关性。
第8章覆盖ElasticSearch的Java API,不仅包括一些基本API,诸如连接到ElasticSearch集群、单条索引或批量索引、检索文档等,而且涵盖ElasticSearch暴露的一些用于控制集群的API。
第9章通过演示如何开发你自己的河流(river)和语言处理(language)插件来介绍ElasticSearch的插件开发。
阅读本书的必备资源本书基于ElasticSearch 0.90.x版本,所有范例代码均能在该版本下正常运行。除此之外,读者需要一个能发送HTTP请求的命令行工具,如curl,该工具在绝大多数操作系统上是可用的。请记住,本书的所有范例都使用了curl,如果读者想使用其他工具,请注意检查请求的格式从而保证所选择的工具能正确解析它。
除此之外,为了运行第8章和第9章的范例,要求已安装JDK,并且需要一个编辑器来开发相关代码(或者类似Eclipse的Java IDE)。书中这两章都使用Apache Maven进行代码的管理与构建。
本书的目标读者本书的目标读者是那些虽然熟悉ElasticSearch基本概念但又想深入了解其本身,同时也对Apache Lucene、JVM垃圾收集感兴趣的ElasticSearch用户和发烧友。除此之外,想了解如何改进查询相关性,如何使用ElasticSearch Java API,如何编写自定义插件的读者,也会发现本书的趣味性和实用性。
如果你是ElasticSearch的初学者,对查询和索引这些基本概念都不熟悉,那么你会发现本书的绝大多数章节难以理解,因为这些内容假定读者已经具备了相关背景知识。这种情况下,建议参考Packt出版社上一本关于ElasticSearch的图书《ElasticSearch Server》。
客户支持亲爱的读者,请随时浏览http://www.elasticsearchserverbook.com,这里列出了本书最新的勘误表,以及相关的扩展阅读。
范例代码下载如果读者通过http://www.packtpub.com账号购买了Packt图书,可直接在本网站下载范例代码 深入理解ElasticSearch 下载 mobi epub pdf txt 电子书 格式
深入理解ElasticSearch 下载 mobi pdf epub txt 电子书 格式 2024
深入理解ElasticSearch 下载 mobi epub pdf 电子书恍恍惚惚恍恍惚惚恍恍惚惚哈哈
评分买了一只没空看,先评价下吧
评分物流很快,服务很到位,东西也不错
评分日志用到了,学习学习。自己精挑细选出来的,到手就特别喜欢。看纸质书,比看电子书要更能看进去一些,电子书看一会就看不下去了。好书就一定要备一本。学无止境。
评分物流真快,书的印刷质量不错
评分很好啊,物流快,第二天就到公司了
评分这本书能够很好的学习elj框架,希望2017搞定这个。加油
评分很实用,工作中需要学习的,经常在京东买书,活动很合适
评分物流真快,书的印刷质量不错
深入理解ElasticSearch mobi epub pdf txt 电子书 格式下载 2024