搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice]

搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] 下载 mobi epub pdf 电子书 2024


简体网页||繁体网页
[美] 克罗夫特 等 著

下载链接在页面底部
点击这里下载
    


想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-11-23

图书介绍


出版社: 机械工业出版社
ISBN:9787111282471
版次:1
商品编码:10059560
品牌:机工出版
包装:平装
丛书名: 经典原版书库
外文名称:Search Engines Information Retrieval in Practice
开本:大32开
出版时间:2009-10-01
用纸:胶版纸
页数:52


类似图书 点击查看全场最低价

相关图书





图书描述

内容简介

  《搜索引擎:信息检索实践(英文版)》介绍了信息检索(1R)中的关键问题。以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜索引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。
  《搜索引擎:信息检索实践(英文版)》适用于高等院校计算机科学或计算机工程专业的本科生、研究生,对于专业人士而言,《搜索引擎:信息检索实践(英文版)》也不失为一本理想的入门教材。

作者简介

  W.Bruce Croft,马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心,发表了200余篇论文,多次获奖,其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。
  Donald Metzler马萨诸塞大学阿默斯特分校博士,是位于加州Santa Clara的雅虎研究中心搜索与计算广告组的研究科学家。
  Trevor Strohman马萨诸塞大学阿默斯特分校博士,是Google公司搜索质量部门的软件工程师。他开发了Galago搜索引擎,也是Indri搜索引擎的主要开发者。

内页插图

目录

1 Search Engines and Information Retrieval
1.1 What Is Information Retrieval?
1.2 The Big Issues
1.3 Search Engines
1.4 Search Engineers

2 Architecture of a Search Engine
2.1 What Is an Architecture
2.2 Basic Building Blocks
2.3 Breaking It Down
2.3.1 Text Acquisition
2.3.2 Text Transformation
2.3.3 Index Creation
2.3.4 User Interaction
2.3.5 Ranking
2.3.6 Evaluation
2.4 How Does It Really Work?

3 Crawls and Feeds
3.1 Deciding What to Search
3.2 Crawling the Web
3.2.1 Retrieving Web Pages
3.2.2 The Web Crawler
3.2.3 Freshness
3.2.4 Focused Crawling
3.2.5 Deep Web
3.2.6 Sitemaps
3.2.7 Distributed Crawling
3.3 Crawling Documents and Email
3.4 Document Feeds
3.5 The Conversion Problem
3.5.1 Character Encodings
3.6 Storing the Documents
3.6,1 Using a Database System
3.6.2 Random Access
3.6.3 Compression and Large Files
3.6.4 Update
3.6.5 BigTable
3.7 Detecting Duplicates
3.8 Removing Noise

4 Processing Text
4.1 From Words to Terms
4.2 Text Statistics
4.2.1 Vocabulary Growth
4.2.2 Estimating Collection and Result Set Sizes
4.3 Document Parsing
4.3.1 Overview
4.3.2 Tokenizing
4.3.3 Stopping
4.3.4 Stemming
4.3.5 Phrases and N-grams
4.4 Document Structure and Markup
4.5 Link Analysis
4.5.1 Anchor Text
4.5.2 PageRank
4.5.3 Link Quality
4.6 Information Extraction
4.6.1 Hidden Markov Models for Extraction
4.7 Internationalization

5 Ranking with Indexes
5.1 Overview
5.2 Abstract Model of Ranking
5.3 Inverted Indexes
5.3.1 Documents
5.3.2 Counts
5.3.3 Positions
5.3A Fields and Extents
5.3.5 Scores
5.3.6 Ordering
5.4 Compression
5.4.1 Entropy and Ambiguity
5.4.2 Delta Encoding
5.4.3 Bit-Aligned Codes
5.4.4 Byte-Aligned Codes
5.4.5 Compression in Practice
5.4.6 Looking Ahead
5.4.7 Skipping and Skip Pointers
5.5 Auxiliary Structures
5.6 Index Construction
5.6.1 Simple Construction
5.6.2 Merging
5.6.3 Parallelism and Distribution
5.6.4 Update
5.7 Query Processing
5.7.1 Document-at-a-time Evaluation
5.7.2 Term-at-a-time Evaluation
5.7.3 Optimization Techniques
5.7.4 Structured Queries
5.7.5 Distributed Evaluation
5.7.6 Caching

6 Queries and Interfaces
6.1 Information Needs and Queries
6.2 Query Transformation and Refinement
6.2.1 Stopping and Stemming Revisited
6.2.2 Spell Checking and Suggestions
6.2.3 Query Expansion
6.2.4 Relevance Feedback
6.2.5 Context and Personalization
6.3 Showing the Results
6.3.1 Result Pages and Snippets
6.3.2 Advertising and Search
6.3.3 Clustering the Results
6.4 Cross-Language Search

7 Retrieval Models
7.1 Overview of Retrieval Models
7.1.1 Boolean Retrieval
7.1.2 The Vector Space Model
7.2 Probabilistic Models
7.2.1 Information Retrieval as Classification
7.2.2 The BM25 Ranking Algorithm
7.3 Ranking Based on Language Models
7.3.1 Query Likelihood Ranking
7.3.2 Relevance Models and Pseudo-Relevance Feedback
7.4 Complex Queries and Combining Evidence
7.4.1 The Inference Network Model
7.4.2 The Galago Query Language
7.5 Web Search
7.6 Machine Learning and Information Retrieval
7.6.1 Learning to Rank
7.6.2 Topic Models and Vocabulary Mismatch
7.7 Application-Based Models

8 Evaluating Search Engines
8.1 Why Evaluate ?
8.2 The Evaluation Corpus
8.3 Logging
8.4 Effectiveness Metrics
8.4.1 Recall and Precision
8.4.2 Averaging and Interpolation
8.4.3 Focusing on the Top Documents
8.4.4 Using Preferences
……
9 Classification and Clustering
10 Social Search
11 Beyond Bag of Words
Reverences
Index

精彩书摘

  After documents have been converted to some common format, they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.
  Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.
  Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.
  Finally, document storage systems can be a starting point for information extraction (described in Chapter 4). The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.

前言/序言

  为了进一步贯彻“国务院关于大力推进职业教育改革与发展的决定”的文件精神,加强职业教育教材建设,满足现阶段职业院校深化教学改革对教材建设的要求,根据现阶段职业院校该专业没有一套较为合适的教材,大部分院校采用自编或行业的考证培训教材组织教学,非常不适合职业教育的实际情况,机械工业出版社于2008年8月在北京召开了“职业教育金属材料检测类专业教学研讨及教材建设会议”,在会上,来自全国该专业的骨干教师、专家、企业代表研讨了新的职业教育形势下该专业的课程体系,本书就是根据会议所确定的教学大纲要求和高职教育培养目标组织编写的。
  本书根据国家职业技能标准,将无损检测技术专业不同等级的核心操作技能提炼出来,用极具典型性和代表性的实例加以表现并分步骤进行讲解。本书新颖的编排形式可以使读者对每个案例的操作全过程一目了然,力求使读者尽快熟练掌握无损检测技术各个等级的核心操作技能,力求对读者通过职业资格鉴定考试有所帮助。同时,读者也可以将书中相应实例应用于实际生产操作。
  本书以数十个操作训练的实例较全面地介绍了射线检测、超声检测、磁粉检测、渗透检测的操作过程和方法,重点强调无损检测实际应用工艺,增加了典型检测工艺卡和应用实例介绍,力求为无损检测从业人员提供无损检测技术应用方面的指导和帮助。
  全书共四个单元,邓洪军编写第一、二单元,路宝学编写第三、四单元。全书由邓洪军统稿,渤海船舶重工有限公司研究员级高工杨家武主审。
  编写过程中,作者参阅了国内外出版的有关教材和资料,得到了北京普汇恒达材料测试有限公司、河北石油职业技术学院、陕西工业职业技术学院、四川工程职业技术学院、包头职业技术学院有关同志的有益指导,在此一并表示衷心感谢!
  由于编写时间仓促,加之作者水平有限,书中不妥之处在所难免,恳请读者批评指正。
搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] 下载 mobi epub pdf txt 电子书 格式

搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024

搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] 下载 mobi pdf epub txt 电子书 格式 2024

搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] 下载 mobi epub pdf 电子书
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

评分

好~~非常的棒~!!~

评分

小小一本书,应该算是经典了

评分

必须看了。。。没什么解释的

评分

书得组织和结构很不错,语言写的也很通俗易懂,对于搜索引擎的各个方面的描述也比较到位。当然厚度在那里,不可能对搜索引擎的方方面面都事无巨细,对照某个具体的开源的搜索引擎的代码一起阅读,相信对搜索引擎的认识就相当全面和深入了。

评分

很不错的书,虽然是英文版看地较慢,还是比较推荐的一本经典书

评分

深入浅出的书籍 内容易懂 很好

评分

心得: %D%A保尔的话犹在耳旁回响:“人最宝贵的是生命,生命对每个人只有一次……”这段关于生命的意义的话语,不知激励了多少人去拼搏,去奋斗,让自己的生命更灿烂! 生命在于坚持! 一个人在他的一生里,难免会遇到挫折,失败和打击,但遇到这些并不能就此放弃自己的目标。只有坚持下去,才有可能战胜它们! 世界著名的科学家霍金,21岁时便被确诊患有罕见的、不可治愈的运动神经性疾病!医生预言他只能活两年半。不久,霍金便完全瘫痪了。但他并没有就此放弃自己宝贵的生命,他忍受着精神和肉体上的双重痛苦,选择了坚持活下去。1985年,霍金因肺炎进行了气管穿刺手术,使他失去了说话的能力,这对全身瘫痪的他来说又是一场严峻的考验,他又一次坚持了下来,霍金不仅坚持活了下来,还向世界证明了他的存在,他提出的宇宙黑洞理论轰动了全世界! 生命在于勤奋! 海伦·凯勒便是一个利用勤奋与不屈创造出奇迹的人。出生仅十九个月时,突如其来的猩红热引发的高烧夺走了海伦的一切,使她成了集聋盲哑为一身的残疾人,这其中的任一个降临到普通人的身上都是毁灭性的,许多人认为这又聋又哑又盲的人是生不如死的,活在世上已没有了意义。但是海伦没有放弃,她用自己的勤奋证明了自己仍有存在的价值,她整日不知疲倦地从书中吸取“养分”来丰富自己,利用自己仅有的勤奋扼住了命运的喉咙!她一生出版的十四部著作征服了全世界的读者! 霍金的坚持,海伦的勤奋,都让他们的生命充满了意义。他们并不比别人多拥有什么,相反,他们比正常人缺少了健康,但是他们用坚持,用勤奋让自己本已残缺的生命比健康人更丰满,他们的生命是真正完整的,充满意义的! 但是也有一部分人,他们实际上已拥有了很多东西,他们的生命本该是充实的,但却为了一些微不足道的小问题,竟然放弃了他们的生命!这样的例子也时见报端。 成都某13岁的少年,仅因与父母就学习问题发生了争执,竟纵身跳下了七楼,结束了自己的生命! 河南省高三一考生,仅因估分成绩不理想,就在家中自杀,而高考成绩揭榜后,他的真实成绩竟高出了本

评分

搜索引擎的基础原理,很不错

评分

不过总算比国内的书要好很多。

类似图书 点击查看全场最低价

搜索引擎:信息检索实践(英文版) [Search Engines Information Retrieval in Practice] mobi epub pdf txt 电子书 格式下载 2024


分享链接




相关图书


本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 book.cndgn.com All Rights Reserved. 新城书站 版权所有