发表于2024-11-24
关联模板【结束】节点,请勿手动操作节点内的内容!!!
基本信息
书名:搜索引擎——原理、技术与系统
原价:48.00元
作者:李晓明、闫宏飞、王继民
出版社:科学出版社
出版日期:2012-05-01
ISBN:9787030342584
字数:472750
页码:330
版次:1
装帧:平装
开本:16开
目录
目录
第二版前言
版前言
章 引论
节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
第四节 小结
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的搜集
节 概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 搜集信息的类型
第六节 小结
第四章 对搜集信息的预处理
节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字符编码
三、常用字符编码算法
四、字符的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 小结
第五章 信息查询服务
节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
节 天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节 利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分布式搜集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜索Deep Web的方法
第五节 小结
第七章 网页净化与消重
节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型应用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排文件缓存机制
一、倒排文件缓存
二、负载特性
三、缓存策略的选择
第七节 小结
第九章 相关排序与系统质量评估
节 传统IR的相关排序技术
第二节 链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜索引擎技术评估
第五节 小结
下篇 Web信息资源的组织与应用服务
第十章 大规模Web历史网页仓储系统的构建
节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
正版 搜索引擎 原理技术与系统 研究生或高年级科生教学参考书技术资料 提供大量源代码 提高 下载 mobi epub pdf txt 电子书 格式
正版 搜索引擎 原理技术与系统 研究生或高年级科生教学参考书技术资料 提供大量源代码 提高 下载 mobi pdf epub txt 电子书 格式 2024
正版 搜索引擎 原理技术与系统 研究生或高年级科生教学参考书技术资料 提供大量源代码 提高 下载 mobi epub pdf 电子书评分
评分
评分
评分
评分
评分
评分
评分
正版 搜索引擎 原理技术与系统 研究生或高年级科生教学参考书技术资料 提供大量源代码 提高 mobi epub pdf txt 电子书 格式下载 2024