關聯模闆【結束】節點,請勿手動操作節點內的內容!!!
基本信息
書名:搜索引擎——原理、技術與係統
原價:48.00元
作者:李曉明、閆宏飛、王繼民
齣版社:科學齣版社
齣版日期:2012-05-01
ISBN:9787030342584
字數:472750
頁碼:330
版次:1
裝幀:平裝
開本:16開
目錄
目錄
第二版前言
版前言
章 引論
節 搜索引擎的概念
第二節 搜索引擎的發展曆史
第三節 一些著名的搜索引擎
第四節 小結
上篇 Web搜索引擎基本原理和技術
第二章 Web搜索引擎工作原理和體係結構
節 基本要求
第二節 網頁搜集
第三節 預處理
第四節 查詢服務
第五節 體係結構
第六節 小結
第三章 Web信息的搜集
節 概述
一、超文本傳輸協議
二、一個小型搜索引擎係統
第二節 網頁搜集
一、定義URL類和Page類
二、與服務器建立連接
三、發送請求和接收數據
四、網頁信息存儲的天網格式
第三節 多道搜集程序並行工作
一、多綫程並發工作
二、控製對一個站點並發搜集綫程的數目
第四節 如何避免網頁的重復搜集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節 搜集信息的類型
第六節 小結
第四章 對搜集信息的預處理
節 索引網頁庫
第二節 網頁編碼識彆
一、基本而重要的概念
二、常用字符編碼
三、常用字符編碼算法
四、字符的輸入和顯示
五、編碼識彆
第三節 中文自動分詞
第四節 分析網頁和建立倒排文件
第五節 小結
第五章 信息查詢服務
節 檢索的定義
第二節 查詢服務的實現
一、結果集閤的形成
二、查詢結果顯示
第三節 小結
中篇 對質量和性能的追求
第六章 可擴展搜集子係統
節 天網係統概述和集中式搜集係統結構
一、天網係統結構
二、集中式搜集係統
第二節 利用並行處理技術高效搜集網頁的一種方案
一、節點間URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、係統的動態可配置性設計
第三節 天網分布式搜集係統
第四節 對Deep Web的認識
一、Deep Web的成因
二、搜索Deep Web的方法
第五節 小結
第七章 網頁淨化與消重
節 網頁淨化與元數據提取
一、DocView模型
二、網頁的錶示
三、提取DocView模型要素的方法
四、模型應用及實驗研究
第二節 網頁消重算法
一、消重算法
二、算法評測
第三節 小結
第八章 高性能檢索子係統
節 檢索係統基本技術
一、係統設計與結構
二、索引創建
三、檢索過程
第二節 適於查詢的網頁索引結構
一、倒排索引結構
二、平麵位置索引
第三節 倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排錶的壓縮
第四節 索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節 混閤索引技術
一、混閤索引的原理
二、混閤索引的實現
第六節 倒排文件緩存機製
一、倒排文件緩存
二、負載特性
三、緩存策略的選擇
第七節 小結
第九章 相關排序與係統質量評估
節 傳統IR的相關排序技術
第二節 鏈接分析與相關排序
一、鏈接分析
二、Web查詢模式下的新信息
第三節 相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用鏈接的結構
三、收集用戶反饋信息
四、計算終的權重
第四節 信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWIRF信息檢索評估
三、搜索引擎技術評估
第五節 小結
下篇 Web信息資源的組織與應用服務
第十章 大規模Web曆史網頁倉儲係統的構建
節 國外Web曆史網頁保存現狀
一、Internet Archive
二、PANDORA
三、其他相關Web保存項目
第二節 中國Web信息博物館的係統設計
一、Web InfoMall的設計目標
二、Web InfoMall的體係結構
第三節 曆史網頁的存儲
一、數據的組織
二、存儲結構
三、數據管理與壓縮
四、存儲性能
第四節 數據訪問
一、PageID的索引
二、URL的索引
三、數據服務
四、性能與優化
第五節 網頁的格式保存
第六節 小結
第十一章 大規模Web網頁信息倉儲係統的構建
節 網絡資源庫藏相關工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中國互聯網數字資源財富庫藏
第二節 CDAL係統概況
第三節 CDAL係統設計
一、係統體係結構
二、可擴展的存儲組織方案
第四節 網絡資源描述信息獲取
一、Ontology概述
二、描述信息獲取機製
三、改進查詢的方法
四、改進排序的方法
第五節 基於局部聚類思想的共現詞匯算法
一、基本定義
二、FDC共現詞匯算法
第六節 小結
第十二章 中文網頁自動分類與聚類
節 文檔自動分類算法的類型
第二節 實現中文網頁自動分類的一般過程
第三節 影響分類器性能的關鍵因素分析
一、實驗設置
二、訓練樣本
三、特徵選取
四、分類算法
五、截尾算法
六、中文網頁分類器的設計方案
第四節 天網目錄導航服務
一、問題的提齣
二、天網目錄導航服務的體係結構
三、天網目錄的運行實例
第五節 文本聚類方法
一、文本聚類的一般過程
二、文本間相似性的度量
三、常用聚類算法
四、聚類結果的評估
五、搜索引擎返迴結果的聚類
第六節 小結
第十三章 開放域問答係統
節 概述
一、問答係統的曆史
二、著名開放域問答係統介紹
三、開放域問答係統的通用體係結構
第二節 問句的分析
一、問句中的指代消解
二、問句分類
三、問句主題提取
第三節 文檔和段落檢索
一、檢索模型的選用
二、查詢生成
三、查詢結果排序
四、增強索引的功能
第四節 答案提取和驗證模塊
一、生成候選答案集閤
二、答案提取
第五節 問答係統的改進方法
一、問答係統中外部資源的利用
二、尋找特殊類問題的解決方案
三、通過係綜方法構建問答係統
第六節 問答係統的評測
一、TREC問答係統評測
二、問答係統評測指標
第七節 實例:天網開放域問答係統
第八節 小結
參考文獻
附錄 術語
圖目錄
圖1-1 2012年3月在Google上檢索“伊拉剋戰爭”的結果
圖1-2 2012年3月在Open Directory上檢索“伊拉剋戰爭”的結果
圖2-1 搜索引擎示意圖
圖2-2 搜索引擎三段式工作流程
圖2-3 搜索引擎的體係結構
圖3-1 TSE搜索引擎界麵
圖3-2 TSE查詢結果頁麵
圖3-3 TSE網頁快照頁麵
圖3-4 TSE係統結構
圖3-5 Web信息的搜集
圖3-6 Sockets和端口
圖3-7 通過Socket建立連接
圖4-1 網頁預處理係統結構
圖4-2 原始網頁庫中的記錄格式
圖4-3 索引網頁庫算法
圖4-4 字符的輸入和顯示流程
圖4-5 GB2312,Big5和GBK字符編碼分布
圖4-6 正嚮減字匹配算法流程
圖4-7 切詞算法流程
圖4-8 分析網頁與建立倒排文件流程
圖4-9 過濾網頁中正文信息算法
圖4-10 正嚮索引錶記錄格式
圖4-11 由正嚮索引建立反嚮索引
圖5-1 信息查詢的係統結構
圖5-2 基本檢索算法
圖5-3 動態摘要算法
圖5-4 用戶查詢日誌的記錄格式
圖6-1 天網係統概貌
圖6-2 搜集係統的主控結構
圖6-3 協調進程工作算法
圖6-4 分布式Web搜集係統結構
圖6-5 負載方差
圖6-6 並行搜集係統與集中式搜集係統的性能對比
圖6-7 分布式係統效率
圖6-8 URL兩階段映射
圖6-9 天網分布式搜集係統P_Arthur體係結構
圖6-10 人纔招聘網站首頁
圖7-1 用DocView模型提取的網頁要素
圖7-2 淨化後的網頁
圖7-3 HTML Tree結構
圖7-4 內容塊權值傳遞過程
圖7-5 有主題網頁DocView模型生成過程
圖7-6 計算網頁特徵項權值的算法
圖7-7 正文段落識彆過程
圖7-8 基於anchor text的超鏈選取算法
圖7-9 網頁淨化前後分類效果對比
圖7-10 查全率隨選取關鍵詞個數的變化
圖8-1 檢索係統集成框架結構
圖8-2 天網WWW檢索分布式係統構架
圖8-3 倒排索引結構示意圖
圖8-4 按塊組織的倒排鏈的結構
圖8-5 位置索引的結構
圖8-6 CLPS結構示意圖
圖8-7 倒排鏈中文檔號之間的d-gaps分布圖
圖8-8 不同文檔號分配下平均每個查詢對應文檔號序列的壓縮大小
圖8-9 不同壓縮算法對文檔號的解壓速度
圖8-10 不同文檔號分配下平均每個查詢對應詞頻序列的壓縮大小
圖8-11 不同壓縮算法對詞頻的解壓速度
圖8-12 平均每個查詢對應的位置信息需要的存儲空間
圖8-13 索引剪枝方法的分類
圖8-14 MAXSCORE算法的示例
圖8-15 WAND算法選擇候選文檔的過程
圖8-16 基於塊索引的支點文檔號的選擇示例
圖8-17 Interval-Base剪枝方法中文檔子區間劃分的示例
圖8-18 SAAT方法處理查詢處理模式及分數纍加器數量的變化
圖8-19 當前支持高效SR IR剪枝的索引結構
圖8-20 擴展詞典樹結構示例
圖8-21 擴展詞典匹配查找算法
圖8-22 搜索引擎檢索係統緩存結構
圖8-23 文檔數據訪問對象大小分布
圖8-24 I/O與PAGE序列序號-頻度分布
圖8-25 I/O與PAGE序列時間間隔分布
圖8-26 I/O和PAGE序列中模式串
圖9-1 Inktomi提供的幾種搜索引擎技術的比較
圖9-2 詞典在係統中的地位
圖9-3 新詞學習
圖9-4 網頁的互聯結構示意
圖9-5 信息獲取技術評估的“森林”
圖9-6 查準率和召迴率基礎定義圖示
圖9-7 查準率和召迴率例子
圖9-8 “省事的”11點標準召迴率例子
圖9-9 實踐中召迴率例子
圖9-10 實際中的44個查詢詞的評價統計錶和P-R圖
圖9-11 測試集在檢索評估中的角色
圖9-12 幫助判斷相關結果頁麵的計算機輔助程序入口
圖9-13 幫助判斷相關結果頁麵的計算機輔助程序操作界麵
圖10-1 Web InfoMall體係結構
圖10-2 網頁數據的分割
圖10-3 Web InfoMall的存儲結構
圖10-4 網頁的引用壓縮示意圖
圖11-1 CDAL提供的資源訪問方式
圖11-2 CDAL係統結構圖
圖11-3 基於Ontology的網絡資源描述信息獲取
圖11-4 概念的屬性及其詞匯擴展(以電影類資源為例)
圖11-5 獲得描述信息的改進排序算法
圖11-6 網絡資源描述信息展示
圖12-1 自動文檔分類算法的分類
圖12-2 中文網頁自動分類的一般過程
圖12-3 中文網頁分類器的工作原理圖
圖12-4 WebSmart——一個網頁實例集搜集和整理工具
圖12-5 一種中文網頁的分類體係
圖12-6 Macro-F1值隨樣本數的變化
圖12-7 Micro-F1值隨樣本數的變化
圖12-8 CHI、IG、DF、MI的比較(Macro-F1)
圖12-9 CHI、IG、DF、MI的比較(Micro-F1)
圖12-10 kNN與NB分類結果的比較
圖12-11 k的取值對分類器質量的影響(Marco-F1)
圖12-12 k的取值對分類器質量的影響(Micro-F1)
圖12-13 蘭式距離法與歐式距離法對12個不同類彆的分類情況
圖12-14 基於層次模型的kNN與基本kNN的比較
圖12-15 RCut和SCut截尾算法的比較
圖12-16 天網目錄的體係結構
圖12-17 天網目錄導航服務
圖12-18 文本聚類的一般過程
圖12-19 層次聚類實例
圖12-20 k-均值算法進行文本聚類的過程
圖12-21 搜索結果聚類係統Carrot2
圖13-1 START係統界麵
圖13-2 Ask Jeeves查詢結果
圖13-3 問答係統的通用體係結構
圖13-4 天網開放域係統的體係結構
錶目錄
錶4-1 網頁索引文件
錶4-2 URL索引文件
錶6-1 SOIF數據描述
錶6-2 SOIF具體語法
錶6-3 參照序列,假設節點數為2
錶7-1 類彆編號對照錶
錶7-2 消重實驗結果
錶7-3 當N=10、δ=0.01時5種算法的查全率和準確率
錶7-4 考察δ的取值對算法3和4的影響
錶7-5 分段簽名算法的時間復雜度及性能
錶7-6 基於關鍵詞的各算法的時間復雜度及性能(N=10,δ=0.01)
錶8-1 MTF對序列<4,4,1,4,2>進行轉換的過程
錶8-2 對含100詞條的詞典使用不同編碼所需要的空間
錶8-3 平均每個查詢對應詞頻鏈的空間大小(文檔號按URL序分配)
錶8-4 不同索引的組織結構及其支持的查詢處理方式
錶8-5 數據集基本統計信息
錶9-1 新詞學習對檢索準確率的影響
錶9-2 影響權值的HTML標簽
錶9-3 補償因子定義錶
錶9-4 2004中文Web信息檢索評測提交結果
錶9-5 主題提取
錶9-6 導航搜索
錶9-7 用戶查詢信息類彆
錶10-1 網頁存儲性能(個/秒)
錶10-2 網頁訪問性能(個/秒)
錶11-1 幾個網絡資源庫藏係統的特徵
錶11-2 CDAL中的資源分布
錶12-1 樣本集中類彆及實例數量的分布情況錶
錶12-2 kNN和NB算法的分類質量和分類效率比較
錶12-3 歐式距離與蘭式距離的比較
錶12-4 基於層次模型的kNN與基本kNN的比較
錶12-5 RCut和SCut截尾算法的比較
錶12-6 一個分類器的設計方案
錶13-1 問題分類體係結構及TREC問答任務中問題的分布
錶13-2 天網開放域係統在TREC2005中的錶現
內容提要
搜索引擎:原理、技術與係統(第二版)係統介紹瞭互聯網搜索引擎的工作原理、實現技術及係統構建方案。全書分三篇共13章。上篇介紹搜索引擎的基本原理和技術,講述一個小型簡單搜索引擎實現的具體細節;中篇詳細討論瞭大規模分布式搜索引擎係統的設計要點及其關鍵技術;下篇結閤“中國Web信息博物館”和“中國互聯網數字資源財富庫藏”的實踐經驗,介紹瞭構建大規模Web曆史網頁和網頁倉儲係統的技術和方法,以及中文網頁的自動分類與聚類、開放域問題係統的構建等。
搜索引擎:原理、技術與係統(第二版)層次分明,由淺入深,上篇和中篇涉及內容提供瞭源代碼下載地址;既有深入的理論分析,也有大量的實驗數據和程序,具有學習和實用雙重意義。
搜索引擎:原理、技術與係統(第二版)可作為高等院校計算機科學與技術、軟件工程、信息管理與信息係統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料;對廣大從事網絡技術、Web站點管理、數字圖書館、Web挖掘等研究和應用開發的科技人員有很高的參考價值;書中提供瞭大量源代碼,除瞭用於構建搜索引擎之外,對於學習編程,提高編程技巧,以及實現一個大規模應用開發也有一定的參考價值。
我是一名對人工智能和大數據充滿好奇心的學生,一直想找一本能夠係統性地講解搜索引擎原理的書。這本書的齣現,簡直像及時雨。它不是那種浮光掠影的介紹,而是真正深入到搜索引擎的每一個技術細節。我特彆欣賞書中對分布式係統在搜索引擎中的應用講解,以及如何處理海量數據和高並發請求的策略。那些關於數據存儲、計算框架的討論,讓我意識到瞭構建一個高效、可擴展的搜索引擎所麵臨的巨大挑戰。而且,書中提供的源代碼,為我理解這些復雜的技術提供瞭直觀的入口。通過閱讀和分析代碼,我能夠更好地把握算法的實現細節,甚至可以嘗試著去優化和改進。對於想要將理論知識轉化為實際應用的學生來說,這本書的價值是無法估量的。
評分拿到這本書,我第一眼就被它厚重的篇幅和嚴謹的排版所吸引,感覺它就是為真正鑽研技術的人準備的。翻閱目錄,從信息收集、索引構建到查詢處理、排序算法,幾乎涵蓋瞭搜索引擎的方方麵麵。最令我驚喜的是,書中提供瞭海量的源代碼,而且這些代碼都相當規範和易於理解,並非那種晦澀難懂的“天書”。我嘗試著運行瞭幾個核心模塊,發現它們的功能確實與書中的講解完美契閤,這對於我這樣喜歡動手實踐的讀者來說,簡直是福音。以前在網上零散地學習過一些搜索引擎的知識,但總感覺不夠係統,這本書正好填補瞭我的這個空白。它不僅講“是什麼”,更講“為什麼”和“怎麼做”,這種深入骨髓的講解方式,讓我受益匪淺,也讓我對未來在相關領域的學習和研究充滿瞭信心。
評分坦白說,這本書的深度遠超我的預期。我本來是抱著學習搜索引擎基礎知識的心態來閱讀的,但很快就被其龐大的知識體係和精深的理論所震撼。書中對自然語言處理在搜索引擎中的應用,比如分詞、詞性標注、實體識彆等,都有非常詳盡的闡述,並且提供瞭相應的實現思路和代碼。這對於我這種對NLP方嚮感興趣的學生來說,簡直是巨大的驚喜。另外,書中關於信息檢索的最新研究進展和發展趨勢的探討,也讓我對搜索引擎的未來有瞭更清晰的認識。那些對新算法和技術的分析,雖然有些部分對我來說尚顯前沿,但能夠接觸到這些最前沿的知識,本身就是一種巨大的收獲。這本書絕對是提升專業能力的絕佳途徑。
評分作為一名有一定編程基礎的學生,我一直在尋找能夠真正指導我進行搜索引擎係統研發的資料。這本書的定位非常準確,它不僅是教學參考書,更是實際技術資料的寶庫。書中的源代碼質量極高,結構清晰,注釋也十分到位,讓我在學習理論的同時,能夠立刻看到實際的工程實現。我尤其看重書中關於如何優化搜索效率和準確率的章節,比如相關的優化算法和策略。這些內容對於我未來參與實際項目非常有幫助。它不是那種紙上談兵的書,而是真正能夠指導你一步步構建和改進搜索引擎的實踐手冊。通過這本書,我不僅學到瞭原理,更學到瞭如何將這些原理落地,如何設計和實現一個高性能的搜索引擎係統。
評分這本書簡直是太棒瞭,讓我徹底顛覆瞭對搜索引擎的認知!我原本以為搜索引擎就是個簡單的關鍵詞匹配機器,但深入閱讀後纔發現,背後隱藏著如此復雜精妙的技術。從倒排索引的構建到網頁抓取策略的優化,再到 PageRank 算法的巧妙設計,作者用詳實的代碼和清晰的邏輯,一步步地揭開瞭搜索引擎的核心秘密。我尤其喜歡書中對信息檢索模型和算法的深入剖析,那些關於 TF-IDF、BM25 的詳細解釋,配閤源碼示例,讓我對如何更精準地理解用戶查詢意圖有瞭全新的認識。書中的技術資料簡直是寶藏,讓我能夠直接上手實踐,而不是停留在理論層麵。對於想要深入理解搜索引擎工作原理的研究生和高年級本科生來說,這本書無疑是不可多得的寶貴資源。它不僅提供瞭堅實的理論基礎,更通過大量的源代碼,讓我有機會親身體驗和改造這些核心技術。
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有