內容簡介
《圖數據管理與挖掘》介紹瞭圖數據管理與挖掘的關鍵技術,涵蓋基於集閤相似度的子圖匹配查詢處理方法與原型係統、情境感知的個性化推薦方法、利用多層聚簇的跨類協同過濾推薦算法、基於潛在主題的準確性Web社區協同推薦方法、基於用戶社區全域關係閉包的高效均衡性Web社區推薦方法、Web社區推薦原型係統、大規模時空圖中人類行為模式的實時挖掘方法、基於潛在引用圖數據的專利價值評估方法、基於專利關聯的新穎專利查找方法,以及異構專利網絡中的競爭對手主題預測方法。
《圖數據管理與挖掘》適閤計算機、信息管理等相關專業的高年級本科生和研究生閱讀,也可作為數據科學等相關領域的研究與開發人員的參考書。
內頁插圖
目錄
前言
第1章 大圖數據庫中基於集閤相似度的子圖匹配查詢處理方法
1.1 引言
1.2 預備知識
1.2.1 問題定義
1.2.2 架構
1.3 集閤相似度剪枝
1.3.1 倒排模式格的構建
1.3.2 剪枝技術
1.3.3 倒排模式格的優化
1.4 基於結構的剪枝操作
1.4.1 結構化簽名
1.4.2 基於簽名的LSH
1.4.3 結構化剪枝
1.5 基於支配集的子圖匹配
1.5.1 DS.匹配算法
1.5.2 支配集的選擇
1.6 實驗分析
1.6.1 數據集閤設置
1.6.2 比較方法
1.6.3 綫下性能
1.6.4 綫上性能
1.7 結論
第2章 基於集閤相似度的子圖匹配查詢原型係統
2.1 引言
2.2 預備知識
2.2.1 問題定義
2.2.2 方法概覽
2.3 簽名及DS-Tree
2.3.1 查詢簽名和數據簽名
2.3.2 DS-Tree
2.3.3 利用DS-Tree查詢
2.4 支配子圖
2.5 SMOC算法
2.6 實驗
2.6.1 數據集和實驗環境
2.6.2 對比方法
2.6.3 離綫處理性能
2.6.4 在綫處理性能
2.7 結論
第3章 利用社會網絡圖數據的情境感知個性化推薦方法
3.1 引言
3.2 預備知識
3.2.1 問題定義
3.2.2 方法框架
3.3 角色挖掘
3.3.1 角色的定義
3.3.2 用條件數據庫進行角色挖掘
3.3.3 情境感知的角色權重
3.4 基於角色的信任模型
3.5 尋找相似用戶
3.5.1 WSSQ算法概述
3.5.2 前綴過濾
3.5.3 L1-範數過濾
3.5.4 相似度計算的優化
3.6 推薦方法
3.7 實驗評價
3.7.1 數據集描述
3.7.2 對比方法
3.7.3 對角色挖掘和信任模型的評價
3.7.4 推薦質量
3.7.5 推薦時間
3.8 結論
第4章 多層聚簇中基於協同過濾的跨類推薦算法
4.1 引言
4.2 預備知識
4.2.1 問題定義
4.2.2 算法框架
4.3 多層聚簇
4.4 利用多層聚簇推薦
4.4.1 推薦框架
4.4.2 Top-K推薦
4.5 實驗
4.5.1 數據集
4.5.2 對比方法
4.5.3 評價標準
4.5.4 參數設置
4.5.5 minsup的影響
4.5.6 效率和擴展性
4.6 結論
第5章 基於潛在主題的準確性Web社區協同推薦方法
5.1 引言
5.2 基於潛在主題的Web社區協同推薦方法
5.2.1 方法框架
5.2.2 ITS值計算.
5.2.3 ETS值計算
5.2.4 IETS值計算
5.2.5 可擴展性
5.3 實驗及分析
5.3.1 數據集描述
5.3.2 實驗方案
5.3.3 實驗結果
5.4.結論
第6章 基於用戶-社區全域關係的新穎性Web社區推薦方法
6.1 引言
6.2 UCTR方法
6.2.1 UCTR方法框架
6.2.2 社區準確度計算
6.2.3 社區新穎度計算
6.2.4 社區UCTR值計算
6.3 實驗及分析
6.3.1 數據集描述
6.3.2 推薦準確性評價
6.3.3 推薦新穎性評價
6.3.4 推薦綜閤評價
6.4 結論
第7章 基於用戶-社區全域關係閉包的高效均衡性Web社區推薦方法
7.1 引言
7.2 NovelRec方法
7.2.1 方法框架
7.2.2 離綫建模計算
7.2.3 在綫推薦計算
7.2.4 NovelRec復雜度分析
7.2.5 用戶冷啓動分析
7.3 實驗及分析
7.3.1 實驗數據分析
7.3.2 推薦準確性分析
7.3.3 推薦新穎性分析
7.3.4 NovelRec性能分析
7.4 結論
第8章 Web社區推薦原型係統
8.1 引言
8.2 Web社區建模
8.2.1 對象代理模型概述
8.2.2 利用對象代理模型建模Web社區
8.3 Web社區管理原型係統
8.3.1 對象代理數據庫概述
8.3.2 基於TOTEM的Web社區管理係統
8.4 Web社區推薦原型係統
8.4.1 推薦係統實現機製
8.4.2 推薦係統功能效果
8.5 結論
第9章 大規模時空圖中人類行為模式的實時挖掘方法
9.1 引言
9.2 預備知識
9.2.1 定義
9.2.2 問題陳述
9.2.3 框架
9.3 在單一時間間隔中的黑洞檢測
9.3.1 STG索引
9.3.2 候選網格選擇
9.3.3 空間擴展
9.3.4 流上限更新
9.4 連續檢測
9.5 實驗評估
9.5.1 數據
9.5.2 北京市案例研究
9.5.3 紐約市案例研究
9.5.4 在單一時段內的錶現
9.5.5 連續檢測的錶現
9.6 結論
第10章 基於潛在引用圖數據的專利價值評估方法
10.1 引言
10.2 潛在引用關聯
10.3 專利價值評估基本算法
10.4 專利價值評估改進算法
10.5 專利價值評估更新算法
10.6 實驗評估
10.6.1 實驗設置
10.6.2 評估方法
10.6.3 結果與分析
10.7 結論
第11章 基於專利關聯的新穎專利查找方法
11.1 引言
11.2 相對新穎圖
11.3 專利新穎度排序算法
11.4 專利新穎度更新算法
11.5 實驗評估
11.5.1 實驗設置
11.5.2 評估方法
11.5.3 結果與分析
11.6 結論
第12章 異構專利網絡中的競爭對手主題預測方法
12.1 引言
12.2 競爭對手的主題預測的框架
12.3 主題詞選取
12.4 建立企業-主題異構圖
12.5 拓撲特徵的分析和抽取
12.6 基於監督模型的主題預測方法
12.7 實驗評估
12.7.1 實驗設置
12.7.2 評估方法
12.7.3 結果與分析
12.8 結論
參考文獻
前言/序言
最近幾年,圖數據管理與挖掘技術的發展和應用引起瞭國內外研究者和工業界的極大興趣。圖作為一種常見的數據錶示模型,用於建模復雜數據以及數據之間的關聯,例如社會網絡、語義網、路網、生物網絡、專利網絡等。圖數據庫是指被存儲的數據對象是基於圖數據模型的。圖數據管理的核心問題是圖數據庫的查詢處理,即基於圖模型的結構查詢,例如子圖匹配查詢、路徑可達性查詢、路徑距離查詢等。雖然從某種角度上來說,圖數據庫中的查詢也可以用SQL語言來錶達,利用現有的RDBMS的查詢功能來完成,但是這樣的查詢係統的性能是非常低的。圖數據管理研究的關鍵點是如何設計有效的索引結構和查詢算法來快速地迴答圖數據庫中的結構查詢問題。圖數據挖掘相比於關係數據庫的挖掘更強調的是發現與分析數據之間的關聯關係。隨著大數據時代的到來,數據的關聯關係在數據挖掘和分析的過程中越來越受到重視,是商務智能、決策支持、科學研究等領域的核心問題與難點。對於圖數據管理與挖掘查詢的研究最早可以追溯到20世紀90年代。最近,由於社會網絡數據,專利網絡數據,以及語義網數據等領域大數據的大量齣現,引起瞭對於圖數據管理與挖掘的新一輪研究熱潮。在最近幾年的三大國際數據庫頂級會議(SIGMOD,VLDB和ICDE)上均有圖數據管理與挖掘的相關論文,並且數量與比例逐年上升。
社會網絡、時空圖以及專利網絡具有天然的圖數據特徵,數據之間的復雜關聯以及大數據的産生給管理和挖掘這些數據帶來瞭巨大的挑戰。本書以圖數據理論與模型為基礎,麵嚮社會網絡、時空圖、專利網絡等應用領域,提齣瞭一係列的圖數據管理與挖掘關鍵技術。
本書的撰寫得到武漢大學多位教師、同學的大力協助和支持,尤其是餘騫博士和馮嶺博士對本書部分內容的撰寫做齣瞭貢獻,對他們的辛勤付齣錶示由衷的感謝!感謝相關學術研究的閤作者,你們在我學習和研究道路上給予瞭大量的幫助和指導。感謝傢人的陪伴、支持和鼓勵。
本研究受到國傢重點基礎研究發展計劃(973計劃)“科學大數據管理係統(麵嚮特定領域的大數據管理係統)”子課題“圖數據管理關鍵技術及係統”(編號:2016YFB1000603),國傢自然科學基金青年基金項目“移動社會網絡中基於信任關係的情境感知推薦研究”(編號:61303025),以及國傢自然科學基金重點國際閤作研究項目“大數據環境下的知識組織與服務創新研究”(編號:71420107026)的資助,作者在此錶示衷心的感謝。
《數字世界的脈絡:深度剖析信息組織、處理與智能分析》 內容簡介 在這個信息爆炸的時代,數據早已不再是孤立的字節集閤,而是 interwoven、相互關聯的龐大網絡。理解、管理並從中提煉有價值的洞見,是驅動科學發現、商業創新乃至社會進步的關鍵。本書《數字世界的脈絡:深度剖析信息組織、處理與智能分析》便是一本緻力於揭示這一復雜信息生態係統奧秘的專著。它並非聚焦於某種特定類型的數據,也未局限於某個單一的技術領域,而是從一個更宏觀、更根本的視角齣發,深入探討瞭信息如何被組織、如何被有效地處理,以及如何通過智能分析手段,從海量數據中挖掘齣隱藏的規律與價值。 本書的主旨在於構建一個關於信息管理的全麵框架,其核心理念是將現實世界中的復雜關係映射到數字領域,並在此基礎上設計高效的組織與處理機製。它首先從信息組織的理論基石講起,探討瞭不同數據模型的優勢與局限,從傳統的層次化結構、網狀結構,到更具錶現力、能夠捕捉細粒度關聯的圖結構(但請注意,本書並非僅限於圖數據管理與挖掘,而是將其作為一種重要的組織方式進行闡述)。在此基礎上,本書詳細介紹瞭數據存儲的先進技術,包括分布式文件係統、NoSQL數據庫以及麵嚮特定應用場景的專用存儲方案,並分析瞭它們在性能、可擴展性、一緻性等方麵的權衡。 在數據處理方麵,本書涵蓋瞭從數據采集、清洗、轉換到整閤的全流程。它深入講解瞭數據質量的重要性,以及如何通過各種技術手段識彆、糾正和處理數據中的錯誤、缺失、不一緻和重復信息。對於大規模數據集的並行處理,本書詳細介紹瞭MapReduce、Spark等分布式計算框架的工作原理、編程模型以及優化策略,使讀者能夠掌握構建高效數據處理流水綫的技能。此外,本書還探討瞭流式數據處理的挑戰與方法,例如如何實時捕捉、分析和響應不斷湧入的數據流,以及如何利用內存計算和事件驅動架構來提升處理效率。 本書的另一重要組成部分是智能分析。它超越瞭傳統的數據統計與可視化,而是深入探討瞭機器學習、人工智能等前沿技術在數據洞察中的應用。本書係統地介紹瞭各種主流的機器學習算法,包括監督學習(如綫性迴歸、邏輯迴歸、支持嚮量機、決策樹、隨機森林、梯度提升樹)、無監督學習(如聚類算法K-Means、DBSCAN,降維算法PCA、t-SNE)以及深度學習(如捲積神經網絡CNN、循環神經網絡RNN、Transformer模型)的基本原理、適用場景、優缺點及實現細節。本書並非停留在理論層麵,而是結閤瞭大量的實際案例,演示瞭如何將這些智能分析技術應用於諸如預測分析、模式識彆、異常檢測、推薦係統、自然語言處理、圖像識彆等多種實際問題。 本書特彆強調瞭數據治理與安全。在海量數據的管理過程中,如何確保數據的閤規性、隱私性和安全性是至關重要的議題。本書深入探討瞭數據隱私保護技術,如差分隱私、同態加密、聯邦學習等,以及數據訪問控製、數據審計、數據生命周期管理等安全策略。它還關注瞭數據倫理問題,引導讀者思考如何在利用數據的同時,保護個人隱私和維護社會公平。 在技術實現方麵,本書並未局限於某種特定的編程語言或工具,而是力求講解通用性的原理與方法。它會引用多種語言和框架(如Python、Java、Scala等)以及常用的數據處理和分析庫(如Pandas、NumPy、Scikit-learn、TensorFlow、PyTorch等)的示例代碼,幫助讀者將理論知識轉化為實際操作。 本書的寫作風格力求嚴謹、清晰,並輔以豐富的圖示和錶格,以幫助讀者更好地理解抽象概念。每個章節都設計有思考題或實踐練習,旨在鞏固所學知識並激發進一步的探索。 總而言之,《數字世界的脈絡:深度剖析信息組織、處理與智能分析》是一本麵嚮廣泛讀者的專著,包括但不限於計算機科學、信息管理、數據科學、人工智能等領域的學生、研究人員、工程師以及對數據管理與分析感興趣的從業人員。它旨在為您提供一個堅實的理論基礎和一套實用的技術工具,幫助您駕馭日益復雜的數字世界,從紛繁的數據中挖掘齣無限的可能。無論您是希望係統學習數據管理的核心概念,還是希望掌握前沿的數據分析技術,抑或是關注數據安全與倫理,本書都將是您不可或缺的參考指南。它將引領您穿越數據的迷霧,探尋信息背後的脈絡,最終實現數據驅動的洞察與決策。