過去十年中,社會媒體蓬勃發展,徹底改變瞭人們的社交行為和企業的商業模式。人們在社會媒體上交互、分享和閱讀內容,進而以空前的速度産生瞭大量數據。理解和處理這類新型數據,並從中發現有用的模式,對於交叉學科研究、新算法和工具的研發來講是挑戰與機遇並存。
《社會媒體挖掘》整閤瞭社會媒體、社會網絡分析以及數據挖掘的相關知識,為學生、從業者、研究人員和項目經理理解社會媒體挖掘的基礎知識和潛能,提供瞭一個方便的平颱。本書介紹瞭社會媒體數據獨有的問題,並闡述瞭網絡分析以及數據挖掘中的基本概念、新齣現的問題和有效的算法。
《社會媒體挖掘》可作為高年級本科生和低年級碩士生的教材,也可以作為短期專業課程用書。書中涵蓋瞭不同難度的練習題,可以幫助讀者在社會媒體數據挖掘的不同場景中理解和應用相關的概念、原理以及方法。
《社會媒體挖掘》集成瞭近年來社會媒體、社會網絡分析以及數據挖掘的前沿成果,為學生、從業者、研究人員和項目經理提供瞭一個方便的平颱,以便理解社會媒體挖掘的基礎知識和潛能。本書介紹瞭社會媒體數據的問題,並闡述瞭網絡分析和數據挖掘的基本概念、新問題以及有效的算法。
Reza Zafarani,雪城大學助理教授,曾為亞利桑那州立大學計算機科學與工程專業助理研究員。研究方嚮為社會媒體挖掘、機器學習、社會網絡分析和社會計算。研究重點是大規模用戶行為分析,以及跨社會媒體網站的信息整閤和建模。
Mohammad Ali Abbasi,亞利桑那州立大學計算機科學與工程專業助理研究員。研究方嚮為文本分析、信息檢索、數據挖掘、機器學習和社會計算。研究重點是用戶歸檔、用戶可信度評估、推薦係統、社會網絡分析,以及社會媒體在現實世界的應用。
Huan Liu(劉歡),亞利桑那州立大學計算機科學與工程專業教授,在教學和科研領域都取得瞭公認的優異成績。研究方嚮為數據挖掘、機器學習、社會計算、人工智能,以及真實數據密集型應用的問題。
★“這本講述社會媒體的書結構非常閤理,對學術界和産業界來說十分有用。該書以清晰易懂的方式全麵地講述瞭社會網絡分析。”
——Charu Aggarwal,IBM公司沃森研究中心
★“這本書以輕鬆的方式探索瞭一個多學科交叉的領域,語言簡明,直截瞭當。書中清晰緊湊地介紹瞭相關的概念,幫助你自信地深入探索數據挖掘這個奇妙的領域。”
——Philip Yu,伊利諾伊大學芝加哥分校
第1 章 引言 1
1.1 什麼是社會媒體挖掘 1
1.2 挖掘領域的新挑戰 2
1.3 本書概覽和讀者指南 3
1.4 小結 5
1.5 參考文獻及注釋 5
1.6 習題 6
第一部分 基礎知識
第2 章 圖的基本要素 10
2.1 圖的基礎知識 11
2.1.1 結點 11
2.1.2 邊 11
2.1.3 度和度的分布 12
2.2 圖的錶示 14
2.2.1 鄰接矩陣 14
2.2.2 鄰接錶 15
2.2.3 邊列錶 15
2.3 圖的類型 16
2.4 圖的連通性 17
2.5 特殊圖 21
2.5.1 樹和森林 21
2.5.2 特殊子圖 21
2.5.3 完全圖 23
2.5.4 平麵圖 23
2.5.5 二分圖 23
2.5.6 正則圖 24
2.5.7 橋 25
2.6 圖算法 25
2.6.1 圖/樹的遍曆 25
2.6.2 最短路徑算法 27
2.6.3 最小生成樹 29
2.6.4 網絡流算法 31
2.6.5 二分圖最大匹配 34
2.6.6 橋檢測 35
2.7 小結 36
2.8 參考文獻及注釋 37
2.9 習題 37
第3 章 網絡度量 40
3.1 中心性 40
3.1.1 度中心性 40
3.1.2 特徵嚮量中心性 42
3.1.3 Katz 中心性 44
3.1.4 PageRank 46
3.1.5 中間中心性 47
3.1.6 接近中心性 48
3.1.7 群體中心性 50
3.2 傳遞性與相互性 51
3.2.1 傳遞性 51
3.2.2 相互性 53
3.3 平衡和地位 55
3.4 相似度 57
3.4.1 結構等價性 57
3.4.2 規則等價性 59
3.5 小結 61
3.6 參考文獻及注釋 61
3.7 習題 62
第4 章 網絡模型 64
4.1 真實世界網絡的屬性 64
4.1.1 度分布 65
4.1.2 聚類係數 66
4.1.3 平均路徑長度 67
4.2 隨機圖模型 67
4.2.1 隨機圖的演變 69
4.2.2 隨機圖的屬性 71
4.2.3 基於隨機圖的真實世界網絡
建模 73
4.3 小世界模型 73
4.3.1 小世界模型的屬性 75
4.3.2 基於小世界模型對真實世界
網絡建模 77
4.4 優先鏈接模型 77
4.4.1 優先鏈接模型的屬性 78
4.4.2 基於優先鏈接模型對真實世界
網絡進行建模 80
4.5 小結 80
4.6 參考文獻及注釋 81
4.7 習題 81
第5 章 數據挖掘的基本要素 83
5.1 數據 84
5.2 數據預處理 87
5.3 數據挖掘算法 89
5.4 監督學習 89
5.4.1 決策樹 90
5.4.2 樸素貝葉斯分類器 92
5.4.3 最近鄰分類器 93
5.4.4 利用社交信息輔助分類 94
5.4.5 迴歸 96
5.4.6 監督學習評估 99
5.5 無監督學習 99
5.5.1 聚類算法 100
5.5.2 無監督學習的評估 102
5.6 小結 104
5.7 參考文獻及注釋 105
5.8 習題 106
第二部分 社區和交互
第6 章 社區分析 110
6.1 社區發現 112
6.1.1 社區發現算法 113
6.1.2 基於成員的社區發現 114
6.1.3 基於群組的社區發現 119
6.2 社區演變 126
6.2.1 網絡是如何演變的 126
6.2.2 演變網絡中的社區發現 129
6.3 社區評價 131
6.3.1 存在真實答案時的評價 131
6.3.2 無真實答案的評價 134
6.4 小結 135
6.5 參考文獻及注釋 136
6.6 習題 137
第7 章 社會媒體中的信息傳播 139
7.1 羊群效應 140
7.1.1 羊群效應的貝葉斯建模 142
7.1.2 乾預 144
7.2 信息級聯 145
7.2.1 獨立級聯模型 145
7.2.2 級聯範圍最大化 147
7.2.3 乾預 149
7.3 社交網絡中的創新擴散 149
7.3.1 創新的特徵 150
7.3.2 創新擴散模型 150
7.3.3 創新擴散過程建模 152
7.3.4 乾預 155
7.4 流行病模型 155
7.4.1 定義 156
7.4.2 SI 模型 156
7.4.3 SIR 模型 158
7.4.4 SIS 模型 159
7.4.5 SIRS 模型 160
7.4.6 乾預 161
7.5 小結 161
7.6 參考文獻及注釋 162
7.7 習題 163
第三部分 應用
第8 章 影響力和同質性 166
8.1 度量同配性 167
8.1.1 度量符號屬性的同配性 167
8.1.2 度量序數屬性的同配性 170
8.2 影響力 172
8.2.1 度量影響力 172
8.2.2 影響力建模 175
8.3 同質性 179
8.3.1 度量同質性 179
8.3.2 同質性建模 179
8.4 區分影響力和同質性 180
8.4.1 洗牌測試 180
8.4.2 邊緣反轉測試 181
8.4.3 隨機化測試 181
8.5 小結 184
8.6 參考文獻及注釋 184
8.7 習題 185
第9 章 社會媒體中的推薦 187
9.1 挑戰 188
9.2 經典的推薦算法 188
9.2.1 基於內容的算法 189
9.2.2 協同過濾 189
9.2.3 將個人推薦推廣到群體推薦 195
9.3 基於社會背景知識的推薦係統 197
9.3.1 單獨使用社會背景知識 198
9.3.2 基於社會背景知識的經典算法
擴展 198
9.3.3 社會背景知識受限的推薦 200
9.4 推薦係統評價 202
9.4.1 評估預測的準確率 202
9.4.2 評估推薦的相關性 203
9.4.3 評估推薦的排序 204
9.5 小結 205
9.6 參考文獻及注釋 206
9.7 習題 207
第10 章 行為分析 208
10.1 個體行為 208
10.1.1 個體行為分析 209
10.1.2 個體行為建模 213
10.1.3 個體行為預測 214
10.2 群體行為 217
10.2.1 群體行為分析 217
10.2.2 群體行為建模 221
10.2.3 群體行為預測221
10.3 小結 222
10.4 參考文獻及注釋 223
10.5 習題 224
參考文獻 225
社會媒體打破瞭現實世界與虛擬世界之間的界限。我們結閤社會學理論與計算方法來學習人類個體(也就是社會原子,social atom)如何互相影響,以及社區(也就是社會分子,social molecule)是如何形成的。社會媒體數據的獨特性需要我們開發齣全新的數據挖掘技術,來處理帶有豐富社會關係的用戶創建內容。這些新技術的研究和發展是在社會媒體挖掘這一新興的數據挖掘學科下進行的。社會媒體挖掘是從社會媒體數據中錶示、分析和抽取可操作模式的過程。
本書介紹一些基本概念以及適用於研究大規模社會媒體數據的主要算法,並從不同的學科(如計算機科學、數據挖掘、機器學習、社會網絡分析、網絡科學、社會學、人種學、統計學、最優化以及數學)視角討論相關理論和方法。此外,本書還會介紹一些有用的工具,這些工具能夠從大規模社會媒體數據中形式化地錶示、衡量、建模和挖掘有意義的模式。
社會媒體挖掘培養齣瞭一類新的數據科學傢(data scientist),這些科學傢精通社會學和計算科學理論,能夠分析棘手的社會媒體數據,並且熟練地運用已經掌握的技能和理論(社會學和計算科學理論)以及一些計算工具,幫助我們探索廣闊的社會媒體世界。
社會媒體挖掘是一個新興的研究領域,其中有很多亟待解決的難題。由於有瞭不同學科的概念和理論、基本原理,以及最先進算法的前期儲備,我們可以站在巨人的肩膀上來著手解決這些具有挑戰性的難題,並且開發齣創新性的數據挖掘技術和可擴展的算法。總體而言,可以將社會媒體看成由社會原子(也就是個體)、實體(例如內容、站點、網絡等),以及個體與實體之間的相互作用所構成的世界。社會學理論和社會標準在管理和控製著個體與實體之間的相互作用。為瞭更加有效地進行社會媒體挖掘,我們通過收集個體和實體的相關信息,衡量它們之間的相互作用,發現其中一些特定的模式來更好地理解人類的行為。
挖掘社會媒體數據是一項挖掘帶有社會關係的用戶生成內容的任務。這一數據為社會媒體挖掘提齣瞭新的挑戰。
大數據悖論(Big Data Paradox)。毋庸置疑,社會媒體數據的規模是非常巨大的。然而,當我們聚焦到一個個個體時,例如要對某個人進行相關推薦,我們經常會發現針對這一個體能夠獲取的數據非常少。為瞭能夠更有效地進行挖掘工作,我們必須充分利用社會媒體的特性並且使用它的多維度、多資源和多站點數據,將信息整閤並進行充分的統計分析。
獲取足夠的樣本(Obtaining Sufficient Samples)。獲取數據的一種常用技術手段是使用社會媒體站點提供的應用程序接口(Application Programming Interfaces,API)。我們每天獲取到的數據是非常有限的。如果不知道人群的分布特點,如何纔能知道我們的采樣是可靠的,並且可以代錶全體數據?又如何能夠保證我們從社會媒體挖掘中得到的結論能夠揭示真正的人類行為模式,進而促進我們的研究和商業開發?
噪聲消除謬誤(Noise Removal Fallacy)。在經典的數據挖掘文獻中,一個成功的數據挖掘操作必須要有大規模數據預處理過程和去噪過程,以避免齣現“垃圾數據輸入,垃圾數據輸齣”這樣的情況。由於社會媒體數據自身的一些特點,它包含瞭很大一部分噪聲數據。對於社會媒體數據,我們注意到如下兩個重要的觀察結果:(1) 盲目地去除噪聲數據會加劇大數據悖論問題,這是因為去噪的同時也會將有價值的信息過濾掉;(2) 對於噪聲數據的定義是復雜且相對的,因為這取決於我們要完成什麼樣的任務。
評價睏境(Evaluation Dilemma)。數據挖掘中常用的模式評價方法是收集準確、客觀的數據用於驗證。例如,一個數據集可以分成訓練集和測試集。隻有訓練集被用來學習,而測試集則當作標準答案進行測試。然而,在社會媒體挖掘中往往沒有一個標準的答案。如何評價從社會媒體中挖掘齣來的模式,給我們提齣瞭一個看似難以逾越的挑戰。另一方麵,如果沒有可靠的評價手段,如何纔能夠保證我們挖掘齣來的模式是正確的呢?
本書涵蓋瞭一些基礎概念和基本原理,它們將幫助讀者思考和設計齣可以解決社會媒體挖掘固有挑戰的方案。
這本書給我的感覺就像是在一個巨大的數據海洋裏航行,而作者就是那位經驗豐富的船長,他/她不僅為我指明瞭方嚮,還教會瞭我如何解讀海圖。書中所涵蓋的知識點非常廣泛,從基礎的數據科學概念,到復雜的機器學習模型,再到具體的應用場景,幾乎涵蓋瞭當下與信息處理和分析相關的所有重要領域。我尤其欣賞作者在闡述理論時,所錶現齣的嚴謹性和邏輯性,每一個論證都建立在堅實的基礎之上,讓我能夠信服。同時,書中的實踐指導也給我留下瞭深刻的印象。作者不僅僅是告訴我們“是什麼”,更是教會我們“怎麼做”。例如,書中提供瞭大量的代碼示例和操作指南,讓我能夠將書本上的理論知識轉化為實際操作,這對於想要將所學應用於實際工作中的讀者來說,是極其寶貴的。此外,書末的參考文獻和擴展閱讀列錶,也為我提供瞭進一步深入學習的途徑,這讓我感受到作者的用心良苦,希望讀者能夠在此基礎上,不斷拓展自己的知識邊界。這本書無疑是我在這個快速變化的數字時代,一本不可多得的寶藏。
評分這本書的封麵設計極具吸引力,深邃的藍色背景下,交織著無數閃爍的光點,仿佛浩瀚的數字星辰。初拿到手時,我就被這種神秘而現代的視覺語言所吸引,仿佛預示著即將展開一段探索未知數字世界的旅程。這本書的紙張質感也相當不錯,觸感溫潤,散發著淡淡的墨香,這對於一個習慣瞭紙質閱讀的我來說,無疑是一種享受。我特彆喜歡它那種恰到好處的厚度,既能承載足夠的內容,又不至於過於沉重,方便攜帶。翻開書頁,清晰的排版和閤理的行距讓我閱讀起來倍感舒適,即使是深夜在燈光下閱讀,也不會感到眼睛疲勞。封底的文字更是點睛之筆,用簡潔而富有哲理的語言概括瞭本書的核心主題,讓人在閱讀之前就對書中可能蘊含的智慧充滿期待。我甚至注意到書的裝幀工藝非常考究,書脊處的縫閤緊密牢固,即使經常翻閱,也不易散架,這讓我相信這本書能夠陪伴我度過一段相當長的時間。總而言之,從拿到書的第一刻起,這本書就以其精美的外觀和細膩的觸感,贏得瞭我極高的好感度,讓我迫不及待地想要沉浸其中,去探索它所描繪的那個引人入勝的世界。
評分我一直對信息爆炸時代下,那些隱藏在海量數據中的規律和洞察深感興趣,這本書的名字就直接觸動瞭我的好奇心。在朋友的推薦下,我抱著學習和探索的心態購入瞭它。拿到書的那一刻,我首先被它紮實的理論基礎所吸引,作者似乎花瞭相當大的篇幅來構建一個嚴謹的學術框架,從數據收集的方法論到各種分析模型的原理,都講解得細緻入微。我尤其欣賞作者在解釋復雜概念時,所采用的類比和實例,這讓原本晦澀難懂的專業術語變得生動易懂,讓我這個非專業讀者也能逐漸領略到其中的奧妙。書中的案例研究部分更是精彩絕倫,作者選取瞭多個貼近現實的場景,深入剖析瞭如何運用書中的理論和工具來解決實際問題。這些案例不僅展示瞭技術的力量,更體現瞭作者對社會現象的深刻洞察。閱讀過程中,我時常會停下來,思考書中所提齣的觀點,並將其與我日常接觸到的信息進行對比,這種互動式的閱讀體驗,讓我收獲良多。總的來說,這本書為我提供瞭一個看待和理解當下信息時代的新視角,讓我更加清晰地認識到隱藏在數字洪流中的巨大價值。
評分最近幾年,人工智能和大數據的發展速度真是令人目不暇接,感覺每天都有新的技術和應用湧現。我一直想找一本能夠係統梳理這些前沿知識的書籍,剛好在書店偶然看到瞭它。這本書的內容給我帶來瞭極大的驚喜,它不僅僅停留在概念的層麵,而是深入到技術實現的細節,並且對未來的發展趨勢也進行瞭大膽的預測。我特彆喜歡書中關於算法的講解,作者用一種非常直觀的方式,展示瞭不同的算法是如何工作的,以及它們各自的優缺點。這讓我對那些在背後默默驅動著我們日常使用的各種應用的“大腦”有瞭更深的認識。此外,書中還討論瞭數據隱私和倫理問題,這在當下尤其重要。作者以一種非常客觀和審慎的態度,分析瞭在利用數據的同時,如何平衡個人隱私和公共利益,這讓我覺得這本書非常有深度和社會責任感。我甚至發現書中介紹的一些工具和技術,我已經在我自己的工作和學習中有所應用,並且收到瞭很好的效果。這本書就像一位經驗豐富的嚮導,帶領我穿越信息時代的叢林,讓我不再迷失方嚮。
評分我一直對人與技術之間的互動關係感到著迷,尤其是社交媒體的興起,更是改變瞭我們溝通、獲取信息甚至認知世界的方式。這本書的內容,恰恰觸及瞭這一核心議題,並且以一種非常全麵和深刻的方式進行瞭探討。作者在書中構建瞭一個宏大的敘事,從社交媒體的起源和演變,到用戶行為的分析,再到信息傳播的機製,層層遞進,引人入勝。我特彆欣賞作者對於用戶心理的解讀,他/她深入分析瞭人們在社交媒體上的動機,比如尋求認同、錶達自我、獲取信息等等,並且將其與平颱的設計和算法的運作機製相結閤,形成瞭一個完整的解釋體係。書中的案例分析也非常有啓發性,例如,作者對熱門話題的傳播路徑、謠言的擴散機製以及社群的形成和發展等都進行瞭細緻的剖析。這些分析不僅具有學術價值,更對我們理解當下社會現象提供瞭重要的參考。閱讀過程中,我時常會反思自己在社交媒體上的行為,以及這些行為是如何被算法所塑造和引導的,這種自我審視的過程讓我更加清醒地認識到技術對個體的影響。
評分書不錯
評分書寫的不錯
評分正在研讀,過後再評
評分不錯
評分社會化媒體這個玩意。。。
評分質量很好,內容不錯,,,
評分滿意
評分不錯,速度很快。質量也很好!好評!非常值得推薦!
評分便宜,不錯,正在看,活動買的~~
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有