过去十年中,社会媒体蓬勃发展,彻底改变了人们的社交行为和企业的商业模式。人们在社会媒体上交互、分享和阅读内容,进而以空前的速度产生了大量数据。理解和处理这类新型数据,并从中发现有用的模式,对于交叉学科研究、新算法和工具的研发来讲是挑战与机遇并存。
《社会媒体挖掘》整合了社会媒体、社会网络分析以及数据挖掘的相关知识,为学生、从业者、研究人员和项目经理理解社会媒体挖掘的基础知识和潜能,提供了一个方便的平台。本书介绍了社会媒体数据独有的问题,并阐述了网络分析以及数据挖掘中的基本概念、新出现的问题和有效的算法。
《社会媒体挖掘》可作为高年级本科生和低年级硕士生的教材,也可以作为短期专业课程用书。书中涵盖了不同难度的练习题,可以帮助读者在社会媒体数据挖掘的不同场景中理解和应用相关的概念、原理以及方法。
《社会媒体挖掘》集成了近年来社会媒体、社会网络分析以及数据挖掘的前沿成果,为学生、从业者、研究人员和项目经理提供了一个方便的平台,以便理解社会媒体挖掘的基础知识和潜能。本书介绍了社会媒体数据的问题,并阐述了网络分析和数据挖掘的基本概念、新问题以及有效的算法。
Reza Zafarani,雪城大学助理教授,曾为亚利桑那州立大学计算机科学与工程专业助理研究员。研究方向为社会媒体挖掘、机器学习、社会网络分析和社会计算。研究重点是大规模用户行为分析,以及跨社会媒体网站的信息整合和建模。
Mohammad Ali Abbasi,亚利桑那州立大学计算机科学与工程专业助理研究员。研究方向为文本分析、信息检索、数据挖掘、机器学习和社会计算。研究重点是用户归档、用户可信度评估、推荐系统、社会网络分析,以及社会媒体在现实世界的应用。
Huan Liu(刘欢),亚利桑那州立大学计算机科学与工程专业教授,在教学和科研领域都取得了公认的优异成绩。研究方向为数据挖掘、机器学习、社会计算、人工智能,以及真实数据密集型应用的问题。
★“这本讲述社会媒体的书结构非常合理,对学术界和产业界来说十分有用。该书以清晰易懂的方式全面地讲述了社会网络分析。”
——Charu Aggarwal,IBM公司沃森研究中心
★“这本书以轻松的方式探索了一个多学科交叉的领域,语言简明,直截了当。书中清晰紧凑地介绍了相关的概念,帮助你自信地深入探索数据挖掘这个奇妙的领域。”
——Philip Yu,伊利诺伊大学芝加哥分校
第1 章 引言 1
1.1 什么是社会媒体挖掘 1
1.2 挖掘领域的新挑战 2
1.3 本书概览和读者指南 3
1.4 小结 5
1.5 参考文献及注释 5
1.6 习题 6
第一部分 基础知识
第2 章 图的基本要素 10
2.1 图的基础知识 11
2.1.1 结点 11
2.1.2 边 11
2.1.3 度和度的分布 12
2.2 图的表示 14
2.2.1 邻接矩阵 14
2.2.2 邻接表 15
2.2.3 边列表 15
2.3 图的类型 16
2.4 图的连通性 17
2.5 特殊图 21
2.5.1 树和森林 21
2.5.2 特殊子图 21
2.5.3 完全图 23
2.5.4 平面图 23
2.5.5 二分图 23
2.5.6 正则图 24
2.5.7 桥 25
2.6 图算法 25
2.6.1 图/树的遍历 25
2.6.2 最短路径算法 27
2.6.3 最小生成树 29
2.6.4 网络流算法 31
2.6.5 二分图最大匹配 34
2.6.6 桥检测 35
2.7 小结 36
2.8 参考文献及注释 37
2.9 习题 37
第3 章 网络度量 40
3.1 中心性 40
3.1.1 度中心性 40
3.1.2 特征向量中心性 42
3.1.3 Katz 中心性 44
3.1.4 PageRank 46
3.1.5 中间中心性 47
3.1.6 接近中心性 48
3.1.7 群体中心性 50
3.2 传递性与相互性 51
3.2.1 传递性 51
3.2.2 相互性 53
3.3 平衡和地位 55
3.4 相似度 57
3.4.1 结构等价性 57
3.4.2 规则等价性 59
3.5 小结 61
3.6 参考文献及注释 61
3.7 习题 62
第4 章 网络模型 64
4.1 真实世界网络的属性 64
4.1.1 度分布 65
4.1.2 聚类系数 66
4.1.3 平均路径长度 67
4.2 随机图模型 67
4.2.1 随机图的演变 69
4.2.2 随机图的属性 71
4.2.3 基于随机图的真实世界网络
建模 73
4.3 小世界模型 73
4.3.1 小世界模型的属性 75
4.3.2 基于小世界模型对真实世界
网络建模 77
4.4 优先链接模型 77
4.4.1 优先链接模型的属性 78
4.4.2 基于优先链接模型对真实世界
网络进行建模 80
4.5 小结 80
4.6 参考文献及注释 81
4.7 习题 81
第5 章 数据挖掘的基本要素 83
5.1 数据 84
5.2 数据预处理 87
5.3 数据挖掘算法 89
5.4 监督学习 89
5.4.1 决策树 90
5.4.2 朴素贝叶斯分类器 92
5.4.3 最近邻分类器 93
5.4.4 利用社交信息辅助分类 94
5.4.5 回归 96
5.4.6 监督学习评估 99
5.5 无监督学习 99
5.5.1 聚类算法 100
5.5.2 无监督学习的评估 102
5.6 小结 104
5.7 参考文献及注释 105
5.8 习题 106
第二部分 社区和交互
第6 章 社区分析 110
6.1 社区发现 112
6.1.1 社区发现算法 113
6.1.2 基于成员的社区发现 114
6.1.3 基于群组的社区发现 119
6.2 社区演变 126
6.2.1 网络是如何演变的 126
6.2.2 演变网络中的社区发现 129
6.3 社区评价 131
6.3.1 存在真实答案时的评价 131
6.3.2 无真实答案的评价 134
6.4 小结 135
6.5 参考文献及注释 136
6.6 习题 137
第7 章 社会媒体中的信息传播 139
7.1 羊群效应 140
7.1.1 羊群效应的贝叶斯建模 142
7.1.2 干预 144
7.2 信息级联 145
7.2.1 独立级联模型 145
7.2.2 级联范围最大化 147
7.2.3 干预 149
7.3 社交网络中的创新扩散 149
7.3.1 创新的特征 150
7.3.2 创新扩散模型 150
7.3.3 创新扩散过程建模 152
7.3.4 干预 155
7.4 流行病模型 155
7.4.1 定义 156
7.4.2 SI 模型 156
7.4.3 SIR 模型 158
7.4.4 SIS 模型 159
7.4.5 SIRS 模型 160
7.4.6 干预 161
7.5 小结 161
7.6 参考文献及注释 162
7.7 习题 163
第三部分 应用
第8 章 影响力和同质性 166
8.1 度量同配性 167
8.1.1 度量符号属性的同配性 167
8.1.2 度量序数属性的同配性 170
8.2 影响力 172
8.2.1 度量影响力 172
8.2.2 影响力建模 175
8.3 同质性 179
8.3.1 度量同质性 179
8.3.2 同质性建模 179
8.4 区分影响力和同质性 180
8.4.1 洗牌测试 180
8.4.2 边缘反转测试 181
8.4.3 随机化测试 181
8.5 小结 184
8.6 参考文献及注释 184
8.7 习题 185
第9 章 社会媒体中的推荐 187
9.1 挑战 188
9.2 经典的推荐算法 188
9.2.1 基于内容的算法 189
9.2.2 协同过滤 189
9.2.3 将个人推荐推广到群体推荐 195
9.3 基于社会背景知识的推荐系统 197
9.3.1 单独使用社会背景知识 198
9.3.2 基于社会背景知识的经典算法
扩展 198
9.3.3 社会背景知识受限的推荐 200
9.4 推荐系统评价 202
9.4.1 评估预测的准确率 202
9.4.2 评估推荐的相关性 203
9.4.3 评估推荐的排序 204
9.5 小结 205
9.6 参考文献及注释 206
9.7 习题 207
第10 章 行为分析 208
10.1 个体行为 208
10.1.1 个体行为分析 209
10.1.2 个体行为建模 213
10.1.3 个体行为预测 214
10.2 群体行为 217
10.2.1 群体行为分析 217
10.2.2 群体行为建模 221
10.2.3 群体行为预测221
10.3 小结 222
10.4 参考文献及注释 223
10.5 习题 224
参考文献 225
社会媒体打破了现实世界与虚拟世界之间的界限。我们结合社会学理论与计算方法来学习人类个体(也就是社会原子,social atom)如何互相影响,以及社区(也就是社会分子,social molecule)是如何形成的。社会媒体数据的独特性需要我们开发出全新的数据挖掘技术,来处理带有丰富社会关系的用户创建内容。这些新技术的研究和发展是在社会媒体挖掘这一新兴的数据挖掘学科下进行的。社会媒体挖掘是从社会媒体数据中表示、分析和抽取可操作模式的过程。
本书介绍一些基本概念以及适用于研究大规模社会媒体数据的主要算法,并从不同的学科(如计算机科学、数据挖掘、机器学习、社会网络分析、网络科学、社会学、人种学、统计学、最优化以及数学)视角讨论相关理论和方法。此外,本书还会介绍一些有用的工具,这些工具能够从大规模社会媒体数据中形式化地表示、衡量、建模和挖掘有意义的模式。
社会媒体挖掘培养出了一类新的数据科学家(data scientist),这些科学家精通社会学和计算科学理论,能够分析棘手的社会媒体数据,并且熟练地运用已经掌握的技能和理论(社会学和计算科学理论)以及一些计算工具,帮助我们探索广阔的社会媒体世界。
社会媒体挖掘是一个新兴的研究领域,其中有很多亟待解决的难题。由于有了不同学科的概念和理论、基本原理,以及最先进算法的前期储备,我们可以站在巨人的肩膀上来着手解决这些具有挑战性的难题,并且开发出创新性的数据挖掘技术和可扩展的算法。总体而言,可以将社会媒体看成由社会原子(也就是个体)、实体(例如内容、站点、网络等),以及个体与实体之间的相互作用所构成的世界。社会学理论和社会标准在管理和控制着个体与实体之间的相互作用。为了更加有效地进行社会媒体挖掘,我们通过收集个体和实体的相关信息,衡量它们之间的相互作用,发现其中一些特定的模式来更好地理解人类的行为。
挖掘社会媒体数据是一项挖掘带有社会关系的用户生成内容的任务。这一数据为社会媒体挖掘提出了新的挑战。
大数据悖论(Big Data Paradox)。毋庸置疑,社会媒体数据的规模是非常巨大的。然而,当我们聚焦到一个个个体时,例如要对某个人进行相关推荐,我们经常会发现针对这一个体能够获取的数据非常少。为了能够更有效地进行挖掘工作,我们必须充分利用社会媒体的特性并且使用它的多维度、多资源和多站点数据,将信息整合并进行充分的统计分析。
获取足够的样本(Obtaining Sufficient Samples)。获取数据的一种常用技术手段是使用社会媒体站点提供的应用程序接口(Application Programming Interfaces,API)。我们每天获取到的数据是非常有限的。如果不知道人群的分布特点,如何才能知道我们的采样是可靠的,并且可以代表全体数据?又如何能够保证我们从社会媒体挖掘中得到的结论能够揭示真正的人类行为模式,进而促进我们的研究和商业开发?
噪声消除谬误(Noise Removal Fallacy)。在经典的数据挖掘文献中,一个成功的数据挖掘操作必须要有大规模数据预处理过程和去噪过程,以避免出现“垃圾数据输入,垃圾数据输出”这样的情况。由于社会媒体数据自身的一些特点,它包含了很大一部分噪声数据。对于社会媒体数据,我们注意到如下两个重要的观察结果:(1) 盲目地去除噪声数据会加剧大数据悖论问题,这是因为去噪的同时也会将有价值的信息过滤掉;(2) 对于噪声数据的定义是复杂且相对的,因为这取决于我们要完成什么样的任务。
评价困境(Evaluation Dilemma)。数据挖掘中常用的模式评价方法是收集准确、客观的数据用于验证。例如,一个数据集可以分成训练集和测试集。只有训练集被用来学习,而测试集则当作标准答案进行测试。然而,在社会媒体挖掘中往往没有一个标准的答案。如何评价从社会媒体中挖掘出来的模式,给我们提出了一个看似难以逾越的挑战。另一方面,如果没有可靠的评价手段,如何才能够保证我们挖掘出来的模式是正确的呢?
本书涵盖了一些基础概念和基本原理,它们将帮助读者思考和设计出可以解决社会媒体挖掘固有挑战的方案。
我一直对人与技术之间的互动关系感到着迷,尤其是社交媒体的兴起,更是改变了我们沟通、获取信息甚至认知世界的方式。这本书的内容,恰恰触及了这一核心议题,并且以一种非常全面和深刻的方式进行了探讨。作者在书中构建了一个宏大的叙事,从社交媒体的起源和演变,到用户行为的分析,再到信息传播的机制,层层递进,引人入胜。我特别欣赏作者对于用户心理的解读,他/她深入分析了人们在社交媒体上的动机,比如寻求认同、表达自我、获取信息等等,并且将其与平台的设计和算法的运作机制相结合,形成了一个完整的解释体系。书中的案例分析也非常有启发性,例如,作者对热门话题的传播路径、谣言的扩散机制以及社群的形成和发展等都进行了细致的剖析。这些分析不仅具有学术价值,更对我们理解当下社会现象提供了重要的参考。阅读过程中,我时常会反思自己在社交媒体上的行为,以及这些行为是如何被算法所塑造和引导的,这种自我审视的过程让我更加清醒地认识到技术对个体的影响。
评分这本书给我的感觉就像是在一个巨大的数据海洋里航行,而作者就是那位经验丰富的船长,他/她不仅为我指明了方向,还教会了我如何解读海图。书中所涵盖的知识点非常广泛,从基础的数据科学概念,到复杂的机器学习模型,再到具体的应用场景,几乎涵盖了当下与信息处理和分析相关的所有重要领域。我尤其欣赏作者在阐述理论时,所表现出的严谨性和逻辑性,每一个论证都建立在坚实的基础之上,让我能够信服。同时,书中的实践指导也给我留下了深刻的印象。作者不仅仅是告诉我们“是什么”,更是教会我们“怎么做”。例如,书中提供了大量的代码示例和操作指南,让我能够将书本上的理论知识转化为实际操作,这对于想要将所学应用于实际工作中的读者来说,是极其宝贵的。此外,书末的参考文献和扩展阅读列表,也为我提供了进一步深入学习的途径,这让我感受到作者的用心良苦,希望读者能够在此基础上,不断拓展自己的知识边界。这本书无疑是我在这个快速变化的数字时代,一本不可多得的宝藏。
评分我一直对信息爆炸时代下,那些隐藏在海量数据中的规律和洞察深感兴趣,这本书的名字就直接触动了我的好奇心。在朋友的推荐下,我抱着学习和探索的心态购入了它。拿到书的那一刻,我首先被它扎实的理论基础所吸引,作者似乎花了相当大的篇幅来构建一个严谨的学术框架,从数据收集的方法论到各种分析模型的原理,都讲解得细致入微。我尤其欣赏作者在解释复杂概念时,所采用的类比和实例,这让原本晦涩难懂的专业术语变得生动易懂,让我这个非专业读者也能逐渐领略到其中的奥妙。书中的案例研究部分更是精彩绝伦,作者选取了多个贴近现实的场景,深入剖析了如何运用书中的理论和工具来解决实际问题。这些案例不仅展示了技术的力量,更体现了作者对社会现象的深刻洞察。阅读过程中,我时常会停下来,思考书中所提出的观点,并将其与我日常接触到的信息进行对比,这种互动式的阅读体验,让我收获良多。总的来说,这本书为我提供了一个看待和理解当下信息时代的新视角,让我更加清晰地认识到隐藏在数字洪流中的巨大价值。
评分最近几年,人工智能和大数据的发展速度真是令人目不暇接,感觉每天都有新的技术和应用涌现。我一直想找一本能够系统梳理这些前沿知识的书籍,刚好在书店偶然看到了它。这本书的内容给我带来了极大的惊喜,它不仅仅停留在概念的层面,而是深入到技术实现的细节,并且对未来的发展趋势也进行了大胆的预测。我特别喜欢书中关于算法的讲解,作者用一种非常直观的方式,展示了不同的算法是如何工作的,以及它们各自的优缺点。这让我对那些在背后默默驱动着我们日常使用的各种应用的“大脑”有了更深的认识。此外,书中还讨论了数据隐私和伦理问题,这在当下尤其重要。作者以一种非常客观和审慎的态度,分析了在利用数据的同时,如何平衡个人隐私和公共利益,这让我觉得这本书非常有深度和社会责任感。我甚至发现书中介绍的一些工具和技术,我已经在我自己的工作和学习中有所应用,并且收到了很好的效果。这本书就像一位经验丰富的向导,带领我穿越信息时代的丛林,让我不再迷失方向。
评分这本书的封面设计极具吸引力,深邃的蓝色背景下,交织着无数闪烁的光点,仿佛浩瀚的数字星辰。初拿到手时,我就被这种神秘而现代的视觉语言所吸引,仿佛预示着即将展开一段探索未知数字世界的旅程。这本书的纸张质感也相当不错,触感温润,散发着淡淡的墨香,这对于一个习惯了纸质阅读的我来说,无疑是一种享受。我特别喜欢它那种恰到好处的厚度,既能承载足够的内容,又不至于过于沉重,方便携带。翻开书页,清晰的排版和合理的行距让我阅读起来倍感舒适,即使是深夜在灯光下阅读,也不会感到眼睛疲劳。封底的文字更是点睛之笔,用简洁而富有哲理的语言概括了本书的核心主题,让人在阅读之前就对书中可能蕴含的智慧充满期待。我甚至注意到书的装帧工艺非常考究,书脊处的缝合紧密牢固,即使经常翻阅,也不易散架,这让我相信这本书能够陪伴我度过一段相当长的时间。总而言之,从拿到书的第一刻起,这本书就以其精美的外观和细腻的触感,赢得了我极高的好感度,让我迫不及待地想要沉浸其中,去探索它所描绘的那个引人入胜的世界。
评分非常好!
评分很不错,让我们这些做理论的看到了业界实际的成果
评分不错 物流很快
评分不错的 商品 不错的 商品
评分满意
评分需要评价的东西太多了,都还可以,就这样吧
评分不错。,
评分商品是否给力?快分享你的购买心得吧~
评分宝贝不错,收到好久了
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有