随着互联网技术的快速发展和广泛应用,网络媒体已经成为重要的信息传播和交流平台,同时也是网络舆情形成和传播的主要载体。网络舆情通常由突发社会公共事件触发,反映了人们对某一公共事件所表达的认知、态度、情感和倾向性,具有虚拟化、快捷化、多元化、开放性、匿名性及互动性等特点。随着网络舆论影响力的增强,网络舆情已经成为各级政府了解社情民意的重要窗口。 随着网络舆论对社会和公众影响的不断增大,出现了网络炒作、造谣传谣等不良的现象,损害了网络媒体公信力,扰乱了网络正常传播秩序,产生了错误的舆论导向,极易引发社会群体性事件。因此,加强互联网管理和舆论治理非常重要和必要。 国家大力推进网络舆情监控体系建设,加强对网络舆情监测和引导。网络舆情监测系统在互联网舆情监测中发挥了重要的作用,其系统核心技术就是网络舆情分析技术。网络舆情分析技术主要涉及网络信息采集技术、网络舆情传播机制、话题检测与跟踪技术、文本分割技术、文本情感分析技术等。本书主要介绍了网络舆情分析所涉及的主要方法和关键技术,全书共有7章,分别介绍了网络舆情概论、网络信息采集技术、微博网络信息传播机制、网络论坛舆情传播机制、话题检测与跟踪技术、文本分割技术和文本情感分析技术。在介绍主要模型和算法时,还给出了模型和算法的实验验证,以便读者加深对模型和算法的理解。本书可作为网络空间安全学科相关专业的研究生和本科生教材,也可作为从事相关工作的科技人员及管理人员的参考书。
目 录
第1章 网络舆情概论 1
1.1 网络舆情概述 1
1.1.1 舆情与舆论 1
1.1.2 网络舆情 2
1.1.3 网络舆情演化 3
1.1.4 网络舆情实例 5
1.2 网络舆论空间治理 8
1.2.1 网络炒作问题 8
1.2.2 网络大V问题 9
1.2.3 政务微博作用 10
1.3 网络舆情传播平台 13
1.3.1 微博网络 13
1.3.2 网络论坛 15
1.4 网络舆情分析技术 16
1.4.1 网络舆情监测系统 16
1.4.2 网络信息采集技术 17
1.4.3 话题检测与跟踪技术 20
1.4.4 文本情感分析技术 22
第2章 网络信息采集技术 25
2.1 引言 25
2.2 搜索引擎概念 25
2.2.1 通用搜索引擎 25
2.2.2 主题搜索引擎 27
2.3 网络蜘蛛概念 29
2.3.1 基本概念 29
2.3.2 通用蜘蛛 29
2.3.3 主题蜘蛛 32
2.4 网页搜索算法 34
2.4.1 网页特征选取 34
2.4.2 网页搜索算法 36
2.4.3 链接分级搜索 41
2.5 网页相似度计算 43
2.5.1 向量空间模型 44
2.5.2 相似度计算 45
2.6 主题蜘蛛组成 48
2.6.1 系统结构 48
2.6.2 主题确立模块 49
2.6.3 爬行模块 49
2.6.4 相似度计算模块 53
2.6.5 搜索策略模块 53
2.6.6 系统界面 54
第3章 微博网络信息传播机制 56
3.1 引言 56
3.2 微博用户转发特性 57
3.2.1 转发行为特性 57
3.2.2 转发特性分析 61
3.3 微博转发行为预测 66
3.3.1 预测算法 66
3.3.2 算法验证 72
3.4 微博转发峰值分析 76
3.4.1 时间序列概念 76
3.4.2 峰值特性分析 77
3.5 微博意见领袖识别 87
3.5.1 识别方法 87
3.5.2 算法验证 89
第4章 网络论坛舆情传播机制 94
4.1 引言 94
4.2 网络论坛舆情形成模型 95
4.2.1 网络论坛结构 95
4.2.2 舆情形成模型 96
4.2.3 模型验证 98
4.3 网络论坛意见领袖识别 100
4.3.1 论坛有向网络图模型 101
4.3.2 论坛意见领袖识别算法 102
4.3.3 算法验证 103
4.4 网络水军热帖检测 106
4.4.1 热点话题特征提取 107
4.4.2 水军热帖检测算法 110
4.4.3 算法验证 110
4.5 网络水军账号检测 112
4.5.1 检测算法 113
4.5.2 算法验证 116
第5章 话题检测与跟踪技术 119
5.1 引言 119
5.2 基本概念 120
5.2.1 TDT目标和任务 120
5.2.2 TDT语料 122
5.2.3 TDT评价指标 122
5.3 相关技术 124
5.3.1 表示模型 124
5.3.2 相似度计算 125
5.3.3 特征项选取 126
5.3.4 文本聚类 127
5.3.5 文本分类 130
5.4 话题检测算法 133
5.4.1 K-MEANS算法 133
5.4.2 模糊聚类方法 135
5.4.3 蚁群聚类算法 138
5.4.4 算法验证 139
5.5 话题跟踪算法 145
5.5.1 KNN算法及改进 145
5.5.2 算法验证 146
5.6 热点话题检测 148
5.6.1 检测方法 148
5.6.2 算法验证 151
第6章 文本分割技术 155
6.1 引言 155
6.2 基本概念 156
6.2.1 文本分割点 156
6.2.2 文本分割方法 157
6.2.3 文本分割算法评价 159
6.3 基于LDA模型的文本分割 161
6.3.1 LDA模型 161
6.3.2 LDA模型改进 165
6.3.3 相似度计算 167
6.3.4 边界识别策略 168
6.3.5 算法验证 169
6.4 基于VSM模型的文本分割 174
6.4.1 特征项选取 174
6.4.2 语义段分割方法 176
6.4.3 算法验证 179
第7章 文本情感分析技术 181
7.1 引言 181
7.2 基本概念 182
7.2.1 文本情感分析层次 182
7.2.2 文本情感分析方法 184
7.2.3 语言建模方法 184
7.3 句子情感分析方法 185
7.3.1 主题句识别方法 185
7.3.2 主观句识别方法 189
7.3.3 主观关系识别方法 192
7.3.4 算法验证 195
7.4 段落情感分析方法 198
7.4.1 语义段句子情感标注 199
7.4.2 语义段句子权重计算 199
7.4.3 语义段情感计算方法 200
7.4.4 算法验证 202
7.5 文本情感分析模型 205
7.5.1 文本情感模型 205
7.5.2 模型参数估计 208
7.5.3 语言模型评价 209
7.5.4 算法验证 211
参考文献 214
前 言
随着互联网技术的快速发展和广泛应用,网络媒体已经成为重要的信息传播和交流平台,网络媒体被称为继报纸、杂志、广播、电视四大传统媒体之后的第五媒体,人们通过网络媒体提供的新闻、微博、论坛、博客等网络服务可以快捷地交流和共享信息资源,实现广泛的沟通交流,受众不仅仅是信息的接收者,同时也是信息的传播者。因此,网络媒体成为民众表达民意、交流情感的主要窗口,同时也是网络舆情形成和传播的载体。
网络舆情通常由突发社会公共事件触发,反映了人们对某一公共事件所表达的认知、态度、情感和倾向性,具有虚拟化、快捷化、多元化、开放性、匿名性及互动性等特点,主要通过网络新闻、微博、论坛帖子、博客博文等网络媒体进行传播,其中微博网站和网络论坛是主要的信息传播平台。随着网络舆论影响力的增强,网络舆情已经成为各级政府了解社情民意、改进工作作风、提高执政能力的重要窗口。
随着网络舆论对社会和公众影响的不断增大,出现了以网络炒作为营生的网络公关公司、网络推手、网络水军等。网络公关公司以营利为目的,为了炒作某个话题、人物或产品,雇佣了大量的网络水军,在网络推手的组织下,短时期内在互联网的各大网络论坛上大量地发布煽动性帖子,并通过跟帖、转帖及编发评论等方式炮制网络热点事件,营造虚假民意,从而形成虚假的网络舆情。网络公关公司、网络推手、网络水军等形成了灰色利益链,他们在实现“客户”利益的同时也获得自身利益。随着微博的兴起,网络水军把造谣和传谣的主要阵地从网络论坛转至微博,形成了网络推手、网络水军造势和网络大V的转发影响力相结合的网络谣言制造和传播的灰色利益链,个别网络大V在突发重大公共事件中发表不当言论,或者以“求辟谣”、“求证”等方式故意扩散谣言,导致不明真相的网民盲目跟风,损害了网络媒体公信力,扰乱了网络正常传播秩序,产生了错误的舆论导向,危及政府的公信力,极易引发社会群体性事件。
中央高度重视互联网管理和舆论治理,在《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》中指出,“牢牢把握正确舆论导向,健全社会舆情引导机制,传播正能量。加强网上思想文化阵地建设,实施网络内容建设工程,发展积极向上的网络文化,净化网络环境”。国家通过开展打击网络谣言等专项行动,依法惩戒了利用互联网进行造谣惑众的“秦火火”、“立二拆四”等网络大V,使不法网络大V和网络谣言遭到压制性打击,一些被称为“推墙派”、“凿船派”、“体制婊”的网络负能量群体被有效遏制,网络舆论空间逐步呈现风清气正之势。
由于网络舆情已成为各级政府了解社情民意的重要窗口,因此国家大力推进网络舆情监控体系建设,各级宣传主管部门以及主流新闻媒体等都设立了网络舆情监测机构,加强对网络舆情监测和引导。在网络舆情监测中,面对海量的网络信息,必须借助于信息技术来实现网络舆情监测的自动化和智能化。于是,各种网络舆情监测系统便应运而生,其系统核心技术就是网络舆情分析技术。
网络舆情分析技术是一种大数据应用,首先需要对网络舆情来源的网络信息进行实时监测和采集,然后对采集到的网络信息进行处理和分析,主要涉及网络信息采集技术、网络舆情传播机制、话题检测与跟踪技术、文本分割技术、文本情感分析技术等。网络舆情分析技术属于交叉性技术,涉及自然语言处理、计算语言学、人工智能、机器学习、信息检索、数据挖掘等多个研究领域和学科方向。
本书主要介绍网络舆情分析所涉及的主要方法和关键技术,全书共有7章,第1章为网络舆情概论,主要介绍网络舆情概述、网络舆论空间治理、网络舆情传播平台、网络舆情分析技术等内容;第2章为网络信息采集技术,主要介绍搜索引擎概念、网络蜘蛛概念、网页搜索算法、网页相似度计算、主题蜘蛛组成等内容;第3章为微博网络信息传播机制,主要介绍微博用户转发特性、微博转发行为预测、微博转发峰值分析、微博意见领袖识别等内容;第4章为网络论坛舆情传播机制,主要介绍网络论坛舆情形成模型、网络论坛意见领袖识别、网络水军热帖检测、网络水军账号检测等内容;第5章为话题检测与跟踪技术,主要介绍话题检测与跟踪的基本概念、相关技术、话题检测算法、话题跟踪算法、热点话题检测等内容;第6章为文本分割技术,主要介绍文本分割的基本概念、基于LDA模型的文本分割、基于VSM模型的文本分割等内容;第7章为文本情感分析技术,主要介绍文本情感分析的基本概念、句子情感分析方法、段落情感分析方法、文本情感分析模型等内容。
本书在介绍主要模型和算法时,还给出了模型和算法的实验验证,以便读者加深对相关模型和算法的理解。本书可以作为网络空间安全学科相关专业的研究生和本科生教材,对从事相关工作的科技人员及管理人员也能起到很好的参考和启示作用。
由于网络舆情分析技术比较复杂,本书很难覆盖相关技术的方方面面,难免存在不足和疏漏之处,欢迎广大读者批评指正。
本书的主要内容来自于作者及其研究团队的工作总结,张博、罗知林、徐会杰、石磊、杨惠、樊娜及彭冬等同志参与了相关研究工作,并为本书的撰写做出了贡献,对此表示感谢。
最后,感谢西北工业大学教材专著出版基金对本书的大力资助。
作 者
于西北工业大学
这本书简直是为我量身定制的!我最近一直在研究社交媒体上的热门话题,总觉得欠缺一个系统的方法论。这本书的结构非常清晰,从基础的数据抓取到复杂的文本挖掘,每一步都讲解得深入浅出。特别是它对不同类型舆情事件的案例分析,简直是教科书级别的。我记得有一章专门讲了如何识别“情绪漂移”,这对我过去工作中遇到的很多困惑都提供了全新的视角。作者显然在这方面下了大功夫,不仅有理论支撑,还有大量实战经验的总结。读完后,我感觉自己对整个舆情分析的流程都有了一个鸟瞰式的理解,不再是零散的知识点了。作者的文笔流畅自然,读起来完全没有那种枯燥的技术手册感,反而像是一位资深的专家在与你面对面交流,循循善诱地引导你进入这个领域。这本书的价值,在于它提供的不仅仅是“工具”,更是一种“思维框架”。
评分说实话,我对这种技术类的书籍通常持保留态度,很多都会陷入晦涩难懂的公式和算法堆砌,但《网络舆情分析技术》完全颠覆了我的印象。它的叙述方式非常注重“应用场景”,这一点我尤其欣赏。比如,书中详细拆解了如何利用自然语言处理技术来量化公众的“满意度”和“抵触情绪”,并且给出了可以直接操作的步骤和代码示例(虽然我不是程序员出身,但看懂其中的逻辑已经足够了)。我特别喜欢它探讨的“预警机制”部分,它不再是简单地告诉你“数据很重要”,而是教你如何设定合理的阈值,在危机发生前就捕捉到蛛丝马迹。这对于任何需要进行品牌维护或危机公关的专业人士来说,都是无价之宝。这本书的深度和广度兼具,读完后,我立刻尝试将书中的一些方法应用到我正在负责的一个小项目中,效果立竿见影,数据分析的效率和准确性都有了显著提升。
评分拿到这本书时,我最大的疑虑是它会不会太“时效性”强,转眼就过时了。然而,阅读体验表明,这本书的内核是非常稳固和长远的。它花了大量篇幅讲解的是基础算法原理和逻辑构建,而不是依赖于某个特定平台的热门功能。我尤其欣赏其中关于“话题聚类”和“情感倾向性词典构建”的章节,这些是任何舆情分析工作都绕不开的基础功。作者没有回避技术本身的复杂性,而是用清晰的类比和层层递进的解释,让一个非技术背景的读者也能跟上节奏。这本书的节奏感把握得极好,既有宏观的战略思考,也有微观的战术执行指导。它更像是一本“方法论的基石”,而不是一本“工具箱”,确保读者在未来面对新的技术浪潮时,依然能保持分析的定力与准确性。
评分我是一个偏向定性研究的学者,起初对这种偏向“技术实现”的书籍兴趣不大,但朋友极力推荐后我还是翻阅了。结果发现,这本书的理论基础构建得异常扎实,它并非只是停留在操作层面。作者对“舆情”这一概念的定义、演变,以及其背后的社会心理学动因的探讨,非常深刻。它将冰冷的技术手段,融入了对人性的洞察之中。比如,书中关于“沉默的螺旋”在网络环境下的变体分析,让我对当前的信息传播生态有了更深层次的理解。它巧妙地将传播学理论与最新的数据挖掘算法结合起来,形成了一种跨学科的分析视角。这本书的价值在于,它不只教你“如何做”,更教你“为什么这样做是合理的”,这对于希望建立自己分析体系的人来说,是最好的指路明灯。
评分这是一本能让人产生“豁然开朗”感觉的书。在我看来,目前市面上很多同类书籍都在强调“大数据”,但真正有效的方法论却很少。这本书的独特之处在于,它并没有被海量的数据所裹挟,而是精准地抓住了“有效信息”的提炼过程。它对“信息茧房”效应的分析,以及如何通过交叉验证和多源数据融合来打破这种局限,简直是神来之笔。我过去常苦恼于如何从海量的社交媒体噪音中,筛选出真正具有代表性的声音,这本书提供了一套严谨的过滤和权重分配机制。更让我惊喜的是,它还涉及到了伦理和法律的边界问题,这体现了作者的远见和责任感。这本书的排版和图示设计也做得非常用心,复杂的流程图和概念图,让人一目了然,极大地减轻了理解的负担。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有