具体描述
内容简介
网络将物理世界的自然资源和心理世界的智慧资源联系在一起,拥有无限的数据资源。数据挖掘是目前开发数据资源,探索未知世界的*先进方法。数据挖掘突破了传统数据分析理论的应用局限,利用高性能计算逼近数据规律的真相。R语言则以其开源性、全面性、易用性和可扩充性,成为数据挖掘实践*有效的工具。本书围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标,深入浅出地讨论了众多经典数据挖掘方法、R语言实现以及案例。
本书可作为高等院校相关专业本科生和研究生的数据挖掘教材使用,也适合科研机构、政府和企业经营管理部门等研究人员阅读参考。
作者简介
薛薇,中国人民大学应用统计中心副主任,中国人民大学统计学院副教授。主要研究领域:数据挖掘、文本挖掘、复杂网络建模。关注统计和数据挖掘算法及软件应用,统计数据库系统研发等方面。涉足交通、金融、贸易等复杂网络动态建模,电商数据分析,网络新媒体舆论传播、热点事件主题跟踪和预测建模,政府和官方微博、学科学术热点跟踪等文本挖掘,以及社会网络分析和以数据挖掘为依托的客户关系管理等领域。
目录
第1章数据挖掘与R语言概述
1.1什么是数据挖掘
1.2数据挖掘的结果
1.3数据挖掘能做什么
1.4数据挖掘方法的特点
1.5数据挖掘的典型应用
1.6R语言入门必备
1.7本章函数列表
第2章R的数据组织和整理
2.1R的数据对象
2.2向量的创建和访问
2.3矩阵的创建和访问
2.4数据框的创建和访问
2.5数组和列表的创建和访问
2.6数据对象的相互转换
2.7导入外部数据和保存数据
2.8R语言程序设计基础
2.9R语言数据整理和程序设计综合应用
2.10本章函数列表
第3章R的数据可视化
3.1绘图基础
3.2单变量分布特征的可视化
3.3多变量联合分布特征的可视化
3.4变量间相关性的可视化
3.5GIS数据的可视化
3.6文本词频数据的可视化
3.7本章函数列表
第4章R的近邻分析:数据预测
4.1近邻分析:K近邻法
4.2基于变量重要性的加权K近邻法
4.3基于观测相似性的加权K近邻法
4.4本章函数列表
第5章R的决策树:数据预测
5.1决策树算法概述
5.2分类回归树的生长过程
5.3分类回归树的剪枝
5.4分类回归树的R函数和应用示例
5.5建立分类回归树的组合预测模型
5.6随机森林
5.7本章函数列表
第6章R的人工神经网络:数据预测
6.1人工神经网络概述
6.2B�睵反向传播网络
6.3B�睵反向传播网络的R函数和应用示例
6.4本章函数列表
第7章R的支持向量机:数据预测
7.1支持向量分类概述
7.2线性可分问题下的支持向量分类
7.3广义线性可分问题下的支持向量分类
7.4线性不可分问题下的支持向量分类
7.5多分类的支持向量分类
7.6支持向量回归
7.7R的支持向量机及应用示例
7.8本章函数列表
第8章R的一般聚类:揭示数据内在结构
8.1聚类分析概述
8.2基于质心的聚类模型:K�睲eans聚类
8.3基于质心的聚类模型:PAM聚类
8.4基于联通性的聚类模型:层次聚类
8.5基于统计分布的聚类模型:EM聚类
8.6本章函数列表
第9章R的特色聚类:揭示数据内在结构
9.1BIRCH聚类
9.2SOM网络聚类
9.3基于密度的聚类模型:DBSCAN聚类
9.4本章函数列表
第10章R的关联分析:揭示数据关联性
10.1简单关联规则及其测度
10.2Apriori算法及应用示例
10.3Eclat算法及应用示例
10.4简单关联分析的应用示例
10.5序列关联分析及SPADE算法
10.6本章函数列表
第11章R的模式甄别:诊断异常数据
11.1模式甄别方法和评价概述
11.2模式甄别的无监督侦测方法及应用示例
11.3模式甄别的有监督侦测方法及应用示例
11.4模式甄别的半监督侦测方法及应用示例
11.5本章函数列表
第12章R的网络分析初步
12.1网络的定义表示及构建
12.2网络节点重要性的测度
12.3网络子群构成特征研究
12.4网络整体特征刻画
12.5主要网络类型及特点
12.6本章函数列表
精彩书摘
我们已经步入一个大数据时代。大数据时代不仅仅意味着数据的积累与存储,更意味着对数据的建模与分析。
近年来,数据挖掘不断汲取并集成机器学习、统计学和可视化等学科领域的研究成果,在众多行业获得了可观的应用案例,造就了卓有成效的发展。这一切使得大数据分析不再是一种漂浮在云端、飞翔在风口的奢望,大数据分析已日益成为许多个人、企业和组织进行科学决策的重要方法工具。
由于采取彻底的开放性策略,R语言已成为近年来出类拔萃的数据挖掘工具之一。其特点主要是:开源性,即可以免费下载并升级;全面性,即数据挖掘方法丰富,覆盖面广;操作简便性,即直接采用函数调用相关算法,通过简单编程即可完成复杂的数据处理和方法拓展;可扩展性,即R语言通过网络社区平台吸引越来越多的专家学者和应用人员成为开发者,为R语言不断增添更有效、更前沿的数据挖掘方法。所以,R语言是一款应用前景广阔的数据挖掘工具。
本书以数据挖掘概念和R语言入门开篇,目的是使读者能够快速总览数据挖掘的理论轮廓,厘清相关概念,掌握R语言入门和深入学习的路线。后续,本书以数据挖掘过程为线索,以应用实例为辅助,详细讨论R语言数据挖掘的数据组织和整理、可视化图形、主流数据挖掘方法原理和算法步骤以及应用实现等内容。其间,为使读者快速入门R语言,起步数据挖掘的实践应用,本书首先系统介绍了R语言的数据对象、常用系统函数、流程控制等服务于数据组织和整理的程序设计基础知识,以及R的各种主流可视化图形。然后,围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标,依次讨论了诸多主流数据挖掘方法和R的实现过程,涉及近邻分析、决策树、人工神经网络、支持向量机、聚类算法、关联规则、模式甄别、网络分析等众多经典模型和算法。覆盖内容之广泛,R实现步骤之详尽,数据应用之经典,都是国内外同类书籍中不多见的。这是本书的特点之一。
同时,R语言数据挖掘中的数据挖掘方法是核心,R语言实现是形式,两者是“道”与“术”的关系。我们认为“道”和“术”的结合,无论对数据挖掘的初学者还是应用实践者都是必要的。“道”是原理,此原理不是数学公式的简单罗列,而是给出直观透彻的方法认知。“术”是操作,此操作不是函数命令的简单呈现,而是算法实现和应用的通用模板,是帮助读者实现数据挖掘实践的有效工具。本书力图阐述“道”,利用R语言充分展现“道”,通过有代表性的数据案例,画龙点睛地阐明“术”。每章都配有案例数据和R程序代码,使读者不但知其然,更知其所以然。这是本书的特点之二。
进一步,目前R语言包的数量已多达7000多个,而且还在快速增长。R的开放性决定了可能有诸多包都可以实现相同的数据挖掘算法。对此,本书选择R中主流且被有效验证和广泛使用的包,既保证经典性,也兼顾有效性,同时解决了初学者因陷于众多R的“包”围中而无从下手的问题。这是本书的特点之三。
最后,对R语言数据挖掘的初学者,建议按照本书章节结构,循序渐进地学习,并参照书中示例,边学边做,以加深概念理解和提升R语言熟练度。对有一定R语言基础或数据挖掘应用经验的学习者,因本书各章节具有相对独立性,所以采用“以数据为导向”和“以问题为导向”的有针对性的R语言数据挖掘学习策略均是可行的。
本书努力迎合广大R语言数据挖掘读者的主流需求,适合高等院校相关专业的本科生和研究生学习使用,以及商业企业、科研机构、政府管理部门等相关人员阅读参考。请读者到中国人民大学经管图书在线(http://www.rdjg.com.cn)下载本书案例数据和R程序代码。
特别感谢中国人民大学出版社对本书出版的大力支持,感谢王珏、刘茜、王艳红、周天旺、要卓、陈笑语等同学对本书的贡献。书中不妥和错误之处,望读者不吝指正。
薛薇 前言/序言
《数据科学实战:从理论到应用的Python之路》 内容概述: 本书旨在为读者提供一个全面而实用的数据科学学习路径,聚焦于当下最流行、功能最强大的Python生态系统。我们不仅仅停留在理论概念的讲解,更强调在真实世界数据集上的实践操作,帮助读者掌握从数据获取、清洗、探索性分析、建模、评估到最终部署的完整流程。本书适合希望进入数据科学领域,或者正在从事相关工作的专业人士,以期提升其在Python环境下进行数据分析和建模的能力。 核心内容板块: 第一部分:数据科学基础与Python入门 1. 数据科学概览: 数据科学的核心概念、流程与职业发展前景。 区分数据科学、机器学习、人工智能等相关概念。 现代数据科学技术栈的介绍(Python、R、SQL、大数据工具等)。 如何构建高效的学习计划和研究方法。 2. Python语言基础回顾与强化: Python语法核心回顾:变量、数据类型、运算符、控制流(条件语句、循环)。 函数与模块:函数定义、参数传递、返回值、内置函数、标准库模块的使用。 数据结构:列表、元组、字典、集合的深入理解与应用。 面向对象编程(OOP)基础:类、对象、继承、多态(侧重于在数据科学库中的应用)。 文件I/O:读取与写入各种类型的文件(CSV, JSON, TXT)。 3. 核心数据科学库介绍与安装: NumPy (Numerical Python): ndarray对象:创建、索引、切片、形状操作。 向量化运算:理解与应用,提升计算效率。 数组广播机制。 数值计算函数:统计、线性代数、随机数生成。 Pandas (Python Data Analysis Library): Series和DataFrame:核心数据结构,创建、操作、索引。 数据加载与保存:CSV, Excel, SQL数据库等。 数据清洗与预处理:缺失值处理(删除、填充)、重复值处理、数据类型转换。 数据筛选与排序。 数据分组与聚合(groupby):强大的数据汇总能力。 数据合并与连接(merge, join, concat)。 时间序列数据处理。 Matplotlib & Seaborn (数据可视化): Matplotlib基础:创建图形、子图、添加标签、图例、自定义样式。 Seaborn高级可视化:基于Matplotlib,提供更美观、更便捷的统计图形(散点图、线图、柱状图、直方图、箱线图、热力图等)。 探索性数据分析(EDA)中的可视化应用。 第二部分:数据探索、清洗与特征工程 4. 探索性数据分析 (EDA) 实战: 理解数据的基本统计特征:均值、中位数、方差、标准差、分位数等。 变量分布的可视化:直方图、密度图、箱线图。 变量之间的关系分析:散点图、相关系数矩阵、配对图。 识别异常值与离群点。 探索性数据分析在理解业务问题中的作用。 5. 数据清洗与预处理进阶: 处理不同类型的数据:数值型、类别型、文本型、日期型。 字符串处理:正则表达式、文本清洗(去除特殊字符、标准化)。 数据转换:对数变换、平方根变换、标准化(StandardScaler)、归一化(MinMaxScaler)。 处理不平衡数据集(初步介绍)。 6. 特征工程: 理解特征工程的重要性:提升模型性能的关键。 创建新特征:组合特征、多项式特征、交互特征。 编码类别型特征: One-Hot Encoding (独热编码)。 Label Encoding (标签编码)。 Target Encoding (目标编码,介绍)。 处理时间序列特征:提取年、月、日、星期、季度等。 特征选择方法(初步介绍):过滤法、包裹法、嵌入法。 第三部分:机器学习建模与评估 7. 机器学习基础理论与模型选择: 监督学习、无监督学习、半监督学习。 回归与分类任务。 过拟合与欠拟合的理解。 交叉验证(Cross-Validation)的重要性与实现。 模型评估指标: 回归:MSE, RMSE, MAE, R-squared。 分类:Accuracy, Precision, Recall, F1-score, AUC-ROC曲线。 8. 常用监督学习算法实战: 线性回归 (Linear Regression): 模型原理与假设。 在Python中的实现(Scikit-learn)。 模型诊断与解释。 逻辑回归 (Logistic Regression): 用于分类任务的原理。 Sigmoid函数与概率输出。 在Python中的实现。 决策树 (Decision Trees): 构建原理(ID3, C4.5, CART)。 剪枝与防止过拟合。 在Python中的实现。 支持向量机 (Support Vector Machines - SVM): 线性SVM与核技巧(Kernel Trick)。 常用核函数(线性、多项式、RBF)。 在Python中的实现。 K近邻算法 (K-Nearest Neighbors - KNN): 原理与距离度量。 K值的选择。 在Python中的实现。 集成学习方法 (Ensemble Methods): 随机森林 (Random Forests): Bagging原理。 在Python中的实现。 梯度提升树 (Gradient Boosting Machines - GBM): Boosting原理。 XGBoost、LightGBM等常用库的介绍与应用(侧重XGBoost)。 9. 常用无监督学习算法实战: K-Means聚类: 聚类原理与步骤。 K值的选择(肘部法则、轮廓系数)。 在Python中的实现。 主成分分析 (Principal Component Analysis - PCA): 降维原理与目的。 方差最大化思想。 在Python中的实现。 第四部分:模型部署与项目实战 10. 模型评估与调优: 超参数调优:网格搜索(GridSearchCV)、随机搜索(RandomizedSearchCV)。 模型选择与比较。 防止数据泄露。 11. 文本数据处理与分析 (NLP基础): 文本数据预处理:分词、去除停用词、词干提取/词形还原。 文本表示:词袋模型(Bag-of-Words, BoW)、TF-IDF。 简单的文本分类(如垃圾邮件检测)。 12. 数据库交互与数据抓取: SQL基础回顾与Python中连接数据库(SQLite, PostgreSQL, MySQL)。 Web抓取基础:BeautifulSoup,Scrapy(介绍)。 13. 数据科学项目流程与最佳实践: 端到端数据科学项目案例分析。 版本控制(Git)在数据科学项目中的应用。 代码规范与文档编写。 团队协作。 第五部分:进阶主题与未来方向 14. 深度学习入门(选讲): 神经网络基本原理。 TensorFlow/Keras 或 PyTorch 基础介绍。 简单图像识别或文本建模示例。 15. 大数据技术简介: Spark、Hadoop生态系统概述。 在Python中与大数据工具交互(如PySpark)。 16. 数据科学伦理与合规: 数据隐私、公平性、可解释性。 学习目标: 通过本书的学习,读者将能够: 熟练掌握Python及其核心数据科学库(NumPy, Pandas, Matplotlib, Seaborn)进行数据处理和分析。 深入理解数据科学项目的工作流程,并能在实际项目中应用。 独立完成探索性数据分析,发现数据中的洞察。 进行有效的数据清洗和特征工程,为模型构建打下坚实基础。 理解和应用多种主流机器学习算法,并能根据问题选择合适的模型。 评估和调优机器学习模型,以达到最佳性能。 初步接触文本数据分析、数据库交互和Web抓取。 了解大数据技术和深度学习的入门知识。 掌握构建、评估和沟通数据科学解决方案的实战能力。 适用读者: 对数据科学感兴趣的初学者。 希望提升Python数据分析技能的软件工程师、分析师。 统计学、数学、计算机科学等相关专业的学生。 需要将数据驱动方法应用于业务决策的管理者和产品经理。 任何希望掌握数据科学核心技能,并在职业生涯中更进一步的专业人士。 本书强调“实战”,每一章都包含丰富的代码示例、练习题和小型项目,旨在帮助读者将理论知识转化为解决实际问题的能力。我们相信,通过系统学习和大量实践,读者将能够自信地迈入数据科学的世界,并在这个快速发展的领域取得成功。