本书适合人群:
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。
本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。
本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材。
常国珍,北京大学会计学博士,中国大数据产业生态联盟专家委员会专家委员。主要从事金融、电信行业客户画像,信用与操作风险识别与防范,客户终生价值预测与价值提升等工作。
曾珂,华中师范大学管理科学工程硕士,现为车贷金融产品部产品经理,精通Python与R语言数据挖掘。曾经就职于华为、国家电网等企业。以金融信用与欺诈风险建模、文本分析、数据可视化等为主要研究方向。
朱江,挪威科技大学工学硕士,现为CDA数据分析研究院课程开发副总监,CDA数据挖掘竞赛的评委。精通R与SAS语言数据挖掘,从事电商与互联网数据分析的教学工作。研究方向为电商推荐系统开发、数据可视化、客户特征提取和客户行为模式发现。
第1 章 商业数据分析基础
1.1 商业数据分析的本质
1.2 商业数据分析中心的建设
第2 章 数据分析的武器库
2.1 数据挖掘简介
2.2 R 语言简介
2.3 R 与RStudio 的下载和安装
2.4 在RStudio 中安装包
2.5 练习题
第3 章 R 语言编程
3.1 R 的基本数据类型
3.2 R 的基本数据结构
3.3 R 的程序控制
3.4 R 的函数
3.5 R 的日期与时间数据类型
3.6 在R 中读写数据
3.7 练习题
第4 章 R 描述性统计分析与绘图
4.1 描述性统计分析
4.2 制图的步骤
4.3 R 基础绘图包
4.4 ggplot2 绘图
4.5 练习题
第5 章 数据整合和数据清洗
5.1 数据整合
5.2 R 中的高级数据整合
5.3 R 中的抽样
5.4 R 的数据清洗
5.5 练习题
第6 章 统计推断基础
6.1 基本的统计学概念
6.2 假设检验与单样本t 检验
6.3 双样本t 检验
6.4 方差分析(分类变量和连续变量关系检验)
6.5 相关分析(两连续变量关系检验)
6.6 卡方检验(二分类变量关系检验)
6.7 练习题
第7 章 客户价值预测:线性回归模型与诊断
7.1 相关性分析
7.2 线性回归
7.3 线性回归诊断
7.4 正则化方法
7.5 练习题
第8 章 Logistic 回归构建初始信用评级
8.1 Logistic 回归的相关关系分析
8.2 Logistic 回归模型及实现
8.3 最大熵模型与极大似然法估计
8.4 模型评估
8.5 练习题
第9 章 使用决策树进行信用评级
9.1 决策树建模思路
9.2 决策树算法
9.3 在R 中实现决策树
9.4 组合算法(Ensemble Learning)
9.5 练习题
第10 章 神经网络
10.1 神经元模型
10.2 人工神经网络模型
10.3 单层感知器
10.4 BP 神经网络
10.5 RBF 神经网络
10.6 神经网络设计与R 代码实现
10.7 练习题
第11 章 分类器入门:最近邻域与贝叶斯网络
11.1 分类器的概念
11.2 KNN 算法
11.3 朴素贝叶斯
11.4 贝叶斯网络
11.5 练习题
第12 章 高级分类器:支持向量机
12.1 线性可分与线性不可分
12.2 线性可分支持向量机
12.3 线性支持向量机
12.4 非线性支持向量机
12.5 R 中的支持向量机
12.6 练习题
第13 章 连续变量的维度归约
13.1 维度归约方法概述
13.2 主成分分析
13.3 因子分析
13.4 奇异值分解
13.5 对应分析和多维尺度分析
13.6 练习题
第14 章 聚类
14.1 聚类分析概述
14.2 聚类算法逻辑
14.3 层次聚类
14.4 k-means 聚类
14.5 基于密度的聚类
14.6 聚类模型的评估
14.7 高斯混合模型(Gaussian Mixture Model)
14.8 客户分群
14.9 练习题
第15 章 关联规则与推荐算法
15.1 长尾理论
15.2 关联规则
15.3 序贯模型
15.4 推荐算法与推荐系统
15.5 练习题
第16 章 时间序列建模
16.1 认识时间序列
16.2 简单时间序列分析
16.3 平稳时间序列分析ARMA 模型
16.4 非平稳时间序列分析ARIMA 模型
第17 章 特征工程(Feature Engineering)(博文视点官方网站下载)
17.1 特征工程概述
17.2 数据预处理(Data Preprocessing)
17.3 特征构造(Feature Construction)
17.4 特征抽取(Feature Extraction)
17.5 特征选择(Feature Selection)
第18 章 R 文本挖掘(博文视点官方网站下载)
18.1 文本挖掘
18.2 文本清洗
18.3 中文分词与文档模型
18.4 文本的特征选择及相关性度量
18.5 文本分类
18.6 主题模型
18.7 综合案例
附录A 数据说明(博文视点官方网站下载)
2.1.4预测性数据挖掘算法模型示例
下面对预测性数据挖掘算法的实际应用做简要的介绍。
1.决策树
如图 2-7 所示的两个树状图展现了不同时代女性相亲的决策行为。同样是相亲, 20 世纪 70 年代的大部分女性依次看重职业、出身和才艺。其中首要决定性变量为职业,如果是军人就可以,如果不是则考虑该男性的出身,如果是“黑五类”便不考虑,相反高干出身则可以。如果都不满足则根据该男性是否有才艺进行选择;而当代大部分女性首要看重的是长相,其他考虑因素依次为专业、年龄差和星座,同意与否都根据相应变量的取值而定。决策树算法模拟了上述的决策行为,按照这些要求,可以对候选相亲男性的数据进行分类预测,然后根据预测结果找出女性心仪的男性。
2. KNN 算法
决策树以女性相亲为例,那么对于一个在婚恋交友网站注册的男性,如何预测该男性的相亲成功率呢?这里使用 KNN 算法(K-NearestNeighor,最邻近算法)进行预测。
这里采用三个变量或属性来描述一个男性,即收入、背景和长相。在已有的数据中,深灰色点代表相亲成功的人,白点代表相亲不成功的人,中间连接线条的黑点代表一个新来的男性, KNN 算法在预测这个新人相亲是否成功时,会找到他和附近的 K 个点,并根据这些点是否相亲成功来设定新人约会成功的概率,比如图 2-8 中黑点与两个深灰色点、一个白点最近,因此该点相亲成功的可能性占 2/3。
KNN 算法属于惰性算法,其特点是不事先建立全局的判别公式或规则。当新数据需要分类时,根据每个样本和原有样本之间的距离,取最近 K 个样本点的众数(Y 为分类变量)或均值(Y 为连续变量)作为新样本的预测值。该预测方法体现了一句中国的老话“近朱者赤,近墨者黑”。
3. Logistic 回归
若每个新注册的男性都要和过去每个男性的相亲经历比较才能预测相亲成功率就太麻烦了,那么有没有一种评分方法,可以根据以前男性相亲成败的数据,创建一种为新人打分的评分机制,再根据分值预测新人是否会约会成功呢?这种评分机制的算法模型是 Logistic 回归。将以往男性相亲是否成功的情况作为标准(打分),分值越高,相亲成功的可能性就越高,这个打分自然和广大女性考虑的重要因素相关,比如收入、长相等因素。
本案例将男生的收入与长相作为自变量,将相亲是否成功作为预测变量,构建 Logistic 回归模型。图 2-9 中白点代表相亲成功,可以看出随着长相与收入的上升,相亲成功的概率越来越高。
这里 Logistic 回归拟合了 P(y=1)的等高线。该值越高,说明相亲成功的概率越高。
4.神经网络
Logistic 回归做出的等高线有可能是不精确的。大家都知道,在相亲决策中,长相和收入不是等比换算的。比如收入很高的男性,只要长相不太差,那么约会成功的可能性非常高;而长相很出色的男性即使收入不高,也会被青睐。为了得到这种精确的预测结果,神经网络被发明和运用。以神经网络为例,该方法不是沿着概率的变化方向做标尺,而是与概率变化方向垂直的方向做划分。如果数据是空间线性可分的,则如图 2-10 左图所示,随机地以一条直线作为模型判断依据。如果数据是空间非线性可分的,则会得到解释因素和结果之间复杂的关系。从图中可以看出,神经网络并不像 Logistic 回归那样对数据进行线性划分,而是对数据进行非线性划分,这也是神经网格的一大特点。
前言
本书有别于其他数据挖掘书籍最大的特点在于参与写作的主要作者均为非理工科背景并具有数据挖掘岗位数年的实际工作经验,且从事 3 年以上的培训工作。这使得本书更贴近实际运用的同时,紧抓初学者的痛点,语言更浅显易懂,操作性更强。当然,这也使得本书在前沿方法的讲解上略显不足。因为一个算法要在商业数据挖掘中得到运用需要大致 3~5 年的时间。所以本书仅适合数据挖掘入门人员使用。而且本系列教材强调追求浅显易懂,只注重运用中是否够用,不关心算法知识的全面性,因此在算法推导过程中降低了难度,不涉及非关键且不易理解的部分。当读者从事数据挖掘 2~3 年后,本书的知识就不能满足其更高的需求了,需要参考内容更深入的书籍,比如更专业的《统计学习方法》、《机器学习》等。
本书按照数据挖掘工程师规范化学习体系而定,对于一名初学者,应该先掌握必要的编程工具、统计理论基础、数据挖掘算法等内容。进而,数据挖掘需要根据业务问题选择合适的方法,按照标准流程,即数据的获取、储存、整理、清洗、归约等一系列数据处理技术,并最终得出果,绘制图表并解读数据,这些内容在本书中进行了详细的讲解和操作分析。本书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用,为欲从事数据挖掘的各界人士提供一个规范化的数据分析师学习体系。
读者对象
本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数
据挖掘的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及,而且都辅以图形做形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。但是本书强调每种方法的假设、适用条件都与商业数据分析的主题匹配。在教学实践中,我们发现业务经验丰富和有较好商业模式理解的学员,在学习数据挖掘时有更好的效果,主要原因可能是这类学员有较强的思辨能力、分析能力、学习目的性和质量意识,而不是简单地模仿和套用数学公式。
工具介绍
当前, R 和 Python 等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消逝殆尽。商业数据分析的真正目的是为了解决业务的分析需求,构造稳健的数据挖掘模型。数据挖掘产品的质量是通过对分析流程的严格掌控而得以保障的。本书注重实用,直指数据挖掘实施的要点,精选业界使用最广泛的实施方案,为读者节约宝贵的时间。相对于 Python, R 偏向于统计分析、计量经济学和统计内容。 R 不仅在学术研究中拥有广泛的用户基础,而且和 Oracle、 SQL Sever 等数据库软件的结合使其不再受内存的限制,从而在商业上有了一定的用武之地。而且 R 和 Hadoop、 Spark 等大数据分析平台也可以自由连接。
阅读指南
本书包括 18 章,内容涉及使用 R 做数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章至第 8 章为统计学习方法,第 9 章至第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。为方便读者学习,本书提供书中案例的源文件下载,请读者进入 CDA 官网(http://cda.cn/view/22045.html)的相应专栏下载数据和源代码。
本书特点
本书作为 CDA 第一本数据挖掘教材,和其他统计软件图书有很大的不同,文体结构新颖,案例贴近实际,讲解深入透彻。这些特点主要表现在以下几方面。
场景式设置
本书对互联网、电商、电信、银行等商业案例进行精心归纳,提炼出各类数据分析的运用场景,方便读者查找与实际工作相似的问题。
开创式结构
本书案例中的“解决方案”环节是对问题的解决思路的解说,结合“操作方法”环节中的步骤让读者更容易理解。“原理分析”环节则主要解释所使用代码的工作原理或者详细解释思路。“知识扩展”环节是对与案例相关的知识点的补充,既能拓展读者的视野,同时也有利于理解案例本身的解决思路。
启发式描述
本书注重培养读者解决问题的思路,以最朴实的思维方式结合启发式的描述,帮助读者发现、总结和运用规律,从而启发读者快速地找出解决问题的方法。
学习方法
俗话说,“打把势全凭架势,像不像,三分样”。只有熟悉数据挖掘的流程,才能实现从模仿到
灵活运用的提升。在产品质量管理方面,对流程的掌控是成功的关键,在数据挖掘过程中,流程同样是重中之重。数据挖掘是一个先后衔接的过程,一个步骤的失误会带来完全错误的结果。一个数据挖掘的流程大致包括抽样、数据清洗、数据转换、建模和模型评估这几个步骤。如果抽样中的取数逻辑不正确,就有可能使因果关系倒置,因而得到完全相反的结论。如果数据转换方法选择不正确,模型就难以得到预期的结果。而且,数据分析是一个反复试错的过程,每一步都要求有详细的记录和操作说明,否则数据挖掘人员很可能迷失方向。学习数据挖掘最好的方法就是动手做一遍,本书语言通俗但高度凝炼,很少有公式,以避免读者麻痹大意。本书按照相关商业数据分析主题提供了相应的练习数据,同时提供相关方面的参考资料,供读者学习。
作为一个长期在数据分析领域摸爬滚打的从业者,我见过太多的“理论派”书籍,它们固然知识体系完整,但在实际工作中却显得“水土不服”。我一直在寻找一本能够真正解决实际问题,而不是制造更多理论困惑的书籍。这本书的书名《用商业案例学R语言数据挖掘》一下子就吸引了我,因为它明确地表达了一种“学以致用”的理念。我深信,只有在真实的商业环境中,才能最有效地学习和掌握一门技术。《用商业案例学R语言数据挖掘》这本书,我期待它能呈现一些在不同行业中普遍存在的业务挑战,比如,如何在电商平台中进行用户流失预测,如何在制造业中优化生产流程,或者如何在服务行业提升客户满意度。我希望书中不仅仅是展示如何写R代码,更重要的是,它能教会我如何从商业问题的角度出发,去思考数据分析的切入点,如何将R语言的各种挖掘方法巧妙地融入到解决这些问题的过程中。例如,当面对一个关于提高用户留存率的商业目标时,书中能否清晰地展示如何利用R语言进行用户画像分析,识别导致流失的关键因素,并提出可行的改进建议。我对书中案例的深度和广度都有很高的要求,希望它能够覆盖到数据挖掘的多个层面,并能引发我更深入的思考。
评分我是一个非常注重学习效率和实用性的人,尤其是在学习一门技术工具的时候,我更倾向于能够直接解决实际问题的方法。R语言在数据挖掘领域的应用前景广阔,但我一直苦于找不到一本能够将理论知识转化为实践技能的优秀教材。《用商业案例学R语言数据挖掘》这个书名,让我觉得它很有可能就是我一直在寻找的那本书。我非常期待书中能通过一系列精心设计的商业案例,来展示R语言在不同数据挖掘任务中的应用,比如分类、聚类、回归、关联分析等等。我希望书中的案例能够具有代表性,能够让我学习到通用的数据挖掘思路和方法,而不是局限于某个特定行业的特殊情况。同时,我也希望书中能够提供一些关于数据预处理、特征工程以及模型评估的最佳实践,这些都是在实际数据挖掘项目中至关重要的环节。我对于书中能否提供一些进阶的R语言数据挖掘技巧,比如如何处理大规模数据集,如何进行模型调优,或者如何构建可复用的分析流程,抱有很高的期待。我相信,如果这本书能够真正做到“用商业案例学R语言数据挖掘”,它将极大地提升我学习R语言的效率和乐趣,并为我未来的职业发展打下坚实的基础。
评分我是一名对新兴技术充满好奇的研究生,在学习过程中,我接触到了许多关于大数据和人工智能的理论知识,但始终感觉理论与实践之间存在一道鸿沟。R语言作为数据科学领域重要的工具,我一直想深入学习,但市面上很多教材要么过于理论化,要么缺乏实际操作指导。这本书的出现,如同一盏明灯,指引我找到了一条理论与实践结合的学习路径。《用商业案例学R语言数据挖掘》这个书名,让我看到了将复杂的R语言数据挖掘技术,通过具体的商业应用场景来呈现的可能。我非常期待书中能够涵盖一些时下热门的数据挖掘技术,例如关联规则挖掘在零售业的应用,文本挖掘在舆情分析中的实践,或者时间序列分析在金融预测中的案例。同时,我也希望能看到书中对不同算法的原理进行简洁明了的介绍,并重点强调如何在实际业务问题中灵活运用这些算法。我希望这本书的案例能够具有一定的挑战性,能够引导我思考更深层次的商业问题,并利用R语言找到创新的解决方案。此外,对于初学者而言,代码的易读性和可复用性至关重要,我希望书中的代码示例能够清晰、规范,并提供详细的解释,方便我进行学习和借鉴。
评分这本书的封面设计给我一种既专业又不失亲和力的感觉,淡蓝色的背景搭配简洁明了的书名,让人一眼就能抓住重点。我是一个刚接触数据分析不久的职场新人,之前尝试过一些基础的R语言教程,但总觉得理论性太强,难以在实际工作中找到应用点。我一直渴望能有一本书,能够将R语言的强大功能与实际商业问题的解决紧密结合起来,让我看到数据分析的价值和意义。当我看到这本书的介绍时,我眼前一亮,特别是“用商业案例学R语言数据挖掘”这个标题,直接戳中了我的痛点。我期待书中能通过一个个生动具体的商业场景,比如如何分析用户行为来提升销售额,如何预测产品需求来优化库存,或者如何识别潜在的欺诈行为来降低风险,来引导我一步步学习R语言的数据挖掘技术。我希望这本书的案例不是那种教科书式的、脱离实际的伪案例,而是真正来源于企业日常运营中的真实问题。同时,我也希望能看到书中在讲解R语言代码时,能够有详细的注释和解释,让我理解每一行代码的作用,以及它在解决商业问题中扮演的角色。我对于模型的选择和评估也有很高的期望,希望书中能清晰地讲解不同数据挖掘模型的优劣势,以及如何根据具体的商业目标来选择最合适的模型,并对模型的预测结果进行科学的评估和解读,最终能够为商业决策提供有力的支持。
评分作为一名多年从事市场营销工作的资深人士,我深知数据在现代商业决策中的核心作用,但过去我们更多依赖于传统的统计方法和Excel等工具,效率和深度都存在局限。近年来,R语言在数据科学领域的崛起引起了我的高度关注,我一直在寻找一本能够帮助我跨越技术门槛,将R语言应用于营销分析的书籍。这本书的书名《用商业案例学R语言数据挖掘》恰好满足了我的需求。我特别看重书中“商业案例”的定位,希望它能不仅仅是枯燥的代码堆砌,而是真正能反映当下商业环境中常见的痛点和挑战。例如,如何通过用户画像分析实现精准营销,如何利用社交媒体数据洞察品牌声誉,抑或是如何通过A/B测试优化营销活动效果。我期望书中能提供详细的案例分析过程,从数据获取、清洗、探索性分析,到模型构建、评估和落地应用,能够一步步引导我理解R语言在这些营销场景中的实际操作。更重要的是,我希望这本书能够帮助我将R语言的统计和机器学习能力,转化为更具洞察力的市场洞察和更有效的营销策略。我对书中对可视化工具的运用也有很高的期待,毕竟,清晰、直观的数据可视化是向非技术背景的决策者有效传达分析结果的关键。
评分数据分析用书,慢慢学习。
评分两天就到了,没有损坏,书很好,非常棒的体验!
评分还可以,需要好好看看!
评分不错!!!!!!!!!!!!!!
评分还没消化,难度较大,得需要时间详细了解。
评分京东读书节买的 非常实惠 静心选购的书本呐 大爱 京东的物流和售后不能太赞?
评分进阶版,认真琢磨琢磨吧
评分很好用 还是京东好 又快又给力 所有东西都在京东解决了
评分比我想的要专业性更强,不知道能不能看明白。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有