如虎添翼!数据处理的SPSS和SAS EG实现(第2版)

如虎添翼!数据处理的SPSS和SAS EG实现(第2版) pdf epub mobi txt 电子书 下载 2025

经管之家 编
图书标签:
  • SPSS
  • SAS EG
  • 数据处理
  • 统计分析
  • 数据分析
  • 应用统计
  • 量化研究
  • 社会科学
  • 统计软件
  • 第2版
想要找书就要到 新城书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 电子工业出版社
ISBN:9787121285325
版次:2
商品编码:11920130
品牌:Broadview
包装:平装
丛书名: CDA数据分析师系列丛书
开本:16
出版时间:2016-05-01
用纸:胶版纸
页数:280

具体描述

产品特色


编辑推荐

“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。

从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!

内容简介

《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。

《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。

作者简介

经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。

经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。

徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。

常国珍,北京大学商学博士,法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师,Oracle大数据讲师,多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究,兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。

丁亚军,曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监,经管之家数据分析研究院数据分析师。主要从事市场调查,数据挖掘咨询等市场客户行为方面的数据分析工作,比较熟悉SAS、SPSS两款软件。

目录

第1 章软件入门介绍.. 1

1.1 SAS EG 介绍.. 2

1.1.1 SAS EG 简介. 2

1.1.2 SAS EG 的窗口及菜单. 3

1.2 SPSS 介绍. 4

1.2.1 SPSS 简介.. 4

1.2.2 SPSS 窗口及菜单 5

1.3 数据挖掘的流程介绍. 9

1.3.1 KDD 介绍 9

1.3.2 CRISP-DM .. 10

1.3.3 SEMMA . 11

1.3.4 三种数据挖掘流程的比较.. 11

1.4 课后练习. 11

第2 章使用数据.. 12

2.1 通过SAS 逻辑库访问数据.. 13

2.1.1 商业背景.. 13

2.1.2 SAS 相关功能介绍.. 13

2.1.3 EG 菜单解决方案. 14

2.1.4 SAS 程序实现. 15

2.1.5 SPSS 菜单解决方案.. 16

2.2 理解SAS 与SPSS 数据集的定义 19

2.2.1 理解数据集的含义.. 19

2.2.2 商业背景.. 19

2.2.3 SAS 与SPSS 相关概念介绍.. 19

2.2.4 EG 菜单解决方案. 25

2.2.4 SAS 程序实现. 26

2.2.5 SPSS 菜单解决方案 28

2.3 导入其他格式的数据文件 30

2.3.1 商业背景.. 30

2.3.2 SAS 相关功能介绍.. 30

2.3.3 EG 菜单解决方案. 31

2.3.4 SAS 程序实现. 33

2.3.5 SPSS 菜单解决方案 35

2.4 数据来源. 36

2.4.1 直接来源.. 36

2.4.2 间接来源.. 37

2.5 扩展阅读. 37

2.6 课后练习. 38

第3 章探索性数据分析及数据的清理 39

3.1 探索性数据分析. 40

3.1.1 基本理论讲解. 40

3.1.2 EG 菜单解决方案. 40

3.1.3 SPSS 菜单解决方案 44

3.2 数据清理介绍.. 54

3.2.1 商业背景.. 54

3.2.2 需要清理的数据类型. 55

3.3 类别变量的清理. 57

3.3.1 EG 菜单解决方案. 57

3.3.2 SAS 程序实现. 61

3.3.3 SPSS 菜单解决方案 62

3.4 数值型变量的清理 66

3.4.1 EG 菜单解决方案. 66

3.4.2 SAS 程序实现. 70

3.4.3 SPSS 菜单解决方案 71

3.5 正态分布的验证. 75

3.5.1 商业背景.. 75

3.5.2 相关理论介绍. 75

3.5.3 EG 菜单解决方案. 75

3.5.4 SAS 程序实现. 78

3.5.5 SPSS 菜单解决方案 80

3.6 扩展阅读. 83

3.7 课后练习. 84

第4 章数据的行处理. 85

4.1 数据筛选. 86

4.1.1 商业背景.. 86

4.1.2 相关理论介绍. 86

4.1.3 EG 菜单解决方案. 86

4.1.4 SAS 程序实现. 88

4.1.5 SPSS 菜单解决方案 93

4.2 排序与求秩 94

4.2.1 商业背景.. 94

4.2.2 理论介绍.. 95

4.2.3 EG 菜单解决方案. 95

4.2.4 SAS 程序实现.. 101

4.2.5 SPSS 菜单解决方案. 103

4.3 抽样 105

4.3.1 商业背景 105

4.3.2 抽样理论介绍.. 105

4.3.3 EG 菜单解决方案.. 108

4.3.4 SAS 程序实现.. 110

4.3.5 SPSS 菜单解决方案. 111

4.4 数据分组和汇总.. 111

4.4.1 商业背景 111

4.4.2 EG 菜单解决方案.. 111

4.4.3 SAS 程序实现.. 113

4.4.4 SPSS 菜单解决方案. 113

4.5 扩展阅读.. 115

4.6 课后练习.. 115

第5 章数据的列处理.. 116

5.1 计算新变量. 117

5.1.1 商业背景 117

5.1.2 EG 菜单解决方案.. 117

5.1.3 SPSS 菜单解决方案. 120

5.2 拆分列.. 123

5.2.1 商业背景 123

5.2.2 EG 菜单解决方案.. 123

5.2.3 SPSS 菜单解决方案. 125

5.3 堆叠列.. 128

5.3.1 商业背景 128

5.3.2 EG 菜单解决方案.. 129

5.3.3 SPSS 菜单解决方案. 131

5.4 转置列.. 136

5.4.1 商业背景 136

5.4.2 EG 菜单解决方案.. 136

5.4.3 SAS 程序实现.. 138

5.4.4 SPSS 菜单解决方案. 139

5.5 函数及运算符的使用 140

5.5.1 运算符. 140

5.5.2 SAS 函数 142

5.5.3 常用SPSS 函数与SAS 函数的对应关系 150

5.6 对列重编码. 151

5.6.1 商业背景介绍.. 151

5.6.2 EG 菜单解决方案.. 151

5.6.3 SAS 程序实现.. 155

5.6.4 SPSS 菜单解决方案. 157

5.7 标准化.. 158

5.7.1 商业背景 158

5.7.2 相关理论介绍.. 159

5.7.3 EG 菜单实现. 159

5.7.4 SAS 实现程序.. 161

5.7.5 SPSS 菜单解决方案. 162

5.8 扩展阅读.. 163

5.9 课后练习.. 163

第6 章数据集的操作.. 164

6.1 纵向连接.. 165

6.1.1 商业背景 165

6.1.2 相关的理论 165

6.1.3 EG 菜单解决方案.. 165

6.1.4 SAS 程序实现.. 168

6.1.5 SPSS 菜单解决方案. 172

6.2 横向连接.. 174

6.2.1 商业背景 174

6.2.2 相关理论介绍.. 174

6.2.3 EG 菜单解决方案.. 174

6.2.4 SAS 程序实现.. 178

6.2.5 SPSS 菜单解决方案. 182

6.3 数据集的比较 183

6.3.1 商业背景介绍.. 183

6.3.2 相关理论介绍.. 183

6.3.3 EG 菜单解决方案.. 183

6.3.4 SAS 程序实现.. 186

6.3.5 SPSS 菜单解决方案. 187

6.4 创建格式.. 191

6.4.1 商业背景 191

6.4.2 相关理论介绍.. 191

6.4.3 EG 菜单解决方案.. 193

6.4.4 SAS 程序实现.. 196

6.5 删除数据集和格式. 197

6.5.1 EG 菜单解决方案.. 197

6.5.2 SAS 程序实现.. 198

6.6 扩展阅读.. 198

6.7 课后练习.. 199

第7 章数据的展示:图形及报告的编制 200

7.1 数据可视化与图表. 201

7.1.1 商业背景 201

7.1.2 相关理论介绍.. 201

7.1.3 EG 菜单解决方案.. 204

7.1.4 SPSS 菜单解决方案. 207

7.2 创建Listing 报表. 208

7.2.1 商业背景 208

7.2.2 相关理论介绍.. 208

7.2.3 EG 菜单解决方案.. 209

7.2.4 SAS 程序实现.. 212

7.2.5 SPSS 菜单解决方案. 213

7.3 扩展阅读.. 216

7.4 课后练习.. 216

第8 章在SAS EG 中使用提示和条件处理.. 217

8.1 提示与宏变量 218

8.1.1 商业背景 218

8.1.2 相关的理论介绍. 218

8.1.3 EG 菜单解决方案.. 219

8.2 条件处理.. 223

8.2.1 商业背景 223

8.2.2 EG 菜单解决方案.. 223

8.3 扩展阅读.. 227

第9 章在SAS EG 中使用程序.. 228

9.1 如何在SAS EG 中使用程序 229

9.2 SAS 程序 231

9.2.1 SAS 语言元素.. 231

9.2.2 DATA 步. 232

9.2.3 PROC 步. 233

9.2.4 SAS 的模块介绍(图9-9). 234

9.3 扩展阅读.. 234

第10 章SQL 语言基础与MySQL 入门. 235

10.1 SQL 语言概况与MySQL 的安装 236

10.1.1 SQL 语言概况 236

10.1.2 MySQL 安装.. 237

10.1.3 MySQL 内创建数据库. 238

10.2 查询语句 238

10.2.1 简单查询并对数据过滤与排序.. 240

10.2.2 用表达式创建新列. 241

10.2.3 对列重编码. 242

10.2.4 在查询中对数据分组和汇总 243

10.2.5 表的横向连接和子查询.. 244

10.2.6 子查询.. 250

10.2.7 集合操作语句 251

10.3 创建表或视图. 252

10.3.1 创建表.. 252

10.3.2 创建视图. 252

附录A SAS EG 菜单对应关系 254

附录B SPSS 菜单对应关系表 256

附录C SAS 和SPSS 关键术语、命令对应关系 258

附录D CDA 数据分析师致力于最好的数据分析人才建设. 261

参考文献 265


精彩书摘

需要清理的数据类型

缺失值(Missing)

〈1〉缺失值的来源

在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。

〈2〉缺失值的处理方式

?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;

人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;

使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;

单独作为一类。

〈3〉缺失值在SAS 中的表现方式

?数值型的为“.”;

?字符型的缺失值为空。

异常值

〈1〉异常值(Outlier)

异常值也称为离群值、极端值(Extreme)。

明显偏大或偏小的值,异常值不一定为错误值。

〈2〉识别异常值的常用方法有三种:

第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。

第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。

第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。

〈3〉箱线图(Box Plot)

箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.

〈4〉异常值的处理方法

大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析

无效值(Invalid)

在录入时导致的错误,比如性别在录入时F 代表女,M 代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。

数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。

无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。

?数据的重复值(Duplicate)

对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。


前言/序言

感谢您选择“CDA 数据分析师”Level I 学习系列丛书之《如虎添翼!数据处理的SPSS 和SASEG 实现(第2 版)》。

该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础(第2 版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS 和SAS EG 实现(第2 版)》中利用SAS EG、SPSS 和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS 和SAS EG 进阶(第2 版)》中进行了详细的讲解和操作分析。

CDA 数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。

读者对象

作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。

阅读指南

对数据分析师而言,合适的数据就像好的食材,对最终分析结果的影响不言而喻,但是在日常的工作中我们会经常遇到两个问题,一是数据的质量不高,数据在收集、存储等过程中不可避免地出现了脏数据、不一致数据、噪声数据、重复数据等,如果我们不做任何预处理而直接输入模型,就会出现“garbage in, garbage out”,即垃圾进垃圾出的情况。二是数据的形式不符,因为不同的模型,建模技术都有一定的前提假设,对数据的展现形式、分布状态等都有较为严格的要求,如果不做预处理,模型出来的结果很可能与数据底层真正蕴含的规律背道而驰,对这种形式的数据盲目地进行建模分析,极容易误人误己。

数据预处理占到整个数据挖掘的60%~80%的时间,要想高效正确地完成数据的预处理工作其实不是一件容易的事情,本书作者根据在咨询公司、电信及金融行业的多年经验,将常用的数据预处理思路融入到SAS EG、SPSS 的菜单操作中,并配以SAS 程序的讲解,使得读者在熟悉菜单的同时,能用简单的SAS 语言完成相对复杂的数据处理要求。

全书共分为10 章:

第1 章介绍了SAS EG、SPSS 软件,并介绍了三种常见的数据分析流程;

第2 章介绍了如何通过多种方式使SAS EG、SPSS 可以轻松地访问多种形式的外部数据;

第3 章介绍了探索性数据分析的基本思路,以及数据清理的相关理论,并分别演示了如何对类别数据、数值数据进行清理;

第4 章、第5 章介绍了如何对数据观测进行筛选和排序、抽样,以及数据的分组和汇总,如何对数据进行转置,使用函数等;

第6 章介绍了如何在整体上对数据集进行操作,包括如何对数据集进行横向连接和纵向连接,数据集之间的比较创建格式等;

第7 章讲解了数据的可视化及图表、报告的编制方法;

第8 章、第9 章介绍了如何在SAS EG 中运用提示、程序等来提高数据处理效率;

第10 章介绍了SQL 语言基础和MySQL 入门。各部分相互独立,读者可以根据自己的需要选择性阅读。本书在第1 版的基础上,新增了第10章,其他各章分别对应加入了SPSS 的操作。

本书特点

1.关于SAS EG 模块和SPSS 实现功能比较的首本实战中文教材,通过比较,读者能更快掌握这两个应用最广、功能最强大的统计软件;

2.非单纯的逐个讲解菜单,而是将数据分析的基本思路、流程融入到软件的操作之中;

3.每一章节通过设置商业背景,基本理论讲解的形式更贴近读者的实际工作;

4.本书除讲解软件操作,还同时介绍了各种操作的SAS 语言的实现过程,读者可以根据自己的基础逐步学习,进而走进SAS 处理数据的大门。

学习方法

本书在编写上力求从读者的实战角度出发,每章基本上分为五部分:

1.商业背景的介绍;

2.相关的理论介绍;

3.EG 软件的解决方案;

4.程序实现,包含实现菜单的程序的简单必要功能,读者可以轻松过渡到编程;

5.SPSS 菜单解决方案;

6.扩展阅读,对于想深入学习SAS 编程、数据准备的读者,进一步介绍了相关的学习内容及方向。

读者可以根据自己的需要来阅读,本书的菜单操作部分以SAS Eenterprise guide 5.1,SPSS22 为例进行示范,代码部分以SAS 9.3 为基础进行编写,读者在理解基本思路之后可以方便将其应用到其它版本之上。

售后服务

为方便读者学习,本书提供了书中实例的源文件下载,请读者进经管之家(http://bbs.pinggu.org/),注册后搜索“CDA 教材源文件”关键词下载相应的源文件。

本书读者可以在经管之家的“数据挖掘与商业智能(http://bbs.pinggu.org/forum-133-1.html)”就书中的问题进行提问,也欢迎读者就自己遇到的业务问题和大家讨论。同时,也可以向作者发邮件,作者邮箱为xuxiaog_2003@163.com。

致谢

本书由经管之家主编,徐筱刚、常国珍、丁亚军负责编写和完成统稿。

丛书从策划到出版,倾注了电子工业出版社计算机图书分社张慧敏、石倩、张童、王静等多位编辑的心血,特在此表示衷心地感谢!

为保证丛书的质量,使其更贴近读者,我们组织了经管之家的多位版主和高级会员参与了本书第1版和第2版的预读工作,第1版是杨同梅、田佳、孙华枫、原瑜芬、叶阵雨、郑赟、李剑宇、江翊雪、陈鹏、刘莎莎、丁亚军;第2 版是关继杰、殷子涵、种法辉。感谢各位预读员的辛勤、耐心与细致,使得本丛书能以更加完善的面目与各位读者见面,特别感谢覃智勇圆满地组织了第1 版的预读工作和审校工作。

尽管作者们对书中的案例精益求精,但疏漏仍然在所难免,如果您发现书中的错误或某个案例有更好的解决方案,敬请登录社区网站向作者反馈,我们将尽快在社区中给出回复,且在本书再次印刷时修正。

再次感谢您的支持!



用户评价

评分

作为0基础,这本书有些深了!不亏为数据分析师的入门,入门都这么难,人生啊!

评分

想学学数据分析的知识,看看这个书比较不错就买了,希望对自己有帮助

评分

数据分析必备书籍~很不错的书

评分

如虎添翼!数据处理的SPSS和SAS EG实现(第2版)

评分

东西没看到,就这物流,一级棒!

评分

货超值,呵,下次再来。帮你做个广告,朋友们:这家店的货值。一个字!!值!!!

评分

京东活动很给力,划算啊。书没毛病。

评分

货超值,呵,下次再来。帮你做个广告,朋友们:这家店的货值。一个字!!值!!!

评分

书不错还有封装。不过还没看呢。打算后面在看。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版权所有