發表於2024-11-30
“CDA數據分析師係列叢書”依照數據分析師規範化學習體係而定。滿足瞭CDA數據分析師等級認證學習的需要,也兼顧瞭大數據的熱點動態。
從策劃之初一直堅持以“讀者需求”為主綫,結閤企業實際案例和業務場景來談大數據思維和小數據分析。實現技術紮實,業務精通,策略接地氣!
《如虎添翼!數據處理的SPSS和SAS EG實現(第2版)》作為SAS EG 和SPSS 數據處理比較的首本實戰中文教材,本書並非單純地逐個講解菜單的操作,而是將數據分析的基本思路、流程融入到軟件的操作之中。每章通過設置商業背景,配以SAS EG 和SPSS 的實戰演練,講解形式更貼近讀者的實際工作,使讀者真正理解數據分析、數據處理的精髓。本書除講解軟件操作,還同時介紹瞭對應菜單操作的SAS 程序語言實現過程,讀者可以根據自己的需要逐步學習,進而走進用SAS 程序處理數據的大門。
《如虎添翼!數據處理的SPSS和SAS EG實現(第2版)》適閤那些想瞭解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於菜單操作的局限性而希望通過程序實現的數據分析人員。
經管之傢(www.jg.com.cn):原人大經濟論壇,於2003年成立,緻力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在綫教育和谘詢網站,也是國內活躍和具影響力的經管類網絡社區。
經管之傢從2006年起在國內開展數據分析培訓,纍計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,緻力於為社會各界數據分析愛好者提供優質、科學、係統的數據分析教育。截至2016年3月已成功舉辦40多期係統培訓,培訓學員達3韆餘名;CDA認證考試已成功舉辦三屆,報考人數上韆人;中國數據分析師俱樂部(CDA CLUB),每周綫下免費沙龍活動,已舉力40多期,纍積會員2韆餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2韆餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人纔産業起到瞭巨大的推動作用。
徐筱剛,統計學碩士。擁有近十年的豐富的數據分析、數據挖掘實戰經驗,曾就職於谘詢公司、金融機構等多傢著名企業,目前在一傢金融機構擔任資深數據分析顧問,具有零售、電信、金融等多個數據挖掘的項目經驗和行業背景。
常國珍,北京大學商學博士,法學碩士。曾就職於亞信科技BOC部門、方正國際金融事業部、德勤管理谘詢信息技術係統谘詢部。SAS公司資深講師,Oracle大數據講師,多傢金融信息部門和金融高科技公司數據挖掘技術顧問。從事徵信數據集市與信用風險建模、客戶價值提升等數據挖掘項目。擅長基於個體行為分析的價值發現和信用建模。研究方嚮為宏微觀接閤研究,興趣點在於宏觀環境變化對微觀主體行為的經濟後果分析及價值投資。
丁亞軍,麯阜師範大學心理學碩士。現任職於南京上度市場谘詢數據分析總監,經管之傢數據分析研究院數據分析師。主要從事市場調查,數據挖掘谘詢等市場客戶行為方麵的數據分析工作,比較熟悉SAS、SPSS兩款軟件。
第1 章軟件入門介紹.. 1
1.1 SAS EG 介紹.. 2
1.1.1 SAS EG 簡介. 2
1.1.2 SAS EG 的窗口及菜單. 3
1.2 SPSS 介紹. 4
1.2.1 SPSS 簡介.. 4
1.2.2 SPSS 窗口及菜單 5
1.3 數據挖掘的流程介紹. 9
1.3.1 KDD 介紹 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三種數據挖掘流程的比較.. 11
1.4 課後練習. 11
第2 章使用數據.. 12
2.1 通過SAS 邏輯庫訪問數據.. 13
2.1.1 商業背景.. 13
2.1.2 SAS 相關功能介紹.. 13
2.1.3 EG 菜單解決方案. 14
2.1.4 SAS 程序實現. 15
2.1.5 SPSS 菜單解決方案.. 16
2.2 理解SAS 與SPSS 數據集的定義 19
2.2.1 理解數據集的含義.. 19
2.2.2 商業背景.. 19
2.2.3 SAS 與SPSS 相關概念介紹.. 19
2.2.4 EG 菜單解決方案. 25
2.2.4 SAS 程序實現. 26
2.2.5 SPSS 菜單解決方案 28
2.3 導入其他格式的數據文件 30
2.3.1 商業背景.. 30
2.3.2 SAS 相關功能介紹.. 30
2.3.3 EG 菜單解決方案. 31
2.3.4 SAS 程序實現. 33
2.3.5 SPSS 菜單解決方案 35
2.4 數據來源. 36
2.4.1 直接來源.. 36
2.4.2 間接來源.. 37
2.5 擴展閱讀. 37
2.6 課後練習. 38
第3 章探索性數據分析及數據的清理 39
3.1 探索性數據分析. 40
3.1.1 基本理論講解. 40
3.1.2 EG 菜單解決方案. 40
3.1.3 SPSS 菜單解決方案 44
3.2 數據清理介紹.. 54
3.2.1 商業背景.. 54
3.2.2 需要清理的數據類型. 55
3.3 類彆變量的清理. 57
3.3.1 EG 菜單解決方案. 57
3.3.2 SAS 程序實現. 61
3.3.3 SPSS 菜單解決方案 62
3.4 數值型變量的清理 66
3.4.1 EG 菜單解決方案. 66
3.4.2 SAS 程序實現. 70
3.4.3 SPSS 菜單解決方案 71
3.5 正態分布的驗證. 75
3.5.1 商業背景.. 75
3.5.2 相關理論介紹. 75
3.5.3 EG 菜單解決方案. 75
3.5.4 SAS 程序實現. 78
3.5.5 SPSS 菜單解決方案 80
3.6 擴展閱讀. 83
3.7 課後練習. 84
第4 章數據的行處理. 85
4.1 數據篩選. 86
4.1.1 商業背景.. 86
4.1.2 相關理論介紹. 86
4.1.3 EG 菜單解決方案. 86
4.1.4 SAS 程序實現. 88
4.1.5 SPSS 菜單解決方案 93
4.2 排序與求秩 94
4.2.1 商業背景.. 94
4.2.2 理論介紹.. 95
4.2.3 EG 菜單解決方案. 95
4.2.4 SAS 程序實現.. 101
4.2.5 SPSS 菜單解決方案. 103
4.3 抽樣 105
4.3.1 商業背景 105
4.3.2 抽樣理論介紹.. 105
4.3.3 EG 菜單解決方案.. 108
4.3.4 SAS 程序實現.. 110
4.3.5 SPSS 菜單解決方案. 111
4.4 數據分組和匯總.. 111
4.4.1 商業背景 111
4.4.2 EG 菜單解決方案.. 111
4.4.3 SAS 程序實現.. 113
4.4.4 SPSS 菜單解決方案. 113
4.5 擴展閱讀.. 115
4.6 課後練習.. 115
第5 章數據的列處理.. 116
5.1 計算新變量. 117
5.1.1 商業背景 117
5.1.2 EG 菜單解決方案.. 117
5.1.3 SPSS 菜單解決方案. 120
5.2 拆分列.. 123
5.2.1 商業背景 123
5.2.2 EG 菜單解決方案.. 123
5.2.3 SPSS 菜單解決方案. 125
5.3 堆疊列.. 128
5.3.1 商業背景 128
5.3.2 EG 菜單解決方案.. 129
5.3.3 SPSS 菜單解決方案. 131
5.4 轉置列.. 136
5.4.1 商業背景 136
5.4.2 EG 菜單解決方案.. 136
5.4.3 SAS 程序實現.. 138
5.4.4 SPSS 菜單解決方案. 139
5.5 函數及運算符的使用 140
5.5.1 運算符. 140
5.5.2 SAS 函數 142
5.5.3 常用SPSS 函數與SAS 函數的對應關係 150
5.6 對列重編碼. 151
5.6.1 商業背景介紹.. 151
5.6.2 EG 菜單解決方案.. 151
5.6.3 SAS 程序實現.. 155
5.6.4 SPSS 菜單解決方案. 157
5.7 標準化.. 158
5.7.1 商業背景 158
5.7.2 相關理論介紹.. 159
5.7.3 EG 菜單實現. 159
5.7.4 SAS 實現程序.. 161
5.7.5 SPSS 菜單解決方案. 162
5.8 擴展閱讀.. 163
5.9 課後練習.. 163
第6 章數據集的操作.. 164
6.1 縱嚮連接.. 165
6.1.1 商業背景 165
6.1.2 相關的理論 165
6.1.3 EG 菜單解決方案.. 165
6.1.4 SAS 程序實現.. 168
6.1.5 SPSS 菜單解決方案. 172
6.2 橫嚮連接.. 174
6.2.1 商業背景 174
6.2.2 相關理論介紹.. 174
6.2.3 EG 菜單解決方案.. 174
6.2.4 SAS 程序實現.. 178
6.2.5 SPSS 菜單解決方案. 182
6.3 數據集的比較 183
6.3.1 商業背景介紹.. 183
6.3.2 相關理論介紹.. 183
6.3.3 EG 菜單解決方案.. 183
6.3.4 SAS 程序實現.. 186
6.3.5 SPSS 菜單解決方案. 187
6.4 創建格式.. 191
6.4.1 商業背景 191
6.4.2 相關理論介紹.. 191
6.4.3 EG 菜單解決方案.. 193
6.4.4 SAS 程序實現.. 196
6.5 刪除數據集和格式. 197
6.5.1 EG 菜單解決方案.. 197
6.5.2 SAS 程序實現.. 198
6.6 擴展閱讀.. 198
6.7 課後練習.. 199
第7 章數據的展示:圖形及報告的編製 200
7.1 數據可視化與圖錶. 201
7.1.1 商業背景 201
7.1.2 相關理論介紹.. 201
7.1.3 EG 菜單解決方案.. 204
7.1.4 SPSS 菜單解決方案. 207
7.2 創建Listing 報錶. 208
7.2.1 商業背景 208
7.2.2 相關理論介紹.. 208
7.2.3 EG 菜單解決方案.. 209
7.2.4 SAS 程序實現.. 212
7.2.5 SPSS 菜單解決方案. 213
7.3 擴展閱讀.. 216
7.4 課後練習.. 216
第8 章在SAS EG 中使用提示和條件處理.. 217
8.1 提示與宏變量 218
8.1.1 商業背景 218
8.1.2 相關的理論介紹. 218
8.1.3 EG 菜單解決方案.. 219
8.2 條件處理.. 223
8.2.1 商業背景 223
8.2.2 EG 菜單解決方案.. 223
8.3 擴展閱讀.. 227
第9 章在SAS EG 中使用程序.. 228
9.1 如何在SAS EG 中使用程序 229
9.2 SAS 程序 231
9.2.1 SAS 語言元素.. 231
9.2.2 DATA 步. 232
9.2.3 PROC 步. 233
9.2.4 SAS 的模塊介紹(圖9-9). 234
9.3 擴展閱讀.. 234
第10 章SQL 語言基礎與MySQL 入門. 235
10.1 SQL 語言概況與MySQL 的安裝 236
10.1.1 SQL 語言概況 236
10.1.2 MySQL 安裝.. 237
10.1.3 MySQL 內創建數據庫. 238
10.2 查詢語句 238
10.2.1 簡單查詢並對數據過濾與排序.. 240
10.2.2 用錶達式創建新列. 241
10.2.3 對列重編碼. 242
10.2.4 在查詢中對數據分組和匯總 243
10.2.5 錶的橫嚮連接和子查詢.. 244
10.2.6 子查詢.. 250
10.2.7 集閤操作語句 251
10.3 創建錶或視圖. 252
10.3.1 創建錶.. 252
10.3.2 創建視圖. 252
附錄A SAS EG 菜單對應關係 254
附錄B SPSS 菜單對應關係錶 256
附錄C SAS 和SPSS 關鍵術語、命令對應關係 258
附錄D CDA 數據分析師緻力於最好的數據分析人纔建設. 261
參考文獻 265
需要清理的數據類型
缺失值(Missing)
〈1〉缺失值的來源
在數據收集階段,沒有收集到相關的信息,原因可能是問捲收集者忘記詢問,或者礙於隱私原因,應答者沒有迴答。也有可能不同數據庫之間對接時産生缺失。
〈2〉缺失值的處理方式
?忽略觀測值,當數據量較大,而缺失值較少,忽略觀測值對分析結果影響不大時,可以采用這種方式;
人工填寫,找到缺失值的關係,通過人工調查得到並填寫缺失值,當缺失值量比較大時不適用;
使用一個全局常量來填寫缺失值;使用屬性的中心度量(如均值和中位數)來填充缺失值;
單獨作為一類。
〈3〉缺失值在SAS 中的錶現方式
?數值型的為“.”;
?字符型的缺失值為空。
異常值
〈1〉異常值(Outlier)
異常值也稱為離群值、極端值(Extreme)。
明顯偏大或偏小的值,異常值不一定為錯誤值。
〈2〉識彆異常值的常用方法有三種:
第一種方法是為每個變量設定一個正常的取值範圍,然後可以用簡單的探索性統計分析進行識彆。例如,連續變量,藉助經驗法則2可以設定為±3 個標準差,對於類彆變量或者順序變量,如果某一列彆的頻數超過1%或者更多被認為是正常。本方法的優點是簡單快捷,缺點是隻考慮瞭單個變量,沒有考慮變量之間的相互影響。
第二種方法建立在生成數據的過程中是否具有特定函數形式的模型,如假定服從綫性模型,則利用綫性模型擬閤後,嚴重偏離模型的即為異常值。本方法的優點是考慮瞭變量之間的相互作用,缺點是需要有一個事先的假設,若假設錯誤,則有可能誤判正常的點為異常值。
第三種方法是用聚類算法將數據分為較小的子集,即簇或者群,隻包含較小數量的觀測值的群,被認定為極端值。聚類算法根據統計距離指標將相似的觀測值分布在同一個簇。這個方法結閤瞭以上兩個方法的優點,但是在數據量較大的情況下,聚類對係統的資源要求比較大。
〈3〉箱綫圖(Box Plot)
箱綫圖是對數據分布的一種常用錶示方法。在一張圖上可以錶示多種類型的統計量,通過圖形的形狀,可以瞭解數據的分布,異常值、極端值的情況等.
〈4〉異常值的處理方法
大多數情況下,被認定為極端值的觀測值或者被刪除,或者將其替換為某個更符閤的值。但當被認定的異常值超過 10%以上時,異常值可能暗示其數據産生模式與其他數據不同,通過分析異常數據可以得到有用的信息,在對數據集進行建模或者分析時,應當分開分析
無效值(Invalid)
在錄入時導緻的錯誤,比如性彆在錄入時F 代錶女,M 代錶男,但是在錄入時齣現瞭“F,M”的情況,這種情況就是無效值。
數據存在有效期,隨著周圍情況的變化,數據也會發生變化。例如,通過辦理會員卡方式得到的客戶住址、電話、郵箱等,在數據使用前,一定要知道數據是否還有效。
無效值的處理方式可以通過查詢數據來源、重復收集等修改為有效值,也可以作為單獨的一類。
?數據的重復值(Duplicate)
對於有些值,比如ID,根據數據錶示的含義,一條記錄代錶一個唯一的ID,但是在數據整閤過程中齣現瞭多個ID,對於重復觀測,一般的方式是確定好原因之後刪除。
感謝您選擇“CDA 數據分析師”Level I 學習係列叢書之《如虎添翼!數據處理的SPSS 和SASEG 實現(第2 版)》。
該叢書按照數據分析師規範化學習體係而定,對於一名初學者,應該先掌握必要的概率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、迴歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎(第2 版)》中進行瞭專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等係列數據處理技術,這在《如虎添翼!數據處理的SPSS 和SAS EG 實現(第2 版)》中利用SAS EG、SPSS 和編程技術進行瞭操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得齣結果,結果檢驗,繪製圖錶並解讀數據,這在《胸有成竹!數據分析的SPSS 和SAS EG 進階(第2 版)》中進行瞭詳細的講解和操作分析。
CDA 數據分析師叢書整體風格是“理論>技術>應用”的一個學習過程,最終目的在於商業業務應用、職場數據分析,為欲從事於數據分析領域的各界人士提供瞭一個規範化數據分析師的學習體係。
讀者對象
作為叢書中的一本,本書上承基礎理論部分,下啓最終建模及案例分析。本書將關注點集中到數據的探索及預處理上,通過本書的學習將會加深對基礎理論部分的理解,為後續的建模分析做好數據上的準備。本書適閤那些想瞭解數據預處理,或者被數據的預處理占去大部分時間而想提高效率,或者囿於菜單操作的局限性而希望通過程序實現的數據分 如虎添翼!數據處理的SPSS和SAS EG實現(第2版) 下載 mobi epub pdf txt 電子書 格式
如虎添翼!數據處理的SPSS和SAS EG實現(第2版) 下載 mobi pdf epub txt 電子書 格式 2024
如虎添翼!數據處理的SPSS和SAS EG實現(第2版) 下載 mobi epub pdf 電子書還可以,有些啓發,值得一讀。
評分跟描述的一樣
評分包裝很好,裏三層,外三層,質量也不錯,挺重的
評分雖然等瞭半個月纔等到,但到貨的心情還是要給個贊?
評分給同事買的,同事說還挺不錯?
評分我也說為什麼沒有人買,不知道編者的話是專業統計學的還是非專業的
評分好書!!!!!!!!!
評分god提過催工業區
評分書不錯,無論內容,印刷,排版都是一流的水平。
如虎添翼!數據處理的SPSS和SAS EG實現(第2版) mobi epub pdf txt 電子書 格式下載 2024