發表於2024-11-24
本書適閤人群:
本書是一本麵嚮商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據挖掘的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,和高等數學相關的內容隻在綫形迴歸和主成分分析這兩節中涉及,而且都輔以圖形做形象的展現。因此本書的讀者隻需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件都與商業數據分析的主題匹配。在教學實踐中,我們發現業務經驗豐富和有較好商業模式理解的學員,在學習數據挖掘時有更好的效果,主要原因可能是這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單地模仿和套用數學公式。
商業智能時代已經全麵到來,分析型人纔的崗位數量在就業市場中呈現井噴式增長。無論是從事産品研發的工程師,還是從事産品推廣的市場人員、人力資源和財務會計人員,都需要掌握數據分析技術,否則很有可能被人工智能替代。
本書包括 18 章,涉及使用 R 語言做數據分析和數據挖掘的主要分析方法。其中,第 1、 2 章為數據分析方法概述,第 3 章為 R 語言編程基礎,第 4 章到第 8 章為統計學習方法,第 9 章到第 16 章為數據挖掘方法,第 17 章為特徵工程,第 18 章為 R 文本挖掘。每章都根據所涉及的知識點的不同,選取瞭實用的案例,並為讀者準備瞭相應的練習題。
本書作為 CDA 數據分析師係列叢書中《如虎添翼!數據處理的 SPSS 和 SAS EG 實現(第 2 版)》和《胸有成竹!數據分析的 SPSS 和 SAS EG 進階(第 2 版)》的姊妹篇,將前兩本書的內容進行整閤並做瞭重大拓展,而且秉承瞭該係列叢書的特點:內容精練、重點突齣、示例豐富、語言通俗。可以作為廣大從業人員自學商業數據分析的讀物,適閤大中專院校師生學習和閱讀,同時也可以作為高等院校商科、社會科學及相關培訓機構的教材。
常國珍,北京大學會計學博士,中國大數據産業生態聯盟專傢委員會專傢委員。主要從事金融、電信行業客戶畫像,信用與操作風險識彆與防範,客戶終生價值預測與價值提升等工作。
曾珂,華中師範大學管理科學工程碩士,現為車貸金融産品部産品經理,精通Python與R語言數據挖掘。曾經就職於華為、國傢電網等企業。以金融信用與欺詐風險建模、文本分析、數據可視化等為主要研究方嚮。
硃江,挪威科技大學工學碩士,現為CDA數據分析研究院課程開發副總監,CDA數據挖掘競賽的評委。精通R與SAS語言數據挖掘,從事電商與互聯網數據分析的教學工作。研究方嚮為電商推薦係統開發、數據可視化、客戶特徵提取和客戶行為模式發現。
第1 章 商業數據分析基礎
1.1 商業數據分析的本質
1.2 商業數據分析中心的建設
第2 章 數據分析的武器庫
2.1 數據挖掘簡介
2.2 R 語言簡介
2.3 R 與RStudio 的下載和安裝
2.4 在RStudio 中安裝包
2.5 練習題
第3 章 R 語言編程
3.1 R 的基本數據類型
3.2 R 的基本數據結構
3.3 R 的程序控製
3.4 R 的函數
3.5 R 的日期與時間數據類型
3.6 在R 中讀寫數據
3.7 練習題
第4 章 R 描述性統計分析與繪圖
4.1 描述性統計分析
4.2 製圖的步驟
4.3 R 基礎繪圖包
4.4 ggplot2 繪圖
4.5 練習題
第5 章 數據整閤和數據清洗
5.1 數據整閤
5.2 R 中的高級數據整閤
5.3 R 中的抽樣
5.4 R 的數據清洗
5.5 練習題
第6 章 統計推斷基礎
6.1 基本的統計學概念
6.2 假設檢驗與單樣本t 檢驗
6.3 雙樣本t 檢驗
6.4 方差分析(分類變量和連續變量關係檢驗)
6.5 相關分析(兩連續變量關係檢驗)
6.6 卡方檢驗(二分類變量關係檢驗)
6.7 練習題
第7 章 客戶價值預測:綫性迴歸模型與診斷
7.1 相關性分析
7.2 綫性迴歸
7.3 綫性迴歸診斷
7.4 正則化方法
7.5 練習題
第8 章 Logistic 迴歸構建初始信用評級
8.1 Logistic 迴歸的相關關係分析
8.2 Logistic 迴歸模型及實現
8.3 最大熵模型與極大似然法估計
8.4 模型評估
8.5 練習題
第9 章 使用決策樹進行信用評級
9.1 決策樹建模思路
9.2 決策樹算法
9.3 在R 中實現決策樹
9.4 組閤算法(Ensemble Learning)
9.5 練習題
第10 章 神經網絡
10.1 神經元模型
10.2 人工神經網絡模型
10.3 單層感知器
10.4 BP 神經網絡
10.5 RBF 神經網絡
10.6 神經網絡設計與R 代碼實現
10.7 練習題
第11 章 分類器入門:最近鄰域與貝葉斯網絡
11.1 分類器的概念
11.2 KNN 算法
11.3 樸素貝葉斯
11.4 貝葉斯網絡
11.5 練習題
第12 章 高級分類器:支持嚮量機
12.1 綫性可分與綫性不可分
12.2 綫性可分支持嚮量機
12.3 綫性支持嚮量機
12.4 非綫性支持嚮量機
12.5 R 中的支持嚮量機
12.6 練習題
第13 章 連續變量的維度歸約
13.1 維度歸約方法概述
13.2 主成分分析
13.3 因子分析
13.4 奇異值分解
13.5 對應分析和多維尺度分析
13.6 練習題
第14 章 聚類
14.1 聚類分析概述
14.2 聚類算法邏輯
14.3 層次聚類
14.4 k-means 聚類
14.5 基於密度的聚類
14.6 聚類模型的評估
14.7 高斯混閤模型(Gaussian Mixture Model)
14.8 客戶分群
14.9 練習題
第15 章 關聯規則與推薦算法
15.1 長尾理論
15.2 關聯規則
15.3 序貫模型
15.4 推薦算法與推薦係統
15.5 練習題
第16 章 時間序列建模
16.1 認識時間序列
16.2 簡單時間序列分析
16.3 平穩時間序列分析ARMA 模型
16.4 非平穩時間序列分析ARIMA 模型
第17 章 特徵工程(Feature Engineering)(博文視點官方網站下載)
17.1 特徵工程概述
17.2 數據預處理(Data Preprocessing)
17.3 特徵構造(Feature Construction)
17.4 特徵抽取(Feature Extraction)
17.5 特徵選擇(Feature Selection)
第18 章 R 文本挖掘(博文視點官方網站下載)
18.1 文本挖掘
18.2 文本清洗
18.3 中文分詞與文檔模型
18.4 文本的特徵選擇及相關性度量
18.5 文本分類
18.6 主題模型
18.7 綜閤案例
附錄A 數據說明(博文視點官方網站下載)
2.1.4預測性數據挖掘算法模型示例
下麵對預測性數據挖掘算法的實際應用做簡要的介紹。
1.決策樹
如圖 2-7 所示的兩個樹狀圖展現瞭不同時代女性相親的決策行為。同樣是相親, 20 世紀 70 年代的大部分女性依次看重職業、齣身和纔藝。其中首要決定性變量為職業,如果是軍人就可以,如果不是則考慮該男性的齣身,如果是“黑五類”便不考慮,相反高乾齣身則可以。如果都不滿足則根據該男性是否有纔藝進行選擇;而當代大部分女性首要看重的是長相,其他考慮因素依次為專業、年齡差和星座,同意與否都根據相應變量的取值而定。決策樹算法模擬瞭上述的決策行為,按照這些要求,可以對候選相親男性的數據進行分類預測,然後根據預測結果找齣女性心儀的男性。
2. KNN 算法
決策樹以女性相親為例,那麼對於一個在婚戀交友網站注冊的男性,如何預測該男性的相親成功率呢?這裏使用 KNN 算法(K-NearestNeighor,最鄰近算法)進行預測。
這裏采用三個變量或屬性來描述一個男性,即收入、背景和長相。在已有的數據中,深灰色點代錶相親成功的人,白點代錶相親不成功的人,中間連接綫條的黑點代錶一個新來的男性, KNN 算法在預測這個新人相親是否成功時,會找到他和附近的 K 個點,並根據這些點是否相親成功來設定新人約會成功的概率,比如圖 2-8 中黑點與兩個深灰色點、一個白點最近,因此該點相親成功的可能性占 2/3。
KNN 算法屬於惰性算法,其特點是不事先建立全局的判彆公式或規則。當新數據需要分類時,根據每個樣本和原有樣本之間的距離,取最近 K 個樣本點的眾數(Y 為分類變量)或均值(Y 為連續變量)作為新樣本的預測值。該預測方法體現瞭一句中國的老話“近硃者赤,近墨者黑”。
3. Logistic 迴歸
若每個新注冊的男性都要和過去每個男性的相親經曆比較纔能預測相親成功率就太麻煩瞭,那麼有沒有一種評分方法,可以根據以前男性相親成敗的數據,創建一種為新人打分的評分機製,再根據分值預測新人是否會約會成功呢?這種評分機製的算法模型是 Logistic 迴歸。將以往男性相親是否成功的情況作為標準(打分),分值越高,相親成功的可能性就越高,這個打分自然和廣大女性考慮的重要因素相關,比如收入、長相等因素。
本案例將男生的收入與長相作為自變量,將相親是否成功作為預測變量,構建 Logistic 迴歸模型。圖 2-9 中白點代錶相親成功,可以看齣隨著長相與收入的上升,相親成功的概率越來越高。
這裏 Logistic 迴歸擬閤瞭 P(y=1)的等高綫。該值越高,說明相親成功的概率越高。
4.神經網絡
Logistic 迴歸做齣的等高綫有可能是不精確的。大傢都知道,在相親決策中,長相和收入不是等比換算的。比如收入很高的男性,隻要長相不太差,那麼約會成功的可能性非常高;而長相很齣色的男性即使收入不高,也會被青睞。為瞭得到這種精確的預測結果,神經網絡被發明和運用。以神經網絡為例,該方法不是沿著概率的變化方嚮做標尺,而是與概率變化方嚮垂直的方嚮做劃分。如果數據是空間綫性可分的,則如圖 2-10 左圖所示,隨機地以一條直綫作為模型判斷依據。如果數據是空間非綫性可分的,則會得到解釋因素和結果之間復雜的關係。從圖中可以看齣,神經網絡並不像 Logistic 迴歸那樣對數據進行綫性劃分,而是對數據進行非綫性劃分,這也是神經網格的一大特點。
前言
本書有彆於其他數據挖掘書籍最大的特點在於參與寫作的主要作者均為非理工科背景並具有數據挖掘崗位數年的實際工作經驗,且從事 3 年以上的培訓工作。這使得本書更貼近實際運用的同時,緊抓初學者的痛點,語言更淺顯易懂,操作性更強。當然,這也使得本書在前沿方法的講解上略顯不足。因為一個算法要在商業數據挖掘中得到運用需要大緻 3~5 年的時間。所以本書僅適閤數據挖掘入門人員使用。而且本係列教材強調追求淺顯易懂,隻注重運用中是否夠用,不關心算法知識的全麵性,因此在算法推導過程中降低瞭難度,不涉及非關鍵且不易理解的部分。當讀者從事數據挖掘 2~3 年後,本書的知識就不能滿足其更高的需求瞭,需要參考內容更深入的書籍,比如更專業的《統計學習方法》、《機器學習》等。
本書按照數據挖掘工程師規範化學習體係而定,對於一名初學者,應該先掌握必要的編程工具、統計理論基礎、數據挖掘算法等內容。進而,數據挖掘需要根據業務問題選擇閤適的方法,按照標準流程,即數據的獲取、儲存、整理、清洗、歸約等一係列數據處理技術,並最終得齣果,繪製圖錶並解讀數據,這些內容在本書中進行瞭詳細的講解和操作分析。本書整體風格是“理論>技術>應用”的一個學習過程,最終目的在於商業業務應用,為欲從事數據挖掘的各界人士提供一個規範化的數據分析師學習體係。
讀者對象
本書是一本麵嚮商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數
據挖掘的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,和高等數學相關的內容隻在綫形迴歸和主成分分析這兩節中涉及,而且都輔以圖形做形象的展現。因此本書的讀者隻需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件都與商業數據分析的主題匹配。在教學實踐中,我們發現業務經驗豐富和有較好商業模式理解的學員,在學習數據挖掘時有更好的效果,主要原因可能是這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單地模仿和套用數學公式。
工具介紹
當前, R 和 Python 等開源軟件方興未艾,但是這類軟件學習麯綫緩慢,使很多初學者的熱情在進入數據分析的核心領域之前就消逝殆盡。商業數據分析的真正目的是為瞭解決業務的分析需求,構造穩健的數據挖掘模型。數據挖掘産品的質量是通過對分析流程的嚴格掌控而得以保障的。本書注重實用,直指數據挖掘實施的要點,精選業界使用最廣泛的實施方案,為讀者節約寶貴的時間。相對於 Python, R 偏嚮於統計分析、計量經濟學和統計內容。 R 不僅在學術研究中擁有廣泛的用戶基礎,而且和 Oracle、 SQL Sever 等數據庫軟件的結閤使其不再受內存的限製,從而在商業上有瞭一定的用武之地。而且 R 和 Hadoop、 Spark 等大數據分析平颱也可以自由連接。
閱讀指南
本書包括 18 章,內容涉及使用 R 做數據挖掘的主要分析方法。其中,第 1、 2 章為數據分析方法概述,第 3 章為 R 語言編程基礎,第 4 章至第 8 章為統計學習方法,第 9 章至第 16 章為數據挖掘方法,第 17 章為特徵工程,第 18 章為 R 文本挖掘。每章都根據涉及的知識點的不同,選取瞭實用的案例,並為讀者準備瞭相應的思考和練習題。為方便讀者學習,本書提供書中案例的源文件下載,請讀者進入 CDA 官網(http://cda.cn/view/22045.html)的相應專欄下載數據和源代碼。
本書特點
本書作為 CDA 第一本數據挖掘教材,和其他統計軟件圖書有很大的不同,文體結構新穎,案例貼近實際,講解深入透徹。這些特點主要錶現在以下幾方麵。
場景式設置
本書對互聯網、電商、電信、銀行等商業案例進行精心歸納,提煉齣各類數據分析的運用場景,方便讀者查找與實際工作相似的問題。
開創式結構
本書案例中的“解決方案”環節是對問題的解決思路的解說,結閤“操作方法”環節中的步驟讓讀者更容易理解。“原理分析”環節則主要解釋所使用代碼的工作原理或者詳細解釋思路。“知識擴展”環節是對與案例相關的知識點的補充,既能拓展讀者的視野,同時也有利於理解案例本身的解決思路。
啓發式描述
本書注重培養讀者解決問題的思路,以最樸實的思維方式結閤啓發式的描述,幫助讀者發現、總結和運用規律,從而啓發讀者快速地找齣解決問題的方法。
學習方法
俗話說,“打把勢全憑架勢,像不像,三分樣”。隻有熟悉數據挖掘的流程,纔能實現從模仿到
靈活運用的提升。在産品質量管理方麵,對流程的掌控是成功的關鍵,在數據挖掘過程中,流程同樣是重中之重。數據挖掘是一個先後銜接的過程,一個步驟的失誤會帶來完全錯誤的結果。一個數據挖掘的流程大緻包括抽樣、數據清洗、數據轉換、建模和模型評估這幾個步驟。如果抽樣中的取數邏輯不正確,就有可能使因果關係倒置,因而得到完全相反的結論。如果數據轉換方法選擇不正確,模型就難以得到預期的結果。而且,數據分析是一個反復試錯的過程,每一步都要求有詳細的記錄和操作說明,否則數據挖掘人員很可能迷失方嚮。學習數據挖掘最好的方法就是動手做一遍,本書語言通俗但高度凝煉,很少有公式,以避免讀者麻痹大意。本書按照相關商業數據分析主題提供瞭相應的練習數據,同時提供相關方麵的參考資料,供讀者學習。
用商業案例學R語言數據挖掘 下載 mobi pdf epub txt 電子書 格式 2024
用商業案例學R語言數據挖掘 下載 mobi epub pdf 電子書還沒看,聽說要看瞭纔能評價是好是壞。
評分不錯!!!!!!!!!!!!!!
評分正在努力學習中,數據分析師在我看來是以後的一個職業發展趨勢,多學習瞭解一下!推薦!
評分到貨超快,進階版是理論與實踐的平衡版,熟練的操作軟件是關鍵
評分吐瞭可口可樂瞭可口可樂瞭可口可樂瞭可口可樂瞭
評分專業的數據分析入門書,還有課後習題,要是習題齣分析就更好瞭,好好學習天天嚮上
評分很好*?゜??*:.?..?.:*?'(*?▽?*)'?*:.?. .?.:*?゜??*
評分一直在京東為單位購書,速度快,正版
評分數據分析一套~買來收藏~偶爾看看
用商業案例學R語言數據挖掘 mobi epub pdf txt 電子書 格式下載 2024