內容簡介
《數據挖掘方法與模型》分為7章,第1章是對降維方法的介紹,這是數據挖掘技術的一個先決條件;第2章至第6章為經典的數據挖掘算法和技術,包括一元迴歸模型、多元迴歸模型、邏輯迴歸模型、貝葉斯網絡分析以及遺傳算法,通過實際案例引導讀者由已預處理的數據使用不同的挖掘技術從而得齣所需結論;第7章為基於數據挖掘過程模型上的多個案例研究,通過多個領域的案例來闡述算法和技術是如何被運用的。
《數據挖掘方法與模型》可作為數據挖掘課程教學用書,適用於高年級本科生和研究生的教學,也可供科研人員參考使用。
當下,由於強大的數據挖掘軟件平颱很容易獲得,草率地使用數據挖掘方法和技術將導緻挖掘的結果混淆難解。這種失誤往往源自盲目使用“黑盒子”方法進行數據挖掘,而最好的避免途徑就是使用“自盒子”方法,理解隱藏在軟件背後的算法和統計模型結構。
作者簡介
Daniel T.Larose,博士,美國中康涅狄格州立大學統計學教授。設計、開發並主持瞭世界上第一個在綫數據挖掘管理科學碩土學位課程及教學,創立瞭中康涅狄格州立大學數據挖掘研究室。研究興趣包括數據挖掘、統計分析等。發錶多篇論文,齣版學術專著5部。
劉燕權,博士,美國南康涅狄格州立大學終身正教授、校理事會理事,美福布賴特學者(2009-2010),北京大學、南京大學、清華大學、中國科學院研究生院、南京理工大學、內濛古大學等客座教授。研究方嚮為計算機科學與理論、數據挖掘、軟件工程項目開發與管理、數字圖書館、信息技術理論與實踐、多媒體設計及應用等。發錶論文及學術專著80餘篇(部)。
內頁插圖
目錄
第1章 降維方法
1.1 數據挖掘中降低維度的必要性
1.2 主成分分析法
1.2.1 主成分分析應用於房屋數據集
1.2.2 應提取多少個主成分
1.3 因子分析法
1.3.1 因子分析法在成年人數據集中的應用
1.3.2 因子鏇轉
1.4 用戶自定義閤成
總結
參考文獻
練習題
第2章 迴歸模型
2.1 簡單綫性迴歸實例
2.2 最小二乘法估計
2.3 決定係數
2.4 估計值的標準誤差
2.5 相關係數
2.6 方差分析錶
2.7 異常點、高杠杆點和強影響觀測值
2.8 迴歸模型
2.9 迴歸推斷
2.9.1 x和y之間綫性關係的t檢驗
2.9.2 迴歸直綫斜率的置信區間
2.9.3 給定x條件下,Y均值的置信區間
2.9.4 給定x條件下,Y隨機選擇值的預測區間
2.10迴歸假設檢驗
2.11 實例:棒球數據集
2.12 實例:加利福尼亞州數據集
2.13 綫性變換實現
總結
參考文獻
練習題
第3章 多元迴歸和建模
3.1 多元迴歸實例
3.2 多元迴歸模型
3.3 多元迴歸推斷
3.4 含有分類預測變量的迴歸
3.4.1 調整R2:對包含無用預測變量的懲罰模式
3.4.2 序貫的誤差平方和
3.5 多重共綫性
3.6 變量選擇方法
3.6.1 偏F檢驗
3.6.2 嚮前選擇程序
3.6.3 嚮後排除程序
3.6.4 逐步選擇程序
3.6.5 最優子集程序
3.6.6 所有可能的子集選擇程序
3.7 變量選擇方法的應用
3.7.1 嚮前選擇程序應用於榖物數據集
3.7.2 嚮後排除程序應用於榖物數據集
3.7.3 逐步選擇程序應用於榖物數據集
3.7.4 最優子集程序應用於榖物數據集
……
第4章 邏輯迴歸
第5章 樸素貝葉斯估計和貝葉斯網絡
第6章 遺傳算法
第7章 案便研究:直郵營銷的迴應建模問題
總結
參考文獻
精彩書摘
通常用於數據挖掘的數據庫可能有上百萬條記錄和數韆個變量。所有變量都是獨立而沒有任何關聯的現象是不常見的。如《數據中發掘知識:數據挖掘引言》中所提及的那樣,數據分析人員需要防範多重共綫性,即預測變量之間相互關聯的情形。多重共綫性會導緻解空間的不穩定,從而可能導緻結果的不連貫。如在多元迴歸中,即使單個變量的迴歸結果均不顯著,預測變量的多重共綫性集可能導緻迴歸整體相對顯著。即使上述的不穩定性得以避免,包含具有高度相關性變量的模型往往會強調其某一特定成分,該成分實質上被重復計算。
貝爾曼指齣,樣本量需要符閤一個多元函數,該函數跟隨變量數呈現指數關係遞增。換句話說,高維空間本身具有稀疏性。正如這個經驗法則告訴我們的,在一維空間的正態分布中,有68%的值介於正負標準差之間,而在10維多元正態分布中,隻有0.02%的數據屬於類似的高維空間。
在考察預測變量和迴應變量之間的關係時,過多地使用預測變量會不必要地復雜化分析過程。這違反瞭簡約原則,即應將預測變量的數目保持在可控的範圍內。另一方麵,過多的變量會妨礙查找規律的建立,因為新的數據對所有變量作齣的反應很可能和建模中采用的數據反應不同。
此外,僅在變量層麵上分析可能會忽略變量之間的潛在聯係。例如,幾個預測變量可能落人僅反映數據某一方麵特徵的一個組(一個因素或一個組成部分(components))內。
數據挖掘方法與模型 下載 mobi epub pdf txt 電子書 格式