編輯推薦
《計算機科學叢書:數據挖掘與R語言》的支持網站給齣瞭案例研究的所有代碼、數據集以及R函數包
不要求讀者具有R、數據挖掘或統計技術的基礎知識
《計算機科學叢書:數據挖掘與R語言》利用大量給齣必要步驟、代碼和數據的具體案例,詳細描述瞭數據挖掘的主要過程和技術
內容簡介
《計算機科學叢書:數據挖掘與R語言》首先簡要介紹瞭R軟件的基礎知識(安裝、R數據結構、R編程、R的輸入和輸齣等)。然後通過四個數據挖掘的實際案例(藻類頻率的預測、證券趨勢預測和交易係統仿真、交易欺詐預測、微陣列數據分類)介紹數據挖掘技術。這四個案例基本覆蓋瞭常見的數據挖掘技術,從無監督的數據挖掘技術、有監督的數據挖掘技術到半監督的數據挖掘技術。全書以實際問題、解決方案和對解決方案的討論為主綫來組織內容,脈絡清晰,並且各章自成體係。讀者可以從頭至尾逐章學習,也可以根據自己的需要進行學習,找到自己實際問題的解決方案。
《計算機科學叢書:數據挖掘與R語言》不需要讀者具備R和數據挖掘的基礎知識。不管是R初學者,還是熟練的R用戶都能從書中找到對自己有用的內容。讀者既可以把本書作為學習如何應用R的一本優秀教材,也可以作為數據挖掘的工具書。
作者簡介
Luís Torgo,葡萄牙波爾圖大學計算機科學係副教授,現在在LIAAD實驗室從事研究工作。他是APPIA會員,同時還是OBEGEF的創辦會員。
內頁插圖
目錄
齣版者的話
推薦序
中文版序
譯者序
前言
緻謝
第1章 簡介
1.1如何閱讀本書
1.2R簡介
1.2.1R起步
1.2.2R對象
1.2.3嚮量
1.2.4嚮量化
1.2.5因子
1.2.6生成序列
1.2.7數據子集
1.2.8矩陣和數組
1.2.9列錶
1.2.10數據框
1.2.11構建新函數
1.2.12對象、類和方法
1.2.13管理R會話
1.3MySQL簡介
第2章 預測海藻數量
2.1問題描述與目標
2.2數據說明
2.3數據加載到R
2.4數據可視化和摘要
2.5數據缺失
2.5.1將缺失部分剔除
2.5.2用最高頻率值來填補缺失值
2.5.3通過變量的相關關係來填補缺失值
2.5.4通過探索案例之間的相似性來填補缺失值
2.6獲取預測模型
2.6.1多元綫性迴歸
2.6.2迴歸樹
2.7模型的評價和選擇
2.8預測7類海藻的頻率
2.9小結
第3章 預測股票市場收益
3.1問題描述與目標
3.2可用的數據
3.2.1在R中處理與時間有關的數據
3.2.2從CSV文件讀取數據
3.2.3從網站上獲取數據
3.2.4從MySQL數據庫讀取數據
3.3定義預測任務
3.3.1預測什麼
3.3.2預測變量是什麼
3.3.3預測任務
3.3.4模型評價準則
3.4預測模型
3.4.1如何應用訓練集數據來建模
3.4.2建模工具
3.5從預測到實踐
3.5.1如何應用預測模型
3.5.2與交易相關的評價準則
3.5.3模型集成:仿真交易
3.6模型評價和選擇
3.6.1濛特卡羅估計
3.6.2實驗比較
3.6.3結果分析
3.7交易係統
3.7.1評估最終測試數據
3.7.2在綫交易係統
3.8小結
第4章 偵測欺詐交易
4.1問題描述與目標
4.2可用的數據
4.2.1加載數據至R
4.2.2探索數據集
4.2.3數據問題
4.3定義數據挖掘任務
4.3.1問題的不同解決方法
4.3.2評價準則
4.3.3實驗方法
4.4計算離群值的排序
4.4.1無監督方法
4.4.2有監督方法
4.4.3半監督方法
4.5小結
第5章 微陣列樣本分類
5.1問題描述與目標
5.1.1微陣列實驗背景簡介
5.1.2數據集ALL
5.2可用的數據
5.3基因(特徵)選擇
5.3.1基於分布特徵的簡單過濾方法
5.3.2ANOVA過濾
5.3.3用隨機森林進行過濾
5.3.4用特徵聚類的組閤進行過濾
5.4遺傳學異常的預測
5.4.1定義預測任務
5.4.2模型評價標準
5.4.3實驗過程
5.4.4建模技術
5.4.5模型比較
5.5小結
參考文獻
主題索引
數據挖掘術語索引
R函數索引
精彩書摘
注意,數字2(實際上是嚮量c(2)!)被循環,導緻v1的所有元素乘以2。正如我們將看到的,這種循環規則也適用於其他的對象,如數組和矩陣。
1.2.5 因子
因子提供瞭一個簡單而又緊湊的形式來處理分類(名義)數據。因子用水平來錶示所有可能的取值。如果數據集有取值個數固定的名義變量,因子就特彆有用。下麵的章節將要學習的多個圖形函數和匯總函數就應用瞭因子的這種優點。對用戶來說,這種使用和顯示因子數據的方式顯然是易於理解的,而R軟件內部以數值編碼方式來存儲因子值,這將大大提高內存的利用效率。
下麵舉例說明如何在R中創建因子。假設有一個10個人的性彆嚮量:
>g<—c(“f”,“m”,“m”,“m”,“f”,“m”,“f”,“m”,“f”,“f”)
>g
[1] “f” “m” “m” “m” “f” “m” “f” “m” “f” “f”
你可以把這個嚮量轉換為一個因子:
)g<—factor(g)
>g
[1]f m m m f m f m f f
Levels:f m
注意,得到的不再是一個字符嚮量。上麵提到,實際上這些因子在R內部錶示為數值嚮量@。
在這個例子中,因子有兩個水平,‘f’和‘m’,在R內部分彆錶示為1和2。然而,你不需要關心這個內部錶示,因為你可以使用“原始的”字符值,R在顯示因子時也使用這種字符方式。因此,齣於效率的考慮,R因子的編碼轉換是用戶透明的。
假設有另外5個人,需要把他們的性彆信息存儲在另一個因子對象中。假設他們都是男性。
前言/序言
【前言】
Data Mining with R:Learning with Case Studies
本書的主要目的是嚮讀者介紹如何用R進行數據挖掘。R是一個可以自由下載的語言,它提供統計計算和繪圖環境,其功能和大量的添加包使它成為一款優秀的、多個已有(昂貴)數據挖掘工具的替代軟件。
�∠略贋�址:http://www�眗�瞤roject�眔rg。 ��
數據挖掘的一個關鍵問題是數據量。典型的數據挖掘問題包括一個大的數據庫,需要從中提取有用的信息。在本書中,我們用MySQL作為核心數據庫管理係統。對多個計算機平颱,MySQL也是免費的。這意味著,我們可以不用付任何費用就可以進行“重要的”數據挖掘任務。同時,我們希望說明解決方案質量上並沒有任何損失。昂貴的工具並不意味著一定更好!隻要你願意花時間來學習如何應用它們,R和MySQL就是一對很難超越的工具。我們認為這是值得的,希望在讀完本書之後,你也相信這點。
�� 下載網址:http://www�眒ysql�眂om。 ��
本書的目的不是介紹數據挖掘的各個方麵。許多已有的書籍覆蓋瞭數據挖掘領域。我們用幾個案例來嚮讀者介紹R的數據挖掘能力。顯然,這幾個案例不能代錶我們在現實世界中碰到的所有數據挖掘問題。同時,我們給齣的解決方案也不是最完全的方案。我們的目的是通過這些實際案例嚮讀者介紹如何用R進行數據挖掘。因此,我們案例分析的目的是展示用R進行信息提取的例子,而不是提供數據挖掘案例的完整分析報告。它們可以作為任何數據挖掘項目的可能思路,或者作為開發數據挖掘項目解決方案的基礎。盡管如此,我們盡力嘗試覆蓋多方麵的問題,展示數據大小、不同數據類型、分析目標和進行分析所必需的工具所帶來的挑戰。然而,這裏的實踐方式也是有代價的。實際上,作為具體案例研究的一種形式,為瞭讓讀者在自己的計算機上執行我們所描述的步驟,我們也做瞭某些妥協。也就是說,我們不能處理太大的問題,這些問題要求的計算機資源不是每個人都具備的。盡管這樣,我們認為本書涵蓋的問題也不算小,並對不同的數據類型和維度給齣瞭解決方案。
這裏並不要求讀者具有R的先驗知識。沒有學過R和數據挖掘的讀者應該可以學習書中的案例。書中的各個案例相互獨立,讀者可以從書中任何一個案例開始。在第一個簡單案例中,給齣瞭一些基本的R知識。這意味著,如果你沒有學過R,至少應該從第一個案例開始學習。而且,第1章給齣瞭R和MySQL的簡介,它可以幫助你理解後麵的章節。我們也沒有假設你熟悉數據挖掘和統計技術。在每個案例的必要地方,都對不同的數據挖掘技術進行瞭介紹。本書的目的不是嚮讀者介紹這些技術的理論細節和全麵知識,我們對這些工具的描述包括瞭它們的基本性質、缺點和分析目標。如果需要進一步瞭解技術細節,可以參考其他書籍。在某些節的末尾,我們提供瞭“參考資料”,如果需要,可以參考它們。總之,本書的讀者應該是數據分析工具的用戶,而不是研究人員或者開發人員。同時,我們希望後者把本書作為進入R和數據挖掘“世界”的一種方式,從而發現本書的用途。
本書有一個免費的R代碼集,可以從本書網站下載。其中含有案例研究中的所有代碼,這可以幫助你的實踐學習。我們強烈建議讀者在閱讀本書時安裝R並實驗書中的代碼。而且,我們創建瞭一個名為DMwR的R添加包,它包含本書用到的多個函數和以R格式保存的案例數據集。你應該按照本書的指示,安裝並加載該添加包(第1章給齣瞭細節)。
�� 下載網址:http://www�眑iaad�眜p�眕t/~ltorgo/DataMiningWithR/。
《深度解析:智能數據驅動的商業決策》 在信息爆炸的時代,數據已成為企業最寶貴的資産。然而,海量數據的背後隱藏著巨大的價值,也伴隨著前所未有的挑戰。如何從紛繁復雜的數據洪流中提取洞察,將其轉化為驅動商業成功的戰略,是每一個現代企業都必須麵對的核心議題。 《深度解析:智能數據驅動的商業決策》是一本旨在賦能您駕馭數據力量、做齣更明智、更具前瞻性商業決策的權威指南。本書並非僅僅聚焦於某種特定技術或工具,而是緻力於構建一個全麵、係統化的數據驅動決策框架,幫助讀者理解數據在商業運作各個環節的潛能,並掌握將其轉化為實際價值的方法。 本書的獨特之處在於其高度的實踐導嚮和前瞻性視野。我們深知,理論的海洋固然廣闊,但真正能夠改變商業格局的是那些能夠落地執行的策略和方法。因此,本書內容緊密圍繞商業實際需求展開,從戰略層麵到戰術執行,層層遞進,力求為讀者提供一套可操作、可復製的解決方案。 第一部分:構建數據驅動的商業思維 在踏上數據驅動之旅的起點,我們首先需要革新的是思維模式。本部分將深入探討: 數據驅動的本質與演進: 剖析數據驅動決策的核心理念,追溯其在商業發展曆程中的演變軌跡,理解數據如何從簡單的記錄工具升華為戰略製勝的關鍵。我們將討論從描述性統計到預測性分析,再到規範性建議的分析能力躍升,以及這種躍升對企業運營模式帶來的顛覆性影響。 智能數據決策的戰略意義: 闡釋為何在當今競爭激烈的市場環境中,數據驅動已不再是“可選項”,而是“必選項”。我們將分析企業在各個層麵,如産品研發、市場營銷、客戶服務、運營管理、風險控製等方麵,如何通過數據洞察實現差異化競爭優勢。 數據價值鏈的構建與優化: 詳細解讀企業如何係統性地構建從數據采集、清洗、存儲、分析到應用的全生命周期價值鏈。本書將提供一套評估和優化現有數據基礎設施的實用方法,確保數據能夠高效、安全地流動,並最終服務於商業目標。 數據倫理與閤規性: 在享受數據紅利的同時,我們必須正視數據安全、隱私保護以及閤規性問題。本部分將深入探討相關法律法規,並提供切實可行的操作指南,幫助企業在閤法閤規的框架內,最大化數據的使用價值。 第二部分:數據洞察的獲取與解讀 有瞭正確的心態和框架,接下來便是掌握獲取和解讀數據洞察的關鍵技能。本部分將聚焦於: 商業問題導嚮的數據分析: 強調分析的起點始終是清晰的商業問題。本書將引導讀者學習如何將模糊的商業挑戰轉化為可執行的數據分析任務,並選擇最恰當的分析方法。 主流數據分析方法論詳解: 詳細介紹支撐智能數據決策的各類分析方法,包括但不限於: 描述性分析: 如何通過可視化和統計手段,清晰呈現現狀,識彆趨勢和模式。例如,通過用戶畫像分析,描繪目標客戶群體的特徵。 診斷性分析: 深入挖掘問題根源,理解“為什麼會發生”。例如,分析銷售額下降的原因,找齣是營銷活動失效還是産品缺陷。 預測性分析: 利用曆史數據和算法,預判未來趨勢和結果。例如,預測客戶流失的可能性,提前進行挽留。 規範性分析: 基於預測結果,提齣最優的行動建議,實現“應該怎麼做”。例如,為不同客戶群體推薦個性化的産品或服務。 數據可視化:溝通洞察的關鍵橋梁: 深入講解數據可視化的原則和技巧,如何選擇閤適的圖錶類型,如何設計直觀、易懂的可視化界麵,將復雜的數據關係轉化為清晰的商業洞察,有效地傳達給決策者。 解讀分析結果的藝術: 分析的最終目標是指導決策。本部分將教授讀者如何批判性地審視分析結果,識彆潛在偏差,並將其與商業情境相結閤,做齣有價值的解讀。 第三部分:智能數據驅動的商業實踐 理論的意義在於指導實踐,本部分將把前兩部分的內容融會貫通,聚焦於如何在具體的商業場景中落地數據驅動的決策。 營銷與銷售的智能化升級: 精準營銷與客戶細分: 如何利用客戶數據進行精細化分群,實現個性化的産品推薦、廣告投放和溝通策略,大幅提升營銷 ROI。 銷售預測與機會管理: 基於銷售數據和市場趨勢,準確預測銷售額,識彆高潛力銷售綫索,優化銷售流程。 客戶生命周期價值(CLV)最大化: 理解並應用 CLV 模型,製定針對性的客戶留存和增值策略。 産品開發與創新的數據賦能: 用戶行為分析與産品優化: 通過分析用戶在産品中的交互數據,發現用戶痛點和潛在需求,指導産品迭代和功能改進。 市場趨勢預測與新産品機會識彆: 利用行業數據、社交媒體信息等,洞察市場趨勢,發現尚未被滿足的需求,孵化創新産品。 A/B 測試與精益化産品發布: 係統性地進行 A/B 測試,以數據為依據,科學地評估和選擇産品方案,降低試錯成本。 運營效率的精益化提升: 供應鏈與物流優化: 基於實時數據,優化庫存管理、配送路綫,降低運營成本,提升響應速度。 生産製造的智能監控與預測性維護: 通過傳感器數據和機器學習,實現生産過程的實時監控,預測設備故障,提前進行維護,避免停機損失。 人力資源管理的優化: 基於員工數據,優化招聘流程,提升培訓效果,預測人纔流失風險,構建高績效團隊。 風險管理與欺詐檢測的智能化: 信用風險評估: 利用多維度數據,構建精準的信用評分模型,有效規避信貸風險。 欺詐行為識彆與預防: 通過模式識彆和異常檢測,實時發現和阻止潛在的欺詐行為,保護企業和客戶的利益。 第四部分:數據驅動決策的未來展望 隨著人工智能、大數據技術的飛速發展,數據驅動的商業決策正迎來前所未有的機遇。本部分將帶領讀者展望未來: 人工智能與機器學習在決策中的應用深化: 探索更高級的 AI 模型,如深度學習、強化學習等,如何在更復雜的商業場景中提供更智能的洞察和自動化決策。 自動化決策引擎與實時響應: 討論如何構建能夠實時響應市場變化、自動執行決策的係統,實現“秒級”商業反應。 數據驅動的組織變革與人纔培養: 分析在數據驅動轉型過程中,組織架構、企業文化以及人纔培養所麵臨的挑戰與機遇,以及如何構建數據素養更高的團隊。 倫理、治理與可持續發展: 再次強調數據倫理和治理的重要性,並探討如何在數據驅動的商業模式中融入可持續發展的理念,實現經濟效益和社會效益的雙贏。 《深度解析:智能數據驅動的商業決策》不僅僅是一本書,更是一張通往未來商業新世界的導航圖。無論您是企業管理者、數據分析師、産品經理、營銷專傢,還是對數據驅動的商業模式充滿興趣的探索者,本書都將為您提供寶貴的知識、實用的工具和開闊的視野。 本書力求通過嚴謹的邏輯、豐富的案例和易於理解的語言,幫助您: 理解數據在現代商業中的核心價值。 掌握構建和實施數據驅動決策框架的關鍵步驟。 學習如何從數據中提取有價值的洞察。 將數據洞察轉化為切實的商業策略和行動。 在快速變化的商業環境中,保持領先地位,做齣更明智、更具競爭力的決策。 翻開本書,您將開啓一段探索數據力量、驅動商業革新的精彩旅程。