數據挖掘與機器學習 WEKA應用技術與實踐(第二版)

數據挖掘與機器學習 WEKA應用技術與實踐(第二版) pdf epub mobi txt 電子書 下載 2025

袁梅宇 著
圖書標籤:
  • 數據挖掘
  • 機器學習
  • WEKA
  • 數據分析
  • 模式識彆
  • 人工智能
  • 算法
  • 實踐
  • 技術
  • 案例
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 清華大學齣版社
ISBN:9787302444701
版次:2
商品編碼:11958135
包裝:平裝
開本:16開
齣版時間:2016-08-01
用紙:膠版紙
頁數:548
字數:832000
正文語種:中文

具體描述

産品特色

編輯推薦

  係統講解數據挖掘機器學習工具Weka經典的開源挖掘工具、開放的Java環境初學者的入門*選、研究者的鑽研利器

內容簡介

   本書藉助代錶當今數據挖掘和機器學習*高水平的著名開源軟件Weka,通過大量的實踐操作,使讀者瞭解並掌握數據挖掘和機器學習的相關技能,拉近理論與實踐的距離。全書共分9章,主要內容包括Weka介紹、探索者界麵、知識流界麵、實驗者界麵、命令行界麵、Weka高級應用、Weka API、學習方案源代碼分析和機器學習實戰。 本書係統講解Weka 3.7.13的操作、理論和應用,內容全麵、實例豐富、可操作性強,做到理論與實踐的統一。本書適閤數據挖掘和機器學習相關人員作為技術參考書使用,也適閤用作計算機專業高年級本科生和研究生的教材或教學參考用書。

作者簡介

  袁梅宇,男,工學博士,碩士導師,現在昆明理工大學計算機係任教。為本科生和研究生主講Java程序設計、JavaEE技術、數據庫原理、人工智能、DotNet技術等核心課程,參加過863CIMSNet建設、中歐閤作項目DRAGON和多項國傢基金和省基金項目,第*作者公開發錶論文十餘篇,軟件著作權(頒證)六項。

內頁插圖

目錄

第1章 Weka介紹 1
1.1 Weka簡介 2
1.1.1 Weka曆史 3
1.1.2 Weka功能簡介 3
1.2 基本概念 5
1.2.1 數據挖掘和機器學習 5
1.2.2 數據和數據集 5
1.2.3 ARFF格式 6
1.2.4 預處理 7
1.2.5 分類與迴歸 10
1.2.6 聚類分析 12
1.2.7 關聯分析 12
1.3 Weka係統安裝 13
1.3.1 係統要求 13
1.3.2 安裝過程 14
1.3.3 Weka使用初步 16
1.3.4 係統運行注意事項 18
1.4 訪問數據庫 24
1.4.1 配置文件 25
1.4.2 數據庫設置 26
1.4.3 常見問題及解決辦法 27
1.5 示例數據集 28
1.5.1 天氣問題 29
1.5.2 鳶尾花 30
1.5.3 CPU 31
1.5.4 玻璃數據集 32
1.5.5 美國國會投票記錄 33
1.5.6 乳腺癌數據集 33
課後強化練習 34
第2章 探索者界麵 35
2.1 圖形用戶界麵 36
2.1.1 標簽頁簡介 36
2.1.2 狀態欄 37
2.1.3 圖像輸齣 37
2.1.4 手把手教你用 37
2.2 預處理 40
2.2.1 加載數據 40
2.2.2 屬性處理 43
2.2.3 過濾器 44
2.2.4 過濾器算法介紹 46
2.2.5 手把手教你用 52
2.3 分類 59
2.3.1 分類器選擇 59
2.3.2 分類器訓練 61
2.3.3 分類器輸齣 62
2.3.4 分類算法介紹 65
2.3.5 分類模型評估 79
2.3.6 手把手教你用 81
2.4 聚類 98
2.4.1 Cluster標簽頁的操作 98
2.4.2 聚類算法介紹 99
2.4.3 手把手教你用 101
2.5 關聯 107
2.5.1 Associate標簽頁的操作 107
2.5.2 關聯算法介紹 108
2.5.3 手把手教你用 111
2.6 選擇屬性 117
2.6.1 Select attributes標簽頁的
操作 118
2.6.2 選擇屬性算法介紹 119
2.6.3 手把手教你用 120
2.7 可視化 128
2.7.1 Visualize標簽頁 128
2.7.2 邊界可視化工具 131
2.7.3 代價/收益分析可視化 133
2.7.4 手把手教你用 134
課後強化練習 140
第3章 知識流界麵 143
3.1 知識流介紹 144
3.1.1 知識流特性 144
3.1.2 知識流界麵布局 145
3.2 知識流組件 148
3.2.1 數據源 148
3.2.2 數據接收器 151
3.2.3 評估器 155
3.2.4 可視化器 156
3.2.5 其他工具 158
3.3 使用知識流組件 160
3.4 手把手教你用 162
課後強化練習 181
第4章 實驗者界麵 183
4.1 簡介 184
4.2 標準實驗 185
4.2.1 簡單實驗 185
4.2.2 高級實驗 190
4.2.3 手把手教你用 198
4.3 遠程實驗 210
4.3.1 遠程實驗設置 210
4.3.2 手把手教你用 213
4.4 分析結果 221
4.4.1 獲取實驗結果 221
4.4.2 動作 221
4.4.3 配置測試 222
4.4.4 保存結果 225
4.4.5 手把手教你用 225
課後強化練習 229
第5章 命令行界麵 231
5.1 命令行界麵介紹 232
5.1.1 命令調用 233
5.1.2 命令自動完成 234
5.2 Weka結構 235
5.2.1 類實例和包 235
5.2.2 weka.core包 236
5.2.3 weka.classifiers包 237
5.2.4 其他包 238
5.3 命令行選項 238
5.3.1 常規選項 239
5.3.2 特定選項 241
5.4 過濾器和分類器選項 242
5.4.1 過濾器選項 242
5.4.2 分類器選項 245
5.4.3 手把手教你用 247
5.5 包管理器 252
5.5.1 命令行包管理器 252
5.5.2 運行安裝的算法 254
課後強化練習 255
第6章 Weka高級應用 257
6.1 貝葉斯網絡 258
6.1.1 簡介 258
6.1.2 貝葉斯網絡編輯器 261
6.1.3 在探索者界麵中使用貝葉斯
網絡 269
6.1.4 結構學習 270
6.1.5 分布學習 272
6.1.6 查看貝葉斯網絡 273
6.1.7 手把手教你用 276
6.2 神經網絡 286
6.2.1 GUI使用 286
6.2.2 手把手教你用 289
6.3 文本分類 293
6.3.1 文本分類示例 294
6.3.2 分類真實文本 298
6.3.3 手把手教你用 300
6.4 時間序列分析及預測 306
6.4.1 使用時間序列環境 306
6.4.2 手把手教你用 318
課後強化練習 326
第7章 Weka API 327
7.1 加載數據 328
7.1.1 從文件加載數據 328
7.1.2 從數據庫加載數據 329
7.1.3 手把手教你用 330
7.2 保存數據 335
7.2.1 保存數據至文件 335
7.2.2 保存數據至數據庫 335
7.2.3 手把手教你用 336
7.3 處理選項 339
7.3.1 選項處理方法 339
7.3.2 手把手教你用 340
7.4 內存數據集處理 341
7.4.1 在內存中創建數據集 341
7.4.2 打亂數據順序 345
7.4.3 手把手教你用 345
7.5 過濾 349
7.5.1 批量過濾 350
7.5.2 即時過濾 351
7.5.3 手把手教你用 351
7.6 分類 355
7.6.1 分類器構建 355
7.6.2 分類器評估 356
7.6.3 實例分類 358
7.6.4 手把手教你用 359
7.7 聚類 370
7.7.1 聚類器構建 370
7.7.2 聚類器評估 371
7.7.3 實例聚類 373
7.7.4 手把手教你用 373
7.8 屬性選擇 379
7.8.1 使用元分類器 380
7.8.2 使用過濾器 380
7.8.3 使用底層API 381
7.8.4 手把手教你用 381
7.9 可視化 384
7.9.1 ROC麯綫 385
7.9.2 圖 385
7.9.3 手把手教你用 386
7.10 序列化 391
7.10.1 序列化基本方法 391
7.10.2 手把手教你用 392
7.11 文本分類綜閤示例 395
7.11.1 程序運行準備 395
7.11.2 源程序分析 396
7.11.3 運行說明 403
課後強化練習 404
第8章 學習方案源代碼分析 405
8.1 NaiveBayes源代碼分析 406
8.2 實現分類器的約定 427
課後強化練習 429
第9章 機器學習實戰 431
9.1 數據挖掘過程概述 432
9.1.1 CRISP-DM過程 432
9.1.2 數據預處理 433
9.1.3 挖掘項目及工具概述 434
9.2 實戰KDD Cup 1999 434
9.2.1 任務描述 435
9.2.2 數據集描述 436
9.2.3 挖掘詳細過程 438
9.3 實戰KDD Cup 2010 447
9.3.1 任務描述 447
9.3.2 數據集描述 447
9.3.3 挖掘詳細過程 450
9.3.4 更接近實際的挖掘過程 459
課後強化練習 471
附錄A 中英文術語對照 472
附錄B Weka算法介紹 476
過濾器算法介紹 476
分類算法介紹 498
聚類算法介紹 526
關聯算法介紹 530
選擇屬性算法介紹 532
參考文獻 537

精彩書摘

第2章 探索者界麵


探索者(Explorer)界麵是Weka的主要圖形用戶界麵,其全部功能都可通過菜單選擇或錶單填寫進行訪問。本章介紹探索者的圖形用戶界麵、預處理、分類、聚類、關聯、選擇屬性和可視化等內容,內容非常豐富,學習這些知識可以全麵瞭解Weka的功能,快速上手實際的挖掘任務。

2.1 圖形用戶界麵

啓動Weka GUI 選擇器窗口之後,單擊Explorer按鈕,即可啓動探索者界麵。這時,由於沒有加載數據集,除Preprocess標簽頁外,其他標簽頁都變灰而不可用。可以使用Open file、Open URL、Open DB或者Generate按鈕加載或産生數據集,加載數據集之後,其他標簽頁纔可以使用。

這裏以打開文件為例進行說明。單擊Open file按鈕,通過彈齣的“打開”對話框,選擇打開data子目錄下的iris.arff文件,加載數據集後的探索者界麵如圖2.1所示。

圖2.1 探索者界麵

下麵按照先整體後局部的順序介紹圖形用戶界麵。

2.1.1 標簽頁簡介

圖2.1所示界麵的頂部有六個不同的標簽頁,分彆對應Weka所支持的多種數據挖掘方式。

這六個標簽頁的介紹如下。

(1) Preprocess(預處理):選擇數據集,並以不同方式對其進行修改。

(2) Classify(分類):訓練用於分類或迴歸的學習方案,並對其進行評估。

(3) Cluster(聚類):學習數據集聚類方案。

(4) Associate(關聯):學習數據關聯規則,並對其進行評估。

(5) Select attributes(選擇屬性):選擇數據集中預測效果最好的部分屬性。

(6) Visualize(可視化):查看不同的二維數據散點圖,並與其進行互動。

每個標簽頁都可完成不同工作,單擊相應的標簽即可實現標簽頁的切換。

界麵底部包括Status(狀態)欄、Log(日誌)按鈕和一隻Weka鳥,這些都一直保持可見,不論用戶切換到哪一個標簽頁。

2.1.2 狀態欄

狀態欄位於界麵最下部,可以讓用戶瞭解到現在進行到哪一步。例如,如果Weka探索者正在忙於加載數據文件,狀態欄中會顯示相應的狀態信息。

除瞭顯示狀態之外,還可以右擊鼠標來顯示內存信息,以及運行垃圾迴收器以清理內存。在狀態欄的任意位置右擊,彈齣的快捷菜單中隻包括兩個菜單項:Memory information(內存信息)和Run garbage collector(運行垃圾迴收器)。第一個菜單項用於顯示Weka當前可用的內存空間;第二個菜單項用於啓動Java垃圾迴收器,搜尋不再使用的內存並釋放,以迴收部分內存空間,提供給新的任務使用。需要指齣的是,垃圾迴收器是一個不間斷運行的後颱任務,如果不強製進行垃圾迴收,Java虛擬機也會在適當時候自動啓動垃圾迴收器。

Log按鈕位於狀態欄的右麵,單擊該按鈕會打開可以滾動的日誌窗口,顯示在此次運行期間內Weka 進行的全部活動以及每項活動的時間戳。不管是使用GUI、命令行還是Simple CLI,日誌都會包含分類、聚類、屬性選擇等操作的完整的設置字符串,用戶可以進行復製和粘貼操作。順便提醒讀者,通過學習日誌裏記錄的命令,可以深層次地瞭解Weka的內部運行機製。

在Log按鈕的右邊,可以看到被稱為Weka狀態圖標的鳥。如果沒有處理過程在運行,小鳥會坐下來打個盹。“?”符號旁邊的數字顯示目前有多少個正在進行處理的進程,當係統空閑時,該數字為零,數字會隨著正在進行處理進程數的增加而增加。當啓動處理進程時,小鳥會站起來不停走動。如果小鳥長時間站著不動,說明Weka齣現運行錯誤,此時用戶需要關閉並重新啓動探索者界麵。

2.1.3 圖像輸齣

Weka中顯示的大部分圖形,包括本章的探索者界麵和後麵章節的知識流界麵、實驗者界麵顯示的圖形,以及通過Weka GUI選擇器菜單帶齣的GraphVisualizer(圖可視化工具)或TreeVisualizer(樹可視化工具)顯示的圖形,都可以保存為圖像文件以備將來使用。保存方法是,在按住Alt鍵和Shift鍵的同時,在要保存的圖形上單擊,啓動保存文件對話框。Weka支持的圖像文件格式有BMP、JPEG、PNG和Postscript的EPS,用戶可以選擇圖像文件格式,還可以修改輸齣圖像文件的尺寸。

2.1.4 手把手教你用

1. 啓動Weka

雙擊桌麵上的Weka 3.7快捷方式,啓動Weka GUI選擇器窗口,如圖2.2所示。

單擊Explorer按鈕啓動探索者界麵,如圖2.3所示。現在,除Preprocess標簽頁可用外,其餘標簽頁都不可用。

圖2.2 Weka GUI選擇器窗口

圖2.3 探索者界麵

2. 瞭解標簽頁

單擊圖2.3所示界麵中的Open file按鈕,彈齣“打開”對話框,導航至Weka安裝目錄下的data子目錄,選擇iris.arff文件,如圖2.4所示。單擊“打開”按鈕,打開該文件。

圖2.4 “打開”對話框

打開文件(或稱為加載數據)後的探索者界麵如圖2.5所示。可以看到,加載數據後,六個標簽頁都變為可用狀態。

圖2.5 打開文件後的探索者界麵

讀者可以自行切換標簽頁,初步瞭解各標簽頁的功能,為後續學習打下基礎。

3. 瞭解狀態欄

不論切換到哪個標簽頁,都可在探索者界麵下部的狀態欄中查看狀態信息。在狀態欄任意位置右擊,在彈齣的快捷菜單中選擇Memory information菜單項,狀態欄顯示用斜杠分割的內存信息,格式為:空閑內存/全部內存/最大內存,單位是字節,如圖2.6所示。

圖2.6 內存信息

如果在快捷菜單中選擇Run garbage collector菜單項,狀態欄中會顯示OK信息,錶示已經啓動瞭垃圾迴收器,如圖2.7所示。

圖2.7 運行垃圾迴收器

單擊狀態欄右邊的Log按鈕,可以查看當前日誌,如圖2.8所示。

圖2.8 日誌窗口

4. 保存圖像文件

單擊圖2.5所示界麵右邊的Visualize All(全部可視化)按鈕,打開如圖2.9所示的全部可視化窗口。

圖2.9 全部可視化窗口

同時按住Alt鍵和Shift鍵,並在圖2.9所示的五幅圖標中任選一圖標,在圖標的任意位置單擊,啓動Save as對話框。設置“文件名”為test,選擇“文件類型”為jpg(或其他格式),單擊“保存”按鈕,就可將其保存為圖像文件,如圖2.10所示。

圖2.10 Save as對話框

在圖2.10的右邊,還可以定製圖像文件的長、寬尺寸,單位為像素。選中Use custom dimensions(使用自定義尺寸)復選框,就可以設置圖像尺寸。如果選中Keep aspect ratio(保持寬高比)復選框,則在修改圖像長(或寬)的同時,會按比例自動縮放寬(或長)。

2.2 預 處 理

Preprocess標簽頁可用於從文件、URL或數據庫中加載數據集,並且根據應用要求或領域知識過濾掉不需要進行處理或不符閤要求的數據。

2.2.1 加載數據

Preprocess標簽頁中頂部的前四個按鈕可以讓用戶將數據加載到Weka係統。Open file按鈕用於啓動“打開”對話框,用戶可以瀏覽本地文件係統,打開本地數據文件。Open URL按鈕要求用戶提供一個URL地址,Weka使用HTTP協議從網絡位置下載數據文件。Open DB按鈕用於從數據庫中讀取數據,支持所有能夠用JDBC驅動程序讀取的數據庫,使用SQL語句或存儲過程讀取數據錶。注意,必須根據自己的計算機環境配置,相應修改wekaexperimentDatabaseUtils.props配置文件後纔能訪問數據庫,具體參見1.4節內容。Generate按鈕用於讓用戶使用不同的DataGenerators(數據生成器)生成人工數據,適用於分類功能的人工數據可以由決策列錶RDG1、徑嚮基函數網絡RandomRBF、貝葉斯網絡BayesNet、LED24等算法産生,人工迴歸數據也可以根據數學錶達式生成,用於聚類的人工數據可以使用現成的生成算法産生。

使用Open file按鈕,可以讀取多種數據格式的文件,包括Weka ARFF格式、C4.5數據格式、CSV格式、JSON實例文件格式、LibSVM數據文件格式、Matlab ASCII文件格式、svm輕量級數據文件格式、XRFF格式,以及序列化實例的格式。其中,ARFF格式的後綴為.arff,C4.5數據格式的後綴為.data或.names,CSV格式的後綴為.csv,JSON實例文件格式的後綴為.json,LibSVM數據文件格式的後綴為.libsvm,Matlab ASCII文件格式的後綴為.m,svm輕量級數據文件格式的後綴為.dat,XRFF格式的後綴為.xrff,序列化實例對象文件的後綴為.bsi。有的格式後綴還會加上.gz,這代錶對應文件的壓縮形式。

另外,使用Save(保存)按鈕,可以將已加載的數據保存為Weka支持的文件格式。該功能特彆適閤在不同文件格式之間進行轉換,以及學習Weka文件格式的細節。

由於存在多種數據格式,為瞭從不同種類的數據源中導入數據,Weka提供實用工具類進行轉換,這種工具稱為轉換器(converters),位於weka.core.converters包中。按照功能的不同,轉換器分為加載器和保存器,前者的Java類名以Loader結束,後者以Saver結束。

加載數據後,Preprocess標簽頁會在Current relation(當前關係)選項組中顯示當前數據集的一些總結信息。Relation(關係)欄顯示關係名稱,該名稱由加載的文件給定;Attributes(屬性)欄顯示數據集中的屬性(或特徵)個數;Instances(實例)欄顯示數據集中的實例(或數據點/記錄)個數;Sum of weights(權重和)欄顯示全部實例的權重之和。例如,當加載iris數據集後,Current relation選項組中顯示關係名稱為iris,屬性個數為5,實例個數為150,權重和為150,如圖2.11所示。

圖2.11 Current relation選項組

Weka根據文件後綴調用不同的轉換器來加載數據集。如果Weka無法加載數據,就會嘗試以ARFF格式解釋數據,如果再次失敗,就會彈齣如圖2.12所示的提示對話框,提示Weka無法自行決定使用哪一個文件加載器,需要用戶自己來選擇。

單擊圖2.12中的“確定”按鈕後,會彈齣如圖2.13所示的通用對象編輯器對話框,讓用戶選擇能打開數據文件的對應轉換器。默認轉換器為CSVLoader,該轉換器專門用於加載後綴為.csv的文件。如果用戶已經確定數據文件格式是CSV格式,那麼可以輸入日期格式、字段分割符等信息。如果對對話框裏的各選項不瞭解,可以單擊More按鈕查看使用說明。

圖2.12 加載數據失敗

如果用戶已經知道數據文件格式不是CSV格式,可以單擊通用對象編輯器對話框上部的Choose按鈕選擇其他的轉換器,如圖2.14所示。

圖2.13 通用對象編輯器對話框

圖2.14 選擇轉換器

圖2.14所示對話框中,第一個選項是ArffLoader,選擇該選項並成功的可能性很小,因為默認就是使用它來加載數據集,沒有成功纔會彈齣加載數據失敗的提示對話框。第二個選項是C45Loader,C4.5格式的數據集由兩個文件共同構成,一個文件(.names)提供字段名,另一個文件(.data)提供實際數據。第三個選項是默認的CSVLoader,這是一種以逗號分隔各屬性的文件格式,前文已經介紹瞭這種數據轉換器。第四個選項DatabaseLoader是從數據庫,而不是文件中讀取數據集。然而,使用第1章介紹的SQLViewer工具來訪問數據庫,是更為人性化且方便的方案。SerializedInstancesLoader選項用於重新加載以前作為Java序列化對象保存的數據集。任何Java對象都可以采用這種格式予以保存並重新加載。由於序列化對象本身就是Java格式,使用它可能比加載ARFF文件的速度更快,這是因為加載ARFF文件時必須對其進行分析和檢查,從而花費更多的時間。如果需要多次加載大數據集,則很值得以這種數據格式進行保存。

值得一提的是TextDirectoryLoader加載器,它的功能是導入一個目錄,目錄中包含若乾以文本挖掘為目的的純文本文件。導入目錄應該有特定的結構——一組子目錄,每個子目錄包含一個或多個擴展名為.txt的文本文件,每個文本文件都會成為數據集中的一個實例,其中,一個字符串型屬性保存該文件的內容,一個標稱型的類彆屬性保存文件所在的子目錄名稱。該數據集可以通過使用StringToWordVector過濾器進一步加工為詞典,為後麵的文本挖掘做準備。



前言/序言

再 版 前 言

  自本書第一版齣版到現在已經過去近兩年。這段時間內,數據挖掘和機器學習領域快速發展,投入到相關領域研究的人員也越來越多,Weka愛好者隊伍也隨之逐年發展壯大,Weka學習討論群所討論內容的技術含量也日漸豐富。

  第二版的修訂工作以Weka 3.7.13版本為準,為此,全書重新截圖,按照Weka新版本重新修訂正文內容。此次再版修改瞭第一版中一些錶述不清楚的陳述、前後不一緻的術語,還新增瞭以下內容:第1章1.3節新增無法連接包管理器的解決辦法,第2章2.7節新增邊界可視化工具和代價/收益分析可視化及相關實驗內容,第4章4.2節新增拆分評估器可視化參數內容,新增完整的第9章機器學習實戰,豐富瞭Weka實踐內容。

  修訂後的第二版共分9章。第1章介紹Weka的曆史和功能、數據挖掘和機器學習的基本概念、Weka係統安裝,以及示例數據集;第2章介紹探索者(Explorer)界麵的使用,主要內容包括圖形用戶界麵、預處理、分類、聚類、關聯、選擇屬性,以及可視化;第3章介紹知識流(KnowledgeFlow)界麵,主要內容有知識流介紹、知識流組件、使用知識流組件,以及實踐教程;第4章介紹實驗者(Experimenter)界麵,主要內容有實驗者界麵介紹、標準實驗、遠程實驗,以及實驗結果分析;第5章介紹命令行界麵,主要內容有命令行界麵介紹、Weka結構、命令行選項、過濾器和分類器選項,以及Weka包管理器;第6章介紹一些Weka的高級應用,主要介紹Weka的貝葉斯網絡、神經網絡、文本分類和時間序列分析及預測;第7章介紹Weka API,說明使用Java源代碼來實現常見數據挖掘任務的基礎知識,並給齣一個展示如何進行數據挖掘的綜閤示例;第8章通過對NaiveBayes學習方案的源代碼進行分析,深入研究Weka學習方案的工作原理,為開發人員提供實現學習算法的編碼基礎;第9章介紹如何使用Weka工具挖掘實際的大型數據集,以精選的兩個KDD競賽數據集為例,使讀者能夠快速進入實際的案例場景,應用所學數據挖掘知識來麵對大數據的挖掘問題,考驗自己完成難度較大的挖掘項目的動手能力。

  第二版改動的內容較多,總體工作量很大,花費瞭很多時間。從醞釀第二版內容開始,至其殺青,曆時超過一年。作者的感覺是:比編寫第一版還要辛苦些。且不說Weka版本變動導緻的修改,重新截圖、重新梳理文字、重新改寫API文檔等,費時費力。因時間變化引起的一個小小的技術變動,就讓人費力應對。例如,懷卡托大學後來不再提供包管理器元數據,導緻第一版所述的解決辦法不再有效,隻能重新尋找解決包管理器無法連接的替代方法。又如,新版本Weka的NaiveBayes源代碼有一些變動,作者不得不修訂第8章的內容以適應新的版本變化。再如,第一版提供的網絡鏈接有的已經不再有效,齣版社編輯老師測試瞭所有的鏈接,保證瞭第二版提供的網絡鏈接的正確性。當然,由於世界變化太快,無法保證在一兩年後這些鏈接不會失效,這是無可奈何的事,作者隻能保證書中敘述的方案在交稿時可行。

  最耗費心力的應該是第9章的編寫。早在第一版的寫作中,曾經就有編寫一個章節專門講述Weka綜閤應用案例的設想,但苦於手上沒有閤適的實驗對象。理想的應用案例必須滿足如下要求:第一,難度適中。不能太簡單,過於簡單的小兒科案例會違背編寫綜閤應用的初衷;也不能太難,如果應用的技術方案太偏或難以理解,就達不到鍛煉讀者實際動手能力的意義。第二,領域不能太窄,應該讓絕大多數人都能理解。第三,運算量不能太大,應該滿足普通計算機能夠處理的要求。這就限製瞭目標數據集文件大小為數十兆字節至數吉字節範圍以內,實例總數在數十萬條至數韆萬條之間,一颱計算機能夠在兩周左右運行完畢。作者花費瞭很長時間尋找滿足以上要求的案例,最後選中KDD Cup 1999和KDD Cup 2010競賽數據集,前者共有42個屬性,10%數據子集文件的大小為45MB,樣本數為494021,完整的數據集文件大小為743MB,樣本數為4898431;後者有兩個數據集,本書選中的是較大的數據集,共有21個屬性,訓練數據集文件大小為5.29GB,樣本數為20012498。認真的讀者會發現,完成這兩個案例的實驗將會很辛苦,花費的精力和時間會遠超預期。作者想象齣這麼一個畫麵:讀者按照書中的實驗方法工作至深夜,硬盤燈不停閃爍,CPU利用率一直高居95%,讀者擔心心愛的計算機會突然崩潰但仍然堅持,直至最終勝利。作者預先恭喜那些能夠獨立完成實驗的讀者,因為你們有足夠的能力和毅力應付技術挑戰,勝任要求極高的挖掘工作。

  盡管在寫作中付齣瞭很多艱辛的勞動,但限於作者有限的能力和精力,書中肯定還存在一些缺陷,甚至錯誤,敬請各位讀者批評指正。作者感謝修訂工作的貢獻者,昆明理工大學計算機係吳霖老師審閱瞭本書第9章內容,提齣瞭很多建設性建議,感謝吳霖老師的貢獻。昆明理工大學2014級研究生衛明同學參與瞭第1章和第2章的修訂工作;光榮與夢想、弦月、Brady、海、__末瞳.夫、不說再見!等網友對第一版提齣瞭寶貴的建議,作者在第二版中采納瞭這些建議,感謝這些朋友的貢獻。第9章參考瞭昆明理工大學2014屆計算機係吳澤恒同學本科畢業設計論文的部分內容,他是我指導過的最優秀的學生,感謝吳澤恒同學。感謝選擇本書為高校教學參考書的教師在使用過程中提齣的反饋意見和建議,作者學習到一些很有價值的思考方式。再次感謝清華大學齣版社的編輯老師在齣版方麵提齣的建設性意見和給予的無私幫助,編輯老師一絲不苟的工作態度給我留下很深的印象。感謝購買本書的朋友,歡迎批評指正,你們的批評建議都會受到重視,並在再版中改進。希望第二版的發行能夠吸引更多的讀者和反饋建議。

  

  編 者

  


  

第一版前言

  當代中國掀起瞭一股學習數據挖掘和機器學習的熱潮,從斯坦福大學公開課"機器學習課程",到龍星計劃的"機器學習Machine Learning"課程,再到加州理工學院公開課"機器學習與數據挖掘"課程,參加這些網絡課程學習的人群日益壯大,數據挖掘和機器學習炙手可熱。

  數據挖掘是數據庫知識發現中的一個步驟,它從大量數據中自動提取齣隱含的、過去未知的、有價值的潛在信息。機器學習主要設計和分析一些讓計算機可以自動"學習"的算法,這類算法可以從數據中自動分析獲得規律,並利用規律對未知數據進行預測。數據挖掘和機器學習這兩個領域聯係密切,數據挖掘利用機器學習提供的技術來分析海量數據,以發掘數據中隱含的有用信息。

  數據挖掘和機器學習這兩個密切相關的領域存在一個特點:理論很強而實踐很弱。眾所周知,理論和實踐是研究者的左腿和右腿,缺瞭一條腿的研究者肯定難以前行。有的技術人員花瞭若乾年時間進行研究,雖然瞭解甚至熟悉瞭很多公式和算法,但仍然難以真正去麵對一個實際挖掘問題並很好地解決手上的技術難題,其根本原因就是缺乏實踐。

  本書就是為瞭試圖解決數據挖掘和機器學習的實踐問題而編寫的。本書依托新西蘭懷卡托大學采用Java語言開發的著名開源軟件Weka,該係統自1993年開始由新西蘭政府資助,至今已經曆瞭20多年的發展,功能已經十分強大和成熟。Weka集閤瞭大量的機器學習和相關技術,受領域發展和用戶需求所推動,代錶瞭當今數據挖掘和機器學習領域的最高水平。因此,研究Weka能幫助研究者從實踐去驗證所學的理論,顯然有很好的理論意義及實踐意義。

  本書共分8章。第1章介紹Weka的曆史和功能、數據挖掘和機器學習的基本概念、Weka係統安裝,以及示例數據集;第2章介紹Explorer界麵的使用,主要內容包括圖形用戶界麵、預處理、分類、聚類、關聯、選擇屬性,以及可視化;第3章介紹KnowledgeFlow界麵,主要內容有知識流介紹、知識流組件、使用知識流組件,以及實踐教程;第4章介紹Experimenter界麵,主要內容有Experimenter界麵介紹、標準實驗、遠程實驗,以及實驗結果分析;第5章介紹命令行界麵,主要內容有命令行界麵介紹、Weka結構、命令行選項、過濾器和分類器選項,以及Weka包管理器;第6章介紹一些Weka的高級應用,主要介紹Weka的貝葉斯網絡、神經網絡、文本分類和時間序列分析及預測;第7章介紹Weka API,說明使用Java源代碼來實現常見數據挖掘任務的基礎知識,並給齣一個展示如何進行數據挖掘的綜閤示例;第8章通過對一個學習方案的源代碼進行分析,深入研究Weka學習方案的工作原理,為開發人員提供編寫學習算法的技術基礎。

  在閱讀大量相關文獻的過程中,作者深深為國外前輩們的理論功底和實踐技能所摺服,那些巨人們站在高處,使人難以望其項背。雖然得益於諸如網易公開課和龍星計劃等項目,我們有機會和全世界站在同一個數量級的知識起跑綫上,但是,這並不意味著能在將來的競爭中占據優勢,正如孫中山先生所說"革命尚未成功,同誌仍須努力",讓我們一起共勉。

  在本書的編寫過程中,作者力求精益求精,但限於作者的知識和能力,且很多材料都難以獲取,考證和去僞存真是一件時間開銷非常大和異常睏難的工作,因此書中肯定會有遺漏及不妥之處,敬請廣大讀者批評指正。

  作者專門為本書設置讀者QQ群,歡迎讀者加群,下載和探討書中源代碼,抒寫讀書心得,進行技術交流等。

  本書承濛很多朋友、同事的幫助纔得以成文。特彆感謝Weka開發組的全體人員,他們將自己20年心血匯聚的成果開源,對本領域貢獻巨大;衷心感謝清華大學齣版社的編輯老師在內容組織、排版,以及齣版方麵提齣的建設性意見和給予的無私幫助;感謝昆明理工大學提供的寬鬆的研究環境;感謝昆明理工大學計算機係教師繆祥華博士,他為本書的成文提齣瞭很多建設性的建議,對本書的改進幫助甚大;感謝昆明理工大學計算機係海歸博士吳霖老師,他經常和作者一起討論機器學習的技術問題,為本書的編寫貢獻瞭很多智慧;感謝昆明理工大學現代教育中心的何佳老師,他完成瞭本書部分代碼的編寫和測試工作;感謝國內外的同行們,他們在網絡論壇和博客上發錶瞭眾多卓有見識的文章,作者從中學習到很多知識,由於來源比較瑣碎,無法一一列舉,感謝他們對本書的貢獻;感謝理解和支持我的傢人,他們是我寫作的堅強後盾。感謝購買本書的朋友,歡迎批評指正,你們的批評建議都會受到重視,並在再版中改進。

  

  編 者

  



《數據挖掘與機器學習:WEKA應用技術與實踐(第二版)》 內容梗概 本書旨在全麵、深入地介紹數據挖掘與機器學習的核心概念、關鍵技術及其在實際應用中的落地方法。全書以理論講解與實踐操作相結閤為指導思想,尤其側重於如何運用強大的開源數據挖掘軟件WEKA來解決真實世界的數據分析挑戰。本書的第二版在保留原有精華的基礎上,進一步更新瞭前沿技術、增加瞭更豐富的案例,並優化瞭講解的邏輯和易讀性,以適應快速發展的數據科學領域。 第一部分:數據挖掘基礎 本部分為讀者構建堅實的數據挖掘理論基礎,使其能夠理解數據挖掘的本質、流程與價值。 第一章:數據挖掘概述 數據挖掘的定義與目標: 詳細闡述數據挖掘是如何從海量數據中發現有價值的模式、知識和洞察的。介紹數據挖掘的目標,如描述、預測、分類、聚類、關聯規則挖掘等。 數據挖掘的流程: 深入解析典型的數據挖掘過程,包括業務理解、數據理解、數據準備、模型構建、模型評估和模型部署等關鍵階段。強調每個階段的重要性以及它們之間的相互依賴關係。 數據挖掘的應用領域: 列舉並分析數據挖掘在商業智能、市場營銷、金融風控、醫療健康、科學研究等眾多領域的廣泛應用,展示數據挖掘的實際價值和影響力。 數據挖掘的挑戰與趨勢: 探討數據挖掘過程中可能遇到的挑戰,如數據質量問題、模型解釋性、隱私保護等,並展望數據挖掘技術未來的發展趨勢,如深度學習、大數據與邊緣計算的融閤等。 第二章:數據預處理 數據質量問題分析: 深入剖析現實數據中常見的數據質量問題,包括缺失值、噪聲數據、不一緻數據、重復數據等。 數據清洗技術: 詳細介紹處理缺失值的策略(如均值填充、中位數填充、迴歸填充、刪除法等),以及如何檢測和處理噪聲數據(如平滑法、聚類法、異常檢測法)。 數據集成: 講解如何將來自不同數據源的數據進行整閤,解決模式衝突、冗餘問題,並保持數據的一緻性。 數據變換: 介紹數據規範化(如最小-最大規範化、Z-score標準化)和屬性構造(特徵工程)的技術,以提高模型性能。 數據規約: 闡述如何通過降維(如主成分分析PCA、綫性判彆分析LDA)和數據采樣來減少數據量,降低計算復雜度,同時保留重要信息。 第二部分:機器學習核心算法與模型 本部分聚焦於機器學習的核心算法,從原理到應用,為讀者提供強大的建模工具。 第三章:監督學習基礎 監督學習概述: 定義監督學習,解釋其通過帶有標簽的數據進行模型訓練的原理,並區分分類和迴歸任務。 分類算法: 決策樹: 詳細講解決策樹的工作原理,包括信息增益、基尼係數等分裂準則,以及剪枝技術以避免過擬閤。 支持嚮量機(SVM): 介紹SVM的基本思想,包括最大間隔分類器、核函數(綫性核、多項式核、徑嚮基核)的作用,以及軟間隔和硬間隔的概念。 樸素貝葉斯: 講解基於概率的貝葉斯分類器,特彆是樸素貝葉斯分類器及其在文本分類等領域的應用。 K近鄰(KNN): 闡述基於距離度量的KNN算法,介紹距離度量(如歐氏距離、曼哈頓距離)的選擇以及K值的確定。 迴歸算法: 綫性迴歸: 講解一元綫性迴歸和多元綫性迴歸模型,包括最小二乘法求解。 嶺迴歸與Lasso迴歸: 介紹這兩種正則化綫性迴歸方法,及其在防止過擬閤和特徵選擇方麵的作用。 第四章:集成學習與提升方法 集成學習概念: 解釋集成學習的基本思想,即結閤多個弱學習器形成一個強學習器,提高模型的魯棒性和準確性。 Bagging(裝袋): 介紹Bagging的工作原理,重點講解隨機森林(Random Forest)是如何通過構建多棵決策樹並集成其結果來提高預測精度的。 Boosting(提升): 講解Boosting算法,包括AdaBoost(自適應提升)和Gradient Boosting(梯度提升),闡述其迭代優化模型以減小錯誤率的機製。 XGBoost、LightGBM等先進集成模型: 簡要介紹當前流行的、性能優越的梯度提升框架,並分析其優勢。 第五章:無監督學習 無監督學習概述: 定義無監督學習,解釋其在沒有標簽數據的情況下發現數據內在結構和模式的特點。 聚類分析: K-Means算法: 詳細講解K-Means的迭代過程,包括簇中心的選擇、樣本分配、中心更新等步驟,以及K值選擇的挑戰。 層次聚類: 介紹自底嚮上(凝聚)和自頂嚮下(分裂)的層次聚類方法,以及如何通過樹狀圖(Dendrogram)進行分析。 DBSCAN算法: 講解基於密度的DBSCAN算法,其優勢在於能發現任意形狀的簇,並能有效識彆噪聲點。 關聯規則挖掘: Apriori算法: 深入解析Apriori算法,包括支持度、置信度、提升度等度量指標,以及如何高效地生成頻繁項集和關聯規則。 FP-Growth算法: 介紹FP-Growth算法,作為Apriori算法的改進,能更有效地挖掘關聯規則。 第六章:模型評估與選擇 分類模型評估: 混淆矩陣: 講解混淆矩陣(TP, FP, TN, FN)的概念,以及如何從中衍生齣準確率(Accuracy)、精確率(Precision)、召迴率(Recall)、F1-Score等指標。 ROC麯綫與AUC值: 介紹受試者工作特徵(ROC)麯綫及其與AUC(Area Under the Curve)值的計算,用於衡量分類器在不同閾值下的性能。 迴歸模型評估: 平均絕對誤差(MAE): 介紹MAE的概念,衡量預測值與真實值之間絕對差值的平均數。 均方誤差(MSE)與均方根誤差(RMSE): 講解MSE和RMSE,它們對大誤差給予更高的權重,常用於評估迴歸模型的整體性能。 決定係數(R²): 解釋R²的含義,錶示模型解釋瞭因變量方差的多少比例。 模型選擇與交叉驗證: 過擬閤與欠擬閤: 解釋這兩種常見的模型訓練問題,並介紹如何通過調整模型復雜度來避免。 交叉驗證技術: 詳細介紹K摺交叉驗證(K-Fold Cross-Validation)等技術,用於更可靠地評估模型的泛化能力,避免在訓練集上過擬閤。 第三部分:WEKA實戰應用 本部分將理論知識與WEKA軟件緊密結閤,通過豐富的實例演示,引導讀者掌握實際操作技能。 第七章:WEKA軟件入門與數據可視化 WEKA簡介與安裝: 介紹WEKA軟件的特點、優勢以及安裝步驟。 WEKA用戶界麵介紹: 詳細講解WEKA的各個模塊,包括Explorer、KnowledgeFlow、Experimenter、Butler等,並重點介紹Explorer的使用。 數據加載與探索: 演示如何從不同格式的文件(ARFF, CSV等)加載數據,並介紹WEKA中常用的數據探索工具,如屬性統計、可視化散點圖、直方圖等。 數據可視化技術: 重點講解如何利用WEKA進行數據可視化,如散點圖矩陣、箱綫圖、摺綫圖等,以直觀地理解數據分布和變量關係。 第八章:使用WEKA進行數據預處理 WEKA中的數據預處理工具: 詳細演示WEKA中提供的大量過濾器(Filters),如屬性選擇、屬性子集選擇、數值轉換、數據采樣等。 實例演示: 選取典型數據集,通過WEKA過濾器逐步完成缺失值填充、數據標準化、屬性構造等預處理操作。 第九章:WEKA實現分類模型 決策樹在WEKA中的應用: 演示如何使用J48(C4.5的WEKA實現)、CART等算法構建決策樹,並講解如何設置參數、解釋模型輸齣。 SVM與樸素貝葉斯在WEKA中的實現: 演示如何在WEKA中應用SMO(Sequential Minimal Optimization)算法構建SVM模型,以及如何使用NaiveBayes算法進行分類。 KNN在WEKA中的應用: 演示IBk(K-Nearest Neighbor)算法的使用,包括K值的設定和距離度量的選擇。 模型評估與對比: 使用WEKA的評估工具,對不同分類模型進行性能比較,並分析其優劣。 第十章:WEKA實現聚類與關聯規則挖掘 K-Means聚類在WEKA中的應用: 演示SimpleKMeans算法的使用,講解如何設定K值、初始化中心點,並分析聚類結果。 層次聚類與DBSCAN在WEKA中的實現: 演示HierarchicalCluster和DBSCAN算法的應用,以及如何解讀其輸齣。 關聯規則挖掘在WEKA中的應用: 演示Apriori和FP-Growth算法的使用,講解支持度、置信度閾值的設定,並分析挖掘齣的關聯規則。 第十一章:WEKA進行模型選擇與集成學習 交叉驗證在WEKA中的應用: 演示如何使用WEKA進行K摺交叉驗證,以更客觀地評估模型性能。 Bagging與Boosting在WEKA中的實現: 演示Bagging和RandomForest算法的使用,以及AdaBoostM1和GradientBoostedTrees等集成方法的應用。 多模型比較與性能優化: 通過對比不同模型在同一數據集上的錶現,指導讀者如何選擇最優模型,並利用參數調整來進一步優化模型性能。 第十二章:WEKA高級應用與案例分析 KnowledgeFlow的使用: 介紹WEKA的KnowledgeFlow界麵,演示如何通過拖拽組件構建復雜的數據挖掘流程,實現更靈活的可視化建模。 文本挖掘入門: 介紹WEKA中處理文本數據的功能,如文本嚮量化、停用詞過濾等,並演示簡單的文本分類任務。 時間序列分析初步: 介紹WEKA中關於時間序列數據的處理和預測工具。 真實世界案例分析: 選取多個來自不同領域的真實數據集,詳細演示如何運用WEKA解決實際問題,例如: 客戶流失預測: 使用分類算法預測客戶是否會流失。 信用風險評估: 構建模型來評估申請人的信用風險。 商品推薦係統: 利用關聯規則挖掘或協同過濾的思想進行商品推薦。 社交網絡分析: 探索社交網絡中的社群發現或影響力分析。 第四部分:進階主題與未來展望 本部分將為讀者提供更深入的理解,並引導其關注數據挖掘與機器學習的未來發展。 第十三章:深度學習基礎概念與WEKA的融閤(展望) 深度學習概述: 簡要介紹深度學習的基本概念,如神經網絡、捲積神經網絡(CNN)、循環神經網絡(RNN)等。 WEKA與深度學習的結閤(間接): 雖然WEKA本身不直接包含復雜的深度學習模型,但會討論如何與其他工具(如Python庫)結閤,或使用WEKA的接口進行特徵提取,然後將特徵輸入到深度學習模型中。 第十四章:數據挖掘與機器學習的倫理與挑戰 數據隱私與安全: 探討在數據挖掘過程中涉及的隱私保護問題,如匿名化、差分隱私等。 模型的可解釋性: 分析“黑箱”模型的問題,以及如何提高模型的可解釋性,使其更易於被人類理解和信任。 算法偏見與公平性: 討論算法可能存在的偏見,以及如何構建公平、無歧視的數據挖掘模型。 負責任的數據科學: 強調在數據科學實踐中遵循道德準則的重要性。 第十五章:數據挖掘與機器學習的未來發展 大數據技術整閤: 展望數據挖掘與Hadoop、Spark等大數據處理平颱的進一步融閤。 自動化機器學習(AutoML): 介紹AutoML的概念,旨在自動化機器學習模型的選擇、訓練和調優過程。 因果推斷: 探討從相關性走嚮因果性的研究方嚮。 邊緣計算與數據挖掘: 討論在設備端進行數據挖掘的可能性與優勢。 本書特色 理論與實踐並重: 深入淺齣的理論講解與基於WEKA的詳實案例演示相結閤。 WEKA軟件全麵覆蓋: 詳細介紹WEKA的核心功能和常用工具,幫助讀者快速上手。 豐富的實戰案例: 選取多種真實世界數據,演示數據挖掘的完整流程。 循序漸進的難度: 從基礎概念到高級主題,難度循序漸進,適閤不同層次的讀者。 更新與優化: 第二版在內容上進行瞭大幅更新,增加瞭前沿技術介紹和更貼閤實際的案例。 目標讀者 本書適閤於高等院校計算機科學、統計學、數學、信息管理等專業本科生、研究生,以及在信息技術、金融、市場營銷、醫療健康等領域從事數據分析、數據挖掘、機器學習相關工作的工程師、研究人員和項目經理。同時,也歡迎對數據科學感興趣的初學者作為入門和進階的學習材料。 通過學習本書,讀者將能夠深刻理解數據挖掘與機器學習的核心原理,熟練掌握WEKA軟件的操作技巧,並具備將所學知識應用於解決實際數據問題的能力,從而在快速發展的數據科學浪潮中占據有利地位。

用戶評價

評分

坦白說,在閱讀這本書之前,我對數據挖掘和機器學習的概念有些模糊,覺得它們離自己很遙遠。但這本書的齣現,徹底改變瞭我的看法。作者用非常接地氣的方式,將復雜的概念化繁為簡,讓我看到瞭這些技術在日常生活和工作中的實際應用價值。例如,書中關於用戶行為分析和推薦係統構建的案例,讓我看到瞭如何利用數據來理解用戶、優化産品。而且,WEKA 的易用性也大大降低瞭學習門檻,讓我在實踐中不斷鞏固和深化對理論知識的理解。

評分

這本書真的讓我耳目一新!翻開它,仿佛進入瞭一個全新的世界。作者的敘述方式非常生動,不是那種枯燥的教科書式語言,而是像一個經驗豐富的導師在娓娓道來。我尤其喜歡其中關於數據預處理的章節,它不僅僅列齣瞭各種技術,更重要的是解釋瞭為什麼需要這樣做,每一步的邏輯是什麼,以及在實際應用中可能遇到的坑。很多時候,我們學機器學習,總覺得模型訓練是核心,但這本書讓我深刻認識到,紮實的數據準備纔是成功的基石。那些關於缺失值填充、異常值檢測和特徵選擇的案例分析,都非常貼近實際工作場景,讓我 solche 東西學完之後,真的能夠拿起來就用,而不是停留在理論層麵。

評分

對於想深入瞭解數據挖掘和機器學習,並且希望有實操工具支持的讀者來說,這本書絕對是寶藏。WEKA 的強大功能在書中得到瞭充分的展現,作者通過大量的實例,將枯燥的算法變得生動形象。我特彆喜歡書中關於關聯規則挖掘和分類預測的章節,它們不僅介紹瞭算法原理,還詳細演示瞭如何在 WEKA 中進行數據導入、模型構建、結果分析等全流程操作。這種“理論+實踐”的模式,讓我能夠快速掌握一項技能,並且很有成就感。書中的代碼示例和截圖也非常清晰,跟著操作不會感到迷茫。

評分

讀完這本書,我最大的感受是“實用”二字。作者並沒有迴避那些復雜的理論概念,但總能用清晰易懂的方式將其拆解,並與 WEKA 這個強大的工具緊密結閤。尤其是那些一步步的操作演示,簡直是手把手的教學,讓我這種初學者也能迅速上手。其中對決策樹、支持嚮量機、聚類算法等主流算法的講解,不僅僅是理論的介紹,更多的是展示瞭如何在 WEKA 中實現它們,並且如何調整參數來優化模型性能。我最欣賞的是,書中並沒有止步於此,還深入探討瞭模型評估的方法,以及如何根據評估結果來改進模型,這纔是真正解決問題的關鍵。

評分

這是一本非常紮實的書,對於希望將數據挖掘和機器學習理論應用於實際的讀者來說,是極佳的選擇。作者在講解 WEKA 的應用時,並沒有僅僅停留在“如何使用”的層麵,而是深入剖析瞭每一步背後的邏輯和原理。我尤其贊賞書中對模型解釋性的重視,這在很多其他教材中是比較欠缺的。通過對不同算法的深入分析,以及如何解讀 WEKA 輸齣的結果,我能夠更深刻地理解模型是如何做齣決策的,這對於建立信任和進行有意義的改進至關重要。書中的案例也足夠豐富,涵蓋瞭不同領域的數據問題,讓人受益匪淺。

評分

不錯不錯,適用於學習weka這數據挖掘工具的書

評分

商品圖,本人自拍,有興趣2的可以看看

評分

用weka好久瞭 以前都是從網上找資料學習 突然發現已經有齣版的相關書籍瞭 趕緊買一本來看看 還不錯

評分

內容不錯,一步步教你進入數據挖掘領域

評分

不錯 還可以 五分

評分

我為什麼喜歡在京東買東西,因為今天買明天就可以送到。我為什麼每個商品的評價都一樣,因為在京東買的東西太多太多瞭,導緻積纍瞭很多未評價的訂單,所以我統一用段話作為評價內容。京東購物這麼久,有買到很好的産品,也有買到比較坑的産品,如果我用這段話來評價,說明這款産品沒問題,至少85分以上,而比較垃圾的産品,我絕對不會偷懶到復製粘貼評價,我絕對會用心的差評,這樣其他消費者在購買的時候會作為參考,會影響該商品銷量,而商傢也會因此改進商品質量。

評分

活動囤積的書,寫得很詳細,不錯的書。

評分

這本書很適閤入門的人來看

評分

書很精美,就是喜歡京東速度

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有