書[0名0]: | 數據挖掘:概念與技術(原書[0第0]3版)|3683062 |
圖書定價: | 79元 |
圖書作者: | (美)Jiawei Han;(加)Micheline Kamber;(加)Jian Pei |
齣版社: | 機械工業齣版社 |
齣版日期: | 2012-8-1 0:00:00 |
ISBN號: | 9787111391401 |
開本: | 16開 |
頁數: | 468 |
版次: | 1-1 |
作者簡介 |
Jiawei Han(韓傢煒)是伊利諾伊[0大0][0學0]厄巴納-尚佩恩分校計算機科[0學0]係的Bliss教授。他因[0知0]識發現和數據挖掘研究方麵的貢獻而獲得許多奬勵,包括ACM SIGKDD創新奬(2004)、IEEE計算機[0學0][0會0]技術成就奬(2005)和IEEE W.W[0all0]ace McDowell奬(2009)。他是ACM和IEEE[0會0]士。他還擔任《ACM Transactions on K[0no0]wledge Discovery from Data》的執行主編(2006—2011)和許多雜誌的編委,包括《IEEE Transactions on K[0no0]wledge and Data Engineering》和《Data Mining K[0no0]wledge Discovery》。 Micheline Kamber由加拿[0大0]魁北剋濛特利爾Concordia[0大0][0學0]獲計算機科[0學0](人工智能專業)碩士[0學0]位。她曾是NSERC[0學0]者,作為研究者在McGill[0大0][0學0]、西濛-弗雷澤[0大0][0學0]和瑞士工作。她的數據挖掘背景和以易於理解的形式寫作的熱情使得本書更受專業人員、教師和[0學0]生的歡迎。 Jian Pei(裴健)現在是西濛-弗雷澤[0大0][0學0]計算機科[0學0][0學0]院教授。他在Jiawei Han的指導下,於2002年獲西濛-弗雷澤[0大0][0學0]計算科[0學0]博士[0學0]位。他在數據挖掘、數據庫、Web搜索和信息檢索的主要[0學0]術論壇發錶瞭[0大0]量文章,並積[0極0]服務於[0學0]術團體。他的文章被引用數韆次,並獲多次榮譽奬。他是多種數據挖掘和數據分析雜誌的助理編輯。範明 鄭州[0大0][0學0]信息工程[0學0]院教授,博士生導師。現為中[0國0]計算機[0學0][0會0]數據庫專業委員[0會0]委員、人工智能與模式識彆專業委員[0會0]委員。長期從事計算機軟件與理論教[0學0]和研究。主要講授的課程包括程序設計、計算機操作係統、數據庫係統原理、[0知0]識庫係統原理、數據挖掘與數據倉庫等。1989—1990年曾訪問加拿[0大0]Simon Fraser[0大0][0學0]計算機科[0學0]係,從事演繹數據庫研究。1999年曾訪問美[0國0]Wright State[0大0][0學0]計算機科[0學0]與工程係,從事數據挖掘研究。[0當0]前感興趣的研究方嚮包括數據挖掘和機器[0學0]習。先後發錶論文60餘篇。除本書外,還主持翻譯瞭Pang-Ning Tan、Michael Steinbach和Vipin Kumar的《數據挖掘導論》。孟小峰 博士,中[0國0]人民[0大0][0學0]信息[0學0]院教授,博士生導師。現為中[0國0]計算機[0學0][0會0]常務理事、中[0國0]計算機[0學0][0會0]數據庫專委[0會0]秘書長,《Journal of Computer Science and Tech[0no0]logy》、《Frontiers of Computer Science》、《軟件[0學0]報》、《計算機研究與發展》等編委。主持或參加過二十多項[0國0]傢科技攻關項目、[0國0]傢自然科[0學0]基金項目以及[0國0]傢863項目、973項目,先後獲電子部科技進步特等奬(1996)、北京市科技進步二等奬(1998、2001)、中[0國0]計算機[0學0][0會0]“王選奬”一等奬(2009)、北京市科[0學0]技術奬二等奬(2011)等奬勵,入選“中創軟件人纔奬”(2002)、“教育部新世紀[0優0]秀人纔支持計劃”(2004)、“[0第0]三屆北京市高校[0名0]師奬”(2005)。近5年在[0國0]內外雜誌及[0國0]際[0會0]議發錶論文120多篇,齣版[0學0]術專著《Moving Objects Management: Models,Techniques,and Applications》(Springer)、《XML數據管理:概念與技術》、《移動數據管理:概念與技術》(中[0國0]計算機[0學0][0會0][0學0]術著作叢書)等。獲[0國0]傢發明專利授[0權0]8項。近期主要研究[0領0]域為互聯網絡與移動數據管理,包括Web數據集成、XML數據庫係統、雲數據管理、閃存數據庫係統、隱私保護等。 |
內容簡介 |
《數據挖掘:概念與技術(原書[0第0]3版)》完整全麵地講述數據挖掘的概念、方[0法0]、技術和新研究進展。本書對前兩版做瞭全麵修訂,加強和重新組織瞭全書的技術內容,重點論述瞭數據預處理、頻繁模式挖掘、分類和聚類等的內容,還全麵講述瞭OLAP和離群點檢測,並研討瞭挖掘網絡、復雜數據類型以及重要應用[0領0]域。 《數據挖掘:概念與技術(原書[0第0]3版)》是數據挖掘和[0知0]識發現[0領0]域內的所有教師、研究人員、開發人員和用戶都必讀的參考書,是一本適用於數據分析、數據挖掘和[0知0]識發現課程的[0優0]秀教材,可以用做高年級本科生或者一年級研究生的數據挖掘導論教材。 |
目錄 |
《數據挖掘:概念與技術(原書[0第0]3版)》 齣版者的話 中文版序 譯者序 譯者簡介 [0第0]3版序 [0第0]2版序 前言 緻謝 作者簡介 [0第0]1章引論1 1.1為什麼進行數據挖掘1 1.1.1邁嚮信息時代1 1.1.2數據挖掘是信息技術的進化2 1.2什麼是數據挖掘4 1.3可以挖掘什麼類型的數據6 1.3.1數據庫數據6 1.3.2數據倉庫7 1.3.3事務數據9 1.3.4其他類型的數據9 1.4可以挖掘什麼類型的模式10 1.4.1類/概念描述:特徵化與區分10 1.4.2挖掘頻繁模式、關聯和相關性11 1.4.3用於預測分析的分類與迴歸12 1.4.4聚類分析13 1.4.5離群點分析14 1.4.6所有模式都是有趣的嗎14 1.5使用什麼技術15 1.5.1統計[0學0]15 1.5.2機器[0學0]習16 1.5.3數據庫係統與數據倉庫17 1.5.4信息檢索17 1.6麵嚮什麼類型的應用18 1.6.1[0商0]務智能18 1.6.2Web搜索引擎18 1.7數據挖掘的主要問題19 1.7.1挖掘方[0法0]19 1.7.2用戶界麵20 1.7.3有效性和可伸縮性21 1.7.4數據庫類型的多樣性21 1.7.5數據挖掘與社[0會0]21 1.8小結22 1.9習題23 1.10文獻注釋23 [0第0]2章認識數據26 2.1數據對象與屬性類型26 2.1.1什麼是屬性27 2.1.2標稱屬性27 2.1.3二元屬性27 2.1.4序數屬性28 2.1.5數值屬性28 2.1.6離散屬性與連續屬性29 2.2數據的基本統計描述29 2.2.1中心趨勢度量:均值、中位數和眾數30 2.2.2度量數據散布:[0極0]差、四分位數、方差、標準差和四分位數[0極0]差32 2.2.3數據的基本統計描述的圖形顯示34 2.3數據可視化37 2.3.1基於像素的可視化技術37 2.3.2幾何投影可視化技術38 2.3.3基於圖符的可視化技術40 2.3.4層次可視化技術42 2.3.5可視化復雜對象和關係42 2.4度量數據的相似性和相異性44 2.4.1數據矩陣與相異性矩陣45 2.4.2標稱屬性的鄰近性度量46 2.4.3二元屬性的鄰近性度量46 2.4.4數值屬性的相異性:閔可夫斯基距離48 2.4.5序數屬性的鄰近性度量49 2.4.6混閤類型屬性的相異性50 2.4.7餘弦相似性51 2.5小結52 2.6習題53 2.7文獻注釋54 [0第0]3章數據預處理55 3.1數據預處理:概述55 3.1.1數據質量:為什麼要對數據預處理55 3.1.2數據預處理的主要任務56 3.2數據清理58 3.2.1缺失值58 3.2.2噪聲數據59 3.2.3數據清理作為一個過程60 3.3數據集成61 3.3.1實體識彆問題62 3.3.2冗餘和相關分析62 3.3.3元組重復65 3.3.4數據值衝突的檢測與處理65 3.4數據歸約65 3.4.1數據歸約策略概述66 3.4.2小波變換66 3.4.3主成分分析67 3.4.4屬性子集選擇68 3.4.5迴歸和對數綫性模型:參數化數據歸約69 3.4.6直方圖70 3.4.7聚類71 3.4.8抽樣71 3.4.9數據立方體聚集72 3.5數據變換與數據離散化73 3.5.1數據變換策略概述73 3.5.2通過規範化變換數據74 3.5.3通過分箱離散化76 3.5.4通過直方圖分析離散化76 3.5.5通過聚類、決策樹和相關分析離散化76 3.5.6標稱數據的概念分層産生77 3.6小結79 3.7習題79 3.8文獻注釋80 [0第0]4章數據倉庫與聯機分析處理82 4.1數據倉庫:基本概念82 4.1.1什麼是數據倉庫82 4.1.2操作數據庫係統與數據倉庫的區彆84 4.1.3為什麼需要分離的數據倉庫85 4.1.4數據倉庫:一種多層體係結構85 4.1.5數據倉庫模型:企業倉庫、數據集市和虛擬倉庫87 4.1.6數據提取、變換和裝入88 4.1.7元數據庫88 4.2數據倉庫建模:數據立方體與OLAP89 4.2.1數據立方體:一種多維數據模型89 4.2.2星形、雪花形和事實星座:多維數據模型的模式91 4.2.3維:概念分層的作用94 4.2.4度量的分類和計算95 4.2.5典型的OLAP操作96 4.2.6查詢多維數據庫的星網查詢模型98 4.3數據倉庫的設計與使用99 4.3.1數據倉庫的設計的[0商0]務分析框架99 4.3.2數據倉庫的設計過程100 4.3.3數據倉庫用於信息處理101 4.3.4從聯機分析處理到多維數據挖掘102 4.4數據倉庫的實現103 4.4.1數據立方體的有效計算:概述103 4.4.2索引OLAP數據:位圖索引和連接索引105 4.4.3OLAP查詢的有效處理107 4.4.4OLAP服務器結構:ROLAP、MOLAP、HOLAP的比較107 4.5數據泛化:麵嚮屬性的歸納109 4.5.1數據特徵的麵嚮屬性的歸納109 4.5.2麵嚮屬性歸納的有效實現113 4.5.3類比較的麵嚮屬性歸納114 4.6小結116 4.7習題117 4.8文獻注釋119 [0第0]5章數據立方體技術121 5.1數據立方體計算:基本概念121 5.1.1立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼122 5.1.2數據立方體計算的一般策略124 5.2數據立方體計算方[0法0]126 5.2.1完全立方體計算的多路數組聚集126 5.2.2BUC:從[0頂0]點方體嚮下計算冰山立方體129 5.2.3Star-Cubing:使用動態星樹結構計算冰山立方體132 5.2.4為快速高維OLAP預計算殼片段136 5.3使用探索立方體技術處理高級查詢141 5.3.1抽樣立方體:樣本數據上基於OLAP的挖掘141 5.3.2排序立方體:top-k查詢的有效計算145 5.4數據立方體空間的多維數據分析147 5.4.1預測立方體:立方體空間的預測挖掘147 5.4.2多特徵立方體:多粒度上的復雜聚集149 5.4.3基於異常的、發現驅動的立方體空間探查149 5.5小結152 5.6習題152 5.7文獻注釋155 [0第0]6章挖掘頻繁模式、關聯和相關性:基本概念和方[0法0]157 6.1基本概念157 6.1.1購物籃分析:一個誘發例子157 6.1.2頻繁項集、閉項集和關聯規則158 6.2頻繁項集挖掘方[0法0]160 6.2.1Apriori算[0法0]:通過限製候選産生發現頻繁項集160 6.2.2由頻繁項集産生關聯規則164 6.2.3提高Apriori算[0法0]的效率165 6.2.4挖掘頻繁項集的模式增長方[0法0]166 6.2.5使用垂直數據格式挖掘頻繁項集169 6.2.6挖掘閉模式和[0極0][0大0]模式170 6.3哪些模式是有趣的:模式[0評0]估方[0法0]171 6.3.1強規則不一定是有趣的172 6.3.2從關聯分析到相關分析172 6.3.3模式[0評0]估度量比較173 6.4小結176 6.5習題177 6.6文獻注釋179 [0第0]7章高級模式挖掘180 7.1模式挖掘:一個路綫圖180 7.2多層、多維空間中的模式挖掘182 7.2.1挖掘多層關聯規則182 7.2.2挖掘多維關聯規則185 7.2.3挖掘量化關聯規則186 7.2.4挖掘稀有模式和負模式188 7.3基於約束的頻繁模式挖掘190 7.3.1關聯規則的元規則製導挖掘190 7.3.2基於約束的模式産生:模式空間剪枝和數據空間剪枝191 7.4挖掘高維數據和巨型模式195 7.5挖掘壓縮或近似模式198 7.5.1通過模式聚類挖掘壓縮模式199 7.5.2提取感[0知0]冗餘的top-k模式200 7.6模式探索與應用202 7.6.1頻繁模式的語義注解202 7.6.2模式挖掘的應用205 7.7小結206 7.8習題207 7.9文獻注釋208 [0第0]8章分類:基本概念211 8.1基本概念211 8.1.1什麼是分類211 8.1.2分類的一般方[0法0]211 8.2決策樹歸納213 8.2.1決策樹歸納214 8.2.2屬性選擇度量217 8.2.3樹剪枝222 8.2.4可伸縮性與決策樹歸納224 8.2.5決策樹歸納的可視化挖掘225 8.3貝葉斯分類方[0法0]226 8.3.1貝葉斯定理227 8.3.2樸素貝葉斯分類227 8.4基於規則的分類230 8.4.1使用IF-THEN規則分類230 8.4.2由決策樹提取規則231 8.4.3使用順序覆蓋算[0法0]的規則歸納232 8.5模型[0評0]估與選擇236 8.5.1[0評0]估分類器性能的度量236 8.5.2保持方[0法0]和隨機二次抽樣240 8.5.3交叉驗證240 8.5.4自助[0法0]241 8.5.5使用統計顯著性檢驗選擇模型241 8.5.6基於成本效益和ROC麯綫比較分類器243 8.6提高分類準確率的技術245 8.6.1組閤分類方[0法0]簡介245 8.6.2裝袋246 8.6.3提升和AdaBoost247 8.6.4隨機森林249 8.6.5提高類不平衡數據的分類準確率250 8.7小結251 8.8習題251 8.9文獻注釋253 [0第0]9章分類:高級方[0法0]255 9.1貝葉斯信念網絡255 9.1.1概念和機製255 9.1.2訓練貝葉斯信念網絡257 9.2用後嚮傳播分類258 9.2.1多層前饋神經網絡258 9.2.2定義網絡拓撲259 9.2.3後嚮傳播260 9.2.4黑盒內部:後嚮傳播和可解釋性263 9.3支持嚮量機265 9.3.1數據綫性可分的情況265 9.3.2數據非綫性可分的情況268 9.4使用頻繁模式分類270 9.4.1關聯分類270 9.4.2基於有區彆力的頻繁模式分類272 9.5惰性[0學0]習[0法0](或從近鄰[0學0]習)275 9.5.1k-近鄰分類275 9.5.2基於案例的推理277 9.6其他分類方[0法0]277 9.6.1遺傳算[0法0]277 9.6.2粗糙集方[0法0]278 9.6.3模糊集方[0法0]278 9.7關於分類的其他問題280 9.7.1多類分類280 9.7.2半監督分類281 9.7.3主動[0學0]習282 9.7.4遷移[0學0]習283 9.8小結284 9.9習題285 9.10文獻注釋286 [0第0]10章聚類分析:基本概念和方[0法0]288 10.1聚類分析288 10.1.1什麼是聚類分析288 10.1.2對聚類分析的要求289 10.1.3基本聚類方[0法0]概述291 10.2劃分方[0法0]293 10.2.1k-均值:一種基於形心的技術293 10.2.2k-中心點:一種基於代錶對象的技術295 10.3層次方[0法0]297 10.3.1凝聚的與分裂的層次聚類298 10.3.2算[0法0]方[0法0]的距離度量300 10.3.3BIRCH:使用聚類特徵樹的多階段聚類301 10.3.4Chameleon:使用動態建模的多階段層次聚類303 10.3.5概率層次聚類304 10.4基於密度的方[0法0]306 10.4.1DBSCAN:一種基於高密度連通區域的基於密度的聚類307 10.4.2OPTICS:通過點排序識彆聚類結構309 10.4.3DENCLUE:基於密度分布函數的聚類311 10.5基於網格的方[0法0]312 10.5.1STING:統計信息網格312 10.5.2CLIQUE:一種類似於Apriori的子空間聚類方[0法0]314 10.6聚類[0評0]估315 10.6.1估計聚類趨勢316 10.6.2確定簇數317 10.6.3測定聚類質量317 10.7小結319 10.8習題320 10.9文獻注釋321 [0第0]11章高級聚類分析323 11.1基於概率模型的聚類323 11.1.1模糊簇324 11.1.2基於概率模型的聚類326 11.1.3期望[0大0]化算[0法0]328 11.2聚類高維數據330 11.2.1聚類高維數據:問題、挑戰和主要方[0法0]330 11.2.2子空間聚類方[0法0]331 11.2.3[0[0雙0]0]聚類332 11.2.4維歸約方[0法0]和譜聚類337 11.3聚類圖和網絡數據339 11.3.1應用與挑戰339 11.3.2相似性度量340 11.3.3圖聚類方[0法0]343 11.4具有約束的聚類345 11.4.1約束的分類345 11.4.2具有約束的聚類方[0法0]347 11.5小結349 11.6習題349 11.7文獻注釋350 [0第0]12章離群點檢測351 12.1離群點和離群點分析351 12.1.1什麼是離群點351 12.1.2離群點的類型352 12.1.3離群點檢測的挑戰354 12.2離群點檢測方[0法0]354 12.2.1監督、半監督和無監督方[0法0]355 12.2.2統計方[0法0]、基於鄰近性的方[0法0]和基於聚類的方[0法0]356 12.3統計[0學0]方[0法0]357 12.3.1參數方[0法0]357 12.3.2非參數方[0法0]360 12.4基於鄰近性的方[0法0]361 12.4.1基於距離的離群點檢測和嵌套循環方[0法0]361 12.4.2基於網格的方[0法0]363 12.4.3基於密度的離群點檢測364 12.5基於聚類的方[0法0]366 12.6基於分類的方[0法0]368 12.7挖掘情境離群點和集體離群點369 12.7.1把情境離群點檢測轉換成傳統的離群點檢測369 12.7.2關於情境對正常行為建模370 12.7.3挖掘集體離群點371 12.8高維數據中的離群點檢測371 12.8.1擴充的傳統離群點檢測372 12.8.2發現子空間中的離群點373 12.8.3高維離群點建模373 12.9小結374 12.10習題375 12.11文獻注釋375 [0第0]13章數據挖掘的發展趨勢和研究前沿377 13.1挖掘復雜的數據類型377 13.1.1挖掘序列數據:時間序列、符號序列和生物[0學0]序列377 13.1.2挖掘圖和網絡381 13.1.3挖掘其他類型的數據383 13.2數據挖掘的其他方[0法0]385 13.2.1統計[0學0]數據挖掘385 13.2.2關於數據挖掘基礎的觀點386 13.2.3可視和聽覺數據挖掘387 13.3數據挖掘應用391 13.3.1金融數據分析的數據挖掘391 13.3.2零售和電信業的數據挖掘392 13.3.3科[0學0]與工程數據挖掘393 13.3.4入侵檢測和預防數據挖掘395 13.3.5數據挖掘與推薦係統396 13.4數據挖掘與社[0會0]397 13.4.1普適的和無形的數據挖掘397 13.4.2數據挖掘的隱私、安全和社[0會0]影響399 13.5數據挖掘的發展趨勢400 13.6小結402 13.7習題402 13.8文獻注釋403 參考文獻406 索引435 |
編輯推薦 |
數據挖掘齣現於20世紀80年代後期,20世紀90年代有瞭突飛猛進的發展,並可望在新韆年繼續繁榮。《數據挖掘(概念與技術原書[0第0]3版)》全麵展示該[0領0]域,介紹有趣的數據挖掘技術和係統,並討論數據挖掘的應用和研究方嚮。寫本書的重要動機是需要建立一個[0學0]習數據挖掘的有組織的框架——由於這個快速發展[0領0]域的多[0學0]科特點,這是一項具有挑戰性的任務。我們希望本書有助於具有不同背景和經驗的人交換關於數據挖掘的見解,為進一步促進這個令人激動的、不斷發展的[0領0]域的成長做齣貢獻。本書由韓傢煒等*。 |
評分
評分
評分
評分
評分
評分
評分
評分
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有