編輯推薦
《預測性文本挖掘基礎》主要特點:1.對文本挖掘做齣瞭全麵、實用、易於理解的介紹。
2.每個章節給齣瞭小結、曆史和文獻評述以及課堂練習。
3.對書中提到的每個方法都進行瞭應用和用途介紹,同時給齣瞭針對某個具體問題的優技術方法。
4.給齣瞭幾個描述性案例的研究情況,幫助讀者瞭解現實世界中從問題描述到係統配置的過程。
5.介紹瞭可以運行在任何計算機上的企業級增強型文本挖掘軟件。
描述瞭一些依賴於基本統計技術的方法,這樣就顧及到瞭所有的語言(不僅僅是英語)。
6.包含瞭一些可以免費下載的軟件的鏈接,以及一些補充的介紹材料。
《預測性文本挖掘基礎》可作為IT專業人員和管理人員必備的參考資料,也可以作為計算機專業本科高年級和研究生的關鍵教材使用。
內容簡介
電腦普及帶來的一個結果是文檔以數字形式呈現齣來,加之Internet的廣泛使用,這些文檔就變得唾手可得。文本挖掘,即對非結構化的自然語言文本的分析過程,主要針對的是如何從這些文檔中提取信息。
《預測性文本挖掘基礎》是一本入門級的教科書,是在修訂施普林格已經成功齣版的文本挖掘領域的參考書基礎上得到的,旨在能夠幫助讀者瞭解這個快速發展的領域。同時,該書也整閤瞭包括數據挖掘、機器學習、數據庫以及計算語言學方麵很多的理論,因此這本的書也提供瞭一些文本挖掘方麵比較實用的建議。書中深層次地討論瞭文檔分類、信息檢索、聚類和組織文檔、信息提取、基於web的數據源的預測和評價問題。要學習《預測性文本挖掘基礎》,如果讀者有數據挖掘方麵的知識自然很好,但這並不是必須的。書中有些地方涉及到一些高級概念,這些需要讀者有一定的數學功底,當然我們也提供瞭一些直觀上的解釋來幫助那些非專業讀者。
作者簡介
紹洛姆·韋斯,是美國紐約州約剋鎮的IBM預測模型小組的研究成員,同時也是美國新澤西州羅格斯大學計算機科學專業的榮譽教授。
霓廷·因杜爾亞,是澳大利亞新南威爾士大學計算機科學工程學院的講師,同時也是數據挖掘公司Data-Miner有限公司的創始人和總裁。
張潼,在美國斯坦福大學獲得計算機科學博士學位,現在是美國新澤西州羅格斯大學統計係的教授。
內頁插圖
目錄
推薦序
譯者序
前言
第1章 文本挖掘概述
1.1 文本挖掘有什麼特彆之處?
1.1.1 結構化或非結構化數據?
1.1.2 文本數據是否不同於數值數據?
1.2 文本挖掘可以解決什麼類型的問題?
1.3 文本分類
1.4 信息檢索
1.5 文檔聚類與組織
1.6 信息提取
1.7 預測與評估
1.8 下章內容
1.9 小結
1.10 曆史與文獻評述
1.11 問題與練習
第2章 從文本信息到數值嚮量
2.1 文檔收集
2.2 文檔標準化
2.3 標記化
2.4 詞形轉化
2.4.1 詞乾變形
2.4.2 化詞乾為詞根
2.5 預測嚮量生成
2.5.1 多詞特徵
2.5.2 正確答案的標簽
2.5.3 通過屬性分級選擇特徵
2.6 語句邊界確定
2.7 詞性標簽化
2.8 詞義消歧
2.9 短語識彆
2.10 命名實體識彆
2.11 語法分析
2.12 特徵生成
2.13 小結
2.14 曆史與文獻評述
2.15 課後練習
第3章 用文本進行預測
3.1 識彆文檔符閤模式
3.2 需要多少文檔纔可以滿足預測需求?
3.3 文檔分類
3.4 從文本中學習預測
3.4.1 相似性與最近鄰法
3.4.2 文檔相似性
3.4.3 決策規則
3.4.4 決策樹
3.4.5 概率估計
3.4.6 綫性評分方法
3.5 性能評估
3.5.1 當前與未來的性能估計
3.5.2 從學習方法中獲取最大收益
3.6 應用
3.7 小結
3.8 曆史與文獻評述
3.9 問題與練習
第4章 信息檢索和文本挖掘
第5章 文檔集的結構發現
第6章 在文檔中查詢信息
第7章 麵嚮預測的數據源:數據庫、混雜數據與Web
第8章 實例分析
第9章 新研究方嚮
附錄A 軟件說明
參考文獻
作者索引
主題索引
精彩書摘
通過觀察性能較差的分類有時能讓我們發現新聞本身屬性是如何影響性能的,比如新文章似乎不太會進入低頻分類。一種可能的解釋是新聞主題更傾嚮於湧現齣來,所以某個邊緣分類可能不會常齣現。這點聽起來似乎有理,但還需深入研究加以驗證。
還有一個問題,就是有些主題似乎具有固有的聚閤性,好像應該很容易對其建立起高效的分類器,但事實卻不盡如人意。舉路透社數據中的一個例子:我們觀察決策樹為宗教主題生成的規則,做分類時齣現瞭40個左右的錯誤,總結如下:
1.新聞中通常有這種情形,即大緻相同的文章有很多篇。而這些文章中有些僅僅是主題的總結。若其中一篇簡略提及瞭宗教,分類器也許找不到它,但因為齣現次數過多,就會形成纍積錯誤。
2.有些文章中宗教隻是作為某個大主題的子類被提及。比如,宗教可能齣現在關於中國的人權問題文章中,僅僅因為宗教也是一種權利。那麼當這類文章重復齣現時,也會導緻分類器的錯誤判斷。
3.還有時候分類器並沒有規則提及文章中重復齣現某個詞的問題。比如,分類器並沒有文章中多次齣現宗教這個詞時的相關規定,而在我們人工看來這非常尋常。顯然,很多包含瞭與宗教相關單詞的文章並未分類到宗教主題中。事實上測試集中的宗教字眼隻有一半齣現在宗教主題的文章中,其他的被分到若乾不同的主題中,最常見的有國際關係和國內政治。
這也說明瞭要提高基於人的直覺預測分類性能是很難的,最好讓數據告訴我們一切。
在所有這些實驗中,有三個值用於評價分類性能:準確率(precision)、查全率(recall)以及F值。F值可以用來做粗略比較,當F值相近時,則比較準確率和查全率。當評價一個包含大量分類器的係統時,通常計算齣每個分類器的性能,然後得齣它們的微平均值。
……
前言/序言
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] 下載 mobi epub pdf txt 電子書 格式
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] 下載 mobi pdf epub txt 電子書 格式 2024
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] 下載 mobi epub pdf 電子書
預測性文本挖掘基礎 [Fundamentals of Predictive Text Mining] mobi epub pdf txt 電子書 格式下載 2024