內容簡介
《計算機科學叢書·多語自然語言處理:從原理到實踐》是一本全麵闡述如何構建健壯和準確多語種自然語言處理係統的圖書,由兩位資深專傢編輯,集閤瞭該領域眾多尖端進展以及從廣泛的研究和産業實踐中總結的實用解決方案。第一部分介紹現代自然語言處理的核心概念和理論基礎,展示瞭現今理解單詞和文件結構、分析語法、建模語言、識彆蘊含和檢測冗餘。第二部分徹底闡述與構建真實應用有關的實際考量,包括信息抽取、機器翻譯、信息檢索/搜索,總結、問答、提煉、處理流水綫等。
目錄
齣版者的話
譯者序
前言
關於作者
第一部分 理論
第1章 找齣詞的結構
1.1 詞及其部件
1.1.1 詞元
1.1.2 詞形
1.1.3 詞素
1.1.4 類型學
1.2 問題和挑戰
1.2.1 不規則性
1.2.2 歧義性
1.2.3 能産性
1.3 形態模型
1.3.1 查詞典
1.3.2 有限狀態形態
1.3.3 基於閤一的形態
1.3.4 函數式形態
1.3.5 形態歸納
1.4 總結
第2章 找齣文檔的結構
2.1 概述
2.1.1 句子邊界檢測
2.1.2 主題邊界檢測
2.2 方法
2.2.1 生成序列分類方法
2.2.2 判彆性局部分類方法
2.2.3 判彆性序列分類方法
2.2.4 混閤方法
2.2.5 句子分割的全局建模擴展
2.3 方法的復雜度
2.4 方法的性能
2.5 特徵
2.5.1 同時用於文本與語音的特徵
2.5.2 隻用於文本的特徵
2.5.3 語音特徵
2.6 處理階段
2.7 討論
2.8 總結
第3章 句法
3.1 自然語言分析
3.2 樹庫:句法分析的數據驅動方法
3.3 句法結構的錶示
3.3.1 使用依存圖的句法分析
3.3.2 使用短語結構樹的句法分析
3.4 分析算法
3.4.1 移進歸約分析
3.4.2 超圖和綫圖分析
3.4.3 最小生成樹和依存分析
3.5 分析中的歧義消解模型
3.5.1 概率上下文無關文法
3.5.2 句法分析的生成模型
3.5.3 句法分析的判彆模型
3.6 多語言問題:什麼是詞元
3.6.1 詞元切分、實例和編碼
3.6.2 分詞
3.6.3 形態學
3.7 總結
第4章 語義分析
4.1 概述
4.2 語義解釋
4.2.1 結構歧義
4.2.2 詞義
4.2.3 實體與事件消解
4.2.4 謂詞 論元結構
4.2.5 意義錶示
4.3 係統範式
4.4 詞義
4.4.1 資源
4.4.2 係統
4.4.3 軟件
4.5 謂詞 論元結構
4.5.1 資源
4.5.2 係統
4.5.3 軟件
4.6 意義錶示
4.6.1 資源
4.6.2 係統
4.6.3 軟件
4.7 總結
4.7.1 詞義消歧
4.7.2 謂詞 論元結構
4.7.3 意義錶示
第5章 語言模型
5.1 概述
5.2 n元模型
5.3 語言模型評價
5.4 參數估計
5.4.1 最大似然估計和平滑
5.4.2 貝葉斯參數估計
5.4.3 大規模語言模型
5.5 語言模型適應
5.6 語言模型的類型
5.6.1 基於類的語言模型
5.6.2 變長語言模型
5.6.3 判彆式語言模型
5.6.4 基於句法的語言模型
5.6.5 最大熵語言模型
5.6.6 因子化語言模型
5.6.7 其他基於樹的語言模型
5.6.8 基於主題的貝葉斯語言模型
5.6.9 神經網絡語言模型
5.7 特定語言建模問題
5.7.1 形態豐富語言的建模
5.7.2 亞詞單元的選擇
5.7.3 形態類彆建模
5.7.4 無分詞語言
5.7.5 口語與書麵語言
5.8 多語言和跨語言建模
5.8.1 多語言建模
5.8.2 跨語言建模
5.9 總結
第6章 文本蘊涵識彆
6.1 概述
6.2 文本識彆蘊涵任務
6.2.1 問題定義
6.2.2 RTE的挑戰
6.2.3 評估文本蘊涵係統性能
6.2.4 文本蘊涵解決方案的應用
6.2.5 其他語言中的RTE研究
6.3 文本蘊涵識彆的框架
6.3.1 要求
6.3.2 分析
6.3.3 有用的組件
6.3.4 通用模型
6.3.5 實現
6.3.6 對齊
6.3.7 推理
6.3.8 訓練
6.4 案例分析
6.4.1 抽取語篇約束
6.4.2 基於編輯距離的RTE
6.4.3 基於轉換的方法
6.4.4 邏輯錶示及推理
6.4.5 獨立於蘊涵學習對齊
6.4.6 在RTE中利用多對齊
6.4.7 自然邏輯
6.4.8 句法樹核
6.4.9 使用有限依存上下文的全局相似度
6.4.1 0RTE的潛在對齊推理
6.5 RTE的進一步研究
6.5.1 改進分析器
6.5.2 發明或解決新問題
6.5.3 開發知識庫
6.5.4 更好的RTE評價
6.6 有用資源
6.6.1 文獻
6.6.2 知識庫
6.6.3 自然語言處理包
6.7 總結
第7章 多語情感與主觀性分析
7.1 概述
7.2 定義
7.3 英語中的情感及主觀性分析
7.3.1 詞典
7.3.2 語料庫
7.3.3 工具
7.4 詞級和短語級標注
7.4.1 基於字典的方法
7.4.2 基於語料庫的方法
7.5 句子級標注
7.5.1 基於字典
7.5.2 基於語料庫
7.6 文檔級標注
7.6.1 基於字典
7.6.2 基於語料庫
7.7 什麼有效,什麼無效
7.7.1 最佳情況:已有人工標注的語料庫
7.7.2 次優情形:基於語料庫的跨語言映射
7.7.3 第三優情形:孳衍詞典
7.7.4 第四優情形:翻譯詞典
7.7.5 各種可行方法的比較
7.8 總結
第二部分 實踐
第8章 實體檢測和追蹤
8.1 概述
8.2 提及檢測
8.2.1 數據驅動的分類
8.2.2 搜索提及
8.2.3 提及檢測特徵
8.2.4 提及檢測實驗
8.3 共指消解
8.3.1 Bell樹的構建
8.3.2 共指模型:鏈接和引入模型
8.3.3 最大熵鏈接模型
8.3.4 共指消解實驗
8.4 總結
第9章 關係和事件
9.1 概述
9.2 關係與事件
9.3 關係類彆
9.4 將關係抽取視為分類
9.4.1 算法
9.4.2 特徵
9.4.3 分類器
9.5 關係抽取的其他方法
9.5.1 無監督和半監督方法
9.5.2 核方法
9.5.3 實體和關係檢測的聯閤方法
9.6 事件
9.7 事件抽取方法
9.8 超句
9.9 事件匹配
9.1 0事件抽取的未來方嚮
9.1 1總結
第10章 機器翻譯
10.1 機器翻譯現狀
10.2 機器翻譯評測
10.2.1 人工評測
10.2.2 自動評測
10.2.3 WER、BLEU、METEOR等
10.3 詞對齊
10.3.1 共現
10.3.2 IBM模型
10.3.3 期望最大化
10.3.4 對齊模型
10.3.5 對稱化
10.3.6 作為機器學習問題的詞對齊
10.4 基於短語的翻譯模型
10.4.1 模型
10.4.2 訓練
10.4.3 解碼
10.4.4 立方剪枝
10.4.5 對數綫性模型和參數調節
10.4.6 控製模型的大小
10.5 基於樹的翻譯模型
10.5.1 層次短語翻譯模型
10.5.2 綫圖解碼
10.5.3 基於句法的模型
10.6 語言學挑戰
10.6.1 譯詞選擇
10.6.2 形態學
10.6.3 詞序
10.7 工具和數據資源
10.7.1 基本工具
10.7.2 機器翻譯係統
10.7.3 平行語料
10.8 未來的方嚮
10.9 總結
第11章 跨語言信息檢索
11.1 概述
11.2 文檔預處理
11.2.1 文檔句法和編碼
11.2.2 詞元化
11.2.3 規範化
11.2.4 預處理最佳實踐
11.3 單語信息檢索
11.3.1 文檔錶示
11.3.2 索引結構
11.3.3 檢索模型
11.3.4 查詢擴展
11.3.5 文檔先驗模型
11.3.6 模型選擇的最佳實踐
11.4 CLIR
11.4.1 基於翻譯的方法
11.4.2 機器翻譯
11.4.3 中間語言文檔錶示
11.4.4 最佳實踐
11.5 多語言信息檢索
11.5.1 語言識彆
11.5.2 MLIR的索引建立
11.5.3 翻譯查詢串
11.5.4 聚閤模型
11.5.5 最佳實踐
11.6 信息檢索的評價
11.6.1 建立實驗環境
11.6.2 相關性評估
11.6.3 評價指標
11.6.4 已有數據集
11.6.5 最佳實踐
11.7 工具、軟件和資源
11.8 總結
第12章 多語自動文摘
12.1 概述
12.2 自動文摘方法
12.2.1 傳統方法
12.2.2 基於圖的方法
12.2.3 學習如何做摘要
12.2.4 多語自動摘要
12.3 評測
12.3.1 人工評價
12.3.2 自動評價
12.3.3 自動文摘評測係統的近期發展
12.3.4 多語自動文摘的自動評測方法
12.4 如何搭建自動文摘係統
12.4.1 材料
12.4.2 工具
12.4.3 說明
12.5 評測競賽和數據集
12.5.1 評測競賽
12.5.2 數據集
12.6 總結
第13章 問答係統
13.1 概述和曆史
13.2 架構
13.3 源獲取和預處理
13.4 問題分析
13.5 搜索及候選抽取
13.5.1 非結構化資源搜索
13.5.2 非結構化源文本的候選抽取
13.5.3 結構化源文本的候選抽取
13.6 迴答評分
13.6.1 方法概述
13.6.2 證據結閤
13.6.3 擴展到列錶型問題
13.7 跨語言問答
13.8 案例研究
13.9 評測
13.9.1 評測任務
13.9.2 判斷答案正確性
13.9.3 性能度量
13.1 0當前和未來的挑戰
13.1 1總結和進一步閱讀
第14章 提煉
14.1 概述
14.2 示例
14.3 相關性和冗餘性
14.4 Rosetta Consortium 提煉係統
14.4.1 文檔和語料庫準備
14.4.2 索引
14.4.3 查詢迴答
14.5 其他提煉方法
14.5.1 係統架構
14.5.2 相關度
14.5.3 冗餘
14.5.4 多模態提煉
14.5.5 跨語言提煉
14.6 評測和指標
14.7 總結
第15章 口語對話係統
15.1 概述
15.2 口語對話係統
15.2.1 語音識彆和理解
15.2.2 語音生成
15.2.3 對話管理器
15.2.4 語音用戶接口
15.3 對話形式
15.4 自然語言呼叫路由選擇
15.5 三代對話應用
15.6 持續的改進循環
15.7 口語句子的轉錄和標注
15.8 口語對話係統的本地化
15.8.1 呼叫流程本地化
15.8.2 提示本地化
15.8.3 文法的本地化
15.8.4 源端數據
15.8.5 訓練
15.8.6 測試
15.9 總結
第16章 聚閤自然語言處理引擎
16.1 概述
16.2 聚閤語音和NLP引擎架構的期望屬性
16.2.1 靈活的分布式組件化
16.2.2 計算效率
16.2.3 數據操作功能
16.2.4 魯棒性處理
16.3 聚閤的架構
16.3.1 UIMA
16.3.2 GATE
16.3.3 InfoSphere Streams
16.4 案例研究
16.4.1 GALE 互操作性演示係統
16.4.2 跨語言自動語言開發係統
16.4.3 實時翻譯服務
16.5 經驗教訓
16.5.1 分割涉及延遲和精度之間的權衡
16.5.2 聯閤優化與互操作性
16.5.3 數據模型需要使用約定
16.5.4 性能評估的挑戰
16.5.5 引擎的前嚮波訓練
16.6 總結
16.7 UIMA樣本代碼
索引
精彩書摘
《計算機科學叢書·多語自然語言處理:從原理到實踐》:
為瞭處理口語間語言動態切換的多語言輸入,可以根據單語語料對語言模型進行分彆建模,使用瞭這些模型的係統(例如一個基於語音的報攤或基於電話的對話係統)可以基於第一步的語言識彆結果來選擇語言模型,或者基於在初始處理之後産生最高分數的語言模型(在語音識彆中有時會結閤發音模型)來進行動態選擇。
Fugen等錶明如何通過上下文無關文法將幾個單語語言模型閤並成一個多語語言模型,其中文法的非終結符包含語言信息,終結符狀態與單語n元模型一緻。使用明確的文法規則來對現有狀態進行擴展(隻用匹配語言中的理元組),以避免不閤時機的語言切換。構建單個多語語言模型的可選方法是在包含多個單語語料的數據池中訓練一個單獨多語言模型或訓練多個單語語言模型,然後以插值方式來使用。第一種技術降低瞭係統性能,特彆是語料大小不平衡的時候。第二種技術則有輕微的提高,但仍然比不上前麵提到基於文法的方法。
……
前言/序言
看起來幾乎每個人都在一定程度上受到瞭信息技術的發展和互聯網繁榮的影響。近來,多媒體信息源變得日益普及。不過,未加工的自然語言文本的總量在不斷增長,並且地球上各種主要語言都在不斷産生大量未處理文本。例如,英語維基百科報導已有 101 種語言的維基百科,而每種語言至少有10 000 篇文章。因此,不管是國傢、公司,還是個人,都迫切需要來分析、翻譯、綜閤或者提煉這些海量文本。
以前,要開發魯棒、精確的多語自然語言處理(Natural Language Processing, NLP)應用,研究者或者開發人員需要查閱若乾本參考書、幾十個期刊或者會議論文。本書旨在為開發此類應用提供所需的所有背景知識和實際建議。雖然這個要求很高,但我們希望本書至少是本有用的參考書。
過去20年來,自然語言研究者開發瞭可處理多種語言的大量文本的若乾優秀算法。迄今為止,主流的方法是建立可從實例中學習的統計模型。這樣的模型能魯棒地應對其處理文本的類型甚至語言的變化。如果設計適當,同樣的模型可用於新的領域或新的語言,隻需要提供相應領域或語言的新的訓練實例。這種方法也使得研究者沒有必要辛苦地寫齣處理問題的所有規則以及這些規則聯閤使用的方式。統計係統一般隻要研究者提供可能的輸入特徵的抽象錶示,其相對重要性可在訓練(training)階段學習而得,並在解碼(decoding)或者推理(inference)階段應用於新的文本。
統計自然語言處理領域在快速變化,部分變化源於其快速發展。例如,該領域的主要會議之一是計算語言學年會,其參會人數在過去五年已經翻番。另外,IEEE語音和語言處理會議和期刊上自然語言處理的文章數目也在過去十年中翻瞭一番以上。IEEE是世界上推進技術發展的最大的專業學會之一。自然語言處理研究者不但在解決本領域的問題上取得瞭內在的進步,也從機器學習和語言學領域的進展中藉鑒良多。本書雖注意先進的算法和技術,但主要目的是對該領域的最佳實踐進行詳盡的闡明。另外,每章會描述所述方法在多語(multilingual)環境下的適用性。
本書分成兩部分。第一部分是理論,包括前七章,展示瞭自然語言處理的各種基礎問題以及解決這些問題的算法。頭三章關注的是找齣各種不同粒度層次的語言結構。第1章引入瞭一個重要概念——形態學(morphology),研究詞的結構,以及世界上各種語言的不同形態現象的處理方法。第2章討論瞭多種方法,文檔可由此分解為更易處理的部分,如句子,以及通過主題聯係的更大的單位。第3章研究瞭發現句子內部結構的方法,也即句法(syntax)。句法一直都是語言學最重要的研究領域,這種重要性也反映在自然語言處理領域。說其重要,部分原因是句子的結構和句子的意義相關,所以找齣句法結構是理解句子的第一步。
找齣句子或者其他文本單位的結構化的意義錶示,經常稱作語義分析(semantic parsing),這是第4章的內容。第4章還特彆討論瞭近年來引起諸多關注的語義角色標注(semantic role labeling)問題,其目的是找齣可作為動詞或謂詞的論元的句法短語。對動詞的論元進行瞭識彆和分類,我們離生成句子的邏輯形式(logical form)又靠近瞭一步,而邏輯形式是句子意義的一種錶示,這種錶示方式容易被機器處理,而用於處理邏輯的多種工具人類自古代就開始研究瞭。
然而,如果我們不需要語義分析生成的深層句法語義結構呢?如果我們的問題隻是確定多個句子中哪個句子是人最可能寫或者說的呢?解決此問題的一種方法是開發一個可根據語法閤法性而為句子打分的模型並以此選取分值最高的句子。給齣一個詞串的分值或概率估計的問題稱為語言模型(language modeling),這是第5章的主題。
錶示意義和判斷句子的語法閤法性隻是處理語言前期步驟中的兩種。為瞭進一步理解意義,我們需要一個算法,該算法可對一段文本中錶示的事實進行推理。例如,我們想要知道一個句子中提到的事實是否被文檔中前麵的某個句子所蘊涵,這種推理被稱為識彆文本蘊涵(recognizing textual entailment),這是第6章的主題。
找齣陳述或事實的相互蘊涵顯然對文本自動理解很重要,但是這些陳述的性質也有待考究。理解一個陳述是否是主觀的,並找齣其錶述的意見的傾嚮性是第7章的主題。由於人們經常錶達意見,這顯然是一個重要的問題,尤其在社交網絡已經成為互聯網上人際交流的最重要形式的時代,這一點更顯重要。本書第一部分以本章作結。
本書第二部分是實踐,講述如何將第一部分描述的自然語言處理基礎技術應用於現實世界中的問題。應用開發經常要做權衡,如時間和空間的權衡,因此本書應用部分的章節探討瞭在構建一個魯棒的多語自然語言處理應用時,如何進行各種算法和設計決策的權衡。
第8章描述識彆和區分命名實體(named entity)以及這些實體在文本中提及的辦法,也描述瞭識彆兩個以上的實體提及共指(corefer)的方法。這兩個問題一般稱為提及檢測(mention detection)和共指消解(coreference reso
計算機科學叢書·多語自然語言處理:從原理到實踐 [Multilingual Natural Language Processing Applications:From Theory to Practi 下載 mobi epub pdf txt 電子書 格式
計算機科學叢書·多語自然語言處理:從原理到實踐 [Multilingual Natural Language Processing Applications:From Theory to Practi 下載 mobi pdf epub txt 電子書 格式 2025
計算機科學叢書·多語自然語言處理:從原理到實踐 [Multilingual Natural Language Processing Applications:From Theory to Practi 下載 mobi epub pdf 電子書
計算機科學叢書·多語自然語言處理:從原理到實踐 [Multilingual Natural Language Processing Applications:From Theory to Practi mobi epub pdf txt 電子書 格式下載 2025