內容簡介
《計算語言學研究係列:先秦文獻信息處理》研究先秦文獻的信息處理,包括先秦文獻的詞匯處理、曆史知識處理以及詞匯與曆史知識的智能檢索。對先秦文獻做詞匯處理,目的在於追本溯源,瞭解先秦漢語詞匯的基本麵貌。用計算語言學方法梳理這一時期的曆史事件、人名、地名等知識,有助於更好地理解先秦文獻。與現當代中文文獻相比,先秦傳世文獻規模很小,但相關的注疏文獻十分豐富。因此《計算語言學研究係列:先秦文獻信息處理》采用瞭與一般中文信息處理不同的方法——基於注疏文獻的方法。對比實驗錶明,這種方法在先秦文獻信息處理中具有顯著優勢。
作者簡介
陳小荷,江西豐城人。北京大學現代漢語專業文學博士。現任南京師範大學文學院語言科學及技術係教授、博士生導師,兼中國中文信息學會理事、《中文信息學報》編委。主要研究方嚮為中文信息處理、漢語語法學。代錶作有《現代漢語自動分析-VisualC++實現》《漢語口語裏錶示“……再說”的語素“著”》等。主持國傢社會科學基金項目1項,江蘇省高校社科重點研究基地重大項目1項,參與國傢社會科學基金重大項目1項。
內頁插圖
目錄
第一章 緒論
第一節 先秦文獻
第二節 先秦文獻信息處理
第三節 先秦文獻信息處理的特點
第四節 基於注疏文獻的處理方法
第二章 注疏文獻處理
第一節 注疏文獻的選取
第二節 注疏文獻的內容分析
第三節 先秦文獻與其注疏文獻的句子對齊和注釋對齊
第三章 詞語切分
第一節 先秦漢語分詞規範
第二節 基於統計模型的自動分詞方法
第三節 利用注疏文獻的自動分詞方法
第四章 詞性標注
第一節 詞類體係
第二節 基於統計的分詞標注一體化方法
第三節 基於注疏文獻的詞性校正
第五章 古今字、通假字資源建設
第一節 古今字、通假字研究現狀
第二節 古今字、通假字數據庫的構建
第三節 通假字標注實驗
第四節 實驗結果及其分析
第六章 詞匯概貌
第一節 語料來源和說明
第二節 先秦文獻的漢字統計
第三節 先秦文獻的詞匯統計
第四節 計算每種文獻的特色詞
第五節 成語來源統計
第七章 詞義消歧
第一節 古代漢語詞義特點和消歧難點
第二節 義項區分的顆粒度
第三節 基於CRF模型的消歧實驗
第四節 分類器集成的消歧實驗
第八章 專名標注
第一節 關於“專名”和“命名實體”的辨析
第二節 先秦時期的人名與地名
第三節 基於統計的專名識彆
第四節 基於注疏文獻的專名識彆
第五節 人名所指歧義消解
第六節 基於專名標注的事件劃分
第九章 版本異文發現
第一節 異文和版本異文
第二節 個案和研究方法
第三節 基於相似度計算的句珠配對
第四節 基於同文排除的異文配對
第五節 基於雙序列比對的一體化處理
第六節 實驗結果及其分析
第十章 《左傳》中的春鞦社會網絡分析
第一節 社會網絡分析的基本方法和軟件
第二節 社會關係數據的獲取和網絡的定義
第三節 人物-事件網絡分析
第四節 人物關係網絡分析
第五節 人物關係網絡的深入分析
後記
精彩書摘
一、先秦文獻信息處理的研究目標
“中國古典文獻學是綜閤運用版本、校勘、目錄、注釋、考證、辨僞、輯佚、編纂、檢索等方麵的理論與方法,科學地分析、整理、研究中國古代文獻,進而探討古代文獻的産生、分布、交流和利用的規律,並總結對古代文獻進行分析、整理、研究工作的規律與方法的學科。”
古典文獻信息處理並不是要取代古典文獻學。它的首要任務是要為古典文獻學提供數字化處理的技術手段。中國古典文獻有幾韆年的曆史積纍,捲帙浩繁,熟悉文獻而又能融會貫通的專傢不多,僅憑人力實在難以完成對古典文獻的分析、整理和研究工作。電子計算機的問世以及漢字在計算機上的輸入輸齣的實現,給古典文獻處理帶來瞭福音。例如,以現在的眼光來看,給文獻編製逐字索引是一件很簡單的事情,一部電子版的《左傳》幾秒鍾即可完成索引。如果用以前抄卡片的方法編製逐字索引,一個人需要做好幾年,還容易齣錯。
如果僅僅是為古典文獻處理提供現代化的技術手段,古典文獻信息處理還不足以成為一門學科。作為一門學科,它必須有自己的理論、方法和研究目標。作為語言信息處理(具體到中文信息處理)的一個分支,古典文獻信息處理的理論基礎是信息論和概率論,基本的研究方法是語料庫統計,基本的工具是語言計算模型。它的研究目標也與古典文獻學有所區彆:
第一,古典文獻學主要關注文獻內容,古典文獻信息處理除瞭關注文獻內容之外,還應該特彆關注文獻的語言形式。先秦漢語是漢語發展的源頭,先秦文獻信息處理的一個重要的研究目標就是要從先秦文獻中探尋這個源頭的基本麵貌,包括先秦漢語的語音、詞匯和語法麵貌,為漢語史的研究提供可靠的統計數據。鑒於課題的性質,我們主要是做瞭先秦漢語的詞匯處理:對25種先秦文獻全麵地進行瞭詞語切分和詞性標注,在此基礎上自動生成瞭先秦漢語詞錶,以先秦文獻為參照考察瞭成語來源以及古今字和通假字的分布。(見第五章“古今字、通假字資源建設”,第六章“詞匯概貌”)第二,古典文獻學對文獻內容的關注,主要體現在對文獻真實性的關注,包括文獻産生的時間、作者或編者、整篇或某一部分是否係後人僞托而成、各個版本之間的關係等等。古典文獻信息處理對文獻內容的關注,除瞭上述方麵之外,還可體現為基於內容的計算。拿先秦文獻信息處理來說,可以做《左傳》和《國語》的事件抽取、人物關係抽取、先秦諸子思想比較等等。我們的檢索係統不僅可以做字詞檢索,還可以檢索《左傳》中的人物、地理實體和事件,並以可視化界麵展示社會網絡分析的結果。(見第十章“《左傳》中的春鞦社會網絡分析”)
二、先秦文獻信息處理的任務
先秦文獻信息處理的首要任務是文獻數字化,數字化的基本含義是把文獻變成機器可讀的文本。方正超大字符集有6萬多漢字,Unicode5.0及其以上版本有7萬多漢字,已經基本夠用。目前急需的是:(一)能支持超大字符集的各種方便快捷的漢字輸入法:拼音輸入(音韻學傢使用)、字形輸入(以筆畫或部首為碼元)、手寫輸入①。(二)能盡量避免圖形操作的造字工具。理想的造字工具應該是,用戶隻需輸入若乾字根以及字形的結構類型(上下結構、左右結構等),即可完成造字過程。(三)能支持繁體直排版的字符識彆軟件。對於古籍而言,理想的字符識彆軟件應能得到不同字號和字體的輸齣(區分正文和注釋),保留專名標記,甚至嵌入造字模塊。
現在從網上下載的先秦文獻電子文本存在許多問題:錄入較早的是GB2312-80編碼的簡體文本,繁體文本不多。有些繁體文本是從簡體文本自動轉換過來的,簡繁轉換錯誤未經校對。冷僻字通常用兩個漢字組閤錶示。此外還有脫字、訛字等等。這些電子文本大多是熱心網友的無私奉獻,應該好好加以利用。人工校對是不可避免的,但應該研究輔助校對工具,盡量減少人工勞動。輔助校對工具應能運用本校法(對於篇幅較大的文獻)和他校法(對於有多個版本的文獻)自動發現可能的錯誤。
……
前言/序言
《古代文學的數字迴響:方法與實踐》 探尋曆史文本的深度肌理,解鎖智慧文明的數字密碼 在信息爆炸的時代,我們身處一個被海量數據包圍的環境。然而,當目光轉嚮那些沉澱瞭韆年智慧的古代文獻,我們不禁要問:那些穿越時空的文字,是否也能夠以全新的方式被理解、被發掘、被傳承?《古代文學的數字迴響:方法與實踐》一書,正是一次對這一命題的深度探索。它並非僅僅停留在對古代文獻本身的解讀,而是將目光投嚮瞭那些支撐我們理解和研究古代文獻的現代科技手段,特彆是那些與信息科學交叉融閤的最新理論與應用。 本書的核心,在於揭示如何運用計算學的強大力量,去“閱讀”那些古老的文本,去“理解”其背後蘊含的復雜信息,去“重構”失落的知識體係。我們知道,古代文獻,無論是史書、詩歌、哲學著作,還是工藝典籍,都承載著極其豐富的信息。然而,傳統的研究方法,即便再精湛,也難免受到人力、時間和精力上的限製。例如,對一部龐大史書的史實考證、人物關係梳理,或是對大量詩歌的風格流派分析,往往需要數位學者花費數年甚至數十年方能有所成就。而隨著數字化技術的飛速發展,我們有瞭前所未有的機遇,去突破這些瓶頸。 《古代文學的數字迴響:方法與實踐》首先將帶領讀者走進“數字人文”(Digital Humanities)的廣闊天地。這門新興的交叉學科,正是將人文科學的深刻洞察力與計算機科學的強大分析能力相結閤,為傳統人文學科的研究注入瞭新的活力。書中將詳細介紹數字人文領域中,與古代文獻研究息息相關的關鍵技術和方法論。我們將探討文本的數字化(digitization)與標注意識化(annotation)的重要性,這是構建古代文獻數字資源庫的基石。從古籍善本的高精度掃描,到文本的OCR(Optical Character Recognition)識彆與糾錯,再到針對古代漢語特點的詞法、句法、語義標注,每一個環節都至關重要。本書將深入剖析不同時期、不同類型文獻在數字化過程中麵臨的挑戰,以及相應的解決方案。例如,古籍中常見的異體字、通假字、殘缺字,以及古代語法結構與現代漢語的差異,都對OCR和後續處理提齣瞭特殊要求。 接著,本書將重點聚焦於“文本分析”(Text Analysis)的核心技術。在這裏,我們不再僅僅滿足於對文本的字麵理解,而是希望通過計算模型,深入挖掘文本的內在規律。我們將詳細介紹自然語言處理(Natural Language Processing, NLP)在古代文獻研究中的應用。這包括但不限於: 詞頻統計與關鍵詞提取: 通過量化分析,識彆文獻中最常齣現、最具代錶性的詞匯,為理解文獻的主題和思想提供綫索。例如,分析《論語》中的“仁”字齣現頻率,可以直觀地感受其在孔子思想體係中的核心地位。 主題建模(Topic Modeling): 利用LDA(Latent Dirichlet Allocation)等算法,從大規模語料中自動發現潛在的主題結構,幫助研究者宏觀把握文獻集的內容分布。這對於分析某個曆史時期思想流派的演變,或是同一作者不同作品的主題側重,具有不可估量的價值。 情感分析(Sentiment Analysis): 嘗試分析古代文獻中蘊含的情感色彩,例如詩歌的憂傷、散文的贊頌等。雖然對於古代情感的解讀存在一定挑戰,但通過對特定詞匯、句式的使用模式進行量化分析,可以為理解作者的情緒狀態和文本的感染力提供新的視角。 風格分析(Stylometric Analysis): 通過對詞匯選擇、句子長度、語法結構等語言特徵的量化,研究不同作者、不同時期的文學風格,甚至可以輔助進行作品的真僞辨彆和 authorship attribution(作者身份認定)。例如,區分不同史官的筆法,或是辨彆早期道傢著作的風格演變。 關係提取與知識圖譜構建: 識彆文獻中的實體(人物、地點、事件、概念等)及其之間的關係,並將其構建成結構化的知識圖譜。這對於梳理復雜的曆史脈絡、人物關係網、宗法製度、政治權力結構等,具有革命性的意義。本書將探討如何從古代文獻中自動或半自動地抽取關係,以及如何利用圖數據庫等技術進行高效存儲與查詢。 本書還將深入探討“信息檢索”(Information Retrieval)在古代文獻研究中的應用。研究者不再需要大海撈針般地翻閱浩如煙海的書籍,而是可以通過智能化的搜索引擎,快速、精準地找到所需信息。我們將介紹如何為古代文獻構建高效的索引,以及如何設計更適閤古代漢語特點的查詢接口和算法,以解決同義詞、多義詞、通假字等帶來的檢索難題。例如,如何高效檢索所有提及“諸侯”的文獻,或是在《史記》中快速找到所有關於“項羽”的記載,並能區分不同上下文中的含義。 此外,《古代文學的數字迴響:方法與實踐》還將觸及“數據可視化”(Data Visualization)的領域。將分析得到的海量數據,通過直觀的圖錶、地圖、網絡圖等形式呈現齣來,能夠極大地增強研究者的理解和發現能力。例如,通過可視化工具展示某個朝代官員的任職脈絡,或是不同學派的思想傳播路徑,能夠讓抽象的概念變得生動形象。 本書的特色在於,它並非僅僅停留在理論的介紹,而是充滿瞭具體的案例分析和實踐指導。我們將選取一些具有代錶性的古代文獻,如《詩經》、先秦諸子百傢著作、漢代史書等,通過引入實際的研究項目,展示如何將上述計算方法應用於解決具體的學術問題。例如,如何利用文本分析技術,揭示《楚辭》中不同篇章的地域特色;如何構建《論語》的人物關係圖譜,深入理解孔子及其弟子的互動模式;如何利用信息檢索技術,對先秦時期的軍事思想進行係統性的梳理與比較。 本書的受眾不僅包括對計算語言學、數字人文感興趣的計算機科學專業人士,更涵蓋瞭曆史學、文學、哲學、考古學等相關領域的學者、研究生以及所有對古代文明懷有深厚興趣的讀者。它旨在為傳統人文研究者提供一把探索古代文獻新維度的鑰匙,為計算機科學傢提供一個施展纔華、服務文化傳承的廣闊舞颱。 《古代文學的數字迴響:方法與實踐》是一次關於智慧與技術的對話,是一次關於過去與未來的交融。它相信,通過科學方法的介入,古老的文明之光將以更加璀璨的方式,在新時代得以迴響,為我們理解中華文明的源遠流長、博大精深,提供前所未有的洞察力。本書將引領您踏上一段激動人心的旅程,去發現隱藏在文字背後的無限可能。