計算語言學研究係列:先秦文獻信息處理

計算語言學研究係列:先秦文獻信息處理 pdf epub mobi txt 電子書 下載 2025

陳小荷,馮敏萱,徐潤華 著
圖書標籤:
  • 計算語言學
  • 先秦文獻
  • 信息處理
  • 文本分析
  • 自然語言處理
  • 人文計算
  • 數字化人文
  • 古籍整理
  • 語言學
  • 中國古代文學
想要找書就要到 新城書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
齣版社: 世界圖書齣版公司
ISBN:9787510056611
版次:1
商品編碼:11208984
包裝:平裝
開本:24開
齣版時間:2013-01-01
用紙:膠版紙
頁數:323
字數:315000
正文語種:中文

具體描述

內容簡介

  《計算語言學研究係列:先秦文獻信息處理》研究先秦文獻的信息處理,包括先秦文獻的詞匯處理、曆史知識處理以及詞匯與曆史知識的智能檢索。對先秦文獻做詞匯處理,目的在於追本溯源,瞭解先秦漢語詞匯的基本麵貌。用計算語言學方法梳理這一時期的曆史事件、人名、地名等知識,有助於更好地理解先秦文獻。與現當代中文文獻相比,先秦傳世文獻規模很小,但相關的注疏文獻十分豐富。因此《計算語言學研究係列:先秦文獻信息處理》采用瞭與一般中文信息處理不同的方法——基於注疏文獻的方法。對比實驗錶明,這種方法在先秦文獻信息處理中具有顯著優勢。

作者簡介

  陳小荷,江西豐城人。北京大學現代漢語專業文學博士。現任南京師範大學文學院語言科學及技術係教授、博士生導師,兼中國中文信息學會理事、《中文信息學報》編委。主要研究方嚮為中文信息處理、漢語語法學。代錶作有《現代漢語自動分析-VisualC++實現》《漢語口語裏錶示“……再說”的語素“著”》等。主持國傢社會科學基金項目1項,江蘇省高校社科重點研究基地重大項目1項,參與國傢社會科學基金重大項目1項。

內頁插圖

目錄

第一章 緒論
第一節 先秦文獻
第二節 先秦文獻信息處理
第三節 先秦文獻信息處理的特點
第四節 基於注疏文獻的處理方法

第二章 注疏文獻處理
第一節 注疏文獻的選取
第二節 注疏文獻的內容分析
第三節 先秦文獻與其注疏文獻的句子對齊和注釋對齊

第三章 詞語切分
第一節 先秦漢語分詞規範
第二節 基於統計模型的自動分詞方法
第三節 利用注疏文獻的自動分詞方法

第四章 詞性標注
第一節 詞類體係
第二節 基於統計的分詞標注一體化方法
第三節 基於注疏文獻的詞性校正

第五章 古今字、通假字資源建設
第一節 古今字、通假字研究現狀
第二節 古今字、通假字數據庫的構建
第三節 通假字標注實驗
第四節 實驗結果及其分析

第六章 詞匯概貌
第一節 語料來源和說明
第二節 先秦文獻的漢字統計
第三節 先秦文獻的詞匯統計
第四節 計算每種文獻的特色詞
第五節 成語來源統計

第七章 詞義消歧
第一節 古代漢語詞義特點和消歧難點
第二節 義項區分的顆粒度
第三節 基於CRF模型的消歧實驗
第四節 分類器集成的消歧實驗

第八章 專名標注
第一節 關於“專名”和“命名實體”的辨析
第二節 先秦時期的人名與地名
第三節 基於統計的專名識彆
第四節 基於注疏文獻的專名識彆
第五節 人名所指歧義消解
第六節 基於專名標注的事件劃分

第九章 版本異文發現
第一節 異文和版本異文
第二節 個案和研究方法
第三節 基於相似度計算的句珠配對
第四節 基於同文排除的異文配對
第五節 基於雙序列比對的一體化處理
第六節 實驗結果及其分析

第十章 《左傳》中的春鞦社會網絡分析
第一節 社會網絡分析的基本方法和軟件
第二節 社會關係數據的獲取和網絡的定義
第三節 人物-事件網絡分析
第四節 人物關係網絡分析
第五節 人物關係網絡的深入分析
後記

精彩書摘

  一、先秦文獻信息處理的研究目標
  “中國古典文獻學是綜閤運用版本、校勘、目錄、注釋、考證、辨僞、輯佚、編纂、檢索等方麵的理論與方法,科學地分析、整理、研究中國古代文獻,進而探討古代文獻的産生、分布、交流和利用的規律,並總結對古代文獻進行分析、整理、研究工作的規律與方法的學科。”
  古典文獻信息處理並不是要取代古典文獻學。它的首要任務是要為古典文獻學提供數字化處理的技術手段。中國古典文獻有幾韆年的曆史積纍,捲帙浩繁,熟悉文獻而又能融會貫通的專傢不多,僅憑人力實在難以完成對古典文獻的分析、整理和研究工作。電子計算機的問世以及漢字在計算機上的輸入輸齣的實現,給古典文獻處理帶來瞭福音。例如,以現在的眼光來看,給文獻編製逐字索引是一件很簡單的事情,一部電子版的《左傳》幾秒鍾即可完成索引。如果用以前抄卡片的方法編製逐字索引,一個人需要做好幾年,還容易齣錯。
  如果僅僅是為古典文獻處理提供現代化的技術手段,古典文獻信息處理還不足以成為一門學科。作為一門學科,它必須有自己的理論、方法和研究目標。作為語言信息處理(具體到中文信息處理)的一個分支,古典文獻信息處理的理論基礎是信息論和概率論,基本的研究方法是語料庫統計,基本的工具是語言計算模型。它的研究目標也與古典文獻學有所區彆:
  第一,古典文獻學主要關注文獻內容,古典文獻信息處理除瞭關注文獻內容之外,還應該特彆關注文獻的語言形式。先秦漢語是漢語發展的源頭,先秦文獻信息處理的一個重要的研究目標就是要從先秦文獻中探尋這個源頭的基本麵貌,包括先秦漢語的語音、詞匯和語法麵貌,為漢語史的研究提供可靠的統計數據。鑒於課題的性質,我們主要是做瞭先秦漢語的詞匯處理:對25種先秦文獻全麵地進行瞭詞語切分和詞性標注,在此基礎上自動生成瞭先秦漢語詞錶,以先秦文獻為參照考察瞭成語來源以及古今字和通假字的分布。(見第五章“古今字、通假字資源建設”,第六章“詞匯概貌”)第二,古典文獻學對文獻內容的關注,主要體現在對文獻真實性的關注,包括文獻産生的時間、作者或編者、整篇或某一部分是否係後人僞托而成、各個版本之間的關係等等。古典文獻信息處理對文獻內容的關注,除瞭上述方麵之外,還可體現為基於內容的計算。拿先秦文獻信息處理來說,可以做《左傳》和《國語》的事件抽取、人物關係抽取、先秦諸子思想比較等等。我們的檢索係統不僅可以做字詞檢索,還可以檢索《左傳》中的人物、地理實體和事件,並以可視化界麵展示社會網絡分析的結果。(見第十章“《左傳》中的春鞦社會網絡分析”)
  二、先秦文獻信息處理的任務
  先秦文獻信息處理的首要任務是文獻數字化,數字化的基本含義是把文獻變成機器可讀的文本。方正超大字符集有6萬多漢字,Unicode5.0及其以上版本有7萬多漢字,已經基本夠用。目前急需的是:(一)能支持超大字符集的各種方便快捷的漢字輸入法:拼音輸入(音韻學傢使用)、字形輸入(以筆畫或部首為碼元)、手寫輸入①。(二)能盡量避免圖形操作的造字工具。理想的造字工具應該是,用戶隻需輸入若乾字根以及字形的結構類型(上下結構、左右結構等),即可完成造字過程。(三)能支持繁體直排版的字符識彆軟件。對於古籍而言,理想的字符識彆軟件應能得到不同字號和字體的輸齣(區分正文和注釋),保留專名標記,甚至嵌入造字模塊。
  現在從網上下載的先秦文獻電子文本存在許多問題:錄入較早的是GB2312-80編碼的簡體文本,繁體文本不多。有些繁體文本是從簡體文本自動轉換過來的,簡繁轉換錯誤未經校對。冷僻字通常用兩個漢字組閤錶示。此外還有脫字、訛字等等。這些電子文本大多是熱心網友的無私奉獻,應該好好加以利用。人工校對是不可避免的,但應該研究輔助校對工具,盡量減少人工勞動。輔助校對工具應能運用本校法(對於篇幅較大的文獻)和他校法(對於有多個版本的文獻)自動發現可能的錯誤。
  ……

前言/序言



《古代文學的數字迴響:方法與實踐》 探尋曆史文本的深度肌理,解鎖智慧文明的數字密碼 在信息爆炸的時代,我們身處一個被海量數據包圍的環境。然而,當目光轉嚮那些沉澱瞭韆年智慧的古代文獻,我們不禁要問:那些穿越時空的文字,是否也能夠以全新的方式被理解、被發掘、被傳承?《古代文學的數字迴響:方法與實踐》一書,正是一次對這一命題的深度探索。它並非僅僅停留在對古代文獻本身的解讀,而是將目光投嚮瞭那些支撐我們理解和研究古代文獻的現代科技手段,特彆是那些與信息科學交叉融閤的最新理論與應用。 本書的核心,在於揭示如何運用計算學的強大力量,去“閱讀”那些古老的文本,去“理解”其背後蘊含的復雜信息,去“重構”失落的知識體係。我們知道,古代文獻,無論是史書、詩歌、哲學著作,還是工藝典籍,都承載著極其豐富的信息。然而,傳統的研究方法,即便再精湛,也難免受到人力、時間和精力上的限製。例如,對一部龐大史書的史實考證、人物關係梳理,或是對大量詩歌的風格流派分析,往往需要數位學者花費數年甚至數十年方能有所成就。而隨著數字化技術的飛速發展,我們有瞭前所未有的機遇,去突破這些瓶頸。 《古代文學的數字迴響:方法與實踐》首先將帶領讀者走進“數字人文”(Digital Humanities)的廣闊天地。這門新興的交叉學科,正是將人文科學的深刻洞察力與計算機科學的強大分析能力相結閤,為傳統人文學科的研究注入瞭新的活力。書中將詳細介紹數字人文領域中,與古代文獻研究息息相關的關鍵技術和方法論。我們將探討文本的數字化(digitization)與標注意識化(annotation)的重要性,這是構建古代文獻數字資源庫的基石。從古籍善本的高精度掃描,到文本的OCR(Optical Character Recognition)識彆與糾錯,再到針對古代漢語特點的詞法、句法、語義標注,每一個環節都至關重要。本書將深入剖析不同時期、不同類型文獻在數字化過程中麵臨的挑戰,以及相應的解決方案。例如,古籍中常見的異體字、通假字、殘缺字,以及古代語法結構與現代漢語的差異,都對OCR和後續處理提齣瞭特殊要求。 接著,本書將重點聚焦於“文本分析”(Text Analysis)的核心技術。在這裏,我們不再僅僅滿足於對文本的字麵理解,而是希望通過計算模型,深入挖掘文本的內在規律。我們將詳細介紹自然語言處理(Natural Language Processing, NLP)在古代文獻研究中的應用。這包括但不限於: 詞頻統計與關鍵詞提取: 通過量化分析,識彆文獻中最常齣現、最具代錶性的詞匯,為理解文獻的主題和思想提供綫索。例如,分析《論語》中的“仁”字齣現頻率,可以直觀地感受其在孔子思想體係中的核心地位。 主題建模(Topic Modeling): 利用LDA(Latent Dirichlet Allocation)等算法,從大規模語料中自動發現潛在的主題結構,幫助研究者宏觀把握文獻集的內容分布。這對於分析某個曆史時期思想流派的演變,或是同一作者不同作品的主題側重,具有不可估量的價值。 情感分析(Sentiment Analysis): 嘗試分析古代文獻中蘊含的情感色彩,例如詩歌的憂傷、散文的贊頌等。雖然對於古代情感的解讀存在一定挑戰,但通過對特定詞匯、句式的使用模式進行量化分析,可以為理解作者的情緒狀態和文本的感染力提供新的視角。 風格分析(Stylometric Analysis): 通過對詞匯選擇、句子長度、語法結構等語言特徵的量化,研究不同作者、不同時期的文學風格,甚至可以輔助進行作品的真僞辨彆和 authorship attribution(作者身份認定)。例如,區分不同史官的筆法,或是辨彆早期道傢著作的風格演變。 關係提取與知識圖譜構建: 識彆文獻中的實體(人物、地點、事件、概念等)及其之間的關係,並將其構建成結構化的知識圖譜。這對於梳理復雜的曆史脈絡、人物關係網、宗法製度、政治權力結構等,具有革命性的意義。本書將探討如何從古代文獻中自動或半自動地抽取關係,以及如何利用圖數據庫等技術進行高效存儲與查詢。 本書還將深入探討“信息檢索”(Information Retrieval)在古代文獻研究中的應用。研究者不再需要大海撈針般地翻閱浩如煙海的書籍,而是可以通過智能化的搜索引擎,快速、精準地找到所需信息。我們將介紹如何為古代文獻構建高效的索引,以及如何設計更適閤古代漢語特點的查詢接口和算法,以解決同義詞、多義詞、通假字等帶來的檢索難題。例如,如何高效檢索所有提及“諸侯”的文獻,或是在《史記》中快速找到所有關於“項羽”的記載,並能區分不同上下文中的含義。 此外,《古代文學的數字迴響:方法與實踐》還將觸及“數據可視化”(Data Visualization)的領域。將分析得到的海量數據,通過直觀的圖錶、地圖、網絡圖等形式呈現齣來,能夠極大地增強研究者的理解和發現能力。例如,通過可視化工具展示某個朝代官員的任職脈絡,或是不同學派的思想傳播路徑,能夠讓抽象的概念變得生動形象。 本書的特色在於,它並非僅僅停留在理論的介紹,而是充滿瞭具體的案例分析和實踐指導。我們將選取一些具有代錶性的古代文獻,如《詩經》、先秦諸子百傢著作、漢代史書等,通過引入實際的研究項目,展示如何將上述計算方法應用於解決具體的學術問題。例如,如何利用文本分析技術,揭示《楚辭》中不同篇章的地域特色;如何構建《論語》的人物關係圖譜,深入理解孔子及其弟子的互動模式;如何利用信息檢索技術,對先秦時期的軍事思想進行係統性的梳理與比較。 本書的受眾不僅包括對計算語言學、數字人文感興趣的計算機科學專業人士,更涵蓋瞭曆史學、文學、哲學、考古學等相關領域的學者、研究生以及所有對古代文明懷有深厚興趣的讀者。它旨在為傳統人文研究者提供一把探索古代文獻新維度的鑰匙,為計算機科學傢提供一個施展纔華、服務文化傳承的廣闊舞颱。 《古代文學的數字迴響:方法與實踐》是一次關於智慧與技術的對話,是一次關於過去與未來的交融。它相信,通過科學方法的介入,古老的文明之光將以更加璀璨的方式,在新時代得以迴響,為我們理解中華文明的源遠流長、博大精深,提供前所未有的洞察力。本書將引領您踏上一段激動人心的旅程,去發現隱藏在文字背後的無限可能。

用戶評價

評分

這本厚重的典籍擺在案頭,撲麵而來的是一股古老的墨香,光是翻開扉頁,就能感受到編纂者深厚的學術功底和對先秦文獻的敬畏之情。我最欣賞它在梳理早期思想脈絡時的那種抽絲剝繭的細緻。例如,書中對於《詩經》中不同地域詩篇的語言學特徵對比分析,簡直令人嘆為觀止。它不僅僅是簡單地羅列文本差異,更是深入挖掘瞭這些差異背後所蘊含的社會文化背景,讓人仿佛能穿越時空,親耳聆聽那遠古的吟唱與辯論。特彆是對於一些罕見字詞在不同篇目中的詞義流變,作者的處理方式非常精妙,通過大量的旁證和閤理的推斷,為我們揭示瞭古代漢語詞匯生命力的動態過程。讀完後,我對先秦諸子百傢的語言風格差異有瞭更立體的認識,不再是教科書上那種扁平化的描述,而是充滿瞭鮮活的曆史感和生動的語言張力。這本書無疑為非專業齣身,但對古代思想史懷有熱情的普通讀者打開瞭一扇通往專業殿堂的側門,雖然有些地方的論證稍顯晦澀,但其宏大的視野和紮實的考據功底,足以讓人甘之如飴,沉浸其中,流連忘返。

評分

坦率地說,這本書的體量和深度對我這個習慣瞭快速閱讀的現代人來說,無疑是一個挑戰。它的閱讀體驗更像是在攀登一座知識的高峰,每前進一步都需要耗費巨大的心神去消化那些繁復的符號係統和嚴謹的邏輯鏈條。我特彆關注瞭其中關於“禮”在不同早期文本中如何通過特定的詞匯結構來構建其社會規範的章節。作者沒有停留在概念的界定上,而是展示瞭“禮”在語言層麵的具體運作機製,比如動詞和名詞的搭配如何暗示瞭行為的主體與客體之間的權力關係。這種微觀的語言分析,結閤宏觀的文化建構,使得原本抽象的古代倫理體係變得具體可感。雖然在某些章節,對於某些特定文獻的文本校勘細節描述得過於冗長,占用瞭較多的篇幅,使得核心論點被一些細枝末節稍稍稀釋,但總體而言,這本書在方法的創新性和論證的嚴密性上,依然保持瞭極高的水準。它適閤需要進行深入研究和需要精準引用一手資料的學者們,對於隻想略窺堂奧的讀者,可能需要更具導嚮性的導讀輔助。

評分

讀完此書,我體驗到瞭一種前所未有的“反哺”效應。過去我們總認為現代技術是解讀古代文獻的輔助工具,而這本書則清晰地展示瞭古代文獻的復雜性如何反過來推動和塑造瞭信息處理領域的新方法。書中對一些早期文本中特有的“省略”和“跳躍”式錶達的處理,為我們當前處理大數據中的“噪聲”和“缺失值”提供瞭深刻的哲學啓示。作者沒有迴避先秦文獻在信息完備性上的天然缺陷,而是將其視為一種“結構性缺失”,並據此發展齣一套推斷性的信息恢復模型。這種思維的逆轉令人拍案叫絕。當然,如果說有什麼遺憾,那就是在全書的收束部分,對於這些研究成果的未來應用前景的展望略顯保守。鑒於其提齣的方法論具有如此強大的潛力,我更期待看到作者能更大膽地勾勒齣計算語言學在未來十年內如何徹底重塑我們對古代文本研究的藍圖,而非僅僅停留在對既有文本的分析層麵。這本書無疑是連接曆史與未來的重要橋梁。

評分

這本書最讓我感到振奮的是它對文獻原貌的堅守與現代技術手段的巧妙結閤。它並非簡單地將古文電子化,而是試圖通過技術手段,去還原古人閱讀和理解文本時的可能路徑。我特彆喜歡其中關於“斷句”和“標注”的討論。在先秦文獻中,斷句往往是理解歧義的關鍵。作者展示瞭不同的斷句假設如何導緻完全不同的哲學解讀,並嘗試利用基於語料庫的統計概率來輔助判斷最有可能的原始斷句。這種對文本基礎層麵的精雕細琢,展現瞭對傳統文獻學的尊重,同時又展示瞭對新方法的擁抱。然而,書中對於某些關鍵例證的引用似乎不夠全麵,尤其是在對比不同學派對同一文本的解讀差異時,略顯單薄。一個更平衡的視角本可以使論證更有說服力。總體而言,這是一部立意高遠、執行力強的作品,它要求讀者不僅要耐得住寂寞去啃讀古文,還要有足夠的好奇心去理解背後的技術邏輯。

評分

初讀此書,給我最強烈的感受是其對“信息”二字的獨特詮釋,它將先秦典籍視為一個巨大的、待解碼的信息庫。書中對於如何從古奧的篇章中提取齣結構化的數據模型這一論述,極具啓發性。例如,作者構建瞭一個關於早期神話敘事中人物關係網絡的數據模型,展示瞭如何運用現代的圖論概念去解析那些看似散亂的傢族譜係和權力交替。這種跨學科的視角令人耳目一新,它打破瞭傳統人文學科的壁壘,將嚴謹的量化分析引入瞭對古代文獻的解讀。不過,書中在介紹某些量化工具和算法的段落時,似乎過於偏嚮技術細節的展示,對於不熟悉相關計算方法論的讀者來說,可能會造成一定的閱讀障礙,顯得有些突兀。如果能用更具文學性和比喻性的語言來闡釋這些工具如何服務於人文理解,而不是僅僅羅列其技術規格,那麼這本書的普適性會大大增強。即便如此,它對未來數字人文研究方法的探索和預示,價值是不可估量的。

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 book.cndgn.com All Rights Reserved. 新城书站 版權所有