内容简介
《计算语言学研究系列:先秦文献信息处理》研究先秦文献的信息处理,包括先秦文献的词汇处理、历史知识处理以及词汇与历史知识的智能检索。对先秦文献做词汇处理,目的在于追本溯源,了解先秦汉语词汇的基本面貌。用计算语言学方法梳理这一时期的历史事件、人名、地名等知识,有助于更好地理解先秦文献。与现当代中文文献相比,先秦传世文献规模很小,但相关的注疏文献十分丰富。因此《计算语言学研究系列:先秦文献信息处理》采用了与一般中文信息处理不同的方法——基于注疏文献的方法。对比实验表明,这种方法在先秦文献信息处理中具有显著优势。
作者简介
陈小荷,江西丰城人。北京大学现代汉语专业文学博士。现任南京师范大学文学院语言科学及技术系教授、博士生导师,兼中国中文信息学会理事、《中文信息学报》编委。主要研究方向为中文信息处理、汉语语法学。代表作有《现代汉语自动分析-VisualC++实现》《汉语口语里表示“……再说”的语素“着”》等。主持国家社会科学基金项目1项,江苏省高校社科重点研究基地重大项目1项,参与国家社会科学基金重大项目1项。
内页插图
目录
第一章 绪论
第一节 先秦文献
第二节 先秦文献信息处理
第三节 先秦文献信息处理的特点
第四节 基于注疏文献的处理方法
第二章 注疏文献处理
第一节 注疏文献的选取
第二节 注疏文献的内容分析
第三节 先秦文献与其注疏文献的句子对齐和注释对齐
第三章 词语切分
第一节 先秦汉语分词规范
第二节 基于统计模型的自动分词方法
第三节 利用注疏文献的自动分词方法
第四章 词性标注
第一节 词类体系
第二节 基于统计的分词标注一体化方法
第三节 基于注疏文献的词性校正
第五章 古今字、通假字资源建设
第一节 古今字、通假字研究现状
第二节 古今字、通假字数据库的构建
第三节 通假字标注实验
第四节 实验结果及其分析
第六章 词汇概貌
第一节 语料来源和说明
第二节 先秦文献的汉字统计
第三节 先秦文献的词汇统计
第四节 计算每种文献的特色词
第五节 成语来源统计
第七章 词义消歧
第一节 古代汉语词义特点和消歧难点
第二节 义项区分的颗粒度
第三节 基于CRF模型的消歧实验
第四节 分类器集成的消歧实验
第八章 专名标注
第一节 关于“专名”和“命名实体”的辨析
第二节 先秦时期的人名与地名
第三节 基于统计的专名识别
第四节 基于注疏文献的专名识别
第五节 人名所指歧义消解
第六节 基于专名标注的事件划分
第九章 版本异文发现
第一节 异文和版本异文
第二节 个案和研究方法
第三节 基于相似度计算的句珠配对
第四节 基于同文排除的异文配对
第五节 基于双序列比对的一体化处理
第六节 实验结果及其分析
第十章 《左传》中的春秋社会网络分析
第一节 社会网络分析的基本方法和软件
第二节 社会关系数据的获取和网络的定义
第三节 人物-事件网络分析
第四节 人物关系网络分析
第五节 人物关系网络的深入分析
后记
精彩书摘
一、先秦文献信息处理的研究目标
“中国古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,科学地分析、整理、研究中国古代文献,进而探讨古代文献的产生、分布、交流和利用的规律,并总结对古代文献进行分析、整理、研究工作的规律与方法的学科。”
古典文献信息处理并不是要取代古典文献学。它的首要任务是要为古典文献学提供数字化处理的技术手段。中国古典文献有几千年的历史积累,卷帙浩繁,熟悉文献而又能融会贯通的专家不多,仅凭人力实在难以完成对古典文献的分析、整理和研究工作。电子计算机的问世以及汉字在计算机上的输入输出的实现,给古典文献处理带来了福音。例如,以现在的眼光来看,给文献编制逐字索引是一件很简单的事情,一部电子版的《左传》几秒钟即可完成索引。如果用以前抄卡片的方法编制逐字索引,一个人需要做好几年,还容易出错。
如果仅仅是为古典文献处理提供现代化的技术手段,古典文献信息处理还不足以成为一门学科。作为一门学科,它必须有自己的理论、方法和研究目标。作为语言信息处理(具体到中文信息处理)的一个分支,古典文献信息处理的理论基础是信息论和概率论,基本的研究方法是语料库统计,基本的工具是语言计算模型。它的研究目标也与古典文献学有所区别:
第一,古典文献学主要关注文献内容,古典文献信息处理除了关注文献内容之外,还应该特别关注文献的语言形式。先秦汉语是汉语发展的源头,先秦文献信息处理的一个重要的研究目标就是要从先秦文献中探寻这个源头的基本面貌,包括先秦汉语的语音、词汇和语法面貌,为汉语史的研究提供可靠的统计数据。鉴于课题的性质,我们主要是做了先秦汉语的词汇处理:对25种先秦文献全面地进行了词语切分和词性标注,在此基础上自动生成了先秦汉语词表,以先秦文献为参照考察了成语来源以及古今字和通假字的分布。(见第五章“古今字、通假字资源建设”,第六章“词汇概貌”)第二,古典文献学对文献内容的关注,主要体现在对文献真实性的关注,包括文献产生的时间、作者或编者、整篇或某一部分是否系后人伪托而成、各个版本之间的关系等等。古典文献信息处理对文献内容的关注,除了上述方面之外,还可体现为基于内容的计算。拿先秦文献信息处理来说,可以做《左传》和《国语》的事件抽取、人物关系抽取、先秦诸子思想比较等等。我们的检索系统不仅可以做字词检索,还可以检索《左传》中的人物、地理实体和事件,并以可视化界面展示社会网络分析的结果。(见第十章“《左传》中的春秋社会网络分析”)
二、先秦文献信息处理的任务
先秦文献信息处理的首要任务是文献数字化,数字化的基本含义是把文献变成机器可读的文本。方正超大字符集有6万多汉字,Unicode5.0及其以上版本有7万多汉字,已经基本够用。目前急需的是:(一)能支持超大字符集的各种方便快捷的汉字输入法:拼音输入(音韵学家使用)、字形输入(以笔画或部首为码元)、手写输入①。(二)能尽量避免图形操作的造字工具。理想的造字工具应该是,用户只需输入若干字根以及字形的结构类型(上下结构、左右结构等),即可完成造字过程。(三)能支持繁体直排版的字符识别软件。对于古籍而言,理想的字符识别软件应能得到不同字号和字体的输出(区分正文和注释),保留专名标记,甚至嵌入造字模块。
现在从网上下载的先秦文献电子文本存在许多问题:录入较早的是GB2312-80编码的简体文本,繁体文本不多。有些繁体文本是从简体文本自动转换过来的,简繁转换错误未经校对。冷僻字通常用两个汉字组合表示。此外还有脱字、讹字等等。这些电子文本大多是热心网友的无私奉献,应该好好加以利用。人工校对是不可避免的,但应该研究辅助校对工具,尽量减少人工劳动。辅助校对工具应能运用本校法(对于篇幅较大的文献)和他校法(对于有多个版本的文献)自动发现可能的错误。
……
前言/序言
《古代文学的数字回响:方法与实践》 探寻历史文本的深度肌理,解锁智慧文明的数字密码 在信息爆炸的时代,我们身处一个被海量数据包围的环境。然而,当目光转向那些沉淀了千年智慧的古代文献,我们不禁要问:那些穿越时空的文字,是否也能够以全新的方式被理解、被发掘、被传承?《古代文学的数字回响:方法与实践》一书,正是一次对这一命题的深度探索。它并非仅仅停留在对古代文献本身的解读,而是将目光投向了那些支撑我们理解和研究古代文献的现代科技手段,特别是那些与信息科学交叉融合的最新理论与应用。 本书的核心,在于揭示如何运用计算学的强大力量,去“阅读”那些古老的文本,去“理解”其背后蕴含的复杂信息,去“重构”失落的知识体系。我们知道,古代文献,无论是史书、诗歌、哲学著作,还是工艺典籍,都承载着极其丰富的信息。然而,传统的研究方法,即便再精湛,也难免受到人力、时间和精力上的限制。例如,对一部庞大史书的史实考证、人物关系梳理,或是对大量诗歌的风格流派分析,往往需要数位学者花费数年甚至数十年方能有所成就。而随着数字化技术的飞速发展,我们有了前所未有的机遇,去突破这些瓶颈。 《古代文学的数字回响:方法与实践》首先将带领读者走进“数字人文”(Digital Humanities)的广阔天地。这门新兴的交叉学科,正是将人文科学的深刻洞察力与计算机科学的强大分析能力相结合,为传统人文学科的研究注入了新的活力。书中将详细介绍数字人文领域中,与古代文献研究息息相关的关键技术和方法论。我们将探讨文本的数字化(digitization)与标注意识化(annotation)的重要性,这是构建古代文献数字资源库的基石。从古籍善本的高精度扫描,到文本的OCR(Optical Character Recognition)识别与纠错,再到针对古代汉语特点的词法、句法、语义标注,每一个环节都至关重要。本书将深入剖析不同时期、不同类型文献在数字化过程中面临的挑战,以及相应的解决方案。例如,古籍中常见的异体字、通假字、残缺字,以及古代语法结构与现代汉语的差异,都对OCR和后续处理提出了特殊要求。 接着,本书将重点聚焦于“文本分析”(Text Analysis)的核心技术。在这里,我们不再仅仅满足于对文本的字面理解,而是希望通过计算模型,深入挖掘文本的内在规律。我们将详细介绍自然语言处理(Natural Language Processing, NLP)在古代文献研究中的应用。这包括但不限于: 词频统计与关键词提取: 通过量化分析,识别文献中最常出现、最具代表性的词汇,为理解文献的主题和思想提供线索。例如,分析《论语》中的“仁”字出现频率,可以直观地感受其在孔子思想体系中的核心地位。 主题建模(Topic Modeling): 利用LDA(Latent Dirichlet Allocation)等算法,从大规模语料中自动发现潜在的主题结构,帮助研究者宏观把握文献集的内容分布。这对于分析某个历史时期思想流派的演变,或是同一作者不同作品的主题侧重,具有不可估量的价值。 情感分析(Sentiment Analysis): 尝试分析古代文献中蕴含的情感色彩,例如诗歌的忧伤、散文的赞颂等。虽然对于古代情感的解读存在一定挑战,但通过对特定词汇、句式的使用模式进行量化分析,可以为理解作者的情绪状态和文本的感染力提供新的视角。 风格分析(Stylometric Analysis): 通过对词汇选择、句子长度、语法结构等语言特征的量化,研究不同作者、不同时期的文学风格,甚至可以辅助进行作品的真伪辨别和 authorship attribution(作者身份认定)。例如,区分不同史官的笔法,或是辨别早期道家著作的风格演变。 关系提取与知识图谱构建: 识别文献中的实体(人物、地点、事件、概念等)及其之间的关系,并将其构建成结构化的知识图谱。这对于梳理复杂的历史脉络、人物关系网、宗法制度、政治权力结构等,具有革命性的意义。本书将探讨如何从古代文献中自动或半自动地抽取关系,以及如何利用图数据库等技术进行高效存储与查询。 本书还将深入探讨“信息检索”(Information Retrieval)在古代文献研究中的应用。研究者不再需要大海捞针般地翻阅浩如烟海的书籍,而是可以通过智能化的搜索引擎,快速、精准地找到所需信息。我们将介绍如何为古代文献构建高效的索引,以及如何设计更适合古代汉语特点的查询接口和算法,以解决同义词、多义词、通假字等带来的检索难题。例如,如何高效检索所有提及“诸侯”的文献,或是在《史记》中快速找到所有关于“项羽”的记载,并能区分不同上下文中的含义。 此外,《古代文学的数字回响:方法与实践》还将触及“数据可视化”(Data Visualization)的领域。将分析得到的海量数据,通过直观的图表、地图、网络图等形式呈现出来,能够极大地增强研究者的理解和发现能力。例如,通过可视化工具展示某个朝代官员的任职脉络,或是不同学派的思想传播路径,能够让抽象的概念变得生动形象。 本书的特色在于,它并非仅仅停留在理论的介绍,而是充满了具体的案例分析和实践指导。我们将选取一些具有代表性的古代文献,如《诗经》、先秦诸子百家著作、汉代史书等,通过引入实际的研究项目,展示如何将上述计算方法应用于解决具体的学术问题。例如,如何利用文本分析技术,揭示《楚辞》中不同篇章的地域特色;如何构建《论语》的人物关系图谱,深入理解孔子及其弟子的互动模式;如何利用信息检索技术,对先秦时期的军事思想进行系统性的梳理与比较。 本书的受众不仅包括对计算语言学、数字人文感兴趣的计算机科学专业人士,更涵盖了历史学、文学、哲学、考古学等相关领域的学者、研究生以及所有对古代文明怀有深厚兴趣的读者。它旨在为传统人文研究者提供一把探索古代文献新维度的钥匙,为计算机科学家提供一个施展才华、服务文化传承的广阔舞台。 《古代文学的数字回响:方法与实践》是一次关于智慧与技术的对话,是一次关于过去与未来的交融。它相信,通过科学方法的介入,古老的文明之光将以更加璀璨的方式,在新时代得以回响,为我们理解中华文明的源远流长、博大精深,提供前所未有的洞察力。本书将引领您踏上一段激动人心的旅程,去发现隐藏在文字背后的无限可能。