
数字人文在古籍整理领域的应用路径及发展策略
摘要:数字人文在古籍研究、古籍推广、古籍整理领域都有应用价值,但从结果来看,在古籍整理领域更具实用性和广泛性。与传统古籍整理范式相结合,数字人文在古籍整理领域的应用路径有二:一是传统古籍整理方法的数据化再现,包括实体保存性整理、文本复原性整理、内容组织性整理、语义阐释性整理等方法的数据化再现;二是传统古籍整理成果的数据化再利用,即运用信息技术对数字化形式的书目、注释、类书、辞书等古籍整理成果进行数据加工,发掘其潜在的学术价值。与数字环境下古籍整理新范式相结合,数字人文在古籍整理领域的第三条应用路径是对古籍原文蕴藏的知识进行数据化加工,表现为专题、专类、专书的古籍数据化整理,尤以时空数据的历史地理分析与可视化、人物数据的社会网络分析与可视化为特色。本文从以上三条路径对数字人文在古籍整理领域的研究进展作了学术史梳理,并探讨了每种路径的发展策略。
关键词:古籍整理;古籍数字化;古籍数据化;数字人文
目前,数字人文与古籍相关的应用领域主要有三个方面:一是古籍研究,二是古籍推广,三是古籍整理。所谓古籍研究,是指对古籍的作者、成书经过、版本源流等历史情况的探究,以及对古籍内容所蕴藏的历史、文化、思想等各方面学术价值的探索和发现,通常会形成结论性的观点。数字人文在古籍研究中的应用最早出现,当时被称作数理语言学。1980年,威斯康星大学陈炳藻按章回顺序将《红楼梦》平均分成3组,每组40回,从各组文本中随机抽取约8%的文字,对其中的名词、动词、形容词、副词、虚词进行统计和比较,结果发现前八十回与后四十回用字的正相关达78.57%,而与参照组《儿女英雄传》的正相关只有32.14%,由此推断前八十回与后四十回的作者均为曹雪芹一人;1987年,华东师范大学陈大康按照相同的方式对《红楼梦》进行分组,对全部文本中的27个词、虚字、句进行了统计和比较,发现前两组用字特点和句式规律一致,而后一组明显不同,据此验证了后四十回是由他人续写的观点;复旦大学李贤平将《红楼梦》一百二十回视作一个整体,以47个虚词为识别特征,对它们在前后各回中出现的频率采用多种统计方法,再结合甲戌本凡例、程甲本的两篇序文等其他资料,得出前八十回是曹雪芹据佚名作者《石头记》增删而成、后四十回是曹家亲友搜集整理曹雪芹原稿并加工补写而成的结论。三者研究的结果迥异。这说明,因为选取的样本和统计方法的不同,数理语言学的研究结论存在较大偏差。这也是后来的数字人文受到传统古籍专业研究者质疑的主要原因。
古籍推广是指图书馆等古籍收藏单位为培养公众对古籍版本文化的兴趣,提升公众的古籍阅读意愿、阅读能力而开展的各种服务,如古籍实物的静态展览、古籍制作工艺的动态演示,以及古籍内容的沉浸式阅读体验等。例如,可将数字化之后的古籍进行3D建模,仿照赵万里主编的《中国版刻图录》的体例,将不同年代、不同地域、不同类别的古籍制成数字化的版本博物馆;运用数字多媒体技术,动态模拟各种古籍版本工艺的制作及古籍修复过程,助力古籍的传承性保护;运用虚拟现实技术,还原古籍内容描述的历史场景,增强读者阅读时的体验感。目前,数字人文在这方面的应用成果还比较少,但未来有较大的发展空间。
相对古籍研究和古籍推广而言,数字人文在古籍整理领域的应用更具广泛性和可行性,也是最能被传统文史学者接受和认可的。首先,古籍整理“是对原有的古籍作种种加工,而这些加工的目的是使古籍更便于今人以及后人阅读利用”。它是为古籍研究服务的,而不是取代古籍研究。纸质文献环境下的古籍整理包括实体保存性整理、文本复原性整理、内容组织性整理和语义阐释性整理,均属传统古籍整理范式。其次,数字文献环境下,数字化之后的古籍数据被当作进一步加工整理的素材,古籍整理发展出一种新的知识范式。与传统古籍整理范式相结合,数字人文有两条应用路径:一是传统古籍整理方法的数据化再现;二是传统古籍整理成果的数据化再利用。与新的古籍整理范式相结合,数字人文发展出第三条路径,即对古籍原文所蕴含的知识的数据化整理。本文拟从以上三条路径(见图1)系统回顾古籍整理领域数字人文研究取得的进展,进而探讨未来数字人文在古籍整理领域的发展策略,为新时代的古籍整理与活化利用提供有益的参考。

图1 古籍整理领域数字人文的应用路径
传统古籍整理在“述而不作”的总体原则下,依照“实体—文本—内容—语义”的路径展开。在实体保存层面,完成古籍的征集、典藏与修复;在文本复原层面,完成版本的鉴定、文字的校勘、真伪的鉴别和缺失文献的辑佚;在内容组织层面,完成书目的编制和内容的编纂;在语义阐释层面,完成古籍的标点、注释和翻译。数字环境下,传统古籍整理范式持续发展并不断延伸,古籍不再仅仅是文献单元,而是由大量数据按一定结构组织而成的知识网络。新兴信息技术的发展,使单纯依靠学者个人的智力劳动不再是古籍整理的唯一选项,借助信息技术可实现传统古籍整理方法的数据化再现。
古籍实体的保存性整理以长期保存古籍为目标,以控制古籍保存环境和修复古籍实物为手段,故也称作古籍原生性保护。在新的数据环境下,古籍实体经过扫描可转换成图像数据和文本数据,并予以保存,由此发展出再生性保护和传承性保护。再生性保护强调运用各种文献复制手段,对古籍内容乃至外形进行保护;传承性保护包含对古籍识读能力的传承保护、古籍制作技艺的传承保护及古籍材料的研习和传承、古籍和古籍保护的社会传播三个方面。数字人文环境下,古籍再生性保护实现了将古籍由实体向影像、再向数据的双重转化,体现为构建了古籍图像、文本和字形数据库。古籍传承性保护所涉及的对于古籍识读能力的传承保护可借助古籍自动断句标点、文本分词与词性标注、自动注释与翻译等古籍语义阐释性整理方法的数据化再现开展;古籍制作技艺的传承保护及古籍材料的研习和传承,可通过古籍图像数据库构建过程中对古籍版本的自动识别提高效率;而古籍和古籍保护的社会传播更多地属于古籍推广而非古籍整理的内容,因而在本文中不展开论述。
古籍图像数据库的建成依赖于对古籍的装帧形式及版式结构的数字化,可为古籍保护和修复开辟数字人文路径。例如,美国宾夕法尼亚大学勋伯格手稿研究所VisColl项目的核心是构建一个手稿物理排序模型,通过对手稿结构进行定义、搭建和可视化来展示书叶的编排形式;捷克国家图书馆使用X射线系统和视频光谱比较仪,可在不破坏书籍结构的前提下预先发现书籍中的老化材料和具体破损情况。计算机对古籍图像的分类与识别,为古籍版本信息的著录提供了更为智能的手段,如卷端题名、字体行款、版式设计等信息的提取,都可转化为计算机视觉领域的图像分类与识别问题。这对于建设古籍版本数据库,推动古籍版本文化遗产的传承性保护极具价值。
古籍文本数据库的建成依赖于对古籍文字的识别和转换。传统的方法是预先定义古籍字符的笔画、位置等特征,使用投影法或连通域法等实现古籍图像的行和字符切分,然后使用OCR技术识别字符图片。但古籍版式布局多样,历代字体字形有所不同,且手写体古籍字迹较粗、间隙较小,相邻字符间存在粘连,再加上纸张发黄、污渍和虫蛀等不同程度损坏,为传统方法的精度提升带来了困难。卷积神经网络、注意力机制等深度学习技术逐渐应用于古籍图像和文本识别方面,此类模型仅需输入一定规模预先标注好的训练数据,即可具备识别古籍文本的能力。如何在古籍图像识别的文本标注过程中减少人力消耗,同时提高在少样本、弱标注数据集中的精度是未来研究需要解决的问题。当然,古籍文本识别的结果也可用于构建古代字形数据库,如武汉大学简帛研究中心制作了“中国古代简帛字形、辞例数据库”。
古籍实体保存性整理的数据化再现主要借助构建古籍图像、文本、字形等专类数据库来实现,但目前这类数据库还比较缺乏,古籍信息源的识别质量不高,著录款目和格式也有待进一步统一和规范。古籍数据库建设应充分发挥古籍图像的分类与识别技术的作用,在提升古籍数据质量的同时,还须加强古籍实体保存性整理获得的数据在古籍鉴赏、古籍修复、古籍版本工艺传承等具体场景中的应用研究。
古籍文本复原性整理以恢复古籍原貌为目的,依赖传统的版本、校勘、辨伪、辑佚等方法,解决古籍文本的可靠性、真实性、准确性和完整性问题。在数字环境下,则有赖于数字技术的介入,实现计算机对古籍版本源流谱系的生成、自动校勘、自动辨伪和辑佚等。
第一,古籍版本源流考订。考察单书版本的演变是评价和鉴别善本的基础,需要利用大量的古籍作者传记资料、历代官私书目、进书表,以及序跋、牌记、刻工等副文本信息。如能将这些资料和副文本信息加工成数据并实现逻辑关联,则可利用计算机辨析古籍版本递变的过程,生成版本源流谱系。有学者尝试设计古籍版本源流知识库,构建古籍版本源流知识本体模型,并将古籍版本源流可视化呈现出来。此项研究还有赖于更多古籍版本研究成果的数据化,目前对版本之间传承关系的判别仍需人工介入。
第二,古籍自动校勘。对古籍语料的校勘可视作后期数据加工的预处理。相较于传统方法而言,自动校勘可以快捷地从众多古籍版本中抽取所需校对的内容,弥补了人工难以实现穷尽式检索比对的缺憾。现有研究对于对校法的自动实现探讨较多,如基于语料库统计、句珠相似度计算等实现古籍文本的对校;“如是古籍”数字化工具平台有效实现了同书异本的自动比对。此外,同事异文自动发现也可看作他校法自动实现的基础。自动校勘不能直接照搬中文文本校对方法,而应采用同书异本的自动比对、同事异文的自动识别、拼写语法的自动校对等多种方法识别古籍文本中可能存在的错误、列举相应的改动方法,再依赖专家参与最终判定校勘结果。从“校勘四法”的角度来说,侧重“校异同”的对校和他校实现较易,而侧重“定是非”的本校和理校实现起来更具难度。如何使模型习得音韵、训诂、典故等文史知识,并具有分析辨别能力,是古籍自动校勘研究需攻坚的内容。
第三,古籍自动辨伪与辑佚。古籍作伪涉及内容、成书年代和作者三个方面。现有古籍自动辨伪研究多借鉴语言学方法,发现不同时代、不同作者的作品语言在虚词、语法体系、词汇等方面的差异。通过提取词频、比较语法等方法,即可发现存疑古籍与确定作者或确定年代的古籍在写作风格、惯用词汇上是否存在差异,从而判断存疑古籍为该作者所著的概率,或属于该年代的概率。古籍辑佚方法的数据化再现需要实现引书内容提取、同种引书内容聚类和组织。但目前相关研究较少,仅在借鉴科技文献引文上下文识别的基础上,从文本分类和序列标注任务解决思路出发,实现了《论语注疏》《毛诗正义》《春秋左传正义》中引书的上下文识别。此类研究为古籍自动辑佚奠定了基础,但仍未完成同种或相似引书的内容聚类,计算机辅助古籍辑佚仍有较长的路要走。
古籍文本复原性整理方法的数据化再现取得了显著进展,也对未来研究提出了深挖传统与精进技术的双重需求。一方面,现有研究多从技术角度出发,而对传统古籍整理范式和方法借鉴不足。未来研究应着力探索如何智能化再现古籍文本复原性整理方法,尝试实现本校和理校的自动化。另一方面,相关研究仍需谨慎对待信息技术发展所带来的挑战,充分认识现有的技术短板,从学科交叉的视角,实现人文学科研究方法与计算机技术的深度融合。
古籍内容组织性整理通过编目实现对批量古籍文献信息的揭示和有序化组织,通过编纂完成古籍内容的按需聚类。数字技术引入古籍内容的组织性整理,可极大地提高古籍整理效率。
第一,古籍自动编目。传统古籍编目强调揭示古籍的外部特征和内容要点,并按检索需要组织书目体系。数字环境下,古籍智能编目技术逐步发展,中华古籍索引库等平台纷纷建立。从词粒度层面来看,古籍关键词自动抽取和命名实体识别能够为索引款目词提供参考。有学者使用SikuBERT等模型,通过比较古籍中词向量与文档向量的余弦相似度,自动抽取相似度最高的词作为古籍关键词;或结合不同的微调语料或算法结构,尝试识别中医、农业、方志、史籍类古籍中的人名、地名、时间、动物名等命名实体。从篇章粒度层面来看,古籍互著、别裁的数据化再现和摘要的自动生成为计算机编目奠定了基础。相关研究借鉴文本分类的通用方法,实现了《荀子》与《管子》各篇章的互著与别;借鉴摘要自动生成的思路,使用抽取式算法和预训练模型生成《资治通鉴》子部摘要。总体而言,古籍自动编目是一项涉及范围极广的工作,现有平台(如中华古籍索引库)虽能实现古籍目录索引的自动组织和编制,但仍需依赖前期人工编写《古籍普查登记表格》。上述研究从词和篇章粒度层面实现了对古籍文本的分析挖掘,可为关键词、摘要等索引项的编制提供参考,从源头上实现古籍编目的自动化。
第二,古籍自动编纂。古籍自动编纂是指借助计算机信息处理技术,完成对古籍内容的按需聚类。与编纂传统的工具书不同,数字人文的发展对古籍自动编纂提出了更高的要求,即从知识角度出发,完成对古籍原始文本细粒度知识的提取和聚类,其最繁琐的部分在于对相同类别或相似内容的古籍文本的搜集、分类和相似度计算。自动分类是运用自然语言处理技术,通过对古籍文本的向量化表示,将古籍划分至预设类别中,从而为同一类别的古籍自动编纂奠定基础。古籍相似度计算借助本体概念相似度、Dice相似系数等方法,计算古籍文本在向量空间中的距离,衡量不同文本句间的相似度,输出更为相似的文本句,为同一类别下的古籍自动编纂提供参考。然而,上述研究仍无法实现古籍编纂全流程的自动化。后续研究还应从文本分类、聚类或相似度计算的角度出发,引入更先进的自然语言处理技术,尤其是预训练模型,探索降低古籍自动编纂中人工参与程度的途径,同时将古籍自动编纂的研究对象扩大至内容更为繁杂也更有价值的野史、笔记领域,构建更全面、深层次的古籍自动编纂框架。
数字人文背景下,计算机自然语言处理技术逐渐被用于古籍语义阐释性整理,包括切分古籍文本中的句子、为古籍原文添加标点符号、注释文中词句并将文言文翻译为现代文。
第一,古籍自动断句和标点。已有研究主要依据句法特征词、同义语标志词、反义复合词、引书标志等制定断句标点规则,但这类方法过于依赖专家对于规则的设定与理解,可迁移性较弱,且基于概率统计的方法需要提前设置特征模板。目前,无须设置模板即可自动学习语料特征的深度学习方法正逐渐被应用至古籍断句标点中。在此方法中,古籍断句标点常被视为序列标注问题,即将已断句标点的古籍文本作为训练集,输入BERT-BiLSTM-CRF、SikuBERT等深度学习模型中,结合优化策略训练模型,有效提升了自动断句标点的准确率和泛化能力。部分研究也尝试将古籍断句标点与分词、词性标注结合,构建一体化识别模型,以提升各子任务的识别效果。此外,“吾与点”古籍自动整理平台、古联“古籍自动标点系统”、“如是古籍”数字化工具平台等均具有自动标点功能,且部分系统还可提供标点迁移功能。
第二,古籍文本分词与词性标注。具体来说,是借助计算机技术,切分连续的古籍文本,并标注出文本中各个词的词性。但分词标准的不统一和人工操作的疏漏会影响分词与词性标注的准确率和一致性,进而影响语料知识挖掘。因此,首先应制定和统一分词标注规范,如建立动态分词词表、制定分词规则。早期研究多使用古汉语断代分词词典,借助统计指标,通过机器学习方法实现古籍文本自动分词与词性标注。这类方法过于依赖人工参与,且效果易受未登录词的影响。深度学习模型为古籍文本分词与词性标注提供了新思路,即将古籍文本分词与词性标注转化为序列标注任务,通过语料特征学习使模型具备自动分词和词性标注的能力,在典籍类别增加和语料分布复杂的情况下,也能获得较好的标注效果和泛化能力[30]。
第三,古籍自动注释和翻译。由于古籍自动断句标点、分词与词性标注、句法分析等尚不完全成熟,加上语料库建设滞后造成训练样本的不足,导致当前古籍自动注释研究较少。现有研究仅能借助从外部数据库中检索的相关信息实现对古籍文本的自动注释。在古籍自动翻译方面,机器翻译算法、AnchiBERT等被运用至相关实验中。大规模古今汉语平行语料库也在构建中。此外,古籍文本中存在一词多义现象,同一文句的翻译并无定式。传统依赖参考文献的方法无法识别潜在的正确翻译结果。古籍翻译的自动评价指标DTE可有效解决BLEU指标无法较好适应古籍自动翻译领域的问题。总体而言,自然语言处理技术与古籍语义阐释性整理方法进行了深入结合,但仍有提升空间。首先,古籍自动断句和标点仍面临古籍文本和标点类型多样性的挑战,而现有研究主要局限于常见古籍文本和简单的逗号、句号、问号。后续研究应在笔记、方志、农书等更复杂多样的文本环境中进行试验,将引号、顿号、分号、书名号等标点类型纳入实验范围。其次,古籍文本分词与词性标注受到预设训练语料质量与数量的显著影响,因此应考虑增加训练样本类型,拓展对中医药、戏曲等古籍文本的分词与词性标注研究,并结合迁移学习、主动学习、半监督学习、对抗训练和集成学习等策略,降低模型对训练语料的过分依赖。最后,古籍自动注释和翻译领域仍有较大的改进空间,未来研究应构建更大规模古今汉语平行语料库,引入机器翻译技术,提高古籍自动注释和翻译的效果。
传统古籍整理产生的系列成果,原本就是用于辅助阅读和研究,如能在数字化之后,将这些成果数据化再利用,则更能充分发掘其潜在的学术价值。
古籍书目具有“辨章学术,考镜源流”的功能,是古代知识组织的体现,在古籍整理和知识传承中具有重要价值。但历代书目数量众多、著录体例不一,在传统研究环境中同种古籍的跨目录信息检索较为困难。为集成各类古籍目录以便查询,图书馆业界和学界先后构建了“全国古籍普查登记基本数据库”“中华古籍书目数据库”“唐五代墓志专目”“中文古籍联合目录及循证平台”等书目数据库。此类数据库大多通过规范古籍著录体例和集成古籍书目数据,满足用户跨目录检索古籍的需求,其中上海图书馆集成馆藏目录与官修目录、史志目录、藏书楼目录、私家目录和版本目录,建成的“中文古籍联合目录及循证平台”是其中的优秀代表。
古籍目录的可计算性日益凸显,为大规模、细粒度、数智化的古籍目录数据开发提供了前提条件。在古籍目录大规模可视化方面,现有研究多以史志目录、藏书目录等为基础数据,融合人物、版本、历史地理等外部数据,构建可视化系统,如中国历代存世典籍知识图谱、明代古籍版刻地理信息系统、历代古籍目录可视化分析系统等。为实现古籍目录细粒度挖掘,现有研究从古典目录学“辨考”思想出发,分析了古籍目录提要的实体关联与结构功能,推动了古籍自动推荐的实现。
后续研究应从完善基础设施建设,实现人文学术需求与数字技术结合的角度出发,一方面持续加强以古籍书目数据库为代表的数字人文基础设施建设,完善其功能架构,提高数据库的可扩展性、增强数据的互操作性,满足用户日益增长的书目研究利用需求;另一方面应以数字化的古籍书目资源为研究对象,实现古籍书目体系化、细粒度的知识关联和挖掘,充分挖掘历代古籍书目的学术价值。
古籍注释包含大量名物典制和语言学方面的知识,对于辅助阅读、辞书编纂、引文分析、古文校勘、古书辑佚等具有广泛应用价值。对注释类成果的数据化再利用,首先面临的问题是如何识别数字化之后的注文,使之与正文区别开来。根据注释行文的半结构化特征,通过句子对齐算法将白文本与注疏本的文句进行对比,注疏本中与白文本中的句子构成对齐关系的属于正文,无法构成对齐关系的句子则属于注释。为了探索古代注释知识结构的自动转化方法,现有研究设计了基于本体和XML的知识表示方案,并构建了训诂学初始本体,以结构化形式表示训诂学领域中的概念及相互关系,再根据注疏文献的知识结构特点,参照训诂学初始本体,定义了表示注疏文献知识结构的XML架构。王晓光等以部分古籍注疏文本为语料,设计了包含引用关系的阐释本体,利用本体和纳米出版物语义技术对古籍注释文本进行知识表示和语义化建模,揭示了注疏文献中蕴含的知识间的语义关系,并得到了以纳米出版物为最小独立出版单位的大规模注疏知识图谱,呈现了注疏知识库及其应用的初貌。
以上研究更偏重对古籍注释的自动识别和知识表示,而对模拟传统文献功能的应用研究不足。注释在古籍整理与研究方面具有较大的应用潜力,后续研究在夯实古籍注释的知识表示与知识关联的同时,应加强对注释传统功能再现与价值发掘方法的探索,从而使古籍注释能够更好地服务于古籍整理与研究的实际需求。
类书是中国古人编纂的知识工具,因其有保存古籍原文、汇辑资料的特点,在引文分析、文献校勘、古籍辑佚、知识挖掘等方面都具有独特的学术价值。类书的知识组织可分为知识聚类(以事物聚类、依文体聚类、按学科聚类)和知识重组(知识因子重组和知识关联重组)。早在1995年,已有研究提出用计算机为类书编制索引,对类书中的知识进行再组织。数字人文技术对古籍隐性知识的挖掘,必须依赖于古典知识库,而古典知识库的构建可以借鉴类书的知识体系和组织方法。陈力以《古今合璧事类备要》等类书为例,分析了它们的知识标引与标目、知识组织与表达方法,提出将类书作为语料库,将其中的知识纳入古典知识库建设当中。
古代辞书包括用来解释汉字的形、音、义的字典,以及解释词语的含义、概念的词典,其本身具有知识性,加上在解释字、词含义时经常引经据典,保留了大量古籍原文的片段,因而也具有辑佚和引文研究价值。张志美等以我国第一部词典《尔雅》为例,构建含有中、英、日、韩等文字释义的多语词表,定义了领域知识本体及本体间29种属性关系,完成《尔雅》词汇的实例抽取、关联数据映射转换与存储发布,实现《尔雅》词表本体知识的跨语言关联检索与可视化呈现。
可以看出,类书和辞书的数据化再利用对古籍辑佚、引文分析等传统功能关注不足。另外,传统古籍整理成果的类型很多,但从以上所举来看,对它们的数据化再利用主要局限于内容组织性整理产生的书目、类书、辞书,以及语义阐释性整理形成的注释,而像文本复原性整理形成的校勘记、辨伪及辑佚成果,对它们的数据化再利用仍是空白,这也是今后数字人文研究应尝试的领域。
受计算机图灵奖得主吉姆·格雷(JimGray)提出的“第四范式”的影响,数字环境下的古籍整理将数字化之后的文本、图像数据视作进一步加工整理的素材,由此形成了以知识挖掘、知识发现、知识重组为目标的古籍原文数据化整理的新范式,也是古籍领域数字人文研究的热点。
传统古籍中的沿革地理、历史地图、游记、行记、地方志等地理文献,纪传体、编年体、典制体史书,以及年谱、大事记、历法、纪年表等,蕴藏了丰富的时空数据。对这些数据进行历史地理分析与可视化,可直观揭示历史人物的活动轨迹、历史事件的发生场景、历代作品的地域特点等,从而有效弥补古籍文本挖掘在历史时间与空间维度上的缺失。
近年来,越来越多的研究项目和平台致力于使用数据关联与可视化方法,构建历史时间、空间与事件之间的联系。复旦大学和哈佛大学联合开发的“中国历史地理信息系统”(CHGIS)试图建立一套中国历史时期连续变化的基础地理信息库,为研究者提供GIS数据平台、时间统计及查询工具和模型;首都师范大学历史地理研究中心开发的“丝绸之路历史地理信息开放平台”集成了交通商贸、土地利用、生态环境、民族宗教、城址聚落、文化传播、考古遗址等方面的数据,重构古代丝绸之路沿线的自然与人文环境。此外,结合清末宣统时期人口调查文献与地理信息的“地理调查表地名定位系统”,融合人物、作品、时间、地点、事件的“唐宋文学编年地图”以及“学术地图发布平台”等也相继建成,为研究者提供了强大的可视化工具和支撑数据。时空分析法和历史地理信息系统也被应用于古籍知识重组、历史人物足迹重现等研究中,有学者使用QGIS、SPSS、计量统计方法等可视化并分析呈现历史人物年谱、贬谪诗人时空轨迹、历史人物情感变化及私家藏书楼空间分布情况。
基于时空分析的历史地理研究也存在管理机制、标准规范和技术应用上的问题。数字技术的发展使得古籍文献的历史地理研究有了更广阔的选择空间,但如何持续、规范、有效地利用好数字技术,是需要持续研究和思考的问题。领域内跨学科合作力度也需加强,历史学、文献学、图书馆学、地理学、计算机科学等多学科间的合作有待进一步深入。除了针对历史人物与历史事件外,相关研究的范围应扩展至文化传播、经济发展等更广泛的领域,从而为认识古代社会提供更全面的视角。
“知人论世”和“知人论学”是治史研学的重要方法。受籍贯地域、学术师承、家族姻亲等因素的影响,历史人物的思想和行为也因政治利益、学术观点、家族兴衰和个人志趣等表现出一定程度上的关联性,因而被划入不同的群体。各群体内部特征及群体间的正负向关系是政治斗争、权力更迭、学术争鸣的缩影。
为分析古代政治、学术、家族群体的人物关系,现有研究运用社会网络分析、符号分析、地理信息系统、三元组普查等方法,将分散在正史、野史、方志、学案、家谱中人物传记中的知识关联起来,以知识图谱或定量方法挖掘历史人物群体的思想内涵,探讨历代政治、学术的总体特征和演化进程。对古代政治和学术群体的研究,常以官员群体、进士群体、贬谪诗人群体、经学家群体为对象,抽取“中国历代人物资料库”(CBDB)中人物的政治、社会和亲属关系,借助“历代进士登科数据库”等平台展开研究。或以《宋元学案》《明儒学案》《清儒学案》等学案体古籍中的学者及其师承关系为切入点,深入探讨古代学术群体的学术特征和思想演变。交游也是古代文人群体活动的重要表现,构建文人交游图景有助于揭示文人群体创作对文学思潮演进的影响。家族群体研究往往以“中华寻根网”“中国家谱知识服务平台”等数据库中的家谱为研究对象,可视化呈现特定家族世系图谱、多种身份(如进士与词人)的叠加图谱及家族内外交往图谱,定性分析家族的交往情况。
结合新兴信息技术,后续研究应在两个方面继续发力:一是要拓宽人物传记的数据来源,除正史、方志、学案、家谱外,像别史、杂史、政书、类书、年谱、文集、笔记及碑志中的人物传记数据,也都应广泛获取;二是要扩大人物群体的研究范围,对应历史研究的视角,士农工商、三教九流的人物群体都可纳入研究范围,从而呈现更为完整的古代人际网络,为历史研究服务。
从专题出发是科学研究的一般规律,也是古籍知识数据化整理的常态,最典型的是古代名物(如动植物、中医药、器物等)知识的数据化整理。相关研究在命名实体识别基础上,构建先秦典籍植物知识图谱;或构建方志物产知识本体模型,探讨方志物产关联数据集的构建与发布过程;或通过自动分词、文本实体信息抽取、药材性能信息获取等方法构建中医古籍方药库,利用频次分析法实现方药库的知识服务功能;或运用Protégé工具对宋代五大名窑瓷器进行本体构建,为实现宋代名窑瓷器知识的科学组织提供了可能。
专类数据是指古籍中某一特点类型的数据,比如引文数据、图像数据等。在引文数据加工整理方面,明引条目可被视为命名实体并被自动识别,从而获知各典籍引书的分布特征、耦合情况、同被引情况,并可从撰书动机和成书背景的角度分析古人的引用行为。对在注疏中引用的古籍作者、书名和内容进行人工标注和补全的基础上,还可构建引书知识库。从引书、篇章和作者角度进行可视化计量分析,并使用LDA主题模型挖掘引书的主题内容。上述研究摆脱了传统引书研究的微观限制,将现代科技文献引文分析法运用至古代引书研究中,试图深入还原古人著书过程中的引用行为,但现有引书研究仅关注了明引现象,即标明书名、作者的引用,而忽视了暗引现象。受挖掘分析技术和语料规模等因素的影响,古籍暗引现象的识别提取更为复杂,也是未来研究需要加强的方向。在图像数据的加工处理方面,鞠斐等以科技类古籍中的纺织图像为数据源,按照“纺织图像—母体文献”的双轨分类体系建立中国版刻古籍纺织图像谱系,并在“8+5+4”实体—联系模型的基础上构建了中国版刻古籍纺织图像数据库,实现了“传图识图”和“关联图谱二次检索”的特殊功能。
对专书知识的数据化整理,多从编纂体例、语义知识、思想观念等角度入手。早在2005年,武汉大学肖怀志等依照RDF/OWL语法规则和三国时期历史年表构建了三国历史本体,利用自编的程序从《三国志》文本中抽取历史年代知识元,并通过本体建立的语义关联聚集相关历史年代知识元,达到聚集同一或相关史实的目的,克服了纪传体正史的体例因同一史实散见于不同历史人物纪传中的弊端。随后,《左氏传》《公羊传》《谷梁传》中的女性人物知识量化分析和联姻关系量化分析也被实现,前者分析了春秋女性的概貌,后者通过构建联姻网络,从联姻强度、联姻广度和联姻潜力转化率三方面考察了春秋诸侯国联姻参与度。还有学者依照正向最大匹配法构建了《论语》观念词典,发现《论语》首先出现的是“人—君子”二元结构,接着逐渐出现“知—仁”二元结构,进而出现“人—知—仁”“人—道—邦”的三角形强闭合结构。
各专题、专类和专书数据在描述对象上具有统一性。对这类数据的知识挖掘与可视化呈现出明显的领域特征,可为中医药、纺织、女性类等不同领域或特定主题的研究提供参考。后续研究应着重提升研究范围的广度与研究内涵的深度,将不同数据进行更为全面的整合和比较,借助跨领域对比研究深入挖掘其关联与影响,为古代跨学科研究提供支持;将序言、题跋、批语、评点等副文本数据纳入研究范围,以便揭示文献生成背景、作者思想和时代特征,提供更为细致的数据解读视角;关注暗引、插图等内容,结合不断发展的数字技术,对其进行更为精准的知识挖掘和呈现。
数字人文与传统古籍整理范式相结合,发展出两条应用路径:一是传统古籍整理方法的数据化再现,二是传统古籍整理成果的数据化再利用。在“第四范式”的影响下,古籍整理领域形成了以知识为目标的古籍原文的数据化整理这一新的应用路径。这三条路径彼此补充,互相交织,共同促进了古籍整理领域数字人文研究的深入。
传统古籍整理方法的数据化再现借助古籍数字化、命名实体识别与抽取、机器学习、文本聚类、知识挖掘与可视化等技术,模拟、辅助和改进传统的古籍整理方法,提高了古籍整理的效率。具体发展策略如图2所示。

图2 传统古籍整理方法数据化再现发展策略
受限于某些关键技术,古籍的实体保存性整理、文本复原性整理、内容组织性整理和语义阐释性整理的数据化再现表现出明显的不平衡性。当前,实体保存性整理中的古籍文本图像识别和语义阐释性整理中的断句标点、分词与词性标注研究较多,而文本复原性整理中的版本源流谱系生成、自动校勘、自动辨伪和辑佚,内容组织性整理中的自动编纂,语义阐释性整理中的自动注释等研究成果存在数量不足、智能化程度低和泛化能力有待提高等问题,古籍的自动翻译仍处于探索阶段。这是因为古籍整理方法的数据化再现是一个循序渐进的过程,如版本源流谱系的生成、自动校勘、自动辨伪等复杂工作必须建立在对古籍数据可获取、语义内涵可呈现的基础上,而目前各类大型古籍全文、书目、版本数据库仍在构建中,其数据量和包含的副文本信息仍有待扩充,这在一定程度上限制了传统古籍整理方法的数据化再现进程。此外,研究思路的局限也导致相关研究未能全面展开。现有研究虽借鉴了自然语言处理的研究思路,但多以技术为主导,而从人文历史学者的角度来看,强调的是对传统古籍整理方法的数据化模拟,技术只是实现智能化古籍整理的策略和手段。二者思维方式不同,在一定程度上也阻碍了相关研究的发展。
因此,未来的传统古籍整理方法的数据化再现,一方面要加强古籍数据库的基础设施建设,尤其要扩充和完善古籍版本和各类副文本的数据,另一方面要从中国古代文献整理的优秀学术传统中汲取学术营养,遵从古籍整理的学术范式,将现代信息技术融入传统古籍整理方法之中,而不是让信息技术主导数字古籍整理的发展方向。
目前,传统古籍整理成果的数据化再利用仅对书目、注释、类书、辞书等少数类型的古籍整理成果进行了试验,且这种利用更多的是照搬古籍原文数据化整理的思路,即侧重对其数据本身蕴藏的知识信息进行挖掘和可视化,而忽视了它们作为古籍整理的结果所具有的更深层次的学术功能和利用价值。
如图3所示,传统古籍整理成果数据化再利用的前提是充分分析不同类型古籍整理成果的特点,并根据其在古籍利用中的价值确定研究方向,最终借助计算机手段实现对这类成果的再利用。这一过程中最为重要的环节是通过对古籍整理成果自身功能和利用价值的分析,引出相关研究的方向。例如,书目成果不仅完成了对古籍内容与形式特征的揭示和组织,还借助类例、类序、提要等方式,实现对古代学术“辨章学术,考镜源流”的功能。在对这类成果进行数据化再利用时,就不能局限于仅满足用户跨书目的文献检索需求和常规的文献数量统计分析,还应考虑如何运用新兴信息技术对古籍书目提要、类序等进行结构功能识别,对其知识主题的演化路径进行更深层次的揭示。这才是最大限度挖掘书目类古籍整理成果学术价值最需要解决的问题。此外,现有研究仅关注了少数类型的古籍整理成果,大量古籍整理成果的数据化再利用仍是空白。

图3 传统古籍整理成果数据化再利用发展策略
因此,未来研究应着眼于各类古籍整理成果的工具性特点,分析其在辅助人文历史研究中的应用价值,充分挖掘它们的学术内涵,实现其数据的细粒度、智能化的再利用;进一步丰富和拓展古籍整理成果数据化再利用的类型,把校勘记、索引、谱牒、志书、政书、年表、职官表等古籍整理成果都纳入数据化再利用的研究范畴,从不同层次、不同角度全方位地满足人文历史研究的专业需求。
以知识为目标的古籍原文数据化整理,主要表现为专题、专类、专书的古籍数据化整理,尤以时空数据的历史地理分析与可视化、人物数据的社会关系与可视化为特色。不过受限于古籍数字资源的存储格式、组织方式和分布状态,目前古籍原文数据化整理得到的知识图谱都是局部、片段式的。另外,已有研究更多是对古籍正文的数据化整理,而忽略了对正文以外的序言、题跋、批语、评点、牌记、刻工、藏印等副文本的数据化整理,而这些副文本信息对于古代书籍史研究极具价值。
如图4所示,从长远来看,应在整合全国古籍数字资源的基础上,有意识地按照四库分类体系,将古籍原生态数据加工成语义态数据,再通过本体构建、语义关联、知识图谱等技术方法,构建某一部类文献的知识体系,最终完成中国古代知识体系的整体“拼图”。此外,后续研究还应拓宽研究视野,探索多源数据融合策略,实现时空数据、人物数据、专题数据、版本数据等多种数据的融合和知识开发,完成对中国古代社会政治、经济及文化等各方面的解读;持续加强对古籍副文本信息的开发与利用,将其视为辅助古代书籍史研究不可或缺的组成部分,多角度反映古代书籍及其附载的知识的生成、传播及演变脉络;加强跨学科合作,在保障数字技术规范有效的基础上,充分运用预训练模型等新技术提升古籍原文数据化整理的效率。

图4 以知识为目标的古籍原文数据化整理发展策略
当前数字人文与古籍相结合的研究呈现出纷繁复杂的局面,理清其学术理路不仅是对传统文献学的赓续,更是为当下和未来的学术发展指明方向。脱胎于数理语言学的数字人文最早与古籍的结合是直接研究学术问题,但往往因学者、数据、方法的差异,导致同一问题得出的研究结论迥异。这在一定程度上延滞了数字人文在古籍研究领域的发展。而在中国传统学术中,古籍整理是一门有着悠久历史和成熟学术范式的学问,数字人文与之结合具有更强的实用性和更多的应用场景,既能在传统范式下焕发出新的生命力,形成传统古籍整理方法的数据化再现和传统古籍整理成果的数据化再利用这两条应用路径,又能在知识的数据化整理的新范式下不断发展创新,发展出以知识为目标的古籍原文数据化整理这一新的应用路径。必须指出的是,以上三条路径都是以古籍数据为基础,在技术方法上有可参照性。尽管计算机可部分替代传统古籍整理的机械性重复工作,减轻学者们的负担,但数字人文在古籍整理领域的迁移复用仍离不开人文历史学者的深度参与,且应当在人文历史学者的指导和参与下,实现数字人文技术从“能做什么”到“需要做什么”的转变,使古籍整理领域焕发出新的生机。

以上内容来自《中国图书馆学报》2024年第4期,
已获得转载授权
编辑丨罗斯鹏
校对丨付靖宜
排版丨贺倩茹

转自公众号数字人文资讯
进读者群请加小编微信w1078430264,备注学校/单位 专业/职务 入群。
本篇文章来源于微信公众号: 博雅史学资讯