跳至正文

唐宸 | 当下我国古籍数字出版的发展趋势*

摘 要



摘 要:在数字人文与人工智能技术的双重驱动下,我国古籍数字出版呈现新的演进方向。与此同时,古籍数字出版主体的角色格局也正在发生显著变化:公立图书馆通过强化古籍原始版本的公益化发布占据主导地位,古籍类专业出版社依托古籍整理本的数字化转制实现对传统数据库厂商的超越,而公益性众包发布平台则将成为重要的补充力量。未来,业界需重点解决数据质量、版权规范与行业协作等问题,遏制灰色产业链不良势头,共同维护古籍数字出版与纸质出版良性互动的健康生态。

关键词:古籍数字化 数字人文 人工智能

文 / 唐 宸


在当下数字人文与人工智能技术加速融合的背景下,我国古籍数字出版正经历从资源数字化向知识智能化的深刻转型。[1]古籍数字出版产品的形态、质量与交互模式发生了结构性变革,数据资源利用的深度开发与知识服务的创新应用成为行业演进的核心动力。与此同时,公立图书馆、公益性众包平台、古籍类专业出版社和传统数据库厂商通过差异化定位重构了出版主体的生态格局,正在推动古籍数字资源利用从封闭式商业化向开放式公益化转变。本文通过系统梳理古籍数字出版在数据形态、质量层次、交互方式与功能支撑等维度的立体化演进路径,剖析出版主体角色转换的现实逻辑,旨在揭示数字人文与人工智能双重技术驱动下我国古籍数字出版的发展趋势。

一、古籍数字出版产品形态的立体演进

古籍数字出版产品从最初单一的古籍影像型数据库,到结构化文本型数据库、关系化本体数据库,再到对话式人工智能应用,其形态的每一次变化都显著提高了学者与公众对古籍的利用度,其主要演变路径可归纳为以下几个方面。

(一)数据形态:从数字化到结构化、图谱化

作为古籍数字出版生态体系中的基础部分,影像型数据库是古籍数据库的传统形式,但它却长期存在数据资源分散、缺乏检索功能等问题。随着爱如生、鼎秀、书同文等重点数据库陆续引入图文对照机制、配置全文检索功能等,有效解决了检索利用不便的矛盾。笔者2023年研发推出的“全球汉籍影像开放集成系统”利用数据聚合技术,首次实现了全球古籍影像资源的“一站式”利用,初步化解了资源获取不易的难题。然而随着学界对深度结构化数据需求的日益凸显,仅仅具备“全文检索”的文本数据还不够,要想实现更精准、更灵活的检索乃至知识挖掘,还需要在文本中预先进行内容的层级标记与语义注解,即对书名、篇名、段落、注释、批语、题跋、印章等进行标记,对人名、地名、官名、时间、人物关系等进行本体建模与标注。以浙江大学徐永明教授团队2021年推出的“智慧古籍平台”为例,该平台借鉴知识图谱理念,综合运用计量统计、定位查询、聚类查询、空间分析、数据关联、网络分析、机器标引等技术,实现了古籍文献和研究成果的图谱化。[2]可以说,以“智慧古籍平台”为代表的一批数字人文新式产品的涌现,使得古籍数据库的结构化改造逐渐成为学界乃至整个文化界的广泛共识。2025年4月,国家图书馆、国家古籍保护中心牵头发布“中华古籍智慧化服务平台”(第一期),不仅预置了篇卷标记和实体标引,还提供图谱可视化检索和知识详情等功能。在未来十数年内,一旦高质量结构化和图谱化的古籍数据积累到一定规模,学者将能够轻易实现“点对点”乃至“点对线”的文献追踪,开展基于数字人文技术的量化分析和深度研究,同时也使得古籍数字出版向高阶智能知识应用转型成为可能。

(二)质量层次:从全文化到标点化、实体化

作为古籍数字出版生态体系中的核心部分,检索型数据库是古籍数据库的主要形式,但它也长期存在数据质量低下、阅读门槛过高等问题。全文数字化主要是建立在机器识别的基础上,受到古籍版面复杂、识别技术落后等因素的制约,文本准确率较低。即使是在人工校对方面有所投入的几家重点商业性数据库,鲁鱼豕亥之失仍触目可见。爱如生公司于2025年2月推出“爱如生数字再造古籍”首批25部,技术标准为全文录入接近零错误、全息显示复杂版式、逼真再现印装技术等,令人眼前一亮,但其校对成本之高昂、版面复原之烦琐、全面推广之困难,是可想而知的。加之当下学界对古籍向量训练需求的不断增加,传统检索型数据库因缺乏准确句读导致分词多误、缺乏实体标注导致关联度弱、充斥复杂噪声导致RAG(检索增强生成)和微调(Fine-tuning)效果不佳等问题也愈加突出。因此,从低质量的全文化走向高质量的标点化,同时以有效的实体化辅助结构化,应是检索型古籍数据库的重要改进方向。

需要指出的是,当下古籍数字出版的标点化和实体化存在两种范式,一是直接使用业已完成纸质出版的高质量古籍整理本为数字化对象,从而预先实现标点和专名标记;二是利用专门的预训练模型或通用性大语言模型,实现标点、标记的预处理或用户端的实时处理。一些高质量专业预训练模型(如广受好评的北师大胡韧奋团队“古诗文断句”模型[3])的标点和标记准确性已达到中文专业硕士生水准,具备很强的日常实用性,但现阶段错误仍无法避免。各种大语言模型应用,必将受限于底层Transformer机制本身的概率式和推测式弊端,使得其生成的标点结果在稳定性和准确性上都难以满足高质量数字出版的要求。显然,古籍数据库要走向标点化、实体化,在可预见的未来,应当瞄准高质量古籍整理本的数字化转制出版这一基本路线,而将大语言模型放在整理本的标点、标记错误校验和数字化质量进阶提升这一环节上,庶几相得益彰,以满足深层次的学术需求与大众阅读需求。

(三)交互方式:从检索式到问答式、生成式

机械检索是传统古籍数字化产品的主流人机交互方式。检索式交互的优点是操作逻辑简便清晰,其缺点是当搜索词不明确或资料规模过于庞大时,用户将面临命中失败或结果过多等情况,以至于无所适从。近年来,生成式人工智能尤其是大语言模型的出现,为古籍数字出版的交互方式带来了跃变契机。对古籍文献直接提问并获得更有上下文和总结提炼能力的生成式回答,甚至进行多轮追问、辅助引证和量化分析等,已成为学界潜在需求很大的应用场景。

鉴于目前主流大模型仍存在文本幻觉、错误引用、过程黑箱等弊端,对古籍文言文的语义查询和RAG命中效果也偏弱,一些古籍数据库开始在非核心功能层面开展初步实验,如字节公益的“识典古籍阅读平台”支持用户在古籍阅读界面利用豆包大模型进行实时划句翻译和文意鉴赏操作,而前述“中华古籍智慧化服务平台”(第一期)则支持用户调用DeepSeek大模型展开提问检索等等。笔者正在研发的“全球汉籍AI智能聚合系统”拟利用DeepSeek大模型实现全方位人机交互,甚至能够根据用户的提问进行自动化数据查询、结果显示、页面跳转等操作,最终实现传统检索和智能问答的初步衔接。虽然大模型和古籍数据库之间的高效率无缝衔接尚需开展一系列技术攻关,但机械检索与问答生成相结合必然是未来古籍数据库的重要交互模式,值得业界重点关注。

(四)功能支撑:从工具集到工作流、知识库

早期的古籍数字出版产品延伸功能相对贫乏,往往只能提供联机字典、简繁翻译、纪年换算等工具集,若要对文本开展进阶分析,如对语料要素进行统计、对不同版本加以比较、对各种实体开展标注,往往还需要借助各种外部工具,导致用户频繁在不同平台之间切换,工作效率低下,技术门槛很高。一些具备工具集性质的数字人文平台(如DocuSky等)也未能充分解决数据顺畅流通问题。随着数字人文技术的兴起,学界越发呼唤可以做到从数据采集、字符识别、文本校勘、自动标点、自动标记,到空间分析、网络分析、可视分析、图谱生成等全流程一体化设计的平台。目前这方面能达到生产级别的平台首推字节公益2024年3月免费发布的“识典古籍整理平台”。相较于阿里巴巴公益2021年5月免费推出的“汉典重光古籍数字化平台”,“识典古籍整理平台”在工具的上下衔接、数据的整体流通方面投入了更大的研发成本,技术创新可圈可点,有效实现了古籍数字出版的一站式“工作流”聚合,加之引入了众包和实时审核发布技术,有效降低了技术门槛,简化了数字出版流程,使得古籍数字化效率大大提升,引起了学界的广泛关注。

更为重要的是,随着彼此割裂的辅助工具集被整合为无缝衔接的强大工作流,古籍数据库在数字出版领域的产业定位正在悄然发生重大转变——这个传统意义上的数据内容载体(即纯粹的产品)正突破既有功能边界,逐步进化为具有自主生产能力的在线知识加工平台。换言之,数字出版的主体将迎来重大变化。与之相适应的是,一些有实力的机构开始谋划搭建基于语义网络和知识图谱技术的大型知识库,如清华大学数字人文团队刘石、孙茂松、张力伟等倡议的“中国古典知识库”,即以20多万种存世古籍为基础,在保障其完整性、逻辑性的基础上突破其原有结构,构建实体属性和关系,对文献进行深层组织和知识管理。[4]古典文献的知识库化不仅能够极大拓展学术研究的外延,更能为多角度、跨学科研究搭建重要的基础设施,而这些目标与前述新型古籍知识加工平台的功用相比,可以说殊途同归。

二、古籍数字出版主体角色的多维转换

在古籍数字出版产品形态不断演进的同时,其出版主体的角色体系也在发生重大变化,业已形成以公立图书馆为核心,以公益性众包平台为补充的体系,而传统数据库厂商也开始受到古籍类专业出版社的有力挑战,即将迎来行业的普遍调整转型。

(一)公立图书馆和公益性众包平台的关系

近年来国家图书馆、各省市图书馆以及部分高校图书馆显著加大对古籍原始版本的数字化经费投入,陆续搭建单馆性或者联合性、区域性的数字资源发布平台,并免费向社会公众开放。由国家古籍保护中心牵头、自2017年开始的10余次“全国联合发布古籍”活动,通过联合发布、云端共享、持续建设等形式,已经形成了以“中华古籍资源库”为根基、以各省级资源平台(如“江苏省古籍数字资源集成平台”等)为主干、以市县或单馆资源平台(如“苏州图书馆古籍数据库”等)为枝叶的大型立体化古籍数字资源平台集群。虽然该集群的各个站点在运营持续性、数据规范性、架构一致性等方面尚有明显不足,但确实有效缓解了长期以来传统文史研究数字资料短缺的矛盾,因而得到了学界广泛认可。2025年4月最新发布的“中华古籍智慧化服务平台”(第一期)更是立足于“全国智慧图书馆体系古籍数字化整理加工项目”,采取“一站式”主体发布策略,联合大量公立图书馆机构发布了一万余部基本达到结构化且元数据著录较丰富的古籍,可视作“中华古籍资源库”版本迭代的一次重要“实验”。由于掌握了大量原始版本资源且公开意愿愈加强烈、技术标准愈加规范,公立图书馆在古籍数字出版领域的上游主体角色还将进一步强化,并最终牢牢占据核心主导地位。

除了公立图书馆之外,公益性众包平台也在古籍原始版本数字化方面起到了关键补充作用。这些平台大多依托志愿者群体或大学生社会实践项目,将用户上传的古籍影像进行OCR(光学字符识别)结果人工校对或元数据标记等。与公立图书馆相比,由互联网大厂建设的公益性众包平台建设制度灵活、技术条件先进、数据发布简便,易与科研机构开展多样化、项目制合作,但也存在图像来源版权不清、文字质量参差不齐、篇卷实体标记多误、审校问责难以落实等问题。这些问题倘若得不到足够重视和有效解决,不仅会给社会公众尤其是初学者的阅读学习带来负面影响,也会动摇平台自身的可持续发展基础,甚至存在因错误数据的广泛传播诱发中文互联网古籍数字文本严重污染的风险。据悉,国家图书馆“中华古籍智慧化服务平台”第二期将探索数据加工众包等功能,这不仅反映出公立图书馆将加强对社会众包机制的探索,更意味着公益性众包平台和公立图书馆平台的未来架构模式将逐渐趋同,甚至有可能在长期角色互补之后最终迎来“此消彼长”的局面。

(二)古籍出版社与传统数据库厂商的关系

随着古籍数字化成为大势所趋,一些古籍类专业出版社开始尝试把纸质整理本转制成可检索的全文化数字出版产品,目前这方面的代表性案例是中华书局的“中华经典古籍库”和上海古籍出版社的“尚古汇典”。二者均采取以本社资源为主体、聚合各出版社资源的建设策略。截至2025年5月,前者已收录古籍整理本一万余部,后者则达到4000余部,而一万部古籍正是此前重点商业性古籍数据库产品——爱如生公司“中国基本古籍库”的收书数量,这意味着专业性古籍出版社所出版的数字古籍化产品如今在质量、数量上均已实现了对传统商业性数字公司的超越。对于古籍出版社而言这是一大利好:一方面,纸质古籍整理本可以进一步扩大受众,有效提升聚合检索利用率和数字化附加值,形成纸质出版和数字出版双轨并进的良好生态局面;另一方面,可以探索一条崭新的、可持续的盈利或公益推广模式,有效实现知识产权(纸质整理本版权)与开放共享之间的平衡。而对于传统数据库厂商来说,这却是一次不折不扣的、关系生死存亡的重大危机:一方面他们已经为我国的早期古籍数字化做了大量探索,尤其在文本录入、软件开发、版权谈判、市场开拓等方面投入了海量成本、作出了重要贡献;另一方面他们多年行之有效的“数据加工+按量收费”商业模式不仅早已受到公立图书馆和公益性众包平台等免费产品的持续挑战,如今还受到古籍类专业出版社发布的高质量、零差错数据库产品的直接冲击。未来,这些传统数据库厂商倘若能与公立图书馆、公益项目、学术机构进行战略性合作,积极推动自我革命,在产品定制化或高阶增值服务方面进行深耕,仍然能够在新生态中保有一席之地。

值得一提的是,目前有个别古籍出版机构“另辟蹊径”地探索出一条“反向”灰色产业链,把早已在互联网上免费公开的大量古籍影像资源进行批量搜集,从而为个别急功近利的学术机构或个人迅速炮制出一套又一套的所谓“丛刊”“辑刊”“集成”等内容。这些丛书动辄收书数十种甚至上百种,码洋数万元甚至数十万元,但大多未经过严格的选题策划,重复出版严重,并被大量用作课题结项、职称评审等用途,对科研和出版经费造成了极大浪费。这种纯粹以牟利为目的的短视行为不仅产生了大量束之高阁、无人问津的古籍影印“垃圾”,伤害了各公益性古籍数字化出版主体的积极性,甚至存在侵权违法和学术不端嫌疑,对于我国古籍出版事业可谓有百害而无一利。国家有关部门应积极采取措施,对那些选书品质好、学术价值高的纸质影印本(如浙江古籍出版社的“宋刻大系”、国家图书馆出版社的“国学基本典籍丛刊”等)建立更多政策激励和补贴机制,而对于有组织地剽窃古籍数字出版资源进行批量影印出版的个别出版机构要施以必要的约束处罚,从而维护数字出版与纸质出版相互促进、协同共生的良好格局,推动新时代古籍整理出版事业健康发展。

(作者单位系清华大学人文学院)

*本文系中央宣传部年度课题研究项目“海内外古籍元数据与数据库汇聚整理研究”的阶段性成果。



参考文献 

参考文献:

[1]刘石.文献学的数字化转向[J].文学遗产,2022(6):10-13.

[2]徐永明,王兆鹏,欧阳剑,等.系列笔谈之二:古籍数字化平台的建设[J].数字人文,2022(2):133-156.

[3]李绅,胡韧奋,诸雨辰.古籍标点与专名的智能识别技术研究[J].数字人文,2023(3):63-76.

[4]刘石,孙茂松.关于建设“中国古典知识库”的思考[N].人民政协报,2020-08-24(9).




往期推荐



陈廷烨 | 古籍校勘应注意的几个问题

张 萍 | 关于图书阅评工作的实践与思考

高晓璐 | 编辑工作中质量与效率兼顾策略探究

何 薇 | 浅谈编辑的多重视角

罗煜涛 | 新时代创新编辑人才培养机制和模式探析——以广西出版传媒集团为例

肖基浒 | 融合出版背景下出版社总编室工作的守正与创新

张玉国 李妍 | 生成式 AI 在专业出版领域的应用及未来思考

杨伟 | 政策驱动下的繁荣与发展:科普图书零售市场报告

王庆 | 以数字出版为引擎加快发展出版业新质生产力

扫码订阅《出版参考》杂志

编辑部:010-5225 7117/7113

发行部:010-5225 7109/7110

投稿邮箱:bjcbck@126.com







本篇文章来源于微信公众号: 出版参考

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注