基础设施

赵文娟 / 南京农业大学人文与社会发展学院
包 平 / 南京农业大学人文与社会发展学院
徐晨飞 / 南通大学经济与管理学院
林立涛 / 南京大学信息管理学院
摘 要:为推进古籍方志物产领域知识的深度挖掘与应用,文章以与疫病相关的物产为具体案例,运用复合检索机制及命名实体识别方法构建方志中的涉疫物产语料库。在此基础上,分析文本描述特征,建构涉疫物产分类体系,将涉疫物产分为防疫、抗疫、致疫、易得、禁忌以及其他六类。依据物产特征与疫病之间的关联,创建涉疫物产知识图谱,利用五种深度学习模型,抽取物产描述中的疾病、物产部位、药用效果等实体,并从时空、分类、知识图谱三个维度归纳涉疫物产基本特征,并以图数据库的呈现形式总结物产的防疫抗疫属性、产源产地信息、药用部位等关联知识的应用场景。该研究探索出了一套面向古籍方志的综合领域知识表示、抽取、组织与应用的框架结构,为整理和挖掘其他领域知识提供方法和借鉴。
关键词:方志物产 领域知识图谱 实体识别 疫病
方志是按照一定体例记载某地自然和社会各个方面的历史和现状的综合性著述[1],规模庞大,约占中国传世古籍的十分之一[2]。物产自宋代以来作为方志的一个固定类目,系统记录了某地产某物及物产的名称(别名)、产地、产时、性状、功效、引书等重要信息。我国在抗争瘟疫方面有着丰富的经验,这一点在史料中早有体现,周朝时已有关于疠疾的记载[3],这些经验智慧可以为现代医学提供重要线索。先前不少医学、史学领域的学者以传统的人工整理方式从特定志书[4]、类别[5]或地域[6]的视角出发,对方志史料中物产的药用价值进行探究,并发现了方志中尚存在未著录于本草类医书[7]的药用物产。数字技术的兴起为探究物产的药用价值带来了新的研究范式,也为大规模语料中领域知识的组织和挖掘提供了新的研究手段和视角。本研究以方志中的涉疫物产为例,通过领域知识图谱的构建与应用,深入整理、挖掘地方志中前人与传染病斗争的经验,让非医书类古籍资源更有效地服务当下和未来。
1950年代农史学家万国鼎带领同仁,抄写辑录并整理了国内7,532本方志中记载的物产资料,汇编成鸿篇巨制《方志物产》,是目前规模最大的物产专题史料。本研究以此珍稀文献的数字化版本为数据源,采用CRF、BERT-base-Chinese、SikuBERT等模型对物产描述中的疾病、药用部位等实体进行抽取,构建涉疫物产分类和知识体系。通过领域命名实体识别与知识图谱构建,为《方志物产》这类独特史料的再利用提供路径选择,从中挖掘古人防疫抗疫的智慧和经验,以期为医疗领域的疫病防治提供线索和参考。
(一)涉疫知识挖掘
古籍中的涉疫知识是古人在生产生活中经过归纳、比较、演绎等方式逐渐积累下来的,与“疫病”防御、治疗相关的有用信息,普遍记录在中医疫病专著或其他医书的论疫篇章中,正史、方志、报纸、档案等其他文献中也有涉及[8]。
近年来,随着数字技术的引入,不少学者针对医史资料展开相关研究,主要集中于古籍数字化[9]、命名实体识别[10]、知识库构建及知识发现[11]等领域。其中,针对涉疫知识的挖掘,则主要从中医、历史、文献等视角出发,归纳疫病防治的用药规律[12],开发潜在药方;剖析药症关系[13],揭示古代诊疫思想与方药特色;比较人们对病因认识的演变[14],探求相关原由;汇聚专题性的疫病文献[15],开拓临床诊病思路。
概而言之,面向古籍的涉疫知识挖掘多关注本草、方药、医案等中医药典籍,方志等非医书类涉及少,数据以手工提取为主,自动化程度低。方志记录了物产自身的起源、性状、产地等重要信息,是医史资料的重要补充。引入命名实体识别、知识融合与存储等技术,则有助于高效提取与整合资源,深度挖掘隐藏知识。
(二)知识图谱
学界对知识图的概念界定尚不统一,主要存在“知识地图”和“知识图谱”两种理解。前者针对文献信息,利用计量学方法和可视化图谱,跟踪研究的关键领域及发展趋势;后者是以图数据模型来描述海量数据及其之间的关系,通过节点和边来表示实体和关系。在第二种理解下,根据存储形式的不同,知识图谱又可分为基于关联数据技术的语义知识图谱和基于图数据库的广义知识图谱。已有学者对此进行过相关研究[16]。
基于图数据库的广义知识图谱是对真实世界各个场景的直观建模,应用领域更为广泛。图数据库技术发展初期,Twitter、Google等科技公司就率先在社交网络领域展开了相关应用探索。此后,图数据库概念和技术逐渐运用于其他领域。就知识组织层面而言,在古诗词领域,周树斌等利用图数据库技术对苏轼的茶诗进行可视化分析,揭示了诗词中宏观与微观层面的知识特征及其关联关系,为中国传统诗词文化的解析提供了新方法[17];在文化遗产保护领域,赵雪芹等通过万里茶道资源的可视化存储及知识表示,有效支持了相关申遗工作[18];在生物医药领域,图数据库技术已被应用于癌症研究[19]、基因分析[20]、中药知识重组[21]及医案挖掘[22]等多个研究方向的知识重构与可视化呈现。除此之外,图数据库在问答系统[23]、推荐算法[24]、多源数据组织[25]等方向也取得了显著进展。
广义的知识图谱技术强调数据的存储与查询,对图数据的计算能力与知识挖掘深度要求更高,可以较好地实现方志中涉疫物产所蕴含的时间、空间、用途等多维知识的组织与可视化。因此,本研究选择基于图数据库的广义知识图谱对方志中的涉疫物产知识进行体系化实验与分析。
(一)分类体系的构建
物产与疫病之间的关系复杂多样,蕴含着数千年来人们为抵御疫病侵害凝聚的宝贵经验。我们在阅读物产文献时发现,物产与疫病的关系可以通过特定的描述性动词进行判断。此类动词,如“除”“防”等,在本文中被定义为“关系动词”。遍历语料后,可将关系动词分为六类。
预防,指该物产可以预防、控制某种疫病。相关描述中所涉及的关系动词一般为“避”“辟”“防”等,如民国《感恩县志》中的“伽㑲”“可以避瘴气”。
治疗,指该物产能治疗某种疫病。关系动词一般为“疗”“治”“止”“除”等,如清光绪《广州府志》中“橙”有“煎汤能疗热病”的记载。
导致,相关物产会助长或引发某种疫病。关系动词一般为“传播”“传染”“致”等,如民国《开原县志》有“鼠蚤,寄生于鼠中,有一种为传布鼠疫之媒介”的记载,说明“鼠蚤”可能引发“鼠疫”。
禁忌,在某疾病过程中需要禁忌某物产。关系动词规律不明显,文本中一般会出现“禁食”“忌”等,如清光绪《吴川县志》曾记载“沙钻,似鳝而短。色白,鳞细,味甘,无毒。惟痧症忌食,俗呼沙锥鱼”,说明“痧症”时要禁食“沙钻”。
易得,说明某物产易患某种疫病。关系动词无特别规律,如清乾隆《粤中见闻》曾记载,猪“瘟疫,以萝卜菜饲之,或以皂角研末吹其鼻,一喷立苏”,说明猪易得“瘟疫”。此类物产还有“鸡”“牛”“羊”等。
其他,物产与疫病相关,但不包含在上述五类关系中。关系动词无规律,如清光绪《横州志》中“芒茅,俗名黄茅,取以盖屋。南方草木状云芒茅,枯时瘴疫大作,交广皆尔。土人谓之黄茅瘴,又曰黄芒瘴”,说明“芒茅”的别名与“瘴疫”相关。
依据物产与疫病之间的关联关系,将物产分为防疫物产、抗疫物产、致疫物产、禁忌物产、易得物产、其他物产,参考图1。

图1 涉疫物产分类体系设计图
(二)知识体系的构建
方志中的物产描述有相对固定的书写范式,多会提及物产的种类、形态、用途、别名,及生长时间、相关人物等。涉疫物产的描述主要包含两个维度:一是物产的基础属性,包括物产的来源志书及其编撰的朝代、所属行政区域、分类等一般特性描述。这类描述反映了志书的行文特征,已有学者针对广东、山西、云南等地区的物产基础属性开展了深入研究,并取得了较好的实体识别效果。二是功能属性,包含物产可治疗的疾病、药用部位、需配伍的其他物产、药用效果等。基于此,本研究设计并构建了方志涉疫物产知识体系,见图2。

图2 方志涉疫物产知识体系结构图
知识体系由物产、疾病、志书、朝代、地区等知识单元构成。图3以“瘈毒回生草”为实例,民国《大理县志稿》记有“瘈毒回生草”,“取根煎服,和以白酒,专治疯狗咬伤,屡经试验,神效。服后须忌食豆类数日”。其中,“瘈毒回生草”为物产;“根”是物产部位;“疯狗咬伤”为疾病,疑似疫病“狂犬病”;“治”为关系动词,作用类型为“抗疫”;药用效果为“神效”;“白酒”与“豆类”分别为原物产“瘈毒回生草”发挥药效所需添加、禁忌的其他物产。需要说明的是,物产部位是发挥药用价值的部位,如“瘈毒回生草”条下,“叶黄绿色,其表里与茎皆有毛”中的“叶”“茎”未发挥药效,这里不作研究。

图3 “瘈毒回生草”的知识抽取示例
知识图谱构建从数据维度出发,以数据采集、数据预处理、知识组织和可视化四个步骤为主线,具体路线见图4。首先通过医史学的著作及传染病相关条例总结疫病词典,结合方志涉疫物产书写特征形成基本素材库;随后利用疾病名称抽取与疫病词表,对素材库做进一步筛选,构建方志涉疫物产语料库;再依据方志涉疫物产知识体系结构,抽取语料中的涉疫信息,并从多维视角将其中蕴含的实体、关系、分类等展开分析。
(一)数据采集与预处理
为确保数据的完整性,本研究基于方志文本的描述特征,统计出“治”“止”“解”“消”“除”“疗”“去”“辟”“利”等9个高频关系动词,并且基于医史学著作以及传染病相关条例中的疫病名构建疫病词典;以此为基础,采用繁简体复合检索机制,对方志中的物产名称、描述文本及分类信息进行系统检索,筛选标准为包含疫病词表中完整词汇或单字的记录。通过上述方法,共计检索到86,422条初始数据,用以构建基本素材库。经人工核验发现,素材库中存在部分非涉疫物产数据,如清光绪《双流县志》提及“栝楼,一名瓜蒌,一名泽姑。根名天花粉”,因“天花”被检索到。同时,为了提高数据准确性,采用命名实体识别技术提取物产描述中的疾病,结合疫病词表、方志文本的描述特征、地区差异等因素,制定疾病判别机制。

图4 知识图谱构建技术路线图
在疾病实体抽取任务中,本研究首先对7,696条数据(约占总量的8.9%)进行了人工标注,共标注疾病实体5,783个。其中,疾病提及频率最高的记载见于清宣统《长白征存录》中关于“狐”的条目,共涉及23种疾病。随后,利用五种模型进行训练,并通过五折交叉验证分别获得各模型的最优训练结果,选取精确率(P值)、召回率(R值)及综合评价指标F值进行综合评价。其中CRF模型识别效果最好,平均F值最高,平均P值达到了88.92%,其次是SikuBERT和SikuRoBERTa模型。为实现模型间的优势互补,研究将识别效果最好的CRF、SikuBERT、SikuRoBERTa模型分别对未标注文本进行预测,合并三种模型识别结果,构建统一的疾病列表。最终共抽取疾病实体37,133个,经过去重后得到15,821个。
疾病实体按照与疫病的关系可分为疫病、疑似疫病和非疫病三种。疫病,指文献中明确记载此病为疫病,此类疾病可在先前创建的疫病词典中查找到,如“黑死病”“痘症”。疑似疫病,指与某些疫病不完全相同但有相似特征,这类疾病大多包含疫病相关特征或疫病名中的单字,如“疯狗伤”“狂狗咬”“猘狗毒”等,与疫病“猘犬病”都含有疯(猘)、狗(犬)等关键特征。非疫病,指无疫病特征的普通疾病,此类疾病在先前创建的疫病词典中无法查找到。基于涉疫物产的文本描述特征,疾病类型判别策略主要从以下三个方面考量:1.繁简字形。如“赤白痢癥”和“赤白痢症”可通过字形的繁简转换来确定疾病名称。2.疫病名称的表述差异。如“霍乱”有“霍乱不止”“霍乱症”“小儿霍乱”等多种表述,采取单字匹配结合人工校准的方法,可将此类疾病标注为“推荐参考疫病:霍乱”。3.错字与异体字。针对古籍数字化过程中及底本中难以避免的错字和异体字问题,采用两种辨别方式:词与单字比对相结合,类似上述第2种方法;机器筛选与人工校对相结合,继续筛选剩余未判别类型的疾病。
基于上述判别策略,研究首先采用机器筛选方法识别确定的及疑似的疫病名称,再通过人工辅助进行二次确认。经过多轮实验,最终识别出2,223个与疫病相关的疾病名称,其中包括143个明确疫病和2,080个疑似疫病。为便于分析,将这些疫病和疑似疫病统一归类为“涉疫类”疾病,共提取到10,284条涉疫物产信息,具体示例参见表1。

表1 方志所载涉疫物产数据示例
(二)命名实体识别
基于方志涉疫物产知识体系,除“志书”“朝代”“地区”“省份”等结构化数据外,物产描述中还需提取的涉疫知识有“物产”“疾病”“物产部位”实体,以及“作用类型”“药用效果”关系。针对关系抽取任务,可采用基于触发词的方法,如“治”“止”“辟”等关系动词,“立愈”“极效”“神效”等描述药用效果的词汇,通过这种将关系抽取转化为实体识别的策略,可有效提升准确性和效率。
模型选取当前古籍实体识别领域应用较多的CRF、BiLSTM-CRF、BERT-base-Chinese、SikuBERT、SikuRoBERTa五种模型,将传统命名实体识别任务转换成序列标注问题。同时,方志中包含大量繁体字、无标点内容,借助SikuBERT等针对古籍文本的预训练模型,可以较好地控制字形差异和断句问题等对识别效果的影响。
首先,人工标注语料中的实体,共标注数据3,041条(约占总语料的27%),识别出17,498个实体。然后,利用BIESO标签法将已标注的文本数据转化为单字序列格式,其中单字实体标记为“S”,多字实体首字标记为“B”,尾字标记为“E”,其他为“I”,非实体标记为“O”;JB表示标注的疾病名称,V表示标注的关系动词,BW表示标注的药用部位,OW表示标注的其他物产,RR表示标注的治疗效果。以清道光《湖南方物志》中物产“𩿯”的描述“衡州南灵鹧鸪解岭南野葛诸菌毒及辟瘟瘴”为例,其标注生成结果见表2。
同时,为降低数据划分的随机性影响,本研究采用五折交叉验证方法,将语料均匀分为5份,按4:1的比例随机划分训练集和测试集。通过对比五类模型的识别效果,发现CRF模型的平均P值(87.8%)和F值(81.6%)最高,而BERT模型平均R值(80%)最高。这一涉疫实体识别效果与数据采集时疾病实体抽取效果呈现的规律相一致。从各个实体模型的识别效果来看,CRF模型在所有实体类型的F值评估中均表现最优(详见表3)。具体而言,关系动词实体识别效果最好,其次是药用效果与疾病,物产部位与物产实体识别效果略差,但F值也超过了71%。就综合测评结果来看,CRF模型在方志涉疫物产实体抽取任务中展现出最佳的适用性。

表2 实体标注样例

表3 各实体识别效果最优实验组
(三)知识融合与存储
知识融合。经过实体抽取后,所形成的涉疫物产数据集中存在部分冗余和噪声数据。本研究通过机器初筛和人工辅助的方式对此类数据进行整合,将从属于同一时空,且具备相同涉疫属性的物产合并,主要分为两步:一是拆分涉疫实体及关系;二是知识对齐。通常一条涉疫物产往往关联一个或多个疫病/非疫病,疾病实体出现在关系动词之后,药用效果描述出现在疫病实体之后,我们以此为依据拆分抽取出实体及关系。具体拆分以明万历《望江县志》中“鸽”的描述为示例(表4)。考虑到物产具有同物异名、同名异物特性,知识融合时主要将具有相同的志书来源、物产部位、物产名称、作用类型、关联疾病、药用效果描述的物产进行合并处理,从而保证涉疫物产实体的准确性。

表4 实体及关系拆分样例
知识存储。方志涉疫物产蕴含着疾病、药用效果、物产部位等多维知识。为实现这些知识的有效组织与可视化呈现,本研究选用图数据库Neo4j进行知识存储和索引构建。该方案不仅能有效整合多元数据,还能直观展示涉疫物产知识体系的内在关联。结合方志涉疫物产知识体系(图2),同时补充志书特征描述和物产传统分类知识等关联数据,以提升知识丰富度。目前,知识图谱设置为包含7个实体节点(物产、物产部位、疾病、志书、朝代、地区、省份)、2个节点属性(物产传统分类、疾病类型描述)、7个关系(药用部位、药物配伍与配伍禁忌、作用类型与药用效果、来源志书、成书时间、记载地区、从属省份)。
本研究以抽取出的物产涉疫知识为基础,借助图表、地图等视觉元素,从宏观视角观察方志涉疫物产的时空分布和分类特征,并以图数据库的形式梳理知识之间的关联关系,从而助力史料整理和领域应用。
(一)时空分布
方志涉疫物产共涉及1,284种来源志书,其成书时间主要分布在宋至民国时期。各时期的物产记载数与种类数见表5,其中物产记载数是某时期的物产总量,种类数则是去重后的物产数量。清代涉疫物产记载最多,其次是民国时期,宋代和元代较少。来源志书数和现存方志量[26]亦呈现类似的规律,这表明涉疫物产的记载情况与方志的存佚情况密切相关。此外,涉疫物产种类数与记载数的变化趋势基本一致,但清代较民国时期方志涉疫物产记载数更多而种类数更少。具体而言,民国时期新增涉疫物产1,240种[27],而清代新增1,021种。同时,清代涉疫物产的记载重复率约为65.1%,民国时期约为51.3%,从志书记载上看,民国涉疫物产显然更为多样。

表5 涉疫物产时间分布
本研究对涉疫物产的时空分布特征进行了系统分析。在时间维度上,相关记载涵盖宋、元、明、清及民国五个历史时期;在地理维度上,这些物产分布于中国境内25个省份,且记载地点多与其原产地相符。基于志书记载地点的统计分析结果显示,明代、清代和民国时期的涉疫物产记载十分丰富。
方志中涉疫物产的记载呈现明显的区域分布特征,主要集中在我国中南部地区,北部及西部地区记载较少。这一分布格局的形成原因主要在于北部及西部地广人稀,方志修纂和保存数量有限。此外,研究发现,明清之际四川、浙江、河北、山东、江苏、河南现存方志[28]数量较多,且江苏、浙江、湖北、山东、河南等地疫病频发[29],但江苏、浙江、山东、河南地区的涉疫物产记载却不及福建、广东地区的三分之一,这在一定程度上反映出我国东南沿海地区具有更丰富的涉疫物产资源。
(二)涉疫功能
涉疫物产可分为防疫、抗疫、致疫、禁忌、易得和其他六类,基于方志物产文献共统计得出涉疫物产记载13,241条,具体分类见表6。抗疫类物产记载数最多,约占总数的89.2%,其中“金银花”“蒲公英”“青蒿”等记载最多,涉及的“痢”“金疮”“霍乱”“恶疮”“疮毒”“喉痹”“伤寒”等疫病出现频次较高(大于150次)。研究发现,涉疫物产在防治疾病方面具有多元化特征,如“青蒿”可以治疗“金疮”“疟疾”“劳瘵”“骨蒸之热”“黄疸”“疥”“疮毒”“恶疮”“痢”等症,反映出物产的多功能药用价值,以及古人对物产药用价值的系统认识。此外,涉疫物产不仅适用于治疗疫病,在治疗非疫疾病方面同样发挥着作用,统计发现,15,487条物产应用于非疫病治疗的记载,高频症状包括“腹痛”“转筋”“咳逆”“头痛”等。这些记录是古人长期临床实践总结与经验传承的结果,展现了古人在经验积累和不断验证过程中形成的疾病防治知识体系,也为我们理解古代医药学的灵活性和应变能力提供了新的视角。

表6 涉疫物产类型分布
按照传统分类方式,物产可以分为植物、动物、货物三个大类,植物类下有菜属、草属、谷属、瓜属、果属、花属、木属、药属、菌属九个小类,动物类下有虫属、毛属、水产属、羽属四个小类,货物类下仅有货属一个小类。图5中展示的是涉疫物产按传统分类方式的分布情况。可以发现,除了易得物产之外,其余各类涉疫物产均以植物为主,其次是动物,货物最少。在植物类物产中,草属、药属、菜属所占比例较高;而在动物类物产中,虫属与水产属的记载较多。这反映了古人在防治疫病时对不同类型物产的可获得性、多样性和功能性的取舍。未来可以进一步利用这些数据,结合现代医学和生物技术,对古代文献中记载的药材及其涉疫功能进行科学验证,开发出具有明确疗效和安全性的现代药物,从而促进传统物产知识的保护与传承。

图5 不同涉疫功能的物产分布
(三)应用场景
方志中融合了物产的产地、栽植方法、性状、用途等重要信息。这些信息不仅可以用于对医史资料进行查漏补缺,还能够更形象直观地呈现方志涉疫物产在不同维度上的知识特征,从而让中医药从业人员更便捷地获取物产的分布信息和特征要素。本文以“狂犬病”相关的物产为例,借助直观的知识图谱形式,就如何开发利用方志涉疫物产史料、揭示其中潜在的历史经验以及助力现代医学发展,提出了几点思考和建议。
1.探寻物产的涉疫属性,挖掘物产药用价值
通过已标注的疫病类型可快速定位疑似疫病并发现相关药用物产,有助于医史学家全面查找隐含的涉疫物产。图6[30]展示了部分疑似狂犬病(下文统称为“类狂犬病”)的关联物产。据统计,方志中记载的“类狂犬病”包括“疯狗伤”“癫犬咬”“猘犬吠毒”“狂犬咬发狂”等106种疾病名称。“类狂犬病”的相关物产可分为防疫(紫竹、黑竹)、抗疫(紫竹、黑竹、斑蝥、虾蟇、虾蟆)、致疫(百足)和易得(狗、犬)四类。涉疫物产的药用功效具有多样性,同一物产可能具有多重功能属性,如地方志记载显示紫竹和黑竹对狂犬病兼具治疗和预防功效。这些发现不仅为医史学研究提供了新的线索和视角,更有助于系统分析物产药用价值的历史演变,同时为现代疾病防治提供了宝贵的历史依据和研发灵感。
图6 类狂犬病相关物产
2.辨析涉疫物产产源信息,助力中医药文化探源工程
受地域、土壤、气候等因素影响,物产分布呈现出鲜明的地域特征。图7为四川、湖南、浙江、江苏四个省份方志文献中防治“类狂犬病”的物产。可以看出,虽然各省份间存在少量相同物产,如四川和湖南均产“斑蝥”“黑竹”“山慈姑”“紫竹”等,但整体上具有相似药用价值的物产仍表现出显著的地域差异性。此外,药材产地与其质量密切相关,同一药材因生长环境差异可能导致药效变化。方志文献中保存了大量优质涉疫物产的详细记载,如清乾隆《潮州府志》记载五子树“实如梨,里有五核,因名五子。治霍乱、金疮。潮阳所产者佳”,清光绪《浪穹县志略》记载云香韭“《旧志》产罗坪山;《一统志》一名五叶芸香,能治瘴毒,入夷方者携之,如嚼此草无味,便知中毒,服其汁吐之自解。一名韭叶云香,能治瘴、疟”。此类史料记载不仅有助于发掘具有特殊地理优势的药用物产,更能为药材的鉴别与研究提供重要的文献依据。

图7 类狂犬病相关的省份和物产
3.利用物产部位、药用效果等实体资料,促进涉疫物产专题研究
物产部位、药用效果及其他相关物产构成涉疫物产疗效研究的核心知识单元,也是全面认识和展示物产多维度特征的重要媒介。通过可视化技术,研究者能够以直观、高效的交互方式实现数据探索与知识发现,为医史学研究涉疫物产的知识关联提供多维度的查询路径。以图8所示防治“类狂犬病”的物产及其药用部位为例,发挥药效的部位包括植物的根、皮、叶、头、茎、核、仁等,以及动物的牙、尿等。在防治“类狂犬病”的记录中,植物根部发挥疗效的记载最为丰富。同时,研究发现同一物产的不同部位往往具有差异化的药用特性,如民国《鄞县通志》记载枲耳“(茎叶)治中风、伤寒、头痛、犬咬、蜂咬、无名肿毒、飞虫入耳。(种子)治头痛、瘰疬、齿痛”。开展涉疫物产专题研究具有重要学术价值,未来可从系统整理药用部位、关联物产、融合中国传统动植物分类体系等维度深入探索,多维度分析涉疫物产知识结构的同时,发掘更有价值的专题信息。

图8 “类狂犬病”相关物产的药用部位
方志中记载着丰富的防疫抗疫物产。本研究通过对该领域知识图谱的系统化构建与分析,揭示了古籍方志在涉疫物产领域研究中的应用潜力,并为其他领域的知识整理与挖掘提供了新思路。研究显示,从时间上看,涉疫物产的记载与各个朝代的物产记载数量、方志存佚与分布存在关联。清代的涉疫物产记载数量最多,而民国时期的涉疫物产种类则更为多样。从空间上看,尽管江浙地区志书编纂更频繁且存量更多、疫病流行频次也较高,但福建、广东地区记载的涉疫物产数量却明显超过江浙地区。从分类上看,抗疫物产的数量最多,但涉疫物产在防治其他非疫疾病方面同样发挥着重要作用。研究表明,通过整合志书物产的文本描述特征和防疫抗疫属性,借助实体及其之间的关联,并融合可视化呈现形式,可以实现多维度涉疫物产知识的聚类以及应用场景的拓展。
本研究以手抄本《方志物产》的数字化文献为基础,抄写笔误和数字化整理过程中的文字错误难以完全消除,来源志书的内容完整性仍有待进一步完善,地方性志书的编修频次和遗存数量也会影响结果的客观性和准确性。此外,中华古籍卷帙浩繁,传统医学是其中的重要组成部分,而基于方志的研究仍有待与其他中医药古籍进一步比对、补遗和互证,以提升研究深度。未来研究除继续深化药用物产研究外,还应深入挖掘方志中蕴含的其他领域知识,并与各领域专家学者通力合作,制定统一的标注规范,构建体系完整的领域知识图谱,从而全面推进中华古籍知识的整理与挖掘工作向更高水平发展。
Construction and Application of Domain Knowledge Graph in Products in Local Chronicles
Zhao Wenjuan, Bao Ping, Xu Chenfei, Lin Litao
Abstract: In order to promote the in-depth mining and application of domain knowledge in the field of Local Chronicles, this paper takes the field of epidemic-related products as an example. It uses a compound retrieval mechanism and named entity recognition methods to create a corpus of epidemic-related products based on Local Chronicles. A new classification model for epidemic-related products is constructed using the text description characteristics. The products in the corpus are divided into several categories, including epidemic prevention, anti-epidemic, epidemic-causing, easy-to-obtain, taboo, and others. According to the relationship between product characteristics and pestilence, this paper constructs a framework for the knowledge graph of epidemic-related products. Five deep learning models are employed to extract entities from the product description information, such as medicinal parts, disease names, treatment effects, and so on. Based on the structured data obtained, the products are analyzed from the aspects of time, space, classification, and knowledge system. As a result, the basic overview of epidemic-related products can be visualized. Additionally, the application scenarios of related knowledge, such as epidemic prevention and anti-epidemic properties, origin information, and medicinal parts of the epidemic-related products, are summarized in the form of a graph database. The research has developed a comprehensive framework for the representation, extraction, organization, and application of domain knowledge related to epidemic-related products in Local Chronicles, aiming to provide methods and references for organizing and mining other domain knowledge.
Keywords: Products in Local Chronicles; Domain Knowledge Graph; Entity Recognition; Epidemic Prevention
编辑 | 许可
本文为国家社会科学基金一般项目“数智技术驱动下方志物产多模态资源知识重组与叙事服务研究”(23BTQ059)的阶段性研究成果。
[1]杨军昌:《中国方志学概论》,贵阳:贵州人民出版社,1999年,第6页。
[2]来新夏:《中国地方志的史料价值及其利用》,《国家图书馆学刊》2005年第1期。
[3]陈邦贤:《中国医学史》,上海:商务印书馆,1955年,第362页。
[4]万芳:《明代〈琼台志〉本草资料探析》,《中医文献杂志》,2001年第3期。
[5]纪丽真:《方志所见明清时期山东海洋渔业资源研究》,《中国海洋大学学报(社会科学版)》2009年第6期。
[6]孟小燕、王通、安月玲:《明代以来廊坊地区中药材资源状况研究》,《山西农经》2019年第17期。
[7]白宇明、郝近大:《方志对本草考证的重要性》,《中医学报》2019年第8期。
[8]熊益亮等:《中国古代疫病文献研究述评》,《中华中医药杂志》2022年第8期。
[9]张旭、赵彦辉、刘树春:《本草古籍数字化及嵌入学术资源平台的探索与实践》,《中国中医药图书情报杂志》2017年第6期。
[10]林立涛等:《数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例》,《图书馆论坛》2022年第10期。
[11]张晓晓、张卫东:《数字人文视域下中医古籍方药库的构建与应用研究——以产后腹痛为例》,《图书馆杂志》2023年第9期。
[12]索南多杰等:《基于数据挖掘——味性化味的藏医治疗年壬(瘟疫)用药规律研究》,《沈阳药科大学学报》2023年第11期。
[13]李文林等:《基于关联规则分析明清古籍中疫病文献的药-症关系》,《时珍国医国药》2010年第4期。
[14]于琦等:《基于文献研究的中医温病病因病机认识的时代变迁》,《中华中医药杂志》2013年第8期。
[15]陈晶晶、张文风、魏岩:《黄芩防治疫病本草文献、药理学及临床研究概况》,《长春中医药大学学报》2023年第4期。
[16]孙安:《知识图谱在数字资源开发与利用中的应用研究》,《河南图书馆学刊》2022年第6期;陈涛等:《知识图谱在数字人文中的应用研究》,《中国图书馆学报》2019年第6期。
[17]周树斌等:《文化基因视域下诗词资源多维知识重组与可视化研究——以茶文化为例》,《图书情报工作》2023年第16期。
[18]赵雪芹、李天娥、曾刚:《基于Neo4j的万里茶道数字资源知识图谱构建研究》,《情报资料工作》2022年第5期。
[19]David Tuck, “A Cancer Graph: A Lung Cancer Property Graph Database in Neo4j,” BMC Research Notes, vol. 15, 2022, p. 45.
[20]Alban Shoshi et al., “GenCoNet–A Graph Database for the Analysis of Comorbidities by Gene Networks,” Journal of Integrative Bioinformatics, vol. 15, no. 4, 2018, DOI: 10.1515/jib-2018-0049.
[21]洪海蓝等:《海洋中药知识图谱构建及可视化研究》,《计算机时代》2023年第1期。
[22]羊艳玲等:《基于中医医案的知识图谱构建》,《医学信息学杂志》2022年第10期。
[23]杨等:《基于知识图谱的羊群疾病问答系统的构建与实现》,《华中农业大学学报》2023年第3期。
[24]任超等:《基于知识图谱的循证政策中科学证据推荐研究——以新冠肺炎疫情防控政策为例》,《图书情报工作》2023年第2期。
[25]车一鸣等:《海量多源异构基础地理实体数据组织管理研究》,《测绘科学》2023年第3期。
[26]陈邦贤:《中国方志学通论》,上海:商务印书馆,1935年,第81页。
[27]将民国时期与清代的方志中的物产种类数进行对比,去除重复,得出民国时期相较于清代多出1,240种新的涉疫物产(其中部分物产在清代方志中有记载而民国时期无记载)。清代新增物产数量以相同方法计算得出。
[28]中国科学院北京天文台:《中国地方志联合目录》,北京:中华书局,1985年。
[29]张志斌:《中国古代疫病流行年表》,福州:福建科学技术出版社,2007年,第112页。
[30]为直观显示,图6、图7中的各疫病名称、物产名称均直接提取自方志物产文献,未对其中的异体字、繁体字作规范整理,并保留了同一物产的各种异称,如图6中的“虾蟇”和“虾蟆”均为蛤蟆,“犬”和“狗”均为狗,“百足”为蜈蚣的异称。
如需购买《数字人文》期刊,请扫描下方二维码

校对 | 肖爽
美编 | 王秀梅
往期回顾
本篇文章来源于微信公众号: DH数字人文
