跳至正文

数智人文

别再找了!最全的中国历史老照片数字资源导航(含台大、哈佛、杜克等馆藏)

点击上方或左下角“弗专书馆”关注我吧! 弗专书馆中国老照片珍藏库 3.0 收录原则—— 照片内容:中国历史图片; 收藏者:海内外非营利机构; 性质与格式:免费,高清。 1.台湾旧照片资料库 下载网址: https://dl.lib.ntu.edu.tw/s/photo/page/Home 拍摄时间:清及近代 拍摄者:众人 照片数量:42000 收藏地点:台大图书馆数位典藏馆 收藏如1901-190… 阅读更多 »别再找了!最全的中国历史老照片数字资源导航(含台大、哈佛、杜克等馆藏)

徐永明 | 明代文学文献的数字化、结构化和智能化

转载自《中国韵文学刊》2025年第4期 明代文学文献的数字化、结构化和智能化 徐永明 【作者简介】 徐永明(1967—),男,浙江遂昌人,浙江大学文学院教授,研究方向为明代文学、数字人文。 摘要 明代文学文献的数量在1万种以上,然而影像数字化和文本数字化的工作依然任重道远。在大数据和人工智能时代,文本的结构化和智能化也提上了日程。结构化的数据,可以计量统计、定位查询及可视化呈现,同时,结构化的数据… 阅读更多 »徐永明 | 明代文学文献的数字化、结构化和智能化

數據庫資源|早期中國研究選輯, 十六至二十世紀初

INTRODUCTION: 此資料庫是由本館彙編的早期中國研究選輯﹐內容涵蓋十六至二十世紀初研究中國的典籍﹐涉及語種有英文、葡文、法文等。 This database is a collection of China Studies compiled by the University Library, covering the book titles published between the … 阅读更多 »數據庫資源|早期中國研究選輯, 十六至二十世紀初

“孙中山《实业计划》与上海孙中山故居馆藏图书文献专题数据库”二期成果上线

2026年是伟大的民族英雄、伟大的爱国主义者、中国民主革命的伟大先驱孙中山先生诞辰160周年。为纪念孙中山先生诞辰160周年,上海宋庆龄研究会发挥宋庆龄文献数据中心平台作用,在上海市孙中山宋庆龄文物管理委员会全力支持下,通过上海孙中山故居纪念馆和上海图书馆深度协同共建,聚焦上海孙中山故居孙中山先生藏书这一最为独特的珍贵文物文献,汇聚上海图书馆珍稀报刊资源,精心打造专业权威数据库——“孙中山《实业计… 阅读更多 »“孙中山《实业计划》与上海孙中山故居馆藏图书文献专题数据库”二期成果上线

《中日文化交流史》第62期:数据驱动:当代日本史学的数字人文研究范式

《中日文化交流史》第62期 数据驱动:当代日本史学的数字人文研究范式 王侃良、战林泽 2007年,吉姆·格雷在其演讲中提出了基于数据密集型计算的“第四范式”正在成为未来科学研究的主流的预言。如今,随着人类社会发展的数字化转型趋势越发显著,他的预言也在逐步走向现实。数据驱动(Data Driven)型研究也愈发得到各界的关注,来自不同领域的研究者聚集在新范式周围共同推动学术实践走向深入。尤其在本文所… 阅读更多 »《中日文化交流史》第62期:数据驱动:当代日本史学的数字人文研究范式

北京语言大学BCC语料库2.0版发布

转载自“光明微教育” 2026年3月15日,由北京语言大学语言资源高精尖创新中心主办的“语料库建设研讨会暨BCC 2.0发布会”在线上召开。本次会议面向全国语言研究者与从业者,系统发布了北京语言大学语料库中心BCC语料库(Beijing Language and Culture University Corpus Center)2.0版本,为大模型时代的语言资源建设与智能化研究注入新动能。 为实现… 阅读更多 »北京语言大学BCC语料库2.0版发布

一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

项目介绍 shiji-kb:一个开源的古籍知识工程项目。做了两件事: 第一,用AI将《史记》130篇、57万字全部转化为结构化知识——18类实体近10万次标注、3,185个事件、7,652条关系、675项知识单元; 第二,把整个过程沉淀为26个可复用的知识库构造方法论Skill文档,覆盖从校勘到知识推理的9大阶段。换一部书,管线不变,参数调整,即可构造新的知识库。 传统文史研究的核心困境是人力瓶颈… 阅读更多 »一个开源的AI《史记》知识库与26个可复用构造知识库Skill,57万字史记,10万个实体、3185个事件、7652条关系全部结构化

【资源推介】浙江省历史文献数字资源总库

数据库简介 “浙江省历史文献数字资源总库”是集资源、平台、门户为一体,设计思路秉承以简单易用为原则,重点在于对古籍数据进行重点收集与重点建设,该库在功能配置上以能给用户提供舒适、安全、方便、快捷为准则,其操作应简便易学,馆藏古籍丰富,是全省性的古籍文献集成平台。目前该库已发布数字化古籍2283种左右,约5.5万余卷,其中浙江图书馆2070种,市县馆213种。 数据库链接 https://histo… 阅读更多 »【资源推介】浙江省历史文献数字资源总库

数据库及使用方法分享之一|海关洋员魏尔特所藏的小册子(近代中国相关)

魏尔特(Stanley F. Wright),《中国关税沿革史:1843—1938》译为莱特。魏尔特的身份与活动,相关学者已有探讨,作为海关史家的魏尔特对费正清利用海关总税务司档案的态度,多为学界关注。 作为英籍税务司,魏尔特之档案收藏于亚非学院(SOAS),与赫德档号连着,档号MS 16。魏尔特之个人档案目前只能通过馆藏方的网络看到目录,暂未发现开放的电子化数据。魏氏档案国内外学者已有利用,都柏… 阅读更多 »数据库及使用方法分享之一|海关洋员魏尔特所藏的小册子(近代中国相关)

甘肃省图书馆公开发布8千多册古籍全文影像资源

为深入学习贯彻党的二十届四中全会精神与习近平文化思想,以实际行动学习贯彻即将施行的《全民阅读促进条例》,2025年12月30日,国家图书馆(国家古籍保护中心)召开“古籍数字智慧应用与第十一次古籍数字资源联合发布座谈会”。文化和旅游部公共服务司、全国高等院校古籍整理研究工作委员会、国家民委全国少数民族古籍整理研究室、国家图书馆相关部处负责同志、资源发布单位代表、专家学者等50余人参加座谈。 本次资源… 阅读更多 »甘肃省图书馆公开发布8千多册古籍全文影像资源

荀子古籍大语言模型2.0正式上线

网站链接: https://xunziallm.njau.edu.cn/ 近日,面向古籍智能处理的荀子大模型正式通过国家生成式人工智能服务备案,并免费向公众提供对话服务界面(https://xunziallm.njau.edu.cn/ ),欢迎古籍从业人员和广大古籍爱好者使用! 荀子古籍大语言模型由南京农业大学王东波教授团队主导研发,是江苏省首个以高校为主体完成国家生成式人工智能服务备案的大语言模… 阅读更多 »荀子古籍大语言模型2.0正式上线

古籍方志物产领域知识图谱构建与应用研究

 基础设施 赵文娟 / 南京农业大学人文与社会发展学院 包 平 / 南京农业大学人文与社会发展学院 徐晨飞 / 南通大学经济与管理学院 林立涛 / 南京大学信息管理学院 摘 要:为推进古籍方志物产领域知识的深度挖掘与应用,文章以与疫病相关的物产为具体案例,运用复合检索机制及命名实体识别方法构建方志中的涉疫物产语料库。在此基础上,分析文本描述特征,建构涉疫物产分类体系,将涉疫物产分为防疫、… 阅读更多 »古籍方志物产领域知识图谱构建与应用研究

古籍文献中人名实体信息的提取方法及实现研究

 基础设施 陈逸云 / 搜韵网 吴 怡 / 四川大学中华文化传承与全球传播数字融合实验室 摘 要:人名广泛存在于古典文献中,提取人名实体对构建古典文献知识图谱至关重要。然而,称呼的多样性、高重名率、与地名和常用词汇的易混淆性、因前文而称呼从简、因交往亲近而称呼从简、因诗句长度而称呼从简、因文献缺失而难以推断,凡此等等,使得人名实体的提取困难重重,而且在甄别出某个字符串… 阅读更多 »古籍文献中人名实体信息的提取方法及实现研究

如何将任何文本语料库转化为知识图谱

知识图谱链接[1] 什么是知识图谱? 知识图谱(也称为语义网络)表示现实世界实体的网络——即对象、事件、情境或概念,并展示它们之间的关系。这些信息通常存储在图形数据库中,并以图形结构的形式可视化,因此被称为“知识图谱”。 来源:IBM – 知识图谱:https://www.ibm.com/topics/knowledge-graph 如何从一部作品创建简单的知识图谱? 1.清理文本语料… 阅读更多 »如何将任何文本语料库转化为知识图谱

郑诚|英国访书便览(2025)附英国所藏汉籍相关目录

英国访书便览 A Guide to the Catalogues of pre-1900 Chinese and Japanese Books in the United Kingdom / 郑诚 英国收藏的汉文古籍主要集中在大英图书馆、剑桥大学(包括英国圣书公会藏书)、牛津大学、伦敦大学亚非学院、维尔康医史研究所、利兹大学、曼彻斯特大学、格拉斯哥… 阅读更多 »郑诚|英国访书便览(2025)附英国所藏汉籍相关目录

唐宸 | 当下我国古籍数字出版的发展趋势*

摘 要 摘 要:在数字人文与人工智能技术的双重驱动下,我国古籍数字出版呈现新的演进方向。与此同时,古籍数字出版主体的角色格局也正在发生显著变化:公立图书馆通过强化古籍原始版本的公益化发布占据主导地位,古籍类专业出版社依托古籍整理本的数字化转制实现对传统数据库厂商的超越,而公益性众包发布平台则将成为重要的补充力量。未来,业界需重点解决数据质量、版权规范与行业协作等问题,遏制灰色产业链不良势头,共同维… 阅读更多 »唐宸 | 当下我国古籍数字出版的发展趋势*

方志类古籍地名识别及系统构建

江西地名研究 关注我们,获取更多地名资讯 关注 摘要:以地方志资料汇编《方志物产》(广东分卷)为语料,设计并构建了古籍地名识别系统。采用规则与统计相结合的命名实体识别方法,实现了物产地名的自动识别。分析了命名实体识别技术在中国方志类古籍整理中的应用前景,为方志类古籍进行数字化整理、挖掘物产分布、物产引进和传播等相关研究提供了新的途径。 关键词:地名识别;方志;命名实体;古籍数字化;古籍整理。 作为… 阅读更多 »方志类古籍地名识别及系统构建

海洋史、经贸史 | 全球商品(Global Commodities):大宗商品在各个历史时期的交换、贸易情况

引言:全球贸易的历史镜鉴与当代挑战 在全球化遭遇逆流的今天,中美贸易战、供应链重组与地缘经济竞争正重塑世界商品贸易的格局。从18世纪的茶叶鸦片博弈到21世纪的科技产业壁垒,贸易冲突的本质始终围绕核心商品的控制权与价值链话语权展开。英国国家档案馆的东印度公司档案揭示了大英帝国如何通过棉花与鸦片撬开中国市场;而今日美国对半导体与清洁能源技术的出口管制,则延续了历史上“商品即权力”的逻辑。 Global… 阅读更多 »海洋史、经贸史 | 全球商品(Global Commodities):大宗商品在各个历史时期的交换、贸易情况

数字人文在古籍整理领域的应用路径及发展策略

数字人文在古籍整理领域的应用路径及发展策略 李明杰1,2,郑翔3,关思雨1,2 (1.武汉大学信息管理学院  2.武汉大学文化遗产智能计算实验室  3.郑州大学信息管理学院) 摘要:数字人文在古籍研究、古籍推广、古籍整理领域都有应用价值,但从结果来看,在古籍整理领域更具实用性和广泛性。与传统古籍整理范式相结合,数字人文在古籍整理领域的应用路径有二:一是传统古籍整理方法的数据化再… 阅读更多 »数字人文在古籍整理领域的应用路径及发展策略

出版计划 | 英国外交部,驻华领事馆和公使馆档案,1830-1939年

中文译名:英国外交部,驻华领事馆和公使馆档案,1830-1939年 英文原名:Foreign Office, Consulate and Legation Files, China: 1830-1939 这份丰富的资源,完全来自英国国家档案馆,展示了英国驻华公使馆和领事馆的档案文件。它提供了一个多角度、全方位的历史视野,涵盖了从贸易路线、军事冲突,到公共卫生问题和革命等多个领域的历史事件。这些资料… 阅读更多 »出版计划 | 英国外交部,驻华领事馆和公使馆档案,1830-1939年

王涛 || 大语言模型时代历史书写的路径与局限

作者簡介:王濤,南京大學歷史學院教授、博士生導師,數字史學研究中心主任 [提  要] 歷史學之所以能夠保持不斷的活力,就在於其開放性。當下社會的發展狀況,對歷史學科帶來的最大衝擊無疑是大語言模型為基礎的人工智能技術的進步,典型的代表就是ChatGPT的橫空出世。作為自然語言處理技術的集大成者,大語言模型會對歷史書寫帶來直接衝擊。大語言模型與歷史書寫具有適配性,為歷史書寫帶來的消… 阅读更多 »王涛 || 大语言模型时代历史书写的路径与局限

系列笔谈之四:智能时代古籍OCR技术

北京大学数字人文研究中心 “古籍智能”系列专题 北京大学数字人文研究中心 王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础 OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度… 阅读更多 »系列笔谈之四:智能时代古籍OCR技术

OCR数据处理工具对比Marker、MinerU、Docling、Markitdown、Llamaparse

这几天在给公司产品的 AI 助手选择知识库的数据处理工具,重新看了一遍 Marker、MinerU、Docling、Markitdown、Llamaparse 这五个工具,结合几个 Deep Search 产品做了一些对比给用户接入做参考,也分享出来,大家有其他更优的工具推荐,欢迎回复给我,先感谢了!   Marker 技术架构 基于 PyMuPDF 和 Tesseract OCR,支持… 阅读更多 »OCR数据处理工具对比Marker、MinerU、Docling、Markitdown、Llamaparse

系列笔谈之二:古籍数字化平台的建设

《数字人文》专栏 《数字人文》2022年第2期 系列笔谈之二:古籍数字化平台的建设 北京大学数字人文研究中心 徐永明(浙江大学人文学院):从传统古籍数据平台到智能古籍大数据平台 这几年,我主要从事结构化数据的建设工作,主要涉及“学术地图发布平台”及“智慧古籍平台”的建设。因此,下面主要介绍我对于从传统古籍数据平台到智能古籍平台转变的认识以及一些个人的试验性工作。 第一点,古代文献的价值。做事情要师… 阅读更多 »系列笔谈之二:古籍数字化平台的建设

胡恒:数据库建设与清史研究

来源:《清史研究》2016年04期 世纪 90 年代以来,随着信息化、电子化、网络化给人类社会带来的全面冲击,史学领域数据建设开始逐渐兴起,一批重要的研究史料陆续以各种形式电子化并制作成服务于不同对象的数据库,从而极大地改变了史学的生态,引起了史学信息获取方式的变革。如今多数年轻学人已习惯于通过数据库的形式获取学术资源,从而使得年轻一代的史学写作与前代学者相比,出现了一定程度的代际差异。对这一变革… 阅读更多 »胡恒:数据库建设与清史研究

ProQuest History Vault原始档案数据库

访问地址:请点击此处进行检索(需登录) 数据库介绍: ProQuest History Vault原始档案数据库收录超过1200万页档案史料,全面覆盖从美国独立战争至20世纪末期的美国历史。该数据库中的重要主题包含:美国政治与社会、国际关系和军事冲突、美国南部生活、奴隶制和南北战争、20世纪的公民权利和黑人民权运动及妇女问题研究。全部45个数据库,具体如下: 模块 专辑名称(英文) 专辑名称(中文… 阅读更多 »ProQuest History Vault原始档案数据库

【资源推介】Colonial State Papers(殖民历史档案)

数据库简介 数据库由ProQuest与英国国家档案馆合作创建,共包括两个部分: 第一辑收录了英国国家档案馆馆藏的1574-1757年间的英国枢密院档案、英国贸易委员会档案、美洲与西印度群岛档案、殖民档案,即National Archives collection CO 1 (full name-Privy Council and related bodies: America and West I… 阅读更多 »【资源推介】Colonial State Papers(殖民历史档案)

日本北海道及东北部地区图书馆所藏近代史料概观

1、北海道立文書館 地址:060-8588 札幌市中央区北 3 条西 6 丁目 北海道庁旧本庁舎(赤れんが庁舎) 电話:011-204-5077 网址:http://www.pref.hokkaido.lg.jp/sm/mnj/ 49,000份官方文件,29,000份私人文件,地形、游记、日记、地图、照片等历史记录,北海道馆藏资料26.3万册,其中历史类图书18.5万册 特色收藏:樺太・千島関連公… 阅读更多 »日本北海道及东北部地区图书馆所藏近代史料概观

数据库 | 中国、美国与太平洋

China, America and The Pacific 产品介绍 数据库时间覆盖18与19世纪,为研究北美与中国贸易与文化交流的历史提供了宝贵的原始资料。此外,还提供了中国与整个东亚和太平洋地区经济往来的报告。资料来源于美国和加拿大的图书馆,包括麻萨诸塞州历史学会(Massachusetts Historical Society)和皮博迪埃塞克斯博物馆的菲利普斯图书馆(Phillips Li… 阅读更多 »数据库 | 中国、美国与太平洋

数据库 | East View历史档案在线

East View Archive Editions (EB-CAE) 产品介绍 《East View 历史档案在线》(East View Archive Editions (EB-CAE))——原剑桥档案编研在线,Cambridge Archive Editions)——数据库由剑桥大学出版社和East View合作将剑桥大学出版社出版的原始资料档案文献数字化而来。 本数据库内容均为原始资料研究… 阅读更多 »数据库 | East View历史档案在线

【资源推介】蘇州圖書館古籍庫

数据库简介 截至2019年12月,苏州图书馆共分编图书、音像资料151346种526138册(盘),馆藏总量592.2万册(件),其中古籍20万册,数字资源54.8TB。 [4]古籍资源《丰山集》(7张)据2021年2月该图书馆官网数据显示,苏州图书馆收藏有古籍文献1066种(件),包含有地方志、风俗、水利、人物志、园林志等;其中珍贵古籍有《安龙逸史》《崇祯遗录》《贾浪仙长江集》《庚申外… 阅读更多 »【资源推介】蘇州圖書館古籍庫

数据库 | 南亚档案

South Asia Archive 产品介绍 南亚生活了世界四分之一的人口,但有关南亚的资源在图书馆中并不常见也不容易获取。来自Coherent Digital 的《南亚档案》(South Asia Archive)收录了450万页档案材料,来自印度次大陆,覆盖时间范围为1700-1953年,源于南亚研究基金会(SARF)。 《南亚档案》是该地区最大的书籍、期刊和档案数据库,内容覆盖了覆盖18世… 阅读更多 »数据库 | 南亚档案

数据库 | 英国外交部档案系列数据库

产品介绍 本系列共包括以下八个数据库: (1)英国外交部档案:中国,1919-1980(Foreign Office Files for China, 1919-1980) 这一数据库收录了英国外交部相关内容的全部档案。由于英国和中国之间独有的关系性质,这些之前保密的英国政府文件,包括外交急件、信件、剪报、地图、法庭案件报告、领导人传记、主要事件摘要以及其他多样化材料,为读者了解中国历史上最动荡时… 阅读更多 »数据库 | 英国外交部档案系列数据库

数据库 | FBIS美国中央情报局海外情报档案

Foreign Broadcast Information Service Daily Report 产品介绍 FBIS是研究地缘政治学、国际关系、政治科学、历史学、区域研究和情报学的最有价值的研究参考资料之一,从每个国家的历史视角来深度解析重要事件,是20世纪下半叶研究全球历史与政治科学的重要的档案资料,汉学家们更是将FBIS看作是研究中国和更广泛的亚太地区的最好的研究资料之一。很多FBIS里记… 阅读更多 »数据库 | FBIS美国中央情报局海外情报档案

数据库 | 《美国历史,1493-1945》数据库

产品介绍 《美国历史,1493-1945》介绍了从最早的美国定居者的到来到美国内战爆发再到后来峥嵘奋斗岁月的史实资料,主要内容来源于研究美国历史的最好档案——吉尔德·莱尔曼美国历史研究所(The Gilder Lehrman Institute of American History)的收藏。从西班牙国王派遣哥伦布发现新大陆,到新国家的创建,再到1865年奴隶制的废除,以及随后美国的历次重大变革,… 阅读更多 »数据库 | 《美国历史,1493-1945》数据库

数据库 | 奴隶贸易与奴隶制研究,1621-1917

产品介绍 1. 时光流逝中的奴隶制:从奴役者到废奴主义者,1675-1865    Slavery Through Time: from Enslavers to Abolitionists, 1675-1865 全面收录有关奴隶制研究的各类文献资料,包括贩奴商人与种植园主的来往信件、非洲奴隶贸易英国官方总结报告、废奴主义者的论文手稿、奴隶贸易来往记录清单等等,是研究奴隶制度,尤其是非洲及西印度群… 阅读更多 »数据库 | 奴隶贸易与奴隶制研究,1621-1917

Readex美国国会文献集(U.S. Congressional Serial Set)数据库

产品介绍 作为研究美国众多方面历史的权威文献典藏库,《美国国会文献集》具有不可比拟的优势。它包括14,000卷,超过37万种政府出版物,约2,000万页内容,并有74,000 多幅地图,以及大量插图与统计图表,其中包括13,000张彩色地图,总容量约为28TB,范围涵盖了从第15界(15th Congress,March 4, 1817 – March 3, 1819)到第103界(1… 阅读更多 »Readex美国国会文献集(U.S. Congressional Serial Set)数据库