跳至正文

荀子古籍大语言模型2.0正式上线

网站链接:

https://xunziallm.njau.edu.cn/


近日,面向古籍智能处理的荀子大模型正式通过国家生成式人工智能服务备案,并免费向公众提供对话服务界面(https://xunziallm.njau.edu.cn/ ),欢迎古籍从业人员和广大古籍爱好者使用!

荀子古籍大语言模型由南京农业大学王东波教授团队主导研发,是江苏省首个以高校为主体完成国家生成式人工智能服务备案的大语言模型。该模型依托南京农业大学的高性能算力基础设施支持,结合课题组在古籍数字化领域十余年的数据积累,实现了古籍传承与人工智能技术的深度融合。这一成果不仅彰显了高校在科研创新中的主体地位,也为江苏省大模型产业注入了学术化、专业化的新动能。

作为古籍智能处理领域的开创性成果,“荀子”是国内首个专注于古籍活化利用的垂直大语言模型。其核心功能涵盖古籍智能标引、信息抽取、诗歌生成、高质量翻译、词法分析、自动标点等场景。例如,模型可自动识别《史记》中的人物关系并生成知识图谱,或对未句读的文言文进行精准断句和翻译,极大提升了古籍在广大群众中的推广传播效率。此外,该模型的开源性、公益性特点,使其成为古籍活化的标杆工具,为古籍数字化研究提供了更加坚实的基础。

在全国范围内,荀子古籍大语言模型是第二个以高校为主体成功备案的大语言模型。研发团队依托国家社科基金重大项目,构建了覆盖《四库全书》等传世古籍的40亿字混合语料库,并通过创新的“古籍-现代汉语混合训练”技术,突破了通用大模型在古文理解与生成中的瓶颈。这一成就不仅填补了古籍领域大模型的空白,更标志着高校在人工智能技术攻关中的关键作用,为后续产学研合作提供了示范。


本站上线的对话模型是预览版的荀子2.0对话模型,由Qwen3模型基于长思维链古籍推理任务和通用古籍处理任务训练而来,同时支持深度思考和非思考模式,满足用户不同的古籍文献处理需求。用户在登录界面完成注册后即可使用荀子古籍大语言模型对话服务。

我们的微调数据集集成了文本翻译、文本标点、古籍文本补全、古代常识问答、信息抽取等近20项常见的古籍处理任务和通用对话任务,每项任务的触发指令都与模型在训练阶段所使用的指令一致。用户可采用下表的指令触发模型处理特定任务的功能。(建议在非思考模式下使用获得格式标准的输出,表中标红文本代表可修改的变量)

任务类型
任务简介
推荐输入的prompt
实体识别
抽取古籍中特定实体
请在原文中标注出人名、地名、书名、官职名称等命名实体:{古文}
关系抽取
由限定关系schema抽取关系三元组
根据提供的文本,按照关系schema组合(药材名,用量,剂量量),(药材名,治疗,症状名)抽取出符合描述的关系三元组:{古文}
事件抽取
以json格式抽取事件
请根据schema{“战争事件”: [“战争名称”,”战争词”]}的规则,为以下句子创建json输出:{古文}
古现翻译
实现古文到现代汉语的转换
请将这段古汉语翻译成现代汉语:{古文}
现古翻译
实现现代汉语到古文的转换
{现代文},翻译成文言文:
诗歌生成
自动生成诗歌
模仿李白的风格,续写古诗{古诗内容}
以“南京”为题生成一首古诗:
古籍摘要
精炼和总结古代典籍文本
请简略提炼此古文的内容:{古文}
词性标注
直接完成对古籍文本的自动分词和词性标注
为这段古文进行“词/词性”格式的词性注释:{古文}
分词
只完成对古籍文本的分词
为这段古汉语文本添加“/”进行词汇切分:{古文}
自动标点
为古文添加标点符号
请按古汉语的特点,为这段文本加入标点符号:{古文}
文本分类
用四部分类法为古籍原文分类
请从[儒家类, 兵家类, 法家类, 农家类, 医家类, 天文算法类, 术数类, 艺术类, 谱录类, 杂家类, 类书类, 小说家类, 释家类, 道家类]这个类别标签集合中,选择最适合以下句子的类别标签:{古文}
文本补全
使用模型直接猜出文本中被遮蔽的内容
以下句子中的每个[mask]标记都代表一个被遮盖的汉字,请预测出被遮盖的字是什么,并以分号(;)分割输出的汉字。给定的句子为:桂樹叢生兮山[mask][mask][mask]偃蹇連蜷兮枝相繚。
诗歌主题生成
分析诗歌所描写的主题内容
分析这首诗歌,然后只告诉我它的主题:{古诗}
文本匹配
分析两段文本是否含义相似
请帮忙鉴别下列两句话是否意思相似。若是,请答“是”,否则答“否”:sentence1:辛卯,廣西副總兵馬俊、參議馬鉉、千戶王珊等討古田叛獞,遇伏死。 sentence2:五月壬戌,古田獞賊平。
传统文化问答
直接回答与文化相关的事实性问题
为什么说荀子是我国第一位语言学家?

当启动深度思考模式时,模型还能像Deepseek R1、Qwen Plus等推理模型一样完成更加多样性的、复杂的推理任务,欢迎用户自行探索模型的处理功能。

支持更多类型古籍处理任务的荀子模型正在持续开发中,欢迎持续关注本站!本项目的开源链接为:https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM,如您有进一步的古籍资源开发需求,欢迎下载模型或与我们联系,您的批评和建议会成为我们不断追求卓越的动力!


相关链接

第三届语料库与数字人文暑期学院(1号通知)
澳大-南师语料库与数字人文暑期学院在中国澳门成功举行

本篇文章来源于微信公众号: 比特人文

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注