跳至正文

北京语言大学BCC语料库2.0版发布

转载自“光明微教育”

2026年3月15日,由北京语言大学语言资源高精尖创新中心主办的“语料库建设研讨会暨BCC 2.0发布会”在线上召开。本次会议面向全国语言研究者与从业者,系统发布了北京语言大学语料库中心BCC语料库(Beijing Language and Culture University Corpus Center)2.0版本,为大模型时代的语言资源建设与智能化研究注入新动能。
为实现语料库能力广泛赋能学界,团队发布了包含BCC主要功能的语言结构计算工具包,可供各单位研究者免费离线试用。本次发布还开放了多个领域的字词频基础数据集。
图1.BCC2.0主界面
BCC语料库系统发起人、负责人、北京语言大学教授荀恩东表示,北语语料库团队已深耕语料服务领域近20年,始终陪伴语言研究者成长,见证了语言资源建设理念的迭代革新。大模型时代,语料库建设和研究在重新照准定位的同时,将为数字中国建设、数字中文发展和学科转型提供强劲动力和生产基础。
在题为《BCC语料库建设与应用》的主报告中,荀恩东全面回顾了BCC语料库从1.0到2.0的发展历程,重点阐释了数智时代语料库建设和研究的新方向与新趋势,并介绍了新版本在底层检索引擎重构、语料数据更新等方面的核心突破。他指出,BCC 2.0通过技术升级全面提升了检索精度与效能,同时开放个人语料库自主构建功能,能够灵活贴合不同研究者的个性化需求,为语言研究迈向智能化新高度提供坚实支撑。
在专题演示环节,北京语言大学副研究员饶高琦展示了BCC语料库2.0的新突破与新功能,直观呈现了新版本在数据质量、检索效率、服务水平上的优势。
团队博士研究生郭梦溪详细讲解了语言结构计算工具包(Language Structure Construction,LangSC)的技术原理与应用场景,为研究者搭建专属语料库、开展针对性研究提供了可落地的技术路径。与会观众通过弹幕与留言积极互动,就语料库使用技巧、功能拓展等问题与嘉宾展开深入交流。
据悉,BCC2.0语料库总字数约62亿字,覆盖当代社会语言生活的多个领域,包括新闻、文学、口语、近代汉语、古汉语以及多领域平衡语料库,实现了多个当代语体和近代以来154年历时报刊语料的全覆盖。通过北语自研的结构检索引擎,BCC2.0语料库实现超大规模数据高速层次检索,支持词性、短语结构和文本的复杂混合查询,并实现了在线统计和结果可视化。
未来,团队将持续优化BCC语料库功能,推动语料资源的开放共享与智能化应用,为学科转型发展夯实语言资源基础,助力中国语言文字研究事业高质量发展。
(光明日报全媒体记者柴如瑾、周世祥)



来源:光明日报全媒体记者柴如瑾、周世祥
编辑:刘琪
统筹:唐芊尔 陈鹏


· END ·





比特人文

投稿邮箱:dhbase@126.com

扫码关注 获取更多资讯

图片

本篇文章来源于微信公众号: 比特人文

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注