北京语言大学BCC语料库2.0版发布

由马光（搬运工）
18 3 月, 2026

转载自“光明微教育”

2026年3月15日，由北京语言大学语言资源高精尖创新中心主办的“语料库建设研讨会暨BCC 2.0发布会”在线上召开。本次会议面向全国语言研究者与从业者，系统发布了北京语言大学语料库中心BCC语料库（Beijing Language and Culture University Corpus Center）2.0版本，为大模型时代的语言资源建设与智能化研究注入新动能。

为实现语料库能力广泛赋能学界，团队发布了包含BCC主要功能的语言结构计算工具包，可供各单位研究者免费离线试用。本次发布还开放了多个领域的字词频基础数据集。

图1.BCC2.0主界面

BCC语料库系统发起人、负责人、北京语言大学教授荀恩东表示，北语语料库团队已深耕语料服务领域近20年，始终陪伴语言研究者成长，见证了语言资源建设理念的迭代革新。大模型时代，语料库建设和研究在重新照准定位的同时，将为数字中国建设、数字中文发展和学科转型提供强劲动力和生产基础。

在题为《BCC语料库建设与应用》的主报告中，荀恩东全面回顾了BCC语料库从1.0到2.0的发展历程，重点阐释了数智时代语料库建设和研究的新方向与新趋势，并介绍了新版本在底层检索引擎重构、语料数据更新等方面的核心突破。他指出，BCC 2.0通过技术升级全面提升了检索精度与效能，同时开放个人语料库自主构建功能，能够灵活贴合不同研究者的个性化需求，为语言研究迈向智能化新高度提供坚实支撑。

在专题演示环节，北京语言大学副研究员饶高琦展示了BCC语料库2.0的新突破与新功能，直观呈现了新版本在数据质量、检索效率、服务水平上的优势。

团队博士研究生郭梦溪详细讲解了语言结构计算工具包（Language Structure Construction，LangSC）的技术原理与应用场景，为研究者搭建专属语料库、开展针对性研究提供了可落地的技术路径。与会观众通过弹幕与留言积极互动，就语料库使用技巧、功能拓展等问题与嘉宾展开深入交流。

据悉，BCC2.0语料库总字数约62亿字，覆盖当代社会语言生活的多个领域，包括新闻、文学、口语、近代汉语、古汉语以及多领域平衡语料库，实现了多个当代语体和近代以来154年历时报刊语料的全覆盖。通过北语自研的结构检索引擎，BCC2.0语料库实现超大规模数据高速层次检索，支持词性、短语结构和文本的复杂混合查询，并实现了在线统计和结果可视化。

未来，团队将持续优化BCC语料库功能，推动语料资源的开放共享与智能化应用，为学科转型发展夯实语言资源基础，助力中国语言文字研究事业高质量发展。

（光明日报全媒体记者柴如瑾、周世祥）

来源：光明日报全媒体记者柴如瑾、周世祥

编辑：刘琪

统筹：唐芊尔陈鹏

· END ·

比特人文

投稿邮箱：dhbase@126.com

扫码关注获取更多资讯

本篇文章来源于微信公众号: 比特人文

标签:北京语言大学语料库

北京语言大学BCC语料库2.0版发布

发表回复 取消回复

发表回复取消回复