学院新闻

首页>新闻动态

产学研协同创新的“北语”实践者——我校信息科学学院语言监测与智能学习实验室

发稿时间:2025-01-03 浏览次数:

在2024年9月召开的全国教育大会上,习近平总书记强调,以科技发展、国家战略需求为牵引,着眼提高创新能力,优化高等教育布局,完善高校学科设置调整机制和人才培养模式,加强基础学科、新兴学科、交叉学科建设和拔尖人才培养,强化校企科研合作,让更多科技成果尽快转化为现实生产力。

近年来,我校信息科学学院语言监测与智能学习实验室(BLCU-ICALL),依托教育部语言文字信息管理司与北京语言大学共建的国家语言资源监测与研究平面媒体中心开展科学研究。实验室研究团队在杨尔弘教授、杨天麟副教授和岳岩副教授的带领下,围绕以中文为核心的自然语言处理,在语言监测、语言大模型、中文信息处理、语言资源建设、智慧教育等方面开展系统深入的研究,为我校产学研协同创新发展奠定了坚实的学术基础。

BLCU-ICALL研究团队专注于以中文为核心的语言信息处理与分析研究领域深耕,其打造的文心检索以及文心CTAP(中文文本复杂度分析平台),分别代表了语言数据分析中的两大核心技术:语料检索与分析以及文本特征提取与量化。

国家语言资源动态流通语料库(Dynamic Circulation Corpus,DCC)由张普教授创立,目前是国家语言资源监测语料库的子库之一,该语料库每日采集全国100多份报纸,涵盖中国各省市、地区的各种报纸,每年递增20多亿字次。DCC语料库具有历时、动态更新、实态记录等特点,可提供词语的历时使用分布数据,是语言生活研究、服务与应用的历时大数据。文心检索是根据该语料库特点及其研究应用需求打造的具有独特功能的语料库检索系统,即除了通常的对大规模、多领域语料的共时历时数据检索外,还新增了对深层句法结构、指定等级的词语检索等功能,提升了检索功能的全面性和用户友好性。目前,文心检索汇聚了海量汉语文本,涵盖汉语教材、新闻报道等,用户通过平台可以快速定位特定语言现象,进行统计、对比和分析。

中文CTAP(文本复杂度分析平台)能够从海量语言数据中提汉语文本各种语言元素及并计算对应的特征值,助力文本阅读分析、体裁分析、语言教学等研究。例如识别口语和书面文本之间的语言差异,探究语言学习者的词汇和句法知识水平等。

BLCU-ICALL研究团队凭借深厚的学术积淀,不断探索与市场需求对接,开展与科创企业产学研协同合作。以文心检索为例,研发团队根据合作企业提供的市场反馈,进一步优化用户界面设计,使其操作更加便捷流畅;并针对不同用户需求,开发出用户友好的模式化检索模块,例如:为打造模式检索简化检索语言,凭借少量检索符实现“以例句找例句”的检索途径。经过团队不断在产学研的实践探索,文心检索与文心CTAP平台迅速获得了市场认可,注册用户达到650余人,2024年度访问量达18000余次,广泛应用于新闻媒体、语言教育、智能写作等多领域。

基于该语料库,BLCU-ICALL研究团队自2005年开始进行语言监测工程,负责年度媒体用字用语调查、并定期向社会发布;负责年度“汉语盘点”媒体流行语及领域焦点名词的监测与发布工作,同时承担了国家自然科学基金、国家语委重大项目等多项重要研究任务,并与多家高校和企业建立密切的学术合作关系,提升了自身在汉语信息化处理领域的学术影响力。

BLCU-ICALL研究团队通过全方位、深层次的产学研协同创新实践,在汉语信息化领域成为奔腾不息、独具特色的研究团队,为科技人才培养做出重要贡献,作为我校信息科学学院参与产学研领域的标杆典范,值得我们师生致以诚挚的敬意和点赞!我们也预祝团队未来能够再创佳绩,产出更多的前沿成果,铸就高校产学协同创新的崭新辉煌!

特别支持| BLCU-ICALL实验室

编辑| 陆瑶

审核| 李超

[打印本页]  [关闭本页]

]]>