2025年9月23日,国家广播电视总局公布第四届广播电视和网络视听人工智能应用创新大赛决赛最终成绩。我校信息科学学院智能语音习得实验室柯登峰老师团队,联合深圳广电数字科技有限公司、北京中科模识科技有限公司,凭借“基于广播电视节目内容的方言识别算法——以潮汕方言为例”项目,在“智能字幕与译制”算法赛道中脱颖而出,斩获二等奖,该项目的创新技术为我国方言数字化保护与广播电视智能技术融合发展贡献了重要实践成果。

潮汕方言,被誉为古汉语的“活化石”,不仅承载着千年的岭南文化精髓,更是维系全球潮汕籍华侨情感与文化认同的重要纽带。作为中央人民广播电视总台仅有的五个方言广播语种之一,其地位独特且重要。然而,潮汕方言也因其复杂的声韵调系统、丰富的古汉语词汇、大量生僻字词,以及缺乏统一的书面语标准,成为了方言智能识别领域公认的技术高地与挑战。

作为“中国语言资源保护工程”核心参与单位,北京语言大学依托深厚语言学积淀与跨学科研究优势,积极牵头组织多方力量进行技术攻坚。自 2024 年初起,柯登峰老师带领团队针对潮汕方言识别的关键问题展开了深入研究,通过 “工具 + 数据 + 技术” 的全方位创新,成功突破行业瓶颈。

在工具创新层面,团队自主研发了“全自动语音标注体系”。该体系创新性地避开了传统国际音标标注流程的复杂性,借助现代人工智能技术,将潮汕方言语音自动分解为2048个基础“语音令牌(token)”,并利用自研算法实现方言语音的自动令牌化标注。这一方法不仅有效破解了方言“有音无字”的记写难题,也缓解了大规模方言记音工作对国际音标专业人才的依赖,显著提升了标注效率。此外,团队还开发了多模式潮汕方言输入法,字库涵盖21000余个汉字,全面收录潮汕方言生僻字,并支持反切、拼音、笔顺、部首四种输入方式,大幅提升生僻字的录入效率,为方言的高效记录与数字化提供了完整解决方案。

在数据创新方面,团队秉承北京语言大学在国家语言资源保护工程中“全域覆盖、应保尽保”的原则,深入潮汕地区开展系统、大规模的语料采集工作。历时一年半,团队以汕头市区为核心,兼顾周边区县,采集覆盖了9至65岁各年龄段的方言样本,并通过自主研发的音色转换技术将样本男女比例精准控制为1:1。语料内容涵盖新闻播报、对话访谈、艺术表演、家居环境等28类现实场景,以及歌册(七字歌)、童谣、童话等文化语音形态,最终建成规模达200万条词句的全维度、高质量方言语料库,为后续智能识别模型的训练奠定了坚实数据基础。
在技术创新方面,团队在模型架构上实现了重要突破。预训练阶段采用多国语音库与大规模中文语料进行跨语言联合预训练,为模型构建了坚实的通用语音表征基础。在模型结构上,创新引入“注意力机制 + MoE(混合专家模型)”架构,在显著扩大模型记忆容量的同时,大幅降低计算开销,从而更精准地捕捉潮汕方言中复杂的声调变异和双字合音等语音现象。此外,团队通过语音识别与语音合成模型的对抗优化机制,结合三阶段智能清洗算法与数据增强策略,对语料进行深度筛选与扩充,有效提升了模型在多样环境下的鲁棒性与适应能力。
经第三方测试,柯登峰团队研发的“潮汕方言智能识别与字幕生成系统”在实际场景中的识别准确率高达93.6%,其中书面语朗读场景中识别率达99.2%,并实现了“语音输入—字幕生成—多平台导出”的全流程自动化。
目前,该创新技术已在广播电视领域中投入应用,并取得显著成效,有力推动了方言类节目的高效制作与传播。该系统通过精准的语音记录与文字整理技术支持,为潮汕文化遗产的“活态留存”提供了关键技术支撑,这也与国家语言资源保护工程的宗旨高度契合。
柯登峰老师作为中国计算机学会(CCF)语音对话与听觉专委会专委、全国汉语方言学会授课专家,在人工智能技术和方言分析技术领域拥有深厚学术造诣。他深耕语音智能技术二十余年,此前已成功攻克广东省公安厅声纹鉴定、云南边境缅甸语识别、新加坡马来语识别、阿尔及利亚德加语识别等多项技术难题,此次潮汕方言识别技术的突破,是他带领团队在语言智能领域的又一重要成果。
该系统通过对潮汕话口音音变和连读变调等语言现象开展深度建模,有效克服了地方口音差异大、语境复杂的识别难点,不仅显著提升了方言语音转写的准确率,还在实际应用中展现出良好的适应性与可扩展性。为其他方言的智能化处理提供了可借鉴的技术路径。其应用前景广阔,可覆盖潮汕地区中小学方言教学、地方戏曲数字化保存、老年人语音辅助设备开发等多个领域,为区域语言文化的传承与现代科技的融合提供了典范。
柯登峰老师表示,团队将继续发挥学院语言智能的学科优势,坚定不移地秉持北京语言大学“语言报国”的使命担当,积极探索拓展应用场景,服务国家和社会的同时,全方位助力“潮汕方言”在数字时代焕发新生。
通过本次“产学研”合作,信息科学学院不仅在智能语音识别、方言数字化处理领域收获了关键经验、提升了影响力,与此同时,为培养更多不可替代性强的交叉复合型人才搭建了实践桥梁,学院也更加明确了“以计算机科学为底色,以语言智能与技术为特色”的人才培养和学科发展路径。
特别支持:柯登峰
编辑:陆瑶
审核:李超