国际性语音及语言科学技术领域盛会INTERSPEECH2023于2023年8月20日~24日在爱尔兰都柏林举行,北京语言大学信息科学学院智能语音习得实验室硕士生李瑞珊的一篇论文《Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic Representations》被大会录用并在大会做了海报展示。
INTERSPEECH是国际著名学术协会ISCA(International Speech Communication Association)的年度大会,内容是关于人类语言科技研究的诸方面,涵盖了从语音学、语言学基本理论研究到语音语言工学技术及应用的最新进展。本届会议以“Inclusive Spoken Language Science and Technology – Breaking Down Barriers”为主题,内容涵盖语音识别、语音合成、语音增强、自然语言处理等多个领域。
INTERSPEEECH2023会议现场
INTERSPEEECH2023会议海报展示现场图
李瑞珊同学具体论文内容如下:
《Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic Representations》(作者:Ruishan Li, Yingming Gao(北京邮电大学), Yanlu Xie, Dengfeng Ke, Jinsong Zhang)
摘要:韵律边界预测在语音合成、语音理解等方面起着重要作用。在以往的研究中,pitch、energy和duration等超音段特征被广泛地用来显式地建模汉语普通话的韵律边界。在本文中,我们提出使用从预训练模型中获得的复杂声学特征(包括mel-spectrogram和上下文向量)中获得的细粒度信息来改进隐式韵律表征。音高和能量被编码为显式的韵律表征。由双音频编码器提取的这两种表征被主要由交叉注意层组成的解码器融合,然后利用融合表征解码并预测汉语普通话的韵律边界。结果表明,我们提出的方法在汉语普通韵律边界预测任务中优于基线,特别是对于预测次要韵律短语(#2)。
论文链接:https://www.isca-speech.org/archive/pdfs/interspeech_2023/li23ga_interspeech.pdf
李瑞珊同学的论文海报(Poster)展示
INTERSPEECH会议一些学术研讨现场图片: