最新发布
【光熙博士生学术论坛讲座】基于多模态大模型的多语言语音到文本翻译
发布时间:2026-06-26 来源:新闻中心 10

【光熙博士生学术论坛讲座】

讲座人:都业兴博士生

题目:基于多模态大模型的多语言语音到文本翻译

时间:2026729: 00-10: 00

地点:H502

讲座内容:

语音到文本翻译旨在将源语言语音直接转换为目标语言文本。近年来,多模态大语言模型极大地推动了该领域的发展,但现有研究仍面临两大瓶颈:一是训练数据高度集中于英语,严重制约了模型在多语种间的互译能力;二是语音信号编码后的token序列往往过长,导致推理时显存占用过高。针对上述问题,本研究从语言扩展与语音特征压缩两方面展开探索。首先,本研究引入课程学习与数据均衡策略,将模型支持范围拓展至涵盖高低资源的70种语言,实现了4830个方向的多语言互译;其次,本研究设计了一种紧凑型语音适配模块,将30秒的语音特征有效压缩至约30token,大幅降低了推理时的显存占用。实验表明,即使在极低资源条件下,本模型在70种语言的翻译任务中仍取得了优于现有部分多语言端到端模型的表现,成功提升了模型的多语言翻译能力与推理效率。