深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 电话:0755-26033876 Copyright@2002-2016 HITSZ.EDU.CN 哈尔滨工业大学(深圳) 粤ICP备 15069706号-1
技术支持:网络与计算中心
随着深度学习的发展,文本到语音和语音转换技术使合成语音的逼真度大幅提升,但其恶意滥用已对数字安全构成威胁,需要有效的合成语音检测方法。音素是语音的基本组成单元,每个音素对应着声道的独特配置,而音素之间的过渡反映了个体的说话习惯和句子风格,直接影响语音整体的音色和情感。因此音素特征可以用于判别性特征进行检测,但是现有检测方法多聚焦于单一音素分析,忽视了音素序列的时序特征。针对这一问题,本研究提出了一种基于音素时序特征不一致性分析的深度伪造语音检测框架。首先,设计了自适应音素池化提取自适应音素特征;然后,利用图注意力网络建模音素的时序依赖关系,揭示真实语音与伪造语音的动态差异;最后,引入随机音素替换增强策略提高模型鲁棒性。实验结果表明,该方法在多个主流数据集上显著优于现有模型,并在压缩与噪声干扰场景下也能保持稳定性能。