手机知网 App
24小时专家级知识服务
打 开
电信技术
基于多尺度阶梯时频Conformer GAN的语音增强算法
针对频率域语音增强算法中因相位混乱产生人工伪影,去噪性能受限、语音质量不高的问题,提出多尺度阶梯型时频Conformer生成对抗网络。将语音语谱图的实部、虚部和振幅谱作为输入,生成器首先在多个尺度上利用时间-频率Conformer学习时域和频域的全局及局部特征依赖;随后利用Mask Decoder分支学习振幅掩码,Complex Decoder分支直接学习干净的语谱图,两个Decoder分支的输出进行融合得到重建后的语音;利用指标判别器判别语音的评价指标得分,通过极大极小训练使得生成器生成高质量的语音。在公开数据集VoiceBank+Demand的实验结果表明,相较于目前各类语音增强模型,该算法在多项主客观语音质量评估方面的评分均处于领先水平,客观语音质量感知评估得分和主观语音噪声失真得分较MetricGAN分别提升了17%和21%。
0 18
开通会员更优惠,尊享更多权益
手机阅读本文
下载APP 手机查看本文
计算机应用
网络首发
论文一键智能排版
排版交给我们,时间留给研究
立即查看 >
相似文献
图书推荐
相关工具书

搜 索