基于多尺度特征融合的单通道语音分离网络设计

Journal: Advances in Computer and Autonomous Intelligence Research DOI: 10.12238/acair.v3i4.17932

杨海龙, 胡中刚, 薛特

广东开放大学

Abstract

将源信号从混合信号中分离出来并保持较高的语音清晰度一直是混合语音分离难点。近年来语音分离技术取得了较大进展,但是分离出来的语音往往不具有较好的清晰度。针对此问题,本文提出了一种多尺度特征融合的单通道语音分离网络。首先将时域的语音信号映射到多维特征空间,接着通过不同大小的卷积核提取不同尺度特征,最后利用通道注意力机制实现特征加权与融合。实验结果表明,该模型可以从混合语音中分离出清晰度较高的源信号,与其他方法比较,本文方法取得了更好的分离效果。

Keywords

单通道；语音分离；卷积核

Full Text

PDF - Viewed/Downloaded: 0 Times

References

[1]LUO Y,CHEN Z,YOSHIOKA T.Dual-path RNN：efficient long sequence modeling for time-domain single-channel speech separation[C]//IEEE International Conference on Acoustics,Sp eech and Signal Processing(ICASSP),2020.
[2]LI K and LUO Y.On The Design and Training Strategies for Rnn-Based Online Neural Speech Separation Systems.IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),Rhodes Island,Greece,2023,1-5.
[3]YUAN W,DONG B,WANG S,UNOKI M and WANG W.Evolving Multi -Resolution Pooling CNN for Monaural Singing Voice Separati on.in IEEE/ACM Transactions on Audio, Speech, and Language Processing,vol.29,pp.807-822,2021.
[4]LUO Y,MESGARANI N.Conv-tasnet:Surpassing ideal time -frequency magnitude masking for speech separation[J].IEEE/ ACM transactions on audio,speech,and language processing,2019,
27(8):1256-1266.
[5]SHI Z,LIN H,LIU L,et al.Deep attention gated dilated temporal convolutional networks with intra-parallel convolut ional modules for end-to-end monaural speech separation[E
/OL].[2021-09-23].https://www.isca-speech.org/archive/pdfs/interspeech_2019/shi19b_interspeech.pdf.

Citing this article:

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License