一种音频提取方法、装置及电子设备与流程

文档序号：35792926发布日期：2023-10-21 21:31阅读：来源：国知局

技术特征：

1.一种音频提取方法，其特征在于，包括：

2.根据权利要求1所述的音频提取方法，其特征在于，获取待提取目标人声的声纹特征向量，包括：

3.根据权利要求1所述的音频提取方法，其特征在于，所述将所述混合信号和所述声纹特征向量输入到复数长短期记忆lstm网络模型，得到第一输出数据，包括：

4.根据权利要求1所述的音频提取方法，其特征在于，所述根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理，得到第二输出数据，包括：

5.根据权利要求4所述的音频提取方法，其特征在于，所述将所述m个子带数据分别输入到卷积神经网络cnn模型，得到所述第二输出数据，包括：

6.根据权利要求5所述的音频提取方法，其特征在于，所述将每个子带数据对应的第二子输出数据依次输入到所述cnn模型中的第二cnn层，得到信道维度为n2的第三子输出数据，包括：

7.根据权利要求1所述的音频提取方法，其特征在于，所述利用所述第二输出数据获取所述目标人声的音频数据，包括：

8.一种音频提取装置，其特征在于，包括：

9.一种电子设备，包括：收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令；其特征在于，所述处理器执行所述程序或指令时实现如权利要求1至7中任一项所述的音频提取方法的步骤。

10.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的音频提取方法的步骤。

技术总结
本发明提供一种音频提取方法、装置及电子设备，涉及通信技术领域。该方法包括：获取待处理的混合信号以及待提取目标人声的声纹特征向量；将所述混合信号和所述声纹特征向量输入到复数长短期记忆LSTM网络模型，得到第一输出数据；根据所述混合信号和所述声纹特征向量对所述第一输出数据进行补偿处理，得到第二输出数据；利用所述第二输出数据获取所述目标人声的音频数据。本发明的方案能够解决解决目前目标说话人语音增强技术，存在提取目标人声的音频信息的质量较差的问题。

技术研发人员：陈亚楠,张世磊,高莹莹
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2