数据处理方法、装置及设备与流程

文档序号：35679684发布日期：2023-10-08 15:38阅读：42来源：国知局

本文件涉及数据处理，尤其涉及一种数据处理方法、装置及设备。

背景技术：

1、随着语音合成和语音转换技术的发展与成熟，合成语音越来越真实，这给说话人识别系统带来了很大的安全隐患。由于合成语音是将人工智能、机器学习、大数据挖掘等新技术应用于恶意窃取等场景，因此，合成语音的科技手段含量较高，更具有欺骗性和迷惑性，人耳很难辨别语音是否为合成语音，因此，需要一种能够提高对音频是否为合成音频进行检测的检测效率和检测准确性的解决方案。

技术实现思路

1、本说明书实施例的目的是提供一种数据处理方法、装置及设备，以提供一种能够提高对音频是否为合成音频进行检测的检测效率和检测准确性的解决方案。

2、为了实现上述技术方案，本说明书实施例是这样实现的：

3、第一方面，本说明书实施例提供了一种数据处理方法，包括：接收待检测的目标音频数据；通过预先训练的检测模型对所述目标音频数据进行频谱提取处理，得到与所述目标音频数据对应的目标频谱数据，并通过所述预先训练的检测模型对所述目标频谱数据进行音频合成处理，得到与所述目标音频数据对应的合成音频数据；通过所述预先训练的检测模型分别对所述目标音频数据和所述合成音频数据进行声纹提取处理，得到与所述目标音频数据对应的第一声纹特征向量，以及与所述合成音频数据对应的第二声纹特征向量；基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果。

4、第二方面，本说明书实施例提供了一种数据处理装置，所述装置包括：数据接收模块，用于接收待检测的目标音频数据；第一处理模块，用于通过预先训练的检测模型对所述目标音频数据进行频谱提取处理，得到与所述目标音频数据对应的目标频谱数据，并通过所述预先训练的检测模型对所述目标频谱数据进行音频合成处理，得到与所述目标音频数据对应的合成音频数据；第二处理模块，用于通过所述预先训练的检测模型分别对所述目标音频数据和所述合成音频数据进行声纹提取处理，得到与所述目标音频数据对应的第一声纹特征向量，以及与所述合成音频数据对应的第二声纹特征向量；数据检测模块，用于基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果。

5、第三方面，本说明书实施例提供了一种数据处理设备，所述数据处理设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：接收待检测的目标音频数据；通过预先训练的检测模型对所述目标音频数据进行频谱提取处理，得到与所述目标音频数据对应的目标频谱数据，并通过所述预先训练的检测模型对所述目标频谱数据进行音频合成处理，得到与所述目标音频数据对应的合成音频数据；通过所述预先训练的检测模型分别对所述目标音频数据和所述合成音频数据进行声纹提取处理，得到与所述目标音频数据对应的第一声纹特征向量，以及与所述合成音频数据对应的第二声纹特征向量；基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果。

6、第四方面，本说明书实施例提供一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被执行时实现以下流程：接收待检测的目标音频数据；通过预先训练的检测模型对所述目标音频数据进行频谱提取处理，得到与所述目标音频数据对应的目标频谱数据，并通过所述预先训练的检测模型对所述目标频谱数据进行音频合成处理，得到与所述目标音频数据对应的合成音频数据；通过所述预先训练的检测模型分别对所述目标音频数据和所述合成音频数据进行声纹提取处理，得到与所述目标音频数据对应的第一声纹特征向量，以及与所述合成音频数据对应的第二声纹特征向量；基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果。

技术特征：

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，在所述通过预先训练的检测模型对所述目标音频数据进行频谱提取处理，得到与所述目标音频数据对应的目标频谱数据之前，还包括：

3.根据权利要求2所述的方法，所述基于所述第三声纹特征向量和所述第四声纹特征向量之间的第一相似度，对所述检测模型进行迭代训练，直到所述检测模型收敛，得到所述训练后的检测模型，包括：

4.根据权利要求3所述的方法，所述基于所述第三声纹特征向量与所述第四声纹特征向量之间的第一相似度、所述第三声纹特征向量与所述第五声纹特征向量之间的第二相似度，以及所述第四声纹特征向量与所述第五声纹特征向量之间的第三相似度，对所述检测模型进行迭代训练，直到所述检测模型收敛，得到所述训练后的检测模型，包括：

5.根据权利要求4所述的方法，所述基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果，包括：

6.根据权利要求5所述的方法，所述基于所述第一声纹特征向量和所述第二声纹特征向量之间的相似度，以及所述相似度阈值，对所述目标音频数据为合成数据或非合成数据进行判断，得到针对所述目标音频数据的检测结果，包括：

7.根据权利要求2所述的方法，所述第一频谱数据为梅尔频谱数据。

8.根据权利要求6所述的方法，所述方法还包括：

9.一种数据处理装置，包括：

10.一种数据处理设备，所述数据处理设备包括：

技术总结
本说明书实施例提供了一种数据处理方法、装置及设备，其中，该方法包括：接收待检测的目标音频数据，通过预先训练的检测模型对目标音频数据进行频谱提取处理，得到与目标音频数据对应的目标频谱数据，并通过预先训练的检测模型对目标频谱数据进行音频合成处理，得到与目标音频数据对应的合成音频数据，通过预先训练的检测模型分别对目标音频数据和合成音频数据进行声纹提取处理，得到与目标音频数据对应的第一声纹特征向量，以及与合成音频数据对应的第二声纹特征向量，基于第一声纹特征向量和第二声纹特征向量之间的相似度，对目标音频数据为合成数据或非合成数据进行判断，得到针对目标音频数据的检测结果。

技术研发人员：顾艳梅,王志铭
受保护的技术使用者：支付宝（杭州）信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：顾艳梅王志铭
技术所有人：支付宝（杭州）信息技术有限公司
我是此专利的发明人