一种伪造音频的检测方法及其检测系统和存储介质与流程

文档序号：26668492发布日期：2021-09-17 21:42阅读：来源：国知局

技术特征：
1.一种伪造音频的检测方法，其特征在于，所述方法包括：获取待测音频和真实音频；提取所述待测音频和所述真实音频中属于共用音素状态的音频部分，其中，所述共用音素状态为所述待测音频和所述真实音频中均存在的音素状态，所述音频部分包括属于所述待测音频的第一音频部分和属于所述真实音频的第二音频部分；基于所述第一音频部分和所述第二音频部分之间的特征相似度，确定所述待测音频是否为伪造音频。2.根据权利要求1所述的方法，其特征在于，所述提取所述待测音频和所述真实音频中属于共用音素状态的音频部分，包括：分别对所述待测音频和所述真实音频进行声学处理，得到所述待测音频的第一音素状态信息和所述真实音频的第二音素状态信息；基于所述第一音素状态信息和所述第二音素状态信息，确定所述共用音素状态，并从所述待测音频和所述真实音频中提取得到所述音频部分。3.根据权利要求2所述的方法，其特征在于，所述待测音频包括若干第一帧，所述真实音频包括若干第二帧，所述第一音素状态信息包括各所述第一帧所属的第一音素状态，所述第二音素状态信息包括各所述第二帧所属的第二音素状态；在所述基于所述第一音素状态信息和所述第二音素状态信息，确定所述共用音素状态之前，所述方法还包括：从所述第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从所述第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态。4.根据权利要求3所述的方法，其特征在于，所述第一音素状态信息还包括所述第一帧属于第一音素状态的第一概率，所述第二音素状态信息还包括所述第二帧属于第二音素状态的第二概率；在所述从所述第一音素状态信息中，剔除音素确信度满足第一要求的第一帧的第一音素状态；以及从所述第二音素状态信息中，剔除音素确信度满足第二要求的第二帧的第二音素状态之前，所述方法还包括：基于所述第一帧对应的所述第一概率，确定得到所述第一帧的音素确信度，以及基于所述第二帧对应的所述第二概率，确定得到所述第二帧的音素确信度。5.根据权利要求4所述的方法，其特征在于，所述第一要求为属于所有所述第一帧中所述音素确信度最大的前第一比例内，所述第二要求为属于所有所述第二帧中所述音素确信度最大的前第二比例内；所述基于所述第一帧对应的所述第一概率，确定得到所述第一帧的音素确信度，以及基于所述第二帧对应的所述第二概率，确定得到所述第二帧的音素确信度，包括：利用熵值法对所述第一帧对应的所述第一概率进行处理，得到所述第一帧的音素确信度；以及利用所述熵值法对所述第二帧对应的所述第二概率进行处理，得到所述第二帧的音素确信度。6.根据权利要求1所述的方法，其特征在于，在所述基于所述第一音频部分和所述第二音频部分之间的特征相似度，确定所述待测音频是否为伪造音频之前，所述方法还包括：
分别对所述第一音频部分和所述第二音频部分进行特征提取，得到所述第一音频部分的第一特征数据和所述第二音频部分的第二特征数据；获取所述第一特征数据和所述第二特征数据之间的第一相似度，以作为所述特征相似度。7.根据权利要求6所述的方法，其特征在于，所述获取所述第一特征数据和所述第二特征数据之间的第一相似度，包括：利用表征网络分别对所述第一特征数据和所述第二特征数据进行特征处理，得到所述第一特征数据的第一表征向量和所述第二特征数据的第二表征向量；获取所述第一表征向量和所述第二表征向量之间的第二相似度，以作为所述第一相似度。8.根据权利要求7所述的方法，其特征在于，所述第一表征向量和所述第二表征向量是由所述表征网络的池化层输出的，所述表征网络是利用样本音频集中的样本音频训练得到的，所述样本音频集包括伪造样本音频和真实样本音频；和/或，所述第二相似度为所述第一表征向量和所述第二表征向量之间的余弦距离。9.一种伪造音频的检测系统，其特征在于，所述伪造音频的检测系统包括处理器和存储器，所述处理器用于执行程序指令以实现如权利要求1
‑
8中任一项所述的伪造音频的检测方法，所述存储器用于存储所述程序指令。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现如权利要求1
‑
8中任一项所述的伪造音频的检测方法。

技术总结
本申请公开了一种伪造音频的检测方法、伪造音频的检测系统和计算机可读存储介质，该方法包括：获取待测音频和真实音频；提取待测音频和真实音频中属于共用音素状态的音频部分，其中，共用音素状态为待测音频和真实音频中均存在的音素状态，音频部分包括属于待测音频的第一音频部分和属于真实音频的第二音频部分；基于第一音频部分和第二音频部分之间的特征相似度，确定待测音频是否为伪造音频。通过上述方式，本申请能够提高对音频真伪检测的准确度，从而实现有效地鉴别音频的真假。从而实现有效地鉴别音频的真假。从而实现有效地鉴别音频的真假。

技术研发人员：徐承方磊夏翔柳林方四安
受保护的技术使用者：合肥讯飞数码科技有限公司
技术研发日：2021.05.25
技术公布日：2021/9/16

完整全部详细技术资料下载

当前第2页1 2