一种音频文件检测方法及装置与流程

文档序号：11277700阅读：354来源：国知局

本发明涉及音频信息处理技术领域，尤其涉及一种音频文件检测方法及装置。

背景技术：

当前互联网上存在着大量未授权的音频文件，这些音频文件涉及教育、娱乐、新闻、广告等多个领域。由于未授权音频文件的存在严重损害了版权音频文件内容提供商和有关各方的利益，阻碍了网络音频产业的健康有序的发展。由于互联网音频文件的数量巨大，格式多样以及各种压缩，水印技术的使用，使的快速检测未授权音频非常困难。

现有技术中，传统的音频文件版权的检测方法只能给出待检测音频文件与版权文件相同或不同的结论，对于部分内容侵权的情形不能进行检测，导致误判率高、准确性降低。

技术实现要素：

有鉴于此，本发明实施例提供一种音频文件检测方法及装置，以优化音频文件的检测技术，有效识别不同程度的音频文件相似情况。

第一方面，本发明实施例提供了一种音频文件检测方法，包括：

对待检测音频文件的音频信号的设定维度参数进行归一化处理；

对归一化处理后的音频信号进行分片处理；

对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量；

根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度。

第二方面，本发明实施例还提供了一种音频文件检测装置，包括：

归一化处理模块，用于对待检测音频文件的音频信号的设定维度参数进行归一化处理；

分片处理模块，用于对归一化处理后的音频信号进行分片处理；

特征向量构建模块，用于对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量；

相似度获取模块，用于根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度。

本发明实施例提供的一种音频文件的检测方法及装置，通过构建的特征向量获取音频文件的相似度，能够从多维度快速对待测音频文件进行检测，有效识别不同程度的相似情况，提升了检测的精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1a是本发明实施例一提供的一种音频文件检测方法流程图；

图1b是本发明实施例一提供的特征库中第二区域内版权音频文件的频率特征向量二叉排序原理图；

图2是本发明实施例二提供的一种音频文件检测方法流程图；

图3是本发明实施例三提供的一种音频文件检测装置结构框图。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a是本发明实施例一提供的一种音频文件检测方法流程图；本实施例的方案可由音频文件检测装置来执行，该装置可以采用硬件和/或软件的方法来实现，如图1a所示，所述的方法包括：

s110：对待检测音频文件的音频信号的设定维度参数进行归一化处理。

在本实施例中，不同的待检测音频文件，其音频信号的参数往往是不同的。例如，不同的待检测音频文件如果是在不同的音量下录制的，音频信号的最大振幅是不同的。由于录制不同待检测音频文件的条件不同，导致不同的待检测音频文件的音频信号的参数不同。但是，对于两个待检测的音频文件，如果录制的均是一首歌曲，但在不同的环境条件下进行录制，音频信号的参数的数值往往会不同，因此为了实现对不同待检测音频文件的检测，需要对待检测音频文件的音频信号的各个参数需分别以一个标准进行归一化处理。

示例性的，对待检测音频文件的音频信号的设定维度参数进行归一化处理优选包括：对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。

s120：对归一化处理后的音频信号进行分片处理。

在本实施例中，对音频信号可以按照预定的规则进行分片处理，其中分片处理的规则可以由本领域的技术人员进行确定。本发明对分片处理的规则不进行限定。示例性的，对归一化处理后的音频信号进行分片处理包括：将归一化处理后的音频信号进行等间隔的时间区间的划分，获取待检测音频文件的音频信号在各个时间区间的音频数据。其中时间区间的大小可以为10ms、20ms或30ms等，在本实施例中时间区间的大小为30ms。

s130：对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量。

示例性的，对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量优选包括：将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换，获取待检测音频文件在各个区间内的音频信号的频率特征；根据获取的音频信号的频率特征，获取待检测音频文件在各个区间内相对频率特征，所述相对频率特征表征相邻音频信号的频率之间的差值信息；根据获取的音频信号的频率特征，获取待检测音频文件在各个区间内相干频率特征，所述相干频率特征表征相邻音频信号的频率之间倍数信息；根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅，获取待检测音频文件在各个区间内音频信号的能量特征；分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。

具体的，在本实施例中，每一个时间区间对应音频信号的频率特征、相对频率特征、相干频率特征和能量特征。将各个时间区间内的音频信号的频率特征数据作为元素组成待检测音频文件的频率特征向量。其中，频率特征向量中元素的数量与时间区间的数量是相同的。同理，相对频率特征向量、相干频率特征向量和能量特征向量的构建过程与频率特征向量的构建过程是相同的。

例如，表1为提取的待检测音频文件的特征与时间区间的对应图表，如表1所示，如果一个待检测音频文件的音频信号被划分为5个时间区间，在5个时间区间内，获取的频率特征的数据分别为a1、a2、a3、a4和a5，将5个时间区间内的频率特征数据作为元素组成待检测音频文件频率特征向量，即为(a1，a2，a3，a4，a5)。同理，相对频率特征向量、相干频率特征向量以及能量特征向量与频率特征向量构建的过程是相同的，因此，构建的相对频率特征向量、相干频率特征向量和能量特征向量分别为(b1，b2，b3，b4，b5)、(c1，c2，c3，c4，c5)和(d1，d2，d3，d4，d5)。其中，各个元素按照先后的顺序组成特征向量，待检测音频文件被划分为5个时间区间，所以待检测音频文件的频率特征向量、相对频率特征向量、相干频率特征向量以及能量特征向量中的元素分别有5个。

表1

s140：根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度。

在本实施例中，音频文件特征库中包含版权音频文件的特征向量，其中版权音频文件特征向量的构建过程与待检测音频文件特征向量的构建过程相同。即将版权音频文件的音频信号进行归一化、分片处理，并将分片处理的版权音频文件的音频信号进行特征提取，根据提取的特征构建版权音频文件的特征向量。

示例性的，根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度优选包括：将构建的待检测音频文件的特征向量，分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对；根据比对结果获取待检测音频文件与特征库中音频文件的相似度。

其中，第一区域内版权音频文件特征向量按照热度进行排序，第二区域内版权音频文件的特征向量进行二叉排序。具体的，第一区域内版权音频文件特征向量按照热度进行顺序排列。当第二区域内的版权音频文件的特征向量进行二叉排序时，首先将版权音频文件的特征向量分别通过公式或函数计算得到一关联值，其中关联值与版权音频文件的特征向量是一一对应的，关联值可以是特征向量中的各个元素的平均值；将关联值处于中间值的版权音频文件的特征向量作为二叉树的根节点，左子树上特征向量的关联值小于中间值，右子树上特征向量的关联值大于中间值。例如，特征库中第二区内包含7个版权音频文件的特征向量，如果7个版权音频文件的频率特征向量通过计算得到的关联值分别为1000,、2000、3000、4000、5000、6000和7000，如图1b所示，将关联值为4000的版权音频文件的频率特征向量作为二叉树的根节点，则关联值为 2000和6000的版权音频文件的频率特征向量分别作为左子树和右子树。当关联值为2000的版权音频文件的频率特征向量作为根节点时，关联值为1000和3000的版权音频文件的频率特征向量分别作为左子树和右子树。当关联值为6000的版权音频文件的频率特征向量作为根节点时，关联值为5000和7000的版权音频文件的频率特征向量分别作为左子树和右子树。当将待检测音频文件的特征向量与特征库中第二区域内的特征向量进行比对时，先将待检测音频文件的特征向量转换成关联值，然后根据关联值查找特征库中的特征向量。如果待检测音频文件频率特征向量转换成的关联值为3000时，如图1b所示，直接将待检测音频文件的频率特征向量与关联值为3000的版权音频文件的频率特征向量进行比对，获取待检测音频文件频率特征向量的相似度。如果待检测音频文件频率特征向量转换成的关联值为2500时，为了节省比对的时间，将待检测音频文件的频率特征向量与关联值分别2000和3000的版权音频文件的频率特征向量进行比对(因2000、3000与2500之间的差值最小)，分别获取待检测音频文件的相似度，不需要将待检测音频文件的频率特征向量与特征库中第二区域内的所有频率特征向量一一进行比对。同理，版权音频文件的其他特征向量的二叉排序的原理以及进行对比的原理与频率特征向量是相同的。

在本实施例中，第一区域为特征库的缓存区域，缓存区域的数据量较少，第二区域为特征库的持久区域，第二区域中存储的版权音频文件的特征向量的数据较多，但热度较高的版权音频文件的特征向量存储在第一区域内，当构建的待检测音频文件的特征向量与特征库中第一区域内的版权音频文件的特征向量进行比对时，如果获取的待检测音频文件特征向量的相似度超过阈值，为了节省比对的时间，不再需要将待检测音频文件的特征向量与特征库中第二区域内版权音频文件的特征向量进行比对。否则，将待检测音频文件的特征向量与特征库中第二区域内的版权音频文件的特征向量进行比对。由于音频文件的热度随着时间会发生变化，故特征库中第一区域和第二区域内的特征向量在经过一段时间以后也会发生变化。

具体的，在获取待检测音频文件与版权音频文件的相似度时，先将待检测音频文件的频率特征向量、相对频率特征向量、相干频率特征向量、能量特征向量分别与特征库中版权音频文件的频率特征向量、相对频率特征向量、相干频率特征向量、能量特征向量分别进行比对，通过余弦相似度算法分别获取待检测音频文件频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度和能量特征向量的相似度。然后，将待检测音频文件频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度和能量特征向量的相似度，通过预设的公式或函数计算待检测音频文件与版权音频文件的相似度。

本实施例提供了一种音频文件检测方法，通过构建的特征向量获取音频文件的相似度能够从多维度对待测音频文件进行检测，有效识别不同程度的相似情况，提升了检测的精度。

实施例二

图2是本发明实施例二提供的一种音频文件检测方法的流程图，在上述实施例的基础上，在根据提取的特征量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度之后，还执行如下操作：

根据获取的待检测音频文件与特征库中音频文件的相似度，判断待检测音频文件是否侵权。

由此，通过待检测音频文件和特征库中音频文件的相似度，进行判断待检测音频文件是否侵权，能够降低侵权误判的概率。

进一步的，所述根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度优选包括：

选取与待检测音频文件的应用场景相对应的目标特征向量，将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对，获取目标特征向量的相似度；

确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件，将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对，分别获取待检测音频文件非目标特征向量的相似度；

根据获取的待检测音频文件特征向量的相似度，获取待检测音频文件与特征库中音频文件的相似度。

由此，通过选取待检测音频文件的目标特征向量，将目标特征向量与特征库中与目标特征向量相对应的特征向量进行比对获取目标特征向量的相似度；通过确定特征库中与目标特征向量的相似度最大的目标音频文件，将目标音频文件的未比对特征向量与待检测音频文件的非目标特征向量进行比对获取非目标特征向量的相似度；可以节省特征向量比对的时间，更快速的获取待检测音频文件与特征库中音频文件的相似度。

基于上述的优化，如图2所示，本实施例提供的技术方案具体如下：

s210：对待检测音频文件的音频信号的设定维度参数进行归一化处理。

s220：对归一化处理后的音频信号进行分片处理。

s230：对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量。

s240：选取与待检测音频文件的应用场景相对应的目标特征向量，将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对，获取目标特征向量的相似度。

在本实施例中，不同的待检测音频文件均有各自的应用场景，并且在不同的应用场景下，不同的待检测音频文件的音调、节奏等特性均存在不同。例如，有些应用场景下待检测音频文件的音调较为突出，而另一些应用场景下待检测音频文件的节奏较为突出。

举例说明，当待检测音频文件的音调较为突出时，选取频率特征向量作为待检测音频文件的目标特征向量，将频率特征向量与特征库中多个版权音频文件的频率特征向量进行比对，计算待检测音频文件与多个版权音频文件的频率特征向量的相似度。

当待检测音频文件的节奏较为突出时，选取能量特征向量作为待检测音频文件的目标特征向量，将能量特征向量与特征库中多个版权音频文件的能量特征向量进行比对，计算待检测音频文件与多个版权音频文件的能量特征向量的相似度。

s250：确定特征库中与待检测音频文件的目标特征向量的相似度最大的目标音频文件，将目标音频文件未比对的特征向量与待检测音频文件的非目标特征向量进行比对，分别获取待检测音频文件非目标特征向量的相似度。

在本实施例中，当待检测音频文件的音调较为突出时，根据计算的待检测音频文件与多个版权音频文件频率特征向量的相似度，确定特征库中与待检测音频文件的频率特征向量相似度最大的目标音频文件，将目标音频文件的未比对的相对频率特征向量、相干频率特征向量、能量特征向量与待检测音频文件的相对频率特征向量、相干频率特征向量、能量特征向量进行比对，分别获取待检测音频文件相对频率特征向量、相干频率特征向量、能量特征向量的相似度。

在上述实施例的基础上，当待检测音频文件的频率特征向量与特征库中第一区域内版权音频文件的频率特征向量进行比对时，如果获取的频率特征向量与第一区域内某一版权音频文件的频率特征向量的相似度达到预设值，则不需要将待检测音频文件的频率特征向量与特征库中第二区域内版权音频文件的频率特征向量进行比对，而将该版权音频文件未比对的特征向量与待检测音频文件的相对频率特征向量、相干频率特征向量、能量特征向量分别进行比对，从而获取待检测音频文件各个特征向量的相似度。

s260：根据获取的待检测音频文件特征向量的相似度，获取待检测音频文件与特征库中音频文件的相似度。

示例性的，所述根据获取的待检测音频文件特征向量的相似度，获取待检测音频文件与特征库中音频文件的相似度，包括：根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重，获取待检测音频文件与特征库中音频文件的相似度。

举例说明，如果频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度以及能量特征向量的相似度的预设权重分别为0.6,0.1,0.1和0.1，则待检测音频文件与特征库中音频文件的相似度通过如下的公式进行计算，s＝s1×0.6+s2×0.1+s3×0.1+s4×0.1，其中，s为待检测音频文件与特征库中音频文件的相似度，s1为频率特征向量的相似度，s2为相对频率特征向量的相似度，s3为相干频率特征向量的相似度，s4为能量特征向量的相似度。

s270：根据获取的待检测音频文件与特征库中音频文件的相似度，判断待检测音频文件是否侵权。

在本实施例中，如果获取的待检测音频文件与特征库中音频文件的相似度达到预设的阈值，则判断待检测音频文件侵权，否则，判断待检测音频文件不侵权。

在上述实施例的基础上，获取待检测音频文件与版权音频文件相似度的方法还可以通过如下的方式：将样本音频文件特征向量的相似度输入到训练模型，以对预设的特征向量相似度的权重进行调整；根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重，获取待检测音频文件与版权音频文件的相似度。其中，样本音频文件的特征向量与版权音频文件特征向量的相似度是预先获取的，且样本音频文件与版权音频文件相似度也预先获取。例如，样本音频文件的频率特征向量的相似度、相对频率特征向量的相似度、相干频率特征向量的相似度以及能量特征向量的相似度分别为80,70,20,和10，样本音频文件与版权音频文件的相似度为50，则将80,70,20,和10分别输入到训练模型进行训练，根据样本音频文件与版权音频文件的相似度50，对预设的样本音频文件各个特征向量相似度的权重进行调整。为了得到较精确的各个特征向量相似度的权重，需要将多个样本音频文件各个特征向量的相似度输入到训练模型，对各个特征向量相似度的权重进行多次调整。然后，根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重，获取待检测音频文件与版权音频文件的相似度。

本实施例提供了一种音频文件检测的方法，通过选取待检测音频文件的目标特征向量，将目标特征向量与特征库中与目标特征向量相对应的特征向量进行比对获取目标特征向量的相似度；通过确定特征库中与目标特征向量的相似度最大的目标音频文件，将目标音频文件的未比对特征向量与待检测音频文件的非目标特征向量进行比对获取非目标特征向量的相似度，能够节省特征向量比对的时间，更快速的获取待检测音频文件与特征库中音频文件的相似度；通过获取的待检测音频文件与特征库中音频文件的相似度，判断待检测音频文件是否侵权，能够从多维度对待检测音频文件进行检测，提升了检测的精度，降低了侵权误判的概率。

实施例三

图3是本发明实施例三提供的一种音频文件检测装置的结构框图；通过所述的装置来实现音频文件的检测，如图3所示，所述的装置包括：归一化处理模块310、分片处理模块320、特征向量构建模块330和相似度获取模块340。

其中，归一化处理模块310，用于对待检测音频文件的音频信号的设定维度参数进行归一化处理；

分片处理模块320，用于对归一化处理后的音频信号进行分片处理；

特征向量构建模块330，用于对分片处理后的音频信号进行特征提取，根据提取的特征构建待检测音频文件的特征向量；

相似度获取模块340，用于根据构建的特征向量，查询预建立的音频文件特征库，获取待检测音频文件与特征库中音频文件的相似度。

进一步的，上述的装置还包括：侵权判断模块350，用于在所述获取待检测音频文件与特征库中音频文件的相似度之后，根据获取的待检测音频文件与特征库中音频文件的相似度，判断待检测音频文件是否侵权。

进一步的，归一化处理模块310，具体用于：

对待检测音频文件的音频信号的采样频率、比特率和/或最大振幅进行归一化处理。

进一步的，分片处理模块320，具体用于：

将归一化处理后的音频信号进行等间隔的时间区间的划分，获取待检测音频文件的音频信号在各个时间区间的音频数据。

进一步的，特征向量构建模块330，具体用于：

将待检测音频文件的音频信号在各个区间内的音频数据进行傅里叶变换，获取待检测音频文件在各个区间内的音频信号的频率特征；

根据获取的音频信号的频率特征，获取待检测音频文件在各个区间内相对频率特征，所述相对频率特征表征相邻音频信号的频率之间的差值信息；

根据获取的音频信号的频率特征，获取待检测音频文件在各个区间内相干频率特征，所述相干频率特征表征相邻音频信号的频率之间倍数信息；

根据获取的待检测音频文件在各个时间区间内音频数据中的最大振幅，获取待检测音频文件在各个区间内音频信号的能量特征；

分别采用获取的待检测音频文件在各个时间区间内的音频信号的频率特征、相对频率特征、相关频率特征和能量特征构建待检测音频文件的特征向量。

进一步的，所述相似度获取模块340包括：第一相似度获取单元341和第二相似度获取单元342；

所述第一相似度获取单元341，用于将构建的待检测音频文件的特征向量，分别先后与特征库的第一区域和第二区域内版权音频文件的特征向量进行比对；

所述第二相似度获取单元342，用于根据比对结果获取待检测音频文件与特征库中音频文件的相似度；

其中，第一区域内版权音频文件特征向量按照热度进行排序，第二区域内版权音频文件的特征向量进行二叉排序。

进一步的，所述第一相似度获取单元341，具体用于：选取与待检测音频文件的应用场景相对应的目标特征向量，将待检测音频文件的目标特征向量与特征库的版权音频文件中与目标特征向量相对应的特征向量进行比对，获取目标特征向量的相似度；

所述第二相似度获取单元342包括第一相似度获取子单元3421和第二相似度获取子单元3422，所述第二相似度获取单元342具体用于：

根据获取的待检测音频文件特征向量的相似度，获取待检测音频文件与特征库中音频文件的相似度。

进一步的，所述第一相似度获取子单元3421，用于根据获取的待检测音频文件特征向量的相似度及预设特征向量相似度的权重，获取待检测音频文件与特征库中音频文件的相似度。

所述第二相似度获取子单元3422，用于将样本音频文件特征向量的相似度输入到训练模型，以对预设的特征向量相似度的权重进行调整；

根据获取的待检测音频文件特征向量的相似度以及调整之后的特征向量相似度的权重，获取待检测音频文件与版权音频文件的相似度。

上述的装置可以用于执行本发明实现音频文件检测方法，具备相应的功能和有益效果。

本发明实施例提供的一种音频文件检测装置，通过构建的特征向量获取相似度能够从多维度对待测音频文件进行检测，提升了检测的精度，降低了侵权误判的概率。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭伟;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种抗老化耐磨PA6复合材料及其制备方法与流程
上一篇：一种高耐磨抗静电低翘曲POK‑PA合金材料的制造方法与工艺