一种音频特征提取方法与装置、电子设备与流程

文档序号：13533263阅读：229来源：国知局

本发明涉及语音信号处理、信息检索技术领域，尤其涉及一种音频特征提取方法与装置、电子设备。

背景技术：

随着信息技术和大数据产业的爆发，海量的音视频以数字的形式存储起来，利用海量的音频数据进行分析处理是目前人工智能领域非常重要的一个方面，如对音频数据进行分析处理后进行音频检索、音乐原声检索；提取出音频数据中的有效语音后，进行语音识别等。在音频分析处理时，如何准确的提取音频数据的特征描述音频数据直接关系到音频数据的应用效果。

现有的音频特征提取方法一般都是简单的根据音频数据的能量进行极值点检测，得到音频数据的极值点，然后提取相应极值点的音频特征，如频谱特征或基频特征等；或者，直接提取音频数据的频谱特征或基频特征对音频数据进行描述。然而，不论是确定音频数据的极值点后再提取音频数据的特征还是直接提取音频数据特征的方法，其抗噪性均较差，而当音频数据存在一些噪声时，就很难准确的提取音频特征对音频数据进行描述，严重影响后续音频数据的处理结果。

技术实现要素：

为克服上述现有技术存在的不足，本发明之目的在于提供一种音频特征提取方法与装置、电子设备，以准确地提取音频特征，提高提取的音频特征的抗噪性，使提取的音频特征能更准确的描述音频数据。

为达上述目的，本发明提供的技术方案如下：

一种音频特征提取方法，包括如下步骤：

步骤一，获取待处理音频数据；

步骤二，根据所述待处理音频数据的频谱能量幅度，确定原始候选极值点；

步骤三，基于候选极值点之间的影响系数和/或基于候选极值点的密度和/或基于候选极值点之间的差分计算结果对所述待处理音频数据的原始候选极值点进行筛选，得到所述待处理音频数据的极值点列表；

步骤四，根据所述待处理音频数据的极值点列表提取音频数据的指纹特征。

可选地，所述基于候选极值点之间的影响系数进行筛选的步骤进一步包括：

依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点；

分别计算所述候选中心极值点与其他候选极值点之间的影响系数；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点。

可选地，所述根据影响系数确定是否保留该候选中心极值点的步骤具体为：若所述候选中心极值点的频域幅度大于或等于所述区域内每个非候选中心极值点的频域幅度与对应的影响系数的乘积，则保留所述候选中心极值点。

可选地，所述基于候选极值点的密度进行筛选的步骤进一步包括:

依次选择每帧音频数据的原始候选极值点和/或经基于候选极值点之间的影响系数筛选后的候选极值点中的每个极值点作为当前候选极值点，计算当前候选极值点的密度；

若当前候选极值点的密度大于预先设定的阈值，则删除所述当前候选极值点，否则保留当前候选极值点。

可选地，所述基于候选极值点之间的差分计算结果进行筛选的步骤进一步包括：

对每帧音频数据的原始候选极值点和/或经基于候选极值点之间的影响系数筛选后的候选极值点和/或经基于候选极值点的密度筛选后的候选极值点中的每个候选极值点进行差分计算，得到每个候选极值点的差分频谱值；

根据每个候选极值点的差分频谱值确定每帧音频数据的极值点列表。

可选地，所述差分计算的步骤具体为：根据当前帧的前一或多帧音频数据的候选极值点及当前帧后一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的差分频谱值。

可选地，步骤四进一步包括：

基于所述极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对；

根据所述极值点列表中的每个极值点对，提取每帧音频数据的指纹特征；

将每帧音频数据的指纹特征进行合并，获得每段音频数据的音频指纹特征。

可选地，所述基于所述极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对的步骤具体包括：

依次选择所述极值点列表中每个极值点作为固定极值点；

基于该固定极值点构建所述候选区域，于所述候选区域中选择极值点与所述固定极值点组成极值点对。

为达到上述目的，本发明还提供一种音频特征提取装置，包括：

音频数据获取单元，用于获取待处理音频数据；

候选极值点确定单元，用于根据所述待处理音频数据的频谱能量幅度，确定待处理音频数据的原始候选极值点；

候选极值点筛选单元，基于候选极值点之间的影响系数和/或基于候选极值点的密度和基于候选极值点之间的差分计算结果对音频数据的原始候选极值点进行筛选，得到所述待处理音频数据的极值点列表；

音频特征提取单元，用于根据所述待处理音频数据的极值点列表提取音频数据的指纹特征。

可选地，所述候选极值点筛选单元的第一筛选单元基于候选极值点之间的影响系数对每帧音频数据的原始候选极值点进行筛选，具体用于：

依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点；

分别计算所述候选中心极值点与其他候选极值点之间的影响系数；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点。

可选地，所述候选极值点筛选单元的所述第二筛选单元基于候选极值点之间的影响系数对音频数据的原始候选极值点进行筛选，具体用于：

依次选择每帧音频数据的原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点中的每个极值点作为当前候选极值点，计算当前候选极值点的密度；

若当前候选极值点的密度大于预先设定的阈值，则删除该候选极值点，否则保留当前候选极值点。

可选地，所述候选极值点筛选单元的所述第三筛选单元基于候选极值点的密度和基于候选极值点之间的差分计算结果对音频数据的原始候选极值点进行筛选，具体用于：

对原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点或经基于候选极值点的密度筛选后的候选极值点中的每个候选极值点进行差分计算，得到每个候选极值点的差分频谱值；

根据每个候选极值点的差分频谱值确定每帧音频数据的极值点列表。

可选地，所述音频特征提取单元进一步包括：

极值点对确定单元，基于所述极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对；

指纹特征提取单元，用于根据所述极值点列表中的每个极值点对，提取每帧音频数据的指纹特征；

合并单元，用于将每帧音频数据的指纹特征进行合并，获得每段音频数据的音频指纹特征。

本发明还提供一种电子设备，所述电子设备包括；

存储介质，存储有多条指令，所述指令由处理器加载，执行权利要求上述方法的步骤；以及

处理器，用于执行所述存储介质中的指令。

与现有技术相比，本发明一种音频特征提取方法及装置、电子设备的有益效果在于：

本发明一种音频特征提取方法及装置、电子设备通过接收待处理音频数据，根据所述音频数据的频谱能量幅度确定待处理音频数据的候选极值点，再分别基于听觉掩蔽效应、候选极值点密度及候选极值点的差分值对音频数据的候选极值点进行筛选，得到待处理音频数据的极值点列表，以实现根据该极值点列表提取音频数据的指纹特征的目的，并且本发明利用听觉掩蔽效应、候选极值点密度及候选极值点的差分值可有效地提高提取的音频特征的抗噪性，使提取的音频特征能更准确的描述音频数据。

附图说明

图1为本发明一种音频特征提取方法的一个实施例的步骤流程图；

图2为本发明具体实施例中候选中心极值点的矩形区域示意图；

图3为本发明具体实施例中步骤104的细部流程图

图4为图2中固定极值点对的构建示意图；

图5为本发明一种音频特征提取装置的一个实施例的结构示意图

图6为本发明具体实施例中音频特征提取单元的细部结构图；

图7为本发明用于音频特征提取方法的电子设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

在本发明的一个实施例中，如图1所示，本发明一种音频特征提取方法，包括如下步骤：

步骤101，获取待处理音频数据。

所述待处理音频数据可以为包含有效语音的语音数据，也可以为纯音乐音频数据，亦或是歌曲数据，所述待处理音频数据可以通过智能设备的语音采集装置例如麦克风采集获得，智能设备可以为手机、个人电脑、平板电脑等，当然所述待处理音频数据也可以是预先存储或外部设备传送的音频数据，具体本发明不作限定。

步骤102，根据所述待处理音频数据的频谱能量幅度，确定待处理音频数据的原始候选极值点。

具体地，步骤102进一步包括：

步骤a)将所述待处理音频数据转换到频域，得到该音频数据的频谱能量幅度，由于本发明采用的音频数据转换到时域的具体转换方法与现有技术相同，在此不予赘述；

步骤b)根据每帧音频数据的频谱能量幅度，选择频谱能量幅度超过预设阈值的点，作为每帧音频数据的原始候选极值点。

步骤103，基于候选极值点之间的影响系数和/或基于候选极值点的密度和/或基于候选极值点之间的差分计算结果对所述待处理音频数据的原始候选极值点进行筛选，得到所述待处理音频数据的极值点列表。也就是说，于步骤103中，可基于候选极值点之间的影响系数、基于候选极值点的密度、基于候选极值点之间的一种或多种方式对原始候选极值点进行筛选。

作为一种示例，于步骤103中，可基于候选极值点之间的影响系数对每帧音频数据的候选极值点进行初次筛选，得到每帧音频数据的第一候选极值点列表作为所述待处理音频数据的极值点列表。

本发明具体实施例中，在时间维度和频率维度上使用g(i,j)用于表示第i个候选极值点和第j个候选极值点之间的影响系数，所述影响系数基于听觉掩蔽效应确定，所述听觉掩蔽效应是指人对声音感知时，频谱峰值频率点之间是相互影响的，一个频率分量可能掩蔽与其相近的频率分量。

本发明利用所述影响系数对候选极值点进行初次筛选，具体地，所述初次筛选步骤如下：依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点，例如首先选择当前帧音频数据的原始候选极值点的一个候选极值点作为候选中心极值点，在该候选中心极值点的语谱图上构建以该极值点为中心的矩形区域，找到矩形区域内每帧音频数据的候选极值点，所述语谱图的横轴为时间，纵轴为频率值、图中每个候选极值点的颜色深浅表示幅度，如图2所示为候选中心极值点矩形区域示意图；分别计算所述候选中心极值点与矩形区域内其它候选极值点之间的影响系数g(i,j)，如下式(1)所示：

式(1)中，it和jt分别表示第i个候选极值点和第j个候选极值点的时间取值，if和jf第i个候选极值点和第j个候选极值点的频率取值，l和w分别表示中心极值点矩形区域的长度和宽度；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点，具体地，如果所述候选中心极值点的矩形区域内每个非候选中心极值点的频域幅度取值与影响系数的乘积都小于中心极值点的频域幅度取值时，则保留该候选中心极值点，如式(2)所示：

p(i)≥p(j)×g(i,j)(2)

其中，p(i)为中心极值点的频域幅度取值，p(j)表示矩形区域内其他非中心极值点的频域幅度取值。在此需说明的是，若矩形区域内无其他候选极值点，则直接保留该候选中心极值点。

如图2中的当前候选中心极值点的矩形区域中，除当前候选中心极值点外，还有8个其他候选极值点，候选中心极值点需要分别于该8个候选极值点按照式(2)进行计算，只有当全部满足式(2)的条件时，该候选中心极值点才会保留，否则需要删除。

作为一种示例，在基于候选极值点之间的影响系数对每帧音频数据的候选极值点进行筛选后，还可基于候选极值点的密度对经基于候选极值点之间的影响系数筛选后的第一候选极值点列表进行再次筛选，以过滤电流音，得到每帧音频数据的第二候选极值点列表作为所述待处理音频数据的极值点列表。

部分音频中某些频带上，存在能量和密度都很大的时间上连续的极值点，即电流音。电流音会导致音频匹配在短时间内匹配度很高，误导音频匹配结果；因此，为了防止音频数据中某些频段上存在较密集的高频谱能量点，本发明基于候选极值点的密度筛选具体包括：

依次选择第一候选极值点列表中每个极值点作为当前候选极值点，以当前极值点为起点分别向前或向后移动固定时间后，统计该段时间内候选极值点总数，作为当前候选极值点的密度，所述固定时间例如5s；

若当前候选极值点的密度大于预先设定的阈值，则删除该候选极值点，否则保留当前候选极值点。

这样通过依次对第一候选极值点列表中每个极值点进行筛选，即可得到第二候选极值点列表。

当然，本发明也可以基于候选极值点的密度对每帧音频数据的原始候选极值点直接进行筛选，具体筛选步骤与上述相同，在此不予赘述。

作为一种示例，为了提高极值点的抗噪性和自适应性，本发明还可以经基于候选极值点的密度筛选后的第二候选极值点列表中的极值点依次进行差分计算，以确保音频能量被整体缩放之后仍然能匹配上。

具体差分计算时，根据当前帧前面一或多帧音频数据的候选极值点及当前帧后面一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的频谱取值，具体差分计算公式如式(3)所示:

δp(i)＝|p(i)+p(i(t+1))-p(i(t-1))-p(i(t-2))|(3)

其中，δp(i)表示当前帧候选极值点i差分计算后的取值，p(i(t+1))表示与候选极值点i同频段的后一帧的候选极值点的频谱值，p(i(t-1))和p(i(t-2))分别表示与候选极值点i同频段的前一帧和前两帧候选极值点的频谱值；

对第二候选极值点列表中的极值点差分计算结束后，得到候选极值点列表中每个候选极值点的差分频谱值；选择每帧音频数据差分频谱值超过预设阈值的候选极值点作为每帧音频数据的极值点，当然也可以对第二候选极值点列表中的每个候选极值点的差分频谱值进行排序，依据差分频谱值的大小选择差分频谱值排名前面的n个候选极值点作为每帧音频数据的极值点，从而得到每帧音频数据的极值点列表。

当然，本发明也可以对原始候选极值点或经基于候选极值点之间的影响系数筛选后的第一候选极值点列表进行差分计算，获得每帧音频数据的极值点列表，具体差分计算的步骤与上述相同，在此不予赘述。

步骤104，根据待处理音频数据的极值点列表提取音频数据的指纹特征。

具体地，如图3所示，步骤104进一步包括：

步骤s31，基于极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对。具体地，于步骤s31中，依次选择极值点列表中每个极值点作为当前固定极值点，然后基于该固定极值点，在固定频带和时间范围内构建候选区域，选择频谱能量大于预设阈值的g个极值点分别和该固定极值点组成点对，如在图2中，候选区域中含有8个候选极值点，只选择了频谱能量较大的5个点和固定极值点构建点对，如图4为图2中固定极值点对构建示意图。将上述过程应用于极值点列表中的每个极值点，可以得到每帧音频数据极值点列表中每个极值点组成的极值点对；

步骤s32，根据所述极值点列表中每个极值点对，提取每帧音频数据的指纹特征，具体提取时，依次选择极值点列表中每个极值点作为当前极值点，根据当前极值点及其组成的极值点对提取当前帧音频数据的指纹特征f，具体为当前极值点所在帧对应的时间信息t、当前极值点的频域频谱取值f、当前极值点分别与其极值点对中每个极值点所在帧对应的时间信息取值的差值δt、当前极值点分别与其极值点对中每个极值点频域频谱取值的差值δf、当前帧音频数据的唯一性标识符audioid，当前帧音频数据的指纹特征表示为f＝{t,f,δt,δf,audioid}；

步骤s33，将每段音频数据包含的每帧音频数据的音频指纹特征进行组合，得到每段音频数据的音频指纹特征。

在本发明的一个实施例中，如图5所示，本发明一种音频特征提取装置，包括：音频数据获取单元51、候选极值点确定单元52、极值点列表确定单元53、以及音频特征提取单元54。

音频数据获取单元51，用于获取待处理音频数据。所述待处理音频数据可以为包含有效语音的语音数据，也可以为纯音乐音频数据、还可以为歌曲数据。

候选极值点确定单元52，用于根据所述待处理音频数据的频谱能量幅度，确定待处理音频数据的原始候选极值点。

极值点列表确定单元53，基于候选极值点之间的影响系数和/或基于候选极值点的密度和基于候选极值点之间的差分计算结果对每帧音频数据的原始候选极值点进行筛选，得到所述待处理音频数据的极值点列表。

具体地，极值点列表确定单元53进一步包括:

第一筛选单元，用于基于候选极值点之间的影响系数对每帧音频数据的原始候选极值点进行筛选；和/或

第二筛选单元，用于基于候选极值点的密度对每帧音频数据的原始候选极值点进行筛选或经所述第一筛选单元筛选后的候选极值点进行筛选；和/或

第三筛选单元，用于对原始候选极值点或经所述第一筛选单元筛选后的候选极值点或经所述第二筛选单元筛选后的候选极值点进行筛选。

第一筛选单元具体用于：

依次选择当前帧音频数据的原始候选极值点作为候选中心极值点，构建以该候选中心极值点为中心的区域，获得该区域内的所有候选极值点。具体地，选择当前帧音频数据的原始候选极值点的一个候选极值点作为候选中心极值点，在该候选中心极值点的语谱图上构建以该极值点为中心的矩形区域，找到矩形区域内每帧音频数据的候选极值点；

分别计算所述候选中心极值点与其他候选极值点之间的影响系数；

根据影响系数以及候选极值点的频域幅度确定是否保留该候选中心极值点，具体地，若所述候选中心极值点的矩形区域内每个非候选中心极值点的频域幅度取值与影响系数的乘积都小于中心极值点的频域幅度取值时，则保留该候选中心极值点。

本发明中，第二筛选单元基于候选极值点的密度对每帧音频数据的原始候选极值点进行筛选或经所述第一筛选单元筛选后的候选极值点进行筛选，以过滤电流音；第二筛选单元具体用于：

依次选择每帧音频数据的原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点中的每个极值点作为当前候选极值点，以当前极值点为起点分别向前或向后移动固定时间后，统计该段时间内候选极值点总数，作为当前候选极值点的密度，所述固定时间例如5s；

若当前候选极值点的密度大于预先设定的阈值，则删除该候选极值点，否则保留当前候选极值点。

本发明中，第三筛选单元用于对原始候选极值点或经所述第一筛选单元筛选后的候选极值点或经所述第二筛选单元筛选后的候选极值点中的候选极值点进行差分计算后，确定每帧音频数据的极值点列表。第三筛选单元具体用于：

对原始候选极值点或经基于候选极值点之间的影响系数筛选后的候选极值点或经基于候选极值点的密度筛选后的候选极值点中的每个候选极值点进行差分计算，得到每个候选极值点的差分频谱值。具体差分计算为根据当前帧前面一或多帧音频数据的候选极值点及当前帧后面一或多帧音频数据的候选极值点的频谱值对当前帧音频数据的候选极值点进行差分计算得到当前帧音频数据每个候选极值点差分后的频谱取值；

选择每帧音频数据差分频谱值超过阈值的候选极值点作为每帧音频数据的极值点，或者对每个候选极值点的差分频谱值进行排序，依据差分频谱值的大小选择差分频谱值排名前面的n个候选极值点作为每帧音频数据的极值点，从而得到每帧音频数据的极值点列表。

音频特征提取单元54，用于根据待处理音频数据的极值点列表提取音频数据的指纹特征。

具体地，如图6所示，音频特征提取单元54进一步包括：

极值点对确定单元541，基于所述极值点列表中每个极值点构建候选区域，确定每个极值点的极值点对，具体地，极值点对确定单元541依次选择极值点列表中每个极值点作为当前固定极值点,并基于当前固定极值点，在固定频带和时间范围内构建候选区域，选择频谱能量大于预设阈值的g个极值点分别和该固定极值点组成点对；

指纹特征提取单元542，用于根据所述极值点列表中的每个极值点对，提取每帧音频数据的指纹特征；

合并单元543，用于将每帧音频数据的指纹特征进行合并，获得每段音频数据的音频指纹特征。

参见图7，示出了本发明用于音频特征提取方法的电子设备300的结构示意图。参照图7，电子设备300包括处理组件301，其进一步包括一个或多个处理器，以及由存储介质302所代表的存储设备资源，用于存储可由处理组件301的执行的指令，例如应用程序。存储介质302中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件301被配置为执行指令，以执行上述音频特征提取方法的各步骤。

电子设备300还可以包括一个电源组件303，被配置为执行电子设备300的电源管理；一个有线或无线网络接口304，被配置为将电子设备300连接到网络；和一个输入输出(i/o)接口305。电子设备300可以操作基于存储在存储设备302的操作系统，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm或类似。

综上所述，本发明一种音频特征提取方法及装置、电子设备通过接收待处理音频数据，根据所述音频数据的频谱能量幅度确定待处理音频数据的候选极值点，再分别基于听觉候选极值点之间的影响系数、候选极值点密度及候选极值点的差分值对音频数据的候选极值点进行筛选，得到待处理音频数据的极值点列表，以实现根据该极值点列表提取音频数据的指纹特征的目的，并且本发明利用候选极值点之间的影响系数、候选极值点密度及候选极值点的差分值可有效地提高提取的音频特征的抗噪性，使提取的音频特征能更准确的描述音频数据。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李永超;方昕;刘俊华
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：双向安装移动门保护的龙门起重机的制作方法
上一篇：电动式移动龙门架的制作方法