音频重音识别方法、装置、设备和介质与流程

文档序号：23719454发布日期：2021-01-24 07:09阅读：236来源：国知局

[0001]
本发明涉及音频处理技术领域，尤其是涉及音频重音识别方法、装置、设备和介质。

背景技术：

[0002]
不管是日常的说话交流、音乐影音、还是语音通话，都可以通过录音将声音保存为一段或多段音频信号。音频信号作为可保存的数据，是信息传播的重要媒介。重音是音乐中强度较大的音，在声音的冲击上最为突出，是构成音乐节奏的主要因素，通过对音乐中的重音进行识别，可以判断出音乐节奏的快慢。此外重音常常会包含一定的主观情绪或者重点信息，通过对音频中的重音进行识别，可因分辨出音频中的主观情绪和重点信息。因此可以说，对于音频重音进行分析识别可以更加充分的了解该段音频信号所要表达的含义。

技术实现要素：

[0003]
基于此，有必要针对上述问题，提供可准确识别的音频重音识别方法、装置、设备和介质。
[0004]
一种音频重音识别的方法，所述方法包括：
[0005]
获取原始音频信号；
[0006]
获取目标高斯窗函数，根据所述目标高斯窗函数对所述原始音频信号进行处理，得到所述原始音频信号对应的能量变化曲线；
[0007]
获取目标滑动窗，根据所述目标滑动窗确定所述能量变化曲线中的重音时刻，将在所述重音时刻的所述原始音频信号标示为音频重音。
[0008]
在其中一个实施例中，所述根据所述目标高斯窗函数对所述原始音频信号进行处理，得到所述原始音频信号对应的能量变化曲线，包括：
[0009]
根据所述目标高斯函数对所述原始音频信号进行加权计算，得到所述原始音频信号对应的能量曲线；
[0010]
对所述能量曲线进行数值转换处理，得到所述原始音频信号对应的能量变化曲线。
[0011]
在其中一个实施例中，所述根据所述目标高斯函数对所述原始音频信号进行加权计算，得到所述原始音频信号对应的能量曲线，包括：
[0012]
根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号；其中，所述目标时刻为所述原始音频信号中的任意一个时刻；
[0013]
将所述截断音频信号与所述目标高斯窗函数进行加权计算，获取所述原始音频信号在所述目标时刻的目标能量值，根据在每一目标时刻的所述目标能量值得到所述原始音频信号对应的能量曲线。
[0014]
在其中一个实施例中，所述根据所述目标高斯窗函数确定所述原始音频信号在目标时刻的截断音频信号，包括：
[0015]
以所述目标时刻为所述目标高斯窗函数对应的高斯窗口的中间时刻，在所述原始音频信号上添加高斯窗口；
[0016]
将所述高斯窗口内的音频信号作为在所述目标时刻的截断音频信号。
[0017]
在其中一个实施例中，所述对所述能量曲线进行数值转换处理，得到所述原始音频信号对应的能量变化曲线，包括：
[0018]
对所述能量曲线进行取对数处理，获取所述原始音频信号对应的对数函数；
[0019]
对所述对数函数进行二次求导处理，获取所述原始音频信号对应的能量变化曲线。
[0020]
在其中一个实施例中，所述根据所述目标滑动窗确定所述能量变化曲线中的重音时刻，包括：
[0021]
在所述能量变化曲线中添加所述目标滑动窗，获取所述目标滑动窗内所述能量变化曲线的能量变化峰值，将所述能量变化峰值对应的时刻作为重音时刻；其中，所述目标滑动窗在起始位置的起始点为所述能量变化曲线的起始点；
[0022]
按照预设步长滑动所述目标滑动窗，返回执行所述获取所述目标滑动窗内所述能量变化曲线的能量变化峰值，将所述能量变化峰值对应的时刻作为重音时刻的步骤。
[0023]
在其中一个实施例中，在所述将所有能量变化峰值对应的时刻作为重音时刻之前还包括：
[0024]
判断所述能量变化峰值是否大于或等于能量变化阈值；
[0025]
若所述能量变化峰值大于或等于能量变化阈值，则继续执行所述将所述能量变化峰值对应的时刻作为重音时刻的步骤；
[0026]
若所述能量变化峰值小于能量变化阈值，则继续执行所述按照预设步长滑动所述目标滑动窗的步骤。
[0027]
一种音频重音识别装置，所述装置包括：
[0028]
能量变化曲线获取模块，用于获取原始音频信号；获取目标高斯窗函数，根据所述目标高斯窗函数对所述原始音频信号进行处理，得到所述原始音频信号对应的能量变化曲线；
[0029]
重音识别模块，用于获取目标滑动窗，根据所述目标滑动窗确定所述能量变化曲线中的重音时刻，将在所述重音时刻的所述原始音频信号标示为音频重音。
[0030]
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：
[0031]
获取原始音频信号；
[0032]
获取目标高斯窗函数，根据所述目标高斯窗函数对所述原始音频信号进行处理，得到所述原始音频信号对应的能量变化曲线；
[0033]
获取目标滑动窗，根据所述目标滑动窗确定所述能量变化曲线中的重音时刻，将在所述重音时刻的所述原始音频信号标示为音频重音。
[0034]
一种音频重音识别设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：
[0035]
获取原始音频信号；
[0036]
获取目标高斯窗函数，根据所述目标高斯窗函数对所述原始音频信号进行处理，
得到所述原始音频信号对应的能量变化曲线；
[0037]
获取目标滑动窗，根据所述目标滑动窗确定所述能量变化曲线中的重音时刻，将在所述重音时刻的所述原始音频信号标示为音频重音。
[0038]
本发明提供了音频重音识别方法、装置、设备和介质，基于高斯窗函数对原始音频信号进行处理，充分考虑音频信号在时间上的相关性，相较于传统算法，后续重音识别的结果更为准确。进一步的，还基于滑动窗动态识别局部能量变化的最强烈点，并将其标记为重音时刻从而识别出音频重音，本发明排除了音频局部强度波动过大对整体音频识别造成的影响，因此也更具科学性及实用性。
附图说明
[0039]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0040]
其中：
[0041]
图1为第一实施例中音频重音识别方法的流程示意图；
[0042]
图2为一个实施例中目标高斯窗函数的示意图；
[0043]
图3为一个实施例中根据目标滑动窗确定重音时刻的示意图；
[0044]
图4为一个实施例中确定的所有重音时刻的示意图；
[0045]
图5为第二实施例中音频重音识别分法的流程示意图；
[0046]
图6为一个实施例中能量曲线的示意图；
[0047]
图7为一个实施例中对原始音频信号做加权处理的示意图；
[0048]
图8为一个实施例中能量变化曲线的示意图；
[0049]
图9为一个实施例中音频重音识别装置的结构示意图；
[0050]
图10为一个实施例中音频重音识别设备的结构框图。
具体实施方式
[0051]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052]
如图1所示，图1为第一实施例中音频重音识别方法的流程示意图，本第一实施例中音频重音识别方法提供的步骤包括：
[0053]
步骤102，获取原始音频信号。
[0054]
其中，原始音频信号为待识别重音的音频信号。该原始音频信号可以是预先录制并存储于本地存储介质的音频信号，也可以是实时采集得到的一段音频信号，在此不做具体限定。
[0055]
步骤104，获取目标高斯窗函数，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线。
[0056]
其中，目标高斯窗函数用于对原始音频信号做加权处理。能量变化曲线是反应原始音频信号在不同目标时刻能量值变化快慢情况的曲线，重音在能量变化曲线中的特点为有一个较大的能量变化值，而基于该特点即可在后续步骤识别得到原始音频信号的音频重音。
[0057]
本实施例中，目标高斯窗函数的表达式为：
[0058]
gw(n)＝e-n^2/(2
·
a^2)
[0059]
其中，n是时间变量，n∈l，l是表征高斯窗函数宽度的参数，a是表征高斯窗函数形状的参数。示例性的，参见图2，图2为目标高斯窗函数的示意图，该目标高斯窗函数的参数a＝0.003，高斯窗宽度l＝[-0.01,0.01](单位：秒)。本实施例中高斯窗函数参数的设置对能量计算存在一定的影响，但该自动识别方法，不强调它们对算法效果的优化，对于高斯窗函数的参数不做进一步限定。
[0060]
进一步的，基于上述目标高斯窗函数对原始音频信号进行加权计算，以得到原始音频信号对应的能量曲线。并对该能量曲线进行求导处理，以得到原始音频信号对应的能量变化曲线。该具体实现方法在后文详述，在此不做赘述。
[0061]
步骤106，获取目标滑动窗，根据目标滑动窗确定能量变化曲线中的重音时刻，将在重音时刻的原始音频信号标示为音频重音。
[0062]
其中，目标滑动窗为无纵向边界的窗口，该目标滑动窗用于提供一个能量变化曲线在特定时刻的动态判断边界。本实施例中目标滑动窗连续滑动，需判断在每一特定时刻目标滑动窗内能量变化曲线的重音时刻。
[0063]
在一个具体实施例中，参见图3，首先在能量变化曲线中添加目标滑动窗，该目标滑动窗的窗口宽度具体设定为0.06秒。值得注意的是，滑动窗宽度选取为0.06秒，只是一个示例，也可以为0.05秒、0.07秒或其他。目标滑动窗的窗口宽度选取是参考“大部分音乐音频的重音间隔大约在0.02～1秒之间”这一现象，若滑动窗宽度取得太大或太小都会引入误差。其次，获取目标滑动窗内能量变化曲线的能量变化峰值(也即确定目标滑动窗内能量变化值的最大值)，将能量变化峰值对应的时刻作为重音时刻。
[0064]
进一步的，本实施例中目标滑动窗是连续滑动的，而为使目标滑动窗遍历能量变化曲线，设定目标滑动窗在滑动开始的起始位置处，滑动窗的起始点(滑动窗的左侧端点)与能量变化曲线的起始点(t＝0)一致。然后按照预设步长滑动目标滑动窗，并执行上述获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻的步骤，直至滑动窗的终止点(滑动窗的右侧端点)到达能量变化曲线的终止点，从而停止目标滑动窗的滑动。参见图4，图4为能量变化曲线中确定的所有重音时刻的示意图，将这些重音时刻在原始音频信号中进行标示，从而得到原始音频信号中的音频重音。
[0065]
在一个具体实施例中，由于重音是强度较大的音，因此还结合能量变化阈值来确定重音时刻。具体的，判断特定时刻内能量变化峰值是否大于或等于能量变化阈值，该能量变化阈值根据识别精度等要求可自行设置不同值，在此不做具体限定。若能量变化峰值大于或等于能量变化阈值，则将该能量变化峰值对应的时刻作为重音时刻；而若能量变化峰值小于能量变化阈值，则按照预设步长继续滑动目标滑动窗，直至找到下一满足能量变化阈值条件的重音时刻。
[0066]
上述音频重音识别方法，基于高斯窗函数对原始音频信号进行处理，充分考虑音
频信号在时间上的相关性，相较于传统算法，后续重音识别的结果更为准确。进一步的，还基于滑动窗动态识别局部能量变化的最强烈点，并将其标记为重音时刻从而识别出音频重音，本发明排除了音频局部强度波动过大对整体音频识别造成的影响，因此也更具科学性及实用性。
[0067]
如图5所示，图5为第二实施例中音频重音识别方法的流程示意图，本第二实施例中音频重音识别方法提供的步骤包括：
[0068]
步骤502，获取原始音频信号。
[0069]
在一个具体的实施场景中，步骤502与第一实施例中音频重音识别方法中的步骤102基本一致，此处不再进行赘述。
[0070]
步骤504，获取目标高斯窗函数，根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线。
[0071]
其中，目标高斯窗函数的设置与步骤104中一致，在此不做赘述。能量曲线是反应原始音频信号在不同目标时刻能量值的变化曲线。
[0072]
在一个具体实施例中，加权计算的步骤具体包括：首先，根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号。其中，目标时刻为原始音频信号中的任意一个时刻；截断音频信号与高斯窗函数对应的高斯窗口的宽度相同，且都包括目标时刻。其次，将截断音频信号与目标高斯窗函数进行加权计算，从而获取原始音频信号在目标时刻的目标能量值。在时域上进行加窗计算具体表现为点乘，相应的，在目标时刻t时的目标能量值e(t)计算表示为：
[0073]
e(t)＝(x(n+t)^2).*gw(n)
[0074]
式中，n为固定域t的时间变量，t为原始音频信号的时间域变量。
[0075]
参见图6，当求得原始音频信号在所有目标时刻的目标能量值，即可根据这些目标能量值得到原始音频信号对应的能量曲线。
[0076]
在一个具体实施例中，参见图7，以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻，在原始音频信号上添加高斯窗口；将高斯窗口内的音频信号作为在目标时刻的截断音频信号。也即对于原始音频信号中的一个任意目标时刻t而言，若选取高斯窗的宽度为t＝[-0.01，0.01]秒，则原始音频信号在该目标时刻t的截断音频信号为时间域[t-0.01，t+0.01]的音频信号。
[0077]
值得注意的是，当高斯窗口超出原始音频信号的音频长度时，则不需要考虑对超出部分进行加权。也即当t取较小值时，高斯窗口的左半部分可能超出了原始音频信号的音频长度，对于该超出部分无需进行加权计算。相应的，当t取较大值时，高斯窗口的右半部分可能超出了原始音频信号的长度，对于该超出部分也无需进行加权计算。
[0078]
步骤506，对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线。
[0079]
在一个具体实施例中，数值转换处理具体包括：首先，对能量曲线进行取对数处理，从而获取原始音频信号对应的对数函数。这是因为若引入能量变化的方向性将增加后续对重音的识别难度，而先对能量曲线进行取对数处理可以消除能量变化的方向性(也即正负性)，从而减小能量快速变大或快速变小带来的影响，继而更好的反映能量变化速率。进一步的，再对对数函数进行二次求导处理，从而获取原始音频信号对应的能量变化曲线，
该能量变化曲线请参见图8。
[0080]
对加权后的能量曲线进行取对数并二次求导，获得能量变化特性曲线p(t)的具体计算方式描述如下：
[0081]
p(t)＝d2(ln(e(t)+1))/dt2
[0082]
本实施例提出对能量曲线取对数及二次求导的方式，可有效降低背景噪声影响，充分反映出能量变化曲线的能量变化特性。
[0083]
步骤508，获取目标滑动窗，根据目标滑动窗确定能量变化曲线中的重音时刻，将在重音时刻的原始音频信号标示为音频重音。
[0084]
在一个具体的实施场景中，步骤508与第一实施例中音频重音识别方法中的步骤106基本一致，此处不再进行赘述。
[0085]
在一个实施例中，如图9所示，提出了一种音频重音识别装置，该装置包括：
[0086]
能量变化曲线获取模块902，用于获取原始音频信号；获取目标高斯窗函数，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线；
[0087]
重音识别模块904，用于获取目标滑动窗，根据目标滑动窗确定能量变化曲线中的重音时刻，将在重音时刻的原始音频信号标示为音频重音。
[0088]
上述音频重音识别装置，基于高斯窗函数对原始音频信号进行处理，充分考虑音频信号在时间上的相关性，相较于传统算法，后续重音识别的结果更为准确。进一步的，还基于滑动窗动态识别局部能量变化的最强烈点，并将其标记为重音时刻从而识别出音频重音，本发明排除了音频局部强度波动过大对整体音频识别造成的影响，因此也更具科学性及实用性。
[0089]
在一个实施例中，能量变化曲线获取模块902，还具体用于：根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线；对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线。
[0090]
在一个实施例中，能量变化曲线获取模块902，还具体用于：根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号；其中，目标时刻为原始音频信号中的任意一个时刻；将截断音频信号与目标高斯窗函数进行加权计算，获取原始音频信号在目标时刻的目标能量值，根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
[0091]
在一个实施例中，能量变化曲线获取模块902，还具体用于：以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻，在原始音频信号上添加高斯窗口；将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
[0092]
在一个实施例中，能量变化曲线获取模块902，还具体用于：对能量曲线进行取对数处理，获取原始音频信号对应的对数函数；对对数函数进行二次求导处理，获取原始音频信号对应的能量变化曲线。
[0093]
在一个实施例中，重音识别模块904，还具体用于：在能量变化曲线中添加目标滑动窗，获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻；其中，目标滑动窗在起始位置的起始点为能量变化曲线的起始点；按照预设步长滑动目标滑动窗，返回执行获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻的步骤。
[0094]
在一个实施例中，重音识别模块904，还具体用于：判断能量变化峰值是否大于或
等于能量变化阈值；若能量变化峰值大于或等于能量变化阈值，则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤；若能量变化峰值小于能量变化阈值，则继续执行按照预设步长滑动目标滑动窗的步骤。
[0095]
图10示出了一个实施例中音频重音识别设备的内部结构图。如图10所示，该音频重音识别设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该音频重音识别设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现音频重音识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行音频重音识别方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的音频重音识别设备的限定，具体的音频重音识别设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0096]
一种音频重音识别设备，包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序，该处理器执行该计算机程序时实现如下步骤：获取原始音频信号；获取目标高斯窗函数，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线；获取目标滑动窗，根据目标滑动窗确定能量变化曲线中的重音时刻，将在重音时刻的原始音频信号标示为音频重音。
[0097]
在一个实施例中，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线，包括：根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线；对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线。
[0098]
在一个实施例中，根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线，包括：根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号；其中，目标时刻为原始音频信号中的任意一个时刻；将截断音频信号与目标高斯窗函数进行加权计算，获取原始音频信号在目标时刻的目标能量值，根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
[0099]
在一个实施例中，根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号，包括：以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻，在原始音频信号上添加高斯窗口；将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
[0100]
在一个实施例中，对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线，包括：对能量曲线进行取对数处理，获取原始音频信号对应的对数函数；对对数函数进行二次求导处理，获取原始音频信号对应的能量变化曲线。
[0101]
在一个实施例中，根据目标滑动窗确定能量变化曲线中的重音时刻，包括：在能量变化曲线中添加目标滑动窗，获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻；其中，目标滑动窗在起始位置的起始点为能量变化曲线的起始点；按照预设步长滑动目标滑动窗，返回执行获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻的步骤。
[0102]
在一个实施例中，在将所有能量变化峰值对应的时刻作为重音时刻之前还包括：判断能量变化峰值是否大于或等于能量变化阈值；若能量变化峰值大于或等于能量变化阈
值，则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤；若能量变化峰值小于能量变化阈值，则继续执行按照预设步长滑动目标滑动窗的步骤。
[0103]
一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：获取原始音频信号；获取目标高斯窗函数，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线；获取目标滑动窗，根据目标滑动窗确定能量变化曲线中的重音时刻，将在重音时刻的原始音频信号标示为音频重音。
[0104]
在一个实施例中，根据目标高斯窗函数对原始音频信号进行处理，得到原始音频信号对应的能量变化曲线，包括：根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线；对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线。
[0105]
在一个实施例中，根据目标高斯函数对原始音频信号进行加权计算，得到原始音频信号对应的能量曲线，包括：根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号；其中，目标时刻为原始音频信号中的任意一个时刻；将截断音频信号与目标高斯窗函数进行加权计算，获取原始音频信号在目标时刻的目标能量值，根据在每一目标时刻的目标能量值得到原始音频信号对应的能量曲线。
[0106]
在一个实施例中，根据目标高斯窗函数确定原始音频信号在目标时刻的截断音频信号，包括：以目标时刻为目标高斯窗函数对应的高斯窗口的中间时刻，在原始音频信号上添加高斯窗口；将高斯窗口内的音频信号作为在目标时刻的截断音频信号。
[0107]
在一个实施例中，对能量曲线进行数值转换处理，得到原始音频信号对应的能量变化曲线，包括：对能量曲线进行取对数处理，获取原始音频信号对应的对数函数；对对数函数进行二次求导处理，获取原始音频信号对应的能量变化曲线。
[0108]
在一个实施例中，根据目标滑动窗确定能量变化曲线中的重音时刻，包括：在能量变化曲线中添加目标滑动窗，获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻；其中，目标滑动窗在起始位置的起始点为能量变化曲线的起始点；按照预设步长滑动目标滑动窗，返回执行获取目标滑动窗内能量变化曲线的能量变化峰值，将能量变化峰值对应的时刻作为重音时刻的步骤。
[0109]
在一个实施例中，在将所有能量变化峰值对应的时刻作为重音时刻之前还包括：判断能量变化峰值是否大于或等于能量变化阈值；若能量变化峰值大于或等于能量变化阈值，则继续执行将能量变化峰值对应的时刻作为重音时刻的步骤；若能量变化峰值小于能量变化阈值，则继续执行按照预设步长滑动目标滑动窗的步骤。
[0110]
需要说明的是，上述音频重音识别方法、装置、设备及计算机可读存储介质属于一个总的发明构思，音频重音识别方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。
[0111]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程
rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0112]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0113]
以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑亚军
技术所有人：瑞声光电科技（常州）有限公司
我是此专利的发明人

上一篇：一种电热综合能源系统可行域构建方法与流程
上一篇：一种创业培训管理系统的制作方法