音频处理方法、装置、存储介质和电子设备与流程

文档序号：29700702发布日期：2022-04-16 14:22阅读：164来源：国知局

1.本公开的实施方式涉及数据处理技术领域，更具体地，本公开的实施方式涉及音频处理方法、装置、存储介质和电子设备。

背景技术：

2.本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。
3.目前的音频处理方式，通常将整首音频作为整体进行统一处理，无法实现对音频中的某些特定片段进行处理。例如，目前的音频变速方式，通常对整首音频进行统一加速或减速，无法智能地对某些特定片段进行变速。

技术实现要素：

4.在音频处理场景中，由于音频中包含不同类型的片段，例如包含音乐片段和人声片段，因此常存在对不同片段进行不同方式处理的多样化需求。
5.以音频变速场景为例。移动互联网流媒体时代，音频的消费越来越流行，用户习惯在手机app(application，应用程序)上收听有声书、电台、播客等音频内容，不同用户对音频的播放速度需求可能各不相同。例如，有些用户希望对音频中的音乐片段进行加速播放，以节省时间；有些用户希望对音频中的音乐片段进行减速播放，以慢慢品味；有些用户希望对音频中的人声片段进行减速播放而对音乐片段进行加速播放，等等。
6.但是目前的音频处理方式，通常是将整首音频作为整体进行统一处理，无法智能地从音频中识别出特定片段，进行特定处理。
7.具体来说，以音频变速处理为例。目前的音频变速方式主要有两种：第一种，根据音乐节奏对音频进行变速处理。这种方法只能根据音频的音乐节奏对各个片段进行变速处理，不仅流程复杂、难以保证变速效果，也无法实现从音频中识别出特定片段，例如识别出人声片段进行处理。第二种，根据语音信号对音频进行变速处理。这种方法只能对整首音频的语音信号进行统一变速，同样无法实现自动地识别出某些特定片段进行变速处理，属于非智能的变速方法。
8.可见，目前的音频变速等音频处理方式，无法实现对音频的不同类型片段进行不同方式处理，无法满足用户的个性化使用需求。
9.本公开的实施方式即期望提供音频处理方法、装置、存储介质和电子设备，能够自音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理，并且能够智能地对指定类型的音频段进行变速播放，提升音频消费应用程序的用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的竞争力。
10.根据本公开的一个方面，提供一种音频处理方法，包括：提取原始音频的每个音频帧的声学特征；将所述声学特征输入神经网络模型，获得所述原始音频的各音频帧属于每种音频类型的概率序列；其中，所述神经网络模型用于预测每个所述音频帧属于各种所述
音频类型的概率；根据所述概率序列对所述原始音频进行分段，获得所述原始音频中属于对应的音频类型的音频段。
11.在本公开的一示例性实施例中，每个所述音频帧的声学特征由多维的特征向量表征；所述提取原始音频的每个音频帧的声学特征之后，还包括：对所述声学特征进行规整，使规整后的所述声学特征的每个维度的特征向量数据的均值为零。
12.在本公开的一示例性实施例中，所述对所述声学特征进行规整，包括：确定单位帧数；自所述原始音频的第一个音频帧起，以每所述单位帧数个音频帧为一组，根据每组音频帧对应的声学特征生成一个特征向量矩阵；在每个所述特征向量矩阵中，对每个所述维度的特征向量数据进行规整，使规整后的所述特征向量矩阵的每个所述维度的特征向量数据的均值为零。
13.在本公开的一示例性实施例中，所述提取原始音频的每个音频帧的声学特征，包括：沿时序方向，确定特征提取窗口的窗长和移动步长，所述移动步长小于所述窗长；对每个所述音频帧，采用所述特征提取窗口进行特征提取，以获得每个所述音频帧的声学特征。
14.在本公开的一示例性实施例中，所述神经网络模型包括：编码器模块，用于对输入的每个所述音频帧的声学特征进行编码处理，输出编码后的第一特征；注意力模块，与所述编码器模块连接，用于对所述第一特征进行加权处理，输出第二特征；全连接层，与所述注意力模块连接，用于对所述第二特征进行预测处理，输出每个所述音频帧属于各种所述音频类型的概率。
15.在本公开的一示例性实施例中，所述根据所述概率序列对所述原始音频进行分段，包括：对每种所述音频类型下的概率序列进行平滑处理；基于对应于每种所述音频类型的概率的预设阈值，根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段；对每种所述音频类型下的候选段，合并间隔小于间隔阈值的相邻候选段，并剔除长度小于长度阈值的候选段；根据每种所述音频类型下经过合并和剔除后剩余的候选段，对所述原始音频进行分段。
16.在本公开的一示例性实施例中，所述对每种所述音频类型下的概率序列进行平滑处理，包括：基于移动平均法，对每种所述音频类型下的概率序列进行平滑处理。
17.在本公开的一示例性实施例中，所述根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段，包括：根据对应于一当前音频类型的当前概率的预设阈值，遍历所述当前音频类型下的平滑处理后的概率序列，获得目标概率值组，每组所述目标概率值组由连续预定数量的大于所述当前概率的预设阈值的概率值组成；根据每组所述目标概率值组对应的起止帧，确定所述当前音频类型下的候选段。
18.在本公开的一示例性实施例中，所述获得所述原始音频中属于对应的音频类型的音频段之后，还包括：在所述原始音频的初始播放速度不同于目标播放速度的情况下，根据目标音频类型的目标播放速度，对所述原始音频中对应的音频段进行变速处理。
19.在本公开的一示例性实施例中，所述对所述原始音频中对应的音频段进行变速处理，包括：确定所述目标音频类型对应的音频段和播放速度不同的相邻音频段；基于变速不变调算法，对所述目标音频类型对应的音频段进行变速处理；以及，对所述播放速度不同的相邻音频段进行过渡处理。
20.在本公开的一示例性实施例中，所述对所述播放速度不同的相邻音频段进行过渡
处理，包括：确定每组所述相邻音频段相衔接的过渡段；根据每组所述相邻音频段的播放速度差，对对应的所述过渡段进行分段和播放速度渐变处理，使每个所述过渡段的首段的播放速度等于对应组的所述相邻音频段的前一音频段的播放速度、每个所述过渡段的尾段的播放速度等于对应组的所述相邻音频段的后一音频段的播放速度，且每个所述过渡段的相邻两段的播放速度差相等。
21.在本公开的一示例性实施例中，各种所述音频类型包括：仅含有音乐的音频类型、仅含有人声的音频类型和同时含有音乐和人声的音频类型；其中，含有人声的音频类型包括：含有说话人声的音频类型和含有唱歌人声的音频类型。
22.根据本公开的一个方面，提供一种音频处理装置，包括：特征提取模块，用于提取原始音频的每个音频帧的声学特征；概率预测模块，用于将所述声学特征输入神经网络模型，获得所述原始音频的各音频帧属于每种音频类型的概率序列；其中，所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率；音频分段模块，用于根据所述概率序列对所述原始音频进行分段，获得所述原始音频中属于对应的音频类型的音频段。
23.在本公开的一示例性实施例中，每个所述音频帧的声学特征由多维的特征向量表征；所述特征提取模块之后，还包括：特征规整模块，用于对所述声学特征进行规整，使规整后的所述声学特征的每个维度的特征向量数据的均值为零。
24.在本公开的一示例性实施例中，所述特征规整模块包括：窗长确定模块，用于确定单位帧数；矩阵生成模块，用于自所述原始音频的第一个音频帧起，以每所述单位帧数个音频帧为一组，根据每组音频帧对应的声学特征生成一个特征向量矩阵；矩阵规整模块，用于在每个所述特征向量矩阵中，对每个所述维度的特征向量数据进行规整，使规整后的所述特征向量矩阵的每个所述维度的特征向量数据的均值为零。
25.在本公开的一示例性实施例中，所述特征提取模块包括：参数确定模块，用于沿时序方向，确定特征提取窗口的窗长和移动步长，所述移动步长小于所述窗长；特征获取模块，用于对每个所述音频帧，采用所述特征提取窗口进行特征提取，以获得每个所述音频帧的声学特征。
26.在本公开的一示例性实施例中，所述神经网络模型包括：编码器模块，用于对输入的每个所述音频帧的声学特征进行编码处理，输出编码后的第一特征；注意力模块，与所述编码器模块连接，用于对所述第一特征进行加权处理，输出第二特征；全连接层，与所述注意力模块连接，用于对所述第二特征进行预测处理，输出每个所述音频帧属于各种所述音频类型的概率。
27.在本公开的一示例性实施例中，所述编码器模块包括一标准卷积层和多个深度可分离卷积层，所述多个深度可分离卷积层依次连接于所述标准卷积层之后；每个所述深度可分离卷积层包括依次相连的深度卷积层、第一批正则化层、点态卷积层和第二批正则化层。
28.在本公开的一示例性实施例中，所述编码器模块还包括各自连接于所述多个深度可分离卷积层之后的基于时间维度的最大池化层和基于频率维度的最大池化层；所述注意力模块包括基于时间维度的注意力层和基于频率维度的注意力层，所述基于时间维度的注意力层连接于所述基于时间维度的最大池化层之后，所述基于频率维度的注意力层连接于所述基于频率维度的最大池化层之后，且所述基于时间维度的注意力层和所述基于频率维
度的注意力层各自连接所述全连接层。
29.在本公开的一示例性实施例中，所述音频分段模块包括：平滑处理模块，用于对每种所述音频类型下的概率序列进行平滑处理；候选段确定模块，用于基于对应于每种所述音频类型的概率的预设阈值，根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段；候选段处理模块，用于对每种所述音频类型下的候选段，合并间隔小于间隔阈值的相邻候选段，并剔除长度小于长度阈值的候选段；分段处理模块，用于根据每种所述音频类型下经过合并和剔除后剩余的候选段，对所述原始音频进行分段。
30.在本公开的一示例性实施例中，所述平滑处理模块包括：移动平均模块，用于基于移动平均法，对每种所述音频类型下的概率序列进行平滑处理。
31.在本公开的一示例性实施例中，所述候选段确定模块包括：遍历处理模块，用于根据对应于一当前音频类型的当前概率的预设阈值，遍历所述当前音频类型下的平滑处理后的概率序列，获得目标概率值组，每组所述目标概率值组由连续预定数量的大于所述当前概率的预设阈值的概率值组成；帧确定模块，用于根据每组所述目标概率值组对应的起止帧，确定所述当前音频类型下的候选段。
32.在本公开的一示例性实施例中，所述音频分段模块之后，还包括：变速处理模块，用于在所述原始音频的初始播放速度不同于目标播放速度的情况下，根据目标音频类型的目标播放速度，对所述原始音频中对应的音频段进行变速处理。
33.在本公开的一示例性实施例中，所述变速处理模块包括：音频段确定模块，用于确定所述目标音频类型对应的音频段和播放速度不同的相邻音频段；变速不变调模块，用于基于变速不变调算法，对所述目标音频类型对应的音频段进行变速处理；以及，过渡处理模块，用于对所述播放速度不同的相邻音频段进行过渡处理。
34.在本公开的一示例性实施例中，所述过渡处理模块包括：过渡段确定模块，用于确定每组所述相邻音频段相衔接的过渡段；过渡段处理模块，用于根据每组所述相邻音频段的播放速度差，对对应的所述过渡段进行分段和播放速度渐变处理，使每个所述过渡段的首段的播放速度等于对应组的所述相邻音频段的前一音频段的播放速度、每个所述过渡段的尾段的播放速度等于对应组的所述相邻音频段的后一音频段的播放速度，且每个所述过渡段的相邻两段的播放速度差相等。
35.在本公开的一示例性实施例中，各种所述音频类型包括：仅含有音乐的音频类型、仅含有人声的音频类型和同时含有音乐和人声的音频类型；其中，含有人声的音频类型包括：含有说话人声的音频类型和含有唱歌人声的音频类型。
36.根据本公开的一个方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任意实施例所述的音频处理方法。
37.根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令，来执行上述任意实施例所述的音频处理方法。
38.本公开实施方式的音频处理方法、装置、存储介质和电子设备，通过神经网络模型预测每个音频帧属于各种音频类型的概率，获得原始音频的各音频帧属于每种音频类型的概率序列，再根据概率序列对原始音频进行分段，能够获得原始音频中属于对应的音频类型的音频段，实现自原始音频中高效、准确地识别出不同类型的音频段，以供针对某些特定
类型的音频段进行处理；并且，本公开实施方式的技术方案，还能够智能地对指定类型的音频段进行变速处理，提升音频消费应用程序的用户的使用体验，满足用户的个性化使用需求。
附图说明
39.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
40.图1示意性地示出根据本公开一种实施方式的音频处理方法的流程示意图；
41.图2示意性地示出根据本公开一种实施方式的原始音频包含多种类型音频段的示意图；
42.图3示意性地示出根据本公开一种实施方式的音频处理场景示意图；
43.图4示意性地示出根据本公开一种实施方式的神经网络模型的模型结构图；
44.图5示意性地示出根据本公开一种实施方式的对原始音频进行分段的流程示意图；
45.图6示意性地示出根据本公开又一种实施方式的音频处理方法的流程示意图；
46.图7示意性地示出根据本公开一种实施方式的对播放速度不同的相邻音频段进行过渡处理的示意图；
47.图8示意性地示出根据本公开一种实施方式的音频处理装置的模块架构图；
48.图9示意性地示出根据本公开一种实施方式的存储介质的示意图；
49.图10示意性地示出根据本公开一种实施方式的电子设备的模块架构图。
50.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
51.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
52.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
53.根据本公开的实施方式，提供音频处理方法、装置、存储介质和电子设备。
54.在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
55.下面参考本公开的若干代表性实施方式，详细阐述本公开的原理和精神。
56.发明概述
57.本公开的基本思想在于：提供一种音频处理方案，对于待处理的原始音频，通过神经网络模型预测原始音频的每个音频帧属于各种音频类型的概率，从而获得原始音频的各音频帧属于每种音频类型的概率序列，再根据概率序列对原始音频进行分段，能够获得原
始音频中属于对应的音频类型的音频段，实现自原始音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理；并且，本公开的音频处理方案，还能够智能地对原始音频中指定类型的音频段进行变速处理，不同用户能够根据需求指定不同类型音频段的不同播放速度，从而提升用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的竞争力。
58.在介绍了本公开的基本原理之后，下面结合附图具体介绍本公开的各种非限制性实施方式。
59.示例性方法
60.下面结合图1来描述根据本公开示例性实施方式的音频处理方法。参照图1所示，音频处理方法可以包括以下步骤：
61.s110，提取原始音频的每个音频帧的声学特征。
62.本公开示例性实施方式的音频处理方法可适用于各种音频收听场景。例如，可适用于录制音频收听场景，则正在收听的录制好的有声音频即为待处理的原始音频；再如，可适用于直播音频收听场景，则正在收听的直播中的有声音频即为待处理的原始音频；等等。
63.本步骤按帧提取原始音频的声学特征，能够便于后续自原始音频中精准识别出各个类型的音频段。
64.s120，将声学特征输入神经网络模型，获得原始音频的各音频帧属于每种音频类型的概率序列；其中，神经网络模型用于预测每个音频帧属于各种音频类型的概率。
65.神经网络模型对每个音频帧的声学特征进行运算，能够预测出每个音频帧属于各种音频类型的概率；神经网络模型最终输出m*c的概率矩阵，其中m为原始音频的总帧数，c为音频类型的总类数，进而能够获得c个概率序列，也即各音频帧属于每种音频类型的概率序列。
66.原始音频中通常包含音乐、人声和其他声音，因此音频类型的分类依据可以是音乐和人声。当然，音频类型也可按照其他分类依据进行分类，例如，在直播音频收听场景下，可按照人声归属进行分类，只需提前设置好各种音频类型并对应地训练好神经网络模型即可。
67.本步骤采用神经网络模型，能够高效地预测出音频帧的音频类型概率，并通过神经网络模型的运算作用于每个音频帧，能够准确地获得作为分段依据的概率序列。
68.s130，根据概率序列对原始音频进行分段，获得原始音频中属于对应的音频类型的音频段。
69.每种音频类型对应的概率序列标示着原始音频的各音频帧属于该种音频类型的概率值，根据各种音频类型对应的概率序列标示的各音频帧的音频类型概率情况，能够对原始音频进行准确分段，获得属于对应的音频类型的音频段。
70.从而，本公开上述实施方式的音频处理方法，能够实现自原始音频中高效、准确地分类出不同音频类型的音频段，以供针对某些特定类型的音频段进行处理，提升用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的产品竞争力。
71.图2示出根据本公开一种实施方式的原始音频所包含的多种类型音频段，参照图2所示，在本公开的一示例性实施例中，原始音频200例如是一段录制好的有声书音频。本示例性实施例的音频类型的分类依据是音乐和人声，各种音频类型可包括：仅含有音乐的音
频类型、仅含有人声的音频类型和同时含有音乐和人声的音频类型；当然，还可包括非音乐和人声的其他音频类型(例如噪音段、空音频段，等等)。其中，含有人声的音频类型包括：含有说话人声的音频类型和含有唱歌人声的音频类型。从而，本示例性实施例中，各种音频类型具体包括：唱歌类型(指仅人声唱歌，不带背景音乐等其他音频类型，即清唱)、说话类型(指仅人声说话，不带背景音乐等其他音频类型)、音乐类型(指纯音乐，不带人声等其他音频类型)和其他类型。
72.在本公开的其他示例性实施方式中，音频类型的分类依据可以是其他情形，例如可以基于人声归属，将音频类型设置为主播声音类型和非主播声音类型。
73.本示例性实施例中，基于唱歌、说话、音乐和其他四种音频类型，原始音频200中真实包含的音频段包括：说话+音乐的第一音频段210、仅唱歌的第二音频段220、仅音乐的第三音频段230和仅说话的第四音频段240。
74.图3示出根据本公开一种实施方式的音频处理场景，结合图2和图3所示，利用音频处理方法对原始音频200进行处理，主要包括：
75.s310特征处理步骤，对原始音频200的每个音频帧进行特征处理，以提取每个音频帧的声学特征。
76.s320神经网络运算步骤，对每个音频帧的声学特征(例如一当前音频帧的声学特征200a)进行神经网络运算，预测每个音频帧分别属于唱歌、说话、音乐和其他四种音频类型的概率。由于真实音频中多种音频类型可能同时出现，因此本公开的神经网络模型能够同时检测多种音频类型，本示例中具体是唱歌、说话、音乐和其他四种音频类型。经过神经网络模型对原始音频200的各音频帧的声学特征进行运算处理，最终输出分别对应唱歌、说话、音乐和其他四种音频类型的概率序列300。每种音频类型的概率序列与原始音频200的帧序列对应，标示着原始音频200的各音频帧属于该种音频类型的概率值。图3中仅示意性地标示出由若干音频帧的概率值组成的概率序列300。
77.s330后处理步骤，根据分别对应唱歌、说话、音乐和其他四种音频类型的概率序列300，对原始音频200进行分段，分段可结合相关的概率阈值进行，最终能够获得原始音频200依次包含属于说话+音乐类型的音频段、属于仅唱歌类型的音频段、属于仅音乐类型的音频段和属于仅说话类型的音频段。
78.从而，上述实施方式的音频处理方法，首先对原始音频200的每个音频帧进行声学特征提取，然后经过神经网络模型预测每个音频帧的音频类型概率，最后根据各音频帧属于各种音频类型的概率序列300获得原始音频200的各音频段，实现了对原始音频200中不同音频类型的音频段的高效、准确分类。
79.下面结合示例性实施方式，对本公开的音频处理方法的各个步骤进行详细说明。
80.在本公开的一示例性实施例中，提取原始音频的每个音频帧的声学特征的过程可以包括：沿时序方向，确定特征提取窗口的窗长和移动步长，移动步长小于窗长；对每个音频帧，采用特征提取窗口进行特征提取，以获得每个音频帧的声学特征。
81.声学特征的类型可以是：梅尔频率倒谱系数(mfcc，mel frequency cepstrum coefficient)、对数域的梅尔频率特征(filter bank)或原始梅尔频率特征等。
82.窗长用于规定特征提取窗口的长度，移动步长(也称为窗移)用于规定特征提取窗口向前移动的距离；本示例中特征提取窗口用于对音频帧进行特征提取，因此所说的长度
和距离均指时间间隔，且特征提取窗口向前移动即指沿时序方向移动。此外，移动步长小于窗长，能够使每两个相邻的特征提取窗口都有重叠的部分，以确保所提取特征的平滑性。
83.在一个具体示例中，可以取窗长为25ms，窗移为10ms。此外，声学特征由多维的特征向量表征，维度n的取值范围为10～40，例如n可取40。本示例中，对于输入的语音信号的每个音频帧，先以窗长(25ms)划定的特征提取窗口提取一次声学特征(40维)，再按照窗移(10ms)向前移动特征提取窗口，再次提取声学特征(40维)......如此循环直至遍历当前音频帧的每毫秒。从而，能够提取获得原始音频的每个音频帧的声学特征。
84.在本公开的一示例性实施例中，提取原始音频的每个音频帧的声学特征之后，还可包括：对声学特征进行规整，使规整后的声学特征的每个维度的特征向量数据的均值为零。通过对声学特征进行规整，能够消除无关因素对声学特征的影响，提高后续的神经网络运算的性能。
85.在一示例性实施例中，对声学特征进行规整，具体可包括：确定单位帧数；自原始音频的第一个音频帧起，以每单位帧数个音频帧为一组，根据每组音频帧对应的声学特征生成一个特征向量矩阵；在每个特征向量矩阵中，对每个维度的特征向量数据进行规整，使规整后的特征向量矩阵的每个维度的特征向量数据的均值为零。
86.在一具体示例中，声学特征为对数域的梅尔频率特征，每个音频帧的声学特征由n维的特征向量表征，对声学特征进行规整时，基于维度进行均值规整，以消除音量和信道差异的影响。具体来说，考虑语音流式运算需求，可取单位帧数为t，则由每t个音频帧的n维特征向量形成一个t*n维的特征向量矩阵。在每个特征向量矩阵中，按列进行均值规整：假设f
tn
表示当前特征向量矩阵中第t帧第n维的特征向量数据，则1-t帧的第n维的特征向量数据均值f
tn
经规整之后的值等于经规整之后的值等于从而，规整后每列特征向量数据的均值为零，能够消除声学特征中音量和信道差异的影响。后续，可将规整后的声学特征输入神经网络模型进行运算。
87.神经网络模型可选用语音识别和图像识别领域中常用的神经网络模型结构。在本公开的示例性实施例中，从效果和效率两方面综合考虑，可选择encode(编码器)+attention(注意力机制)的神经网络结构，适合在运算能力有限的移动设备上运行。
88.图4示出根据本公开一种实施方式的神经网络模型的模型结构，参照图4所示，神经网络模型可包括：编码器模块410，用于对输入的每个音频帧的声学特征进行编码处理，输出编码后的第一特征；注意力模块420，与编码器模块410连接，用于对第一特征进行加权处理，输出第二特征；全连接层430，与注意力模块420连接，用于对第二特征进行预测处理，输出每个音频帧属于各种音频类型的概率。
89.编码器模块410可进一步包括一标准卷积(conv)层410a和多个深度可分离卷积(dscnn，depthwise separable convolution neural network)层，多个深度可分离卷积层依次连接于标准卷积层410a之后；每个深度可分离卷积层包括依次相连的深度卷积(depthwise conv)层、第一批正则化(batchnorm)层、点态卷积(pointwise conv)层和第二批正则化层。图4中示意性地示出两个深度可分离卷积层，分别标示为410b和410c，并示意性地示出深度可分离卷积层410b包括依次相连的深度卷积层410b1、第一批正则化层410b2、点态卷积层410b3和第二批正则化层410b4。
90.标准卷积层410a用于对输入的声学特征进行提取和进一步优化。每个深度可分离卷积层通过深度卷积层和点态卷积层实现将空间卷积和通道卷积进行分离，在保证信息传递不丢失的情况下，能够极大地减少参数数量，提高运算效率。
91.进一步地，编码器模块410还包括各自连接于多个深度可分离卷积层之后的基于时间维度的最大池化(max-pooling)层410d和基于频率维度的最大池化层410e；注意力模块420包括基于时间维度的注意力层420a和基于频率维度的注意力层420b，基于时间维度的注意力层420a连接于基于时间维度的最大池化层410d之后，基于频率维度的注意力层420b连接于基于频率维度的最大池化层410e之后，且基于时间维度的注意力层420a和基于频率维度的注意力层420b各自连接全连接层430。
92.注意力模块420通过基于时间维度的注意力层420a和基于频率维度的注意力层420b，分别对编码后的特征(即第一特征)从时间维度和频率维度添加注意力机制。其中，基于时间维度的注意力层420a用于以时间为维度，将第一特征的频率池化(pooling)至一维；基于频率维度的注意力层420b用于以频率为维度，将第一特征的时间池化至一维；从而，生成分别以时间序列和频率序列表征行列的第二特征矩阵。
93.最终，由全连接层430输出各音频帧的音频类型概率，每个概率值的范围为0～1。以音频帧的总帧数为m、音频类型的总类数为c为例，神经网络模型的运算会作用在每个音频帧上，每个音频帧会输出一个c维的向量，每一维代表该音频帧属于对应的一种音频类型的概率；神经网络模型最终能够输出一个m*c的概率矩阵，从而可获得c个概率序列，每个概率序列长度为m，代表对应的一种音频类型随帧序的概率变化情况。
94.图5示出根据本公开一种实施方式的对原始音频进行分段的流程，参照图5所示，根据概率序列对原始音频进行分段，可以包括如下步骤：
95.s130a，对每种音频类型下的概率序列进行平滑处理。
96.通过平滑处理，能够使每个音频帧的音频类型概率更加平滑，避免出现突变。
97.s130b，基于对应于每种音频类型的概率的预设阈值，根据平滑处理后的概率序列确定每种音频类型下的候选段。
98.对应于每种音频类型的概率的预设阈值(即每种音频类型的概率阈值)，可用于界定音频帧是否属于该种音频类型。对于一当前音频类型，由该当前音频类型的当前概率序列中连续多个大于该当前音频类型对应的当前概率阈值的概率值所对应的音频帧组成的音频段可被确定为该当前音频类型下的候选段。不同的音频类型，可以设定不同的概率阈值。
99.s130c，对每种音频类型下的候选段，合并间隔小于间隔阈值的相邻候选段，并剔除长度小于长度阈值的候选段。
100.通过合并相邻段和剔除过短段，能够防止出现过多小的片段，避免音频处理过于零碎。间隔阈值和长度阈值均可根据需要进行设置。
101.s130d，根据每种音频类型下经过合并和剔除后剩余的候选段，对原始音频进行分段。
102.本步骤中，根据合并和剔除后剩余的候选段所对应的首尾音频帧对原始音频进行分段，即可获得原始音频中属于对应的音频类型的音频段。
103.在本公开的示例性实施例中，对每种音频类型下的概率序列进行平滑处理时，可
以采用移动平均法。具体来说，以一当前音频类型下的概率序列为例，对于其中每个音频帧，可以取其前后相邻的5个音频帧(若该音频帧不具有相邻的前5个音频帧/后5个音频帧，则前后各重复该音频帧自身5次)，加上该音频帧自身，共11个音频帧的概率值的平均值，以平均值作为该音频帧的修正后的概率值。通过移动平均法对每种音频类型下的概率序列进行修正，能够防止相邻音频帧的概率值发生剧烈变化。
104.在本公开的示例性实施例中，根据平滑处理后的概率序列确定每种音频类型下的候选段，具体可包括：根据对应于一当前音频类型的当前概率的预设阈值，遍历当前音频类型下的平滑处理后的概率序列，获得目标概率值组，每组目标概率值组由连续预定数量的大于当前概率阈值的概率值组成；根据每组目标概率值组对应的起止帧，确定当前音频类型下的候选段。具体来说，以一当前音频类型下的平滑处理后的概率序列{x1,
…
,xm}为例，该当前音频类型对应的概率阈值为k。确定该当前音频类型下的候选段时，遍历概率序列{x1,
…
,xm}，当检测到超过概率阈值k时认为找到一候选段的开始位置s1(即对应起始帧s1)；自开始位置s1起，在后序概率值超过概率阈值k的情况下继续往后遍历，直至检测到小于概率阈值k时认为找到该候选段的结束位置e1(即对应截止帧e1)，从而确定(s1,e1)为该当前音频类型下的一个候选段，候选段(s1,e1)中的每个概率值均超过概率阈值k；继续遍历整个概率序列{x1,
…
,xm}，得到多个候选段(s1,e1)，
…
，(sq,eq)。
105.在本公开的示例性实施例中，合并间隔较短的相邻候选段时，例如对一当前音频类型下的候选段进行合并时，可根据该当前音频类型下设定的间隔阈值z，当前一候选段的结束位置ei与下一候选段的开始位置s
i+1
之间的间隔小于z时，可将(si,ei)和(s
i+1
,e
i+1
)合并为一个候选段(si,e
i+1
)，以防止出现过多小的音频片段。
106.在本公开的示例性实施例中，剔除过短段时，可对经合并获得的每个候选段进行长度检测，当一候选段的长度小于设定的阈值时，则将该候选段剔除，同样能够防止出现过多小的音频片段，避免音频处理过于零碎而消耗过多计算资源和影响用户的收听体验。
107.进一步地，在本公开的示例性实施方式中，音频处理方法还可根据用户的个性化变速需求，对指定类型的音频段进行变速处理，实现原始音频的分段变速效果。
108.图6示出根据本公开一种实施方式的音频处理方法，图6所示的音频处理方法可基于图1所示的音频处理方法实现，图1所示的音频处理方法的各个步骤的特征和原理均可应用至图6所示的音频处理方法中。因此，在下文的描述中，对音频处理方法的已经阐明的步骤的特征和原理不再重复说明。
109.参照图6所示，在本公开的一示例性实施方式中，获得原始音频中属于对应的音频类型的音频段之后，还可包括：
110.s140，在原始音频的初始播放速度不同于目标播放速度的情况下，根据目标音频类型的目标播放速度，对原始音频中对应的音频段进行变速处理。
111.目标音频类型和目标播放速度可由用户指定。用户可在收听音频节目的任意时刻(例如开启音频节目时，或者收听音频节目的过程中，等等)发起携带目标音频类型和目标播放速度的音频变速请求。例如，一用户收听某个有声书音频时，指定需对其中的人声部分进行2倍速加速处理。则本公开的音频处理方法基于上述任意实施例描述的过程，识别出该有声书音频中的不同音频类型的音频段之后，对其中的人声音频段进行2倍速加速处理。
112.对音频段进行变速处理时，可采用变速不变调算法。变速不变调算法可从已有方
法中选择，目前的变速不变调算法主要包含三大类型：时域法、频域法和参量法。在本公开的示例性实施例中，可采用基于频域法的phase vocoder变速不变调算法对音频段进行变速处理。基于频域法的phase vocoder变速不变调算法的核心思想是：在频域上保留原始帧的幅度，根据时间计算下一帧的相位，从而预估出一个新的帧，这种方法能够很好地保持音频中的稳态成分，使变速后的音频听感上更加连贯。
113.进一步地，本公开的音频处理方法应用于音频变速处理时，由于对原始音频进行分段变速，如果直接对需要变速的音频段按照指定播放速度进行变速，并与不变速的音频段进行连接，当播放速度变化较大时会出现听感上的突兀，不利于用户体验。因此，在本公开的示例性实施方式中，可通过在需要变速的音频段与不变速的音频段之间采用过渡段衔接的方式，来实现不同播放速度的音频段之间的顺滑衔接。
114.从而，在本公开的一示例性实施方式中，对原始音频中对应的音频段进行变速处理，具体可包括：确定目标音频类型对应的音频段和播放速度不同的相邻音频段；基于变速不变调算法，对目标音频类型对应的音频段进行变速处理；以及，对播放速度不同的相邻音频段进行过渡处理。
115.在一个具体示例中，例如用户指定对原始音频中的人声部分进行2倍速加速处理，而音乐部分的播放速度保持不变(本示例假设原始音频中包含仅含有音乐的音频类型和仅含有人声的音频类型两种音频类型的音频段)。则确定的目标音频类型对应的音频段即为人声音频段，播放速度不同的相邻音频段即为相邻的人声音频段和音乐音频段。进行变速处理时，除需要基于变速不变调算法对人声音频段进行变速处理外，同时还需要对相邻的人声音频段和音乐音频段进行过渡处理。
116.在本公开的示例性实施方式中，对播放速度不同的相邻音频段进行过渡处理，具体可包括：确定每组相邻音频段相衔接的过渡段；根据每组相邻音频段的播放速度差，对对应的过渡段进行分段和播放速度渐变处理，使每个过渡段的首段的播放速度等于对应组的相邻音频段的前一音频段的播放速度、每个过渡段的尾段的播放速度等于对应组的相邻音频段的后一音频段的播放速度，且每个过渡段的相邻两段的播放速度差相等。
117.图7示出根据本公开一种实施方式的对播放速度不同的相邻音频段进行过渡处理的示意，参照图7所示，以一组播放速度不同的相邻音频段(包括前一音频段510和后一音频段520)为例，通过对过渡段采用更细的分段变速法，每小段的变化速度由前后两音频段的速率确定，来实现通过过渡段顺滑衔接播放速度不同的相邻音频段。
118.本示例中，假设前一音频段510的播放速度(目标播放速度)为l1，后一音频段520的播放速度(初始播放速度)为l2。确定过渡段时，按等时长分别取前一音频段510的一定时长片段和后一音频段520的一定时长片段，组成过渡段500。对过渡段500进行分段时，可将过渡段500细化分成10段(或其他合适的段数)。对过渡段500进行播放速度渐变处理时，使过渡段500的第一段seg1的播放速度等于前一音频段510的播放速度l1，最后一段seg
10
的播放速度等于后一音频段520的播放速度l2，且中间每段seg(x)的播放速度按照如下等差公式计算获得：
[0119][0120]
其中，seg(x)表示第x段的播放速度。从而，能够实现过渡段500的相邻两段的播放
速度差相等，进而实现通过过渡段500顺滑衔接播放速度不同的前一音频段510和后一音频段520，提升用户的听感体验。
[0121]
综上，本公开上述实施例描述的音频处理方法，能够实现自原始音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理；并且，本公开上述实施例描述的音频处理方法，还能够智能地对原始音频中指定类型的音频段进行变速处理，不同用户能够根据需求指定不同类型音频段的不同播放速度，实现原始音频的分段变速效果，提升用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的竞争力。
[0122]
示例性装置
[0123]
在介绍了本公开示例性实施方式的音频处理方法之后，下文中将结合图8对本公开示例性实施方式的音频处理装置进行描述。
[0124]
本公开实施例提供的音频处理装置，可用于实现上述对应实施例描述的音频处理方法。上述任意实施例描述的音频处理方法的特征和原理均可应用至下面对应的音频处理装置实施例。在下面的音频处理装置实施例中，对已经阐明的关于音频处理的特征和原理不再重复说明。
[0125]
参照图8所示，本公开示例性实施方式的音频处理装置600可以包括特征提取模块610、概率预测模块620和音频分段模块630。
[0126]
特征提取模块610可用于提取原始音频的每个音频帧的声学特征；概率预测模块620可用于将声学特征输入神经网络模型，获得原始音频的各音频帧属于每种音频类型的概率序列；其中，神经网络模型用于预测每个音频帧属于各种音频类型的概率；音频分段模块630可用于根据概率序列对原始音频进行分段，获得原始音频中属于对应的音频类型的音频段。
[0127]
从而，上述的音频处理装置600能够实现自原始音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理，以提升用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的竞争力。
[0128]
根据本公开示例性实施例，各种音频类型可以包括：仅含有音乐的音频类型、仅含有人声的音频类型和同时含有音乐和人声的音频类型；其中，含有人声的音频类型可以包括：仅含有说话人声的音频类型和仅含有唱歌人声的音频类型。
[0129]
根据本公开示例性实施例，特征提取模块610可以包括：参数确定模块，用于沿时序方向，确定特征提取窗口的窗长和移动步长，移动步长小于窗长；特征获取模块，用于对每个音频帧，采用特征提取窗口进行特征提取，以获得每个音频帧的声学特征。
[0130]
根据本公开示例性实施例，每个音频帧的声学特征由多维的特征向量表征；特征提取模块610之后，还可以包括：特征规整模块，用于对声学特征进行规整，使规整后的声学特征的每个维度的特征向量数据的均值为零。
[0131]
根据本公开示例性实施例，特征规整模块可以包括：窗长确定模块，用于确定单位帧数；矩阵生成模块，用于自原始音频的第一个音频帧起，以每单位帧数个音频帧为一组，根据每组音频帧对应的声学特征生成一个特征向量矩阵；矩阵规整模块，用于在每个特征向量矩阵中，对每个维度的特征向量数据进行规整，使规整后的特征向量矩阵的每个维度的特征向量数据的均值为零。
[0132]
根据本公开示例性实施例，神经网络模型可以包括：编码器模块，用于对输入的每个音频帧的声学特征进行编码处理，输出编码后的第一特征；注意力模块，与编码器模块连接，用于对第一特征进行加权处理，输出第二特征；全连接层，与注意力模块连接，用于对第二特征进行预测处理，输出每个音频帧属于各种音频类型的概率。
[0133]
根据本公开示例性实施例，编码器模块可以包括一标准卷积层和多个深度可分离卷积层，多个深度可分离卷积层依次连接于标准卷积层之后；每个深度可分离卷积层可以包括依次相连的深度卷积层、第一批正则化层、点态卷积层和第二批正则化层。
[0134]
根据本公开示例性实施例，编码器模块还可以包括各自连接于多个深度可分离卷积层之后的基于时间维度的最大池化层和基于频率维度的最大池化层；注意力模块可以包括基于时间维度的注意力层和基于频率维度的注意力层，基于时间维度的注意力层连接于基于时间维度的最大池化层之后，基于频率维度的注意力层连接于基于频率维度的最大池化层之后，且基于时间维度的注意力层和基于频率维度的注意力层各自连接全连接层。
[0135]
根据本公开示例性实施例，音频分段模块630可以包括：平滑处理模块，用于对每种音频类型下的概率序列进行平滑处理；候选段确定模块，用于基于对应于每种音频类型的概率的预设阈值，根据平滑处理后的概率序列确定每种音频类型下的候选段；候选段处理模块，用于对每种音频类型下的候选段，合并间隔小于间隔阈值的相邻候选段，并剔除长度小于长度阈值的候选段；分段处理模块，用于根据每种音频类型下经过合并和剔除后剩余的候选段，对原始音频进行分段。
[0136]
根据本公开示例性实施例，平滑处理模块可以包括：移动平均模块，用于基于移动平均法，对每种音频类型下的概率序列进行平滑处理。
[0137]
根据本公开示例性实施例，候选段确定模块可以包括：遍历处理模块，用于根据对应于一当前音频类型的当前概率的预设阈值，遍历当前音频类型下的平滑处理后的概率序列，获得目标概率值组，每组目标概率值组由连续预定数量的大于当前概率的预设阈值的概率值组成；帧确定模块，用于根据每组目标概率值组对应的起止帧，确定当前音频类型下的候选段。
[0138]
根据本公开示例性实施例，音频分段模块630之后，还可以包括：变速处理模块，用于在原始音频的初始播放速度不同于目标播放速度的情况下，根据目标音频类型的目标播放速度，对原始音频中对应的音频段进行变速处理。
[0139]
根据本公开示例性实施例，变速处理模块可以包括：音频段确定模块，用于确定目标音频类型对应的音频段和播放速度不同的相邻音频段；变速不变调模块，用于基于变速不变调算法，对目标音频类型对应的音频段进行变速处理；以及，过渡处理模块，用于对播放速度不同的相邻音频段进行过渡处理。
[0140]
根据本公开示例性实施例，过渡处理模块可以包括：过渡段确定模块，用于确定每组相邻音频段相衔接的过渡段；过渡段处理模块，用于根据每组相邻音频段的播放速度差，对对应的过渡段进行分段和播放速度渐变处理，使每个过渡段的首段的播放速度等于对应组的相邻音频段的前一音频段的播放速度、每个过渡段的尾段的播放速度等于对应组的相邻音频段的后一音频段的播放速度，且每个过渡段的相邻两段的播放速度差相等。
[0141]
本公开上述实施方式的音频处理装置的各个功能模块与本公开的已详细描述的音频处理方法的实施方式的原理和特征相同，各个功能模块的具体特征和原理可参照上述
各音频处理方法实施例的描述，此处不再重复说明。
[0142]
综上，本公开示例性实施方式提供的音频处理装置，能够实现自原始音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理；并且，还能够智能地对原始音频中指定类型的音频段进行变速处理，不同用户能够根据需求指定不同类型音频段的不同播放速度，实现原始音频的分段变速效果，提升用户的使用体验，满足用户的个性化使用需求，并提高音频消费应用程序的竞争力。
[0143]
示例性存储介质
[0144]
在介绍了本公开示例性实施方式的音频处理方法和装置之后，接下来，参照图9对本公开示例性实施方式的存储介质进行说明。
[0145]
参照图9所示，描述了根据本公开的实施方式的用于实现上述的音频处理方法的存储介质900，其可以采用便携式紧凑盘只读存储器(cd-rom)且包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的存储介质不限于此，在本文件中，存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0146]
存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0147]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0148]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0149]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，如java、c++等，还包括常规的过程式程序设计语言，如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0150]
示例性电子设备
[0151]
在介绍了本公开示例性实施方式的存储介质之后，接下来，参照图10对本公开示例性实施方式的电子设备进行说明。
[0152]
图10显示的电子设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0153]
如图10所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
[0154]
其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述示例性方法部分描述的根据本公开各种示例性实施方式的音频处理方法的步骤。例如，处理单元810可以执行如图1中所示的步骤。
[0155]
存储单元820可以包括易失性存储单元，例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(rom)8203。
[0156]
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0157]
总线830可以包括数据总线、地址总线和控制总线。
[0158]
电子设备800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(i/o)接口850进行。电子设备800还包括显示单元840，其连接到输入/输出(i/o)接口850，用于进行显示。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其他模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0159]
应当注意，尽管在上文详细描述中提及了音频处理装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0160]
此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0161]
虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘颂声曹偲刘华平赵翔宇李鹏
技术所有人：杭州网易云音乐科技有限公司
我是此专利的发明人