利用音频判别模型对音频进行判别的判别设备及存储介质

文档序号：29814944发布日期：2022-04-27 09:49阅读：94来源：国知局

1.本说明书涉及音频处理技术领域，尤其涉及一种利用音频判别模型对音频进行判别的判别设备及存储介质。

背景技术：

2.人在生病时一般常会伴随咳嗽的症状，而由于不同疾病产生病变的部位不同，继而由不同疾病造成的咳嗽声(咳嗽音频)也会产生不同，即其携带的信息存在不同。在一些场景中，可以通过病人的咳嗽声确定出病人产生病变的部位，即确定出咳嗽声中携带的相关信息，进而确定病人的疾病类型。
3.考虑到新型冠状肺炎携带者病变部位的特殊性，其携带者的咳嗽音与普通病患的咳嗽音存在较大区别，即所携带的信息存在较大区别。那么，如何提供一种对咳嗽音频所携带信息进行准确判别的方法成为亟待解决的问题。

技术实现要素：

4.本说明书一个或多个实施例提供了一种利用音频判别模型对音频进行判别的判别设备及存储介质，以实现对咳嗽音频携带指定肺炎信息的概率的判别。
5.根据第一方面，提供一种利用音频判别模型对音频进行判别的判别设备，用于判别咳嗽音频携带指定肺炎信息的概率，所述音频判别模型包括频域特征提取层、时序特征提取层及分类层，所述设备包括：
6.第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征；
7.第一划分模块，配置为对所述目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征；
8.频域特征提取模块，配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征；
9.时序特征提取模块，配置为将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征；
10.分类模块，配置为将所述第一频域特征和第二频域特征，及所述第一时序特征和第二时序特征输入分类层，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
11.在一种可实施方式中，所述第一预处理模块，具体配置为从采集的音频中检测出咳嗽音频，作为所述待判别咳嗽音频；
12.对所述待判别咳嗽音频进行特征提取，得到初始梅尔谱特征；
13.对所述初始梅尔谱特征进行预设加权处理，得到所述目标梅尔谱特征，其中，所述预设加权处理用于，增强所述初始梅尔谱特征中处于所述预设低频段的特征。
14.在一种可实施方式中，所述分类模块，包括：
15.第一融合单元，配置为融合所述第一频域特征和所述第一时序特征，得到第一融合特征；
16.第二融合单元，配置为融合所述第二频域特征和所述第二时序特征，得到第二融合特征；
17.拼接单元，配置为对所述第一融合特征以及所述第二融合特征进行拼接，得到拼接融合特征；
18.分类单元，配置为将所述拼接融合特征输入所述分类层，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
19.在一种可实施方式中，所述处于预设非低频段的第二梅尔谱特征包括，处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征；
20.所述第二频域特征包括：处于所述预设中频段的第三频域特征和处于所述预设高频段的第四频域特征；所述第二时序特征包括：处于所述预设中频段的第三时序特征和处于所述预设高频段的第四时序特征；
21.所述第二融合单元，具体配置为融合所述第三频域特征和所述第三时序特征，得到第三融合特征；
22.融合所述第四频域特征和所述第四时序特征，得到第四融合特征；
23.所述拼接单元，具体配置为对所述第一融合特征、所述第三融合特征以及所述第四融合特征进行拼接，得到拼接融合特征。
24.在一种可实施方式中，所述分类层包括：第一全连接层和第二全连接层，所述第一全连接层包括第一线性变换和第一激活函数，所述第二全连接层包括第二激活函数；
25.所述分类单元，具体配置为将所述拼接融合特征输入第一全连接层，以使得所述第一全连接层对所述拼接融合特征进行第一线性变换，得到第一线性变换结果；利用第一激活函数和所述第一线性变换结果，确定中间特征；
26.将所述中间特征输入所述第二全连接层，以使得所述第二全连接层利用第二激活函数和所述中间特征，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
27.在一种可实施方式中，所述频域特征提取层包括：预设低频段对应的第一残差网络，预设非低频段对应的第二残差网络；
28.所述频域特征提取模块，具体配置为将所述第一梅尔谱特征输入所述第一残差网络，得到所述第一频域特征；将所述第二梅尔谱特征输入所述第二残差网络，得到所述第二频域特征。
29.在一种可实施方式中，所述时序特征提取层包括：预设低频段对应的第一双向长短时记忆网络，预设非低频段对应的第二双向长短时记忆网络；
30.所述时序特征提取模块，具体配置为将所述第一梅尔谱特征输入所述第一双向长短时记忆网络，得到所述第一时序特征；将所述第二梅尔谱特征输入所述第二双向长短时记忆网络，得到所述第二时序特征。
31.根据第二方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行利用音频判别模型对音频进行判别的方法，用于判别咳嗽音频携带指定肺炎信息的概率，所述音频判别模型包括频域特征提取层、时序特征提取层以及分类层，所述方法包括：
32.对待判别咳嗽音频进行处理，得到目标梅尔谱特征；
33.对所述目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征；
34.将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征；
35.将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征；
36.将所述第一频域特征和第二频域特征，及所述第一时序特征和第二时序特征输入分类层，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
37.在一种可实施方式中，所述得到所述待判别咳嗽音频携带指定肺炎信息的概率，包括：
38.融合所述第一频域特征和所述第一时序特征，得到第一融合特征；
39.融合所述第二频域特征和所述第二时序特征，得到第二融合特征；
40.对所述第一融合特征以及所述第二融合特征进行拼接，得到拼接融合特征；
41.基于所述拼接融合特征，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
42.根据本说明书实施例提供的利用音频判别模型对音频进行判别的判别设备及存储介质，首先，第一划分模块划分待判别咳嗽音频的目标梅尔谱特征，得到处于预设低频段的第一梅尔谱特征和处于预设非低频段的第二梅尔谱特征；接着，频域特征提取模块将其两者输入频域特征提取层，以从其两者中分别提取出包含预设低频段的局部信息的第一频域特征，和包含预设非低频段的局部信息的第二频域特征，以体现出待判别咳嗽音频在不同频段的局部信息的不同；且时序特征提取模块将第一梅尔谱特征和第二梅尔谱特征输入时序特征提取层，以得到包含预设低频段的时序信息的第一时序特征和包含预设非低频段的时序信息的第二时序特征，以体现出待判别咳嗽音频在不同频段的时序信息的不同。进而分类模块将第一频域特征、第二频域特征、第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率，实现对咳嗽音频携带指定肺炎信息的概率的判别。
附图说明
43.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1为本说明书披露的一个实施例的实施框架示意图；
45.图2(a)和图2(b)分别为实施例提供的携带指定肺炎信息的咳嗽音频和不携带指定肺炎信息的咳嗽音频的示例图；
46.图3(a)和图3(b)分别为实施例提供的携带指定肺炎信息的咳嗽音频和不携带指定肺炎信息的咳嗽音频的频谱特征的示意图；
47.图4为实施例提供的判别设备的一种示意性框图；
48.图5a为实施例提供的判别设备的另一种示意性框图；
49.图5b为音频判别模型的一种示意性框图；
50.图6为实施例提供的存储介质的一种示意性框图。
具体实施方式
51.下面将结合附图，详细描述本说明书实施例的技术方案。
52.如前所述，不同疾病产生病变的部位不同，继而由不同疾病造成的咳嗽声(即咳嗽音频)也会产生不同，即咳嗽音频携带的信息不同。考虑到新型冠状肺炎携带者病变部位的特殊性，其携带者的咳嗽音与普通病患的咳嗽音存在较大区别，即相应的咳嗽音频携带的信息存在较大区别。
53.鉴于此，发明人提出一种利用音频判别模型对音频进行判别的判别设备，用于判别咳嗽音频携带指定肺炎信息的概率，其中，该指定肺炎信息可以是新型冠状肺炎的相关信息，图1示出根据本说明书披露的一个实施例的实施框架示意图。如图1所示，音频判别模型包括频域特征提取层、时序特征提取层及分类层，其中，音频判别模型，预先基于多个样本咳嗽音频及各样本咳嗽音频对应的标签概率训练所得，其中，标签概率表征所对应样本咳嗽音频携带指定肺炎信息的概率。一种情况中，标签概率可以为0或1，其中，0表示所对应样本咳嗽音频携带非指定肺炎信息，即不携带指定肺炎信息，1表示所对应样本咳嗽音频携带指定肺炎信息。
54.判别设备包括：第一预处理模块、第一划分模块、频域特征提取模块、时序特征提取模块以及分类模块。
55.通过对大量携带指定肺炎信息的咳嗽音频(后续称第一类咳嗽音频)，以及携带非指定肺炎信息的咳嗽音频(后续称第二类咳嗽音频)的检测，发现第一类咳嗽音频相对于第二类咳嗽音频存在特殊之处，具体例如：如图2(a)和图2(b)所示，携带指定肺炎信息的咳嗽音频(图2(b))的持续时序时长通常大于携带非指定肺炎信息的咳嗽音频(图2(a))，且在携带指定肺炎信息的咳嗽音频的末尾部分(即产生该咳嗽音频的人员在一次咳嗽将结束时)有较长的尾波；并且，如图3(b)(与图2(b)所示咳嗽音频对应)所示，携带指定肺炎信息的咳嗽音频的频谱特征图中显示，其在低频区域具有较高的能量和较为明显的谐波结构；而如图3(a)(与图2(a)所示咳嗽音频对应)所示，携带非指定肺炎信息的咳嗽音频的频谱特征图中显示，其在高频区域包含相对更多的信息。
56.鉴于上述的第一类咳嗽音频与第二类咳嗽音频之间的区别，如图1所示，首先第一预处理模块，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征。第一划分模块，配置为对目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征，其中，该第一梅尔谱特征包括待判别咳嗽音频在预设低频段的相关信息，该第二梅尔谱特征包括待判别咳嗽音频在预设非低频段的相关信息。
57.频域特征提取模块，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，以通过频域特征提取层分别对第一梅尔谱特征和第二梅尔谱特征进行频域特征提取，得到包含待判别咳嗽音频在预设低频段的局部信息的第一频域特征，以及包含待判别咳嗽音频在预设非低频段的局部信息的第二频域特征。时序特征提取模块，配置为将第一
梅尔谱特征以及第二梅尔谱特征输入时序特征提取层，以通过时序特征提取层分别对第一梅尔谱特征和第二梅尔谱特征进行时序特征提取，得到包含待判别咳嗽音频在预设低频段的时序信息的第一时序特征，以及包含待判别咳嗽音频在预设非低频段的时序信息的第二时序特征。分类模块，配置为将第一频域特征和第二频域特征，及第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。
58.本实施例中，判别设备利用音频判别模型，分别对第一梅尔谱特征和第二梅尔谱特征进行频域特征提取和时序特征提取，进而对所提取的第一频域特征(包含待判别咳嗽音频在预设低频段的局部信息)、第一时序特征(包含待判别咳嗽音频在预设低频段的时序信息)、第二频域特征(包含待判别咳嗽音频在预设非低频段的局部信息)和第二时序特征(包含待判别咳嗽音频在预设非低频段的时序信息)进行分类，得到待判别咳嗽音频携带指定肺炎信息的概率。以基于携带指定肺炎信息的咳嗽音频与携带非指定肺炎信息之间的区别，即其两者在不同频段的局部信息以及时序信息，实现对待判别咳嗽音频携带指定肺炎信息的概率的判别。
59.下面结合具体实施例，对本说明书提供的判别设备进行详细阐述。
60.图4示出了本说明书一个实施例中利用音频判别模型对音频进行判别的判别设备的示意性框图。该判别设备400可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。该判别设备400用于判别咳嗽音频携带指定肺炎信息的概率，该音频判别模型包括频域特征提取层、时序特征提取层及分类层。其中，该音频判别模型可以设置于该判别设备中，也可以设置于不同于判别设备的其他设备中。该判别设备400包括：
61.第一预处理模块410，配置为对待判别咳嗽音频进行处理，得到目标梅尔谱特征。
62.一种情况中，在针对待判别咳嗽音频进行采集时，所采集的音频中可能包含很多噪音或者其他与咳嗽音无关的声音。相应的，为了保证判别结果的准确性，可以首先从采集的音频中检测并提取出咳嗽音频，以得到待判别咳嗽音频。
63.为了更好的利用第一类咳嗽音频，相对于第二类咳嗽音频的独有特征，基于上述两类咳嗽音频在时序和频域的不同，本说明书实施例提供了一种预设加权处理，以确定频带加权的梅尔谱特征即频带加权的mfcc(mel frequency cepstrum coefficient，mfcc)特征，即给予不同频带(频段)的mfcc特征不同的权重，以增强其中处于低频段的特征，使得音频判别模型可以更好的从频带加权的梅尔谱特征(即目标梅尔谱特征)中，提取得到有助于判别咳嗽音频携带指定肺炎信息的概率的信息。
64.相应的，在一种实现中，第一预处理模块410，具体配置为从采集的音频中检测出咳嗽音频，作为待判别咳嗽音频；
65.对待判别咳嗽音频进行特征提取，得到初始梅尔谱特征；
66.对初始梅尔谱特征进行预设加权处理，得到目标梅尔谱特征，其中，预设加权处理用于，增强初始梅尔谱特征中处于预设低频段的特征。
67.其中，一种实现中，上述得到初始梅尔谱特征的过程，可以是，对待判别咳嗽音频进行预加重，以对其中的高频分量进行补偿，得到对应的加重音频；对加重音频进行分帧，得到对应的子咳嗽音频，其中，为了保证分帧后的子咳嗽音频的连续性，分帧之后的相邻的子咳嗽音频之间存在重合；针对每一子咳嗽音频进行加窗，其中，该窗可以为汉明窗；对每一加窗后的子咳嗽音频进行快速傅里叶变换，得到每一加窗后的子咳嗽音频的频谱，对每
一加窗后的子咳嗽音频的频谱对应的值进行平方，得到每一加窗后的子音频的能量谱；将每一加窗后的子咳嗽音频的能量谱，输入梅尔滤波器，得到每一加窗后的子咳嗽音频对应的梅尔谱特征，即得到初始梅尔谱特征。其中，梅尔滤波器可以设置有多个，例如为n，相应的，每一加窗后的子咳嗽音频对应的梅尔谱特征为n维的梅尔谱特征。
68.后续的，第一预处理模块410可以通过预设加权公式，对各子咳嗽音频对应的梅尔谱特征进行预设加权处理，得到目标梅尔谱特征，其中，该预设加权公式可以为基于质数分布的加权公式。一种情况中，该预设加权公式可以表示为：
[0069][0070]
其中，xi表示第i个子咳嗽音频对应的梅尔谱特征，yi表示目标梅尔谱特征中第i个子咳嗽音频对应的预设加权处理后的梅尔谱特征，λi基于第i个子咳嗽音频对应的梅尔谱特征中各维梅尔谱特征对应的特征值确定。
[0071]
可以理解的，第i个子咳嗽音频对应的梅尔谱特征为n维的梅尔谱特征，可以将其前n/3维的梅尔谱特征作为处于预设低频段的特征，将其后2n/3维的梅尔谱特征作为处于预设非低频段的特征，其中，λi可以包括两个，分别为：对应预设低频段的特征的λ
i1
和对应预设非低频段的特征的λ
i2
，λ
i1
等于前n/3维的梅尔谱特征对应的特征值之和，与第i个子咳嗽音频对应的梅尔谱特征对应的总特征值之和的比值；λ
i2
等于后2n/3维的梅尔谱特征对应的特征值之和与上述总特征值之和的比值。相应的，上述公式可以具体理解为：xi的前n/3维的梅尔谱特征对应的特征值分别与的乘积，作为yi的前n/3维的梅尔谱特征对应的特征值，xi的后2n/3维的梅尔谱特征对应的特征值分别与的乘积，作为yi的后2n/3维的梅尔谱特征对应的特征值。
[0072]
在另一种实现中，预设非低频段包括预设中频段和预设高频段，即第i个子咳嗽音频对应的梅尔谱特征为n维的梅尔谱特征中，中间n/3维的梅尔谱特征作为处于预设中频段的特征，且后n/3维的梅尔谱特征作为处于预设高频段的特征。此种情况下，λi可以包括三个，分别为对应预设低频段的特征的λ
i1
、对应预设中频段的特征的λ
i21
和对应预设高频段的特征的λ
i22
，其中，λ
i21
和λ
i22
的具体计算过程可以参见上述λ
i1
的计算过程，在此不再赘述。相应的，xi的中间n/3维的梅尔谱特征对应的特征值分别与的乘积，作为yi的中间n/3维的梅尔谱特征对应的特征值；xi的后n/3维的梅尔谱特征对应的特征值分别与的乘积，作为yi的后n/3维的梅尔谱特征对应的特征值。
[0073]
得到目标梅尔谱特征之后，第一划分模块420，配置为对目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征。其中，预设非低频段可以包括预设中频段和预设高频段。
[0074]
频域特征提取模块430，配置为将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，得到包含待判别咳嗽音频在预设低频段的局部信息的第一频域特征，以及包含待判别咳嗽音频在预设非低频段的局部信息的第二频域特征。
[0075]
可以理解的是，音频判别模型预先基于多个样本咳嗽音频及各样本咳嗽音频对应的标签概率训练所得，即其所包括的频域特征提取层、时序特征提取层以及分类层是预先训练所得的。频域特征提取层可以针对输入数据提取其中所包含的频域特征。相应的，频域特征提取模块430将第一梅尔谱特征以及第二梅尔谱特征输入频域特征提取层，频域特征
提取层可以分别从第一梅尔谱特征中提取出其中的预设低频段的局部信息，得到包含待判别咳嗽音频在预设低频段的局部信息的第一频域特征，从第二梅尔谱特征中提取出其中的预设非低频段的局部信息，得到包含待判别咳嗽音频在预设非低频段的局部信息的第二频域特征。
[0076]
时序特征提取模块440，配置为将第一梅尔谱特征以及第二梅尔谱特征输入时序特征提取层，得到包含待判别咳嗽音频在预设低频段的时序信息的第一时序特征，以及包含待判别咳嗽音频在预设非低频段的时序信息的第二时序特征。其中，时序特征提取层可以针对输入数据提取其中所包含的时序特征，相应的，时序特征提取模块440将第一梅尔谱特征以及第二梅尔谱特征输入时序特征提取层，时序特征提取层分别从第一梅尔谱特征中提取出其中的预设低频段的时序信息，得到包含待判别咳嗽音频在预设低频段的时序信息的第一时序特征，从第二梅尔谱特征中提取出其中的预设非低频段的时序信息，得到包含待判别咳嗽音频在预设非低频段的时序信息的第二时序特征。
[0077]
分类模块450，配置为将第一频域特征和第二频域特征，及第一时序特征和第二时序特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。
[0078]
在一种实现方式中，分类模块450包括：
[0079]
第一融合单元，配置为融合第一频域特征和第一时序特征，得到第一融合特征。
[0080]
第二融合单元，配置为融合第二频域特征和第二时序特征，得到第二融合特征。
[0081]
拼接单元，配置为对第一融合特征以及第二融合特征进行拼接，得到拼接融合特征。
[0082]
分类单元，配置为将拼接融合特征输入分类层，得到待判别咳嗽音频携带指定肺炎信息的概率。
[0083]
其中，该融合可以指，对相应的频域特征和时序特征进行拼接或者点乘或者加和。
[0084]
在另一种实现中，分类模块450还可以直接将第一频域特征和第二频域特征，及第一时序特征和第二时序特征输入分类层，相应的，分类层对第一频域特征和第一时序特征进行融合，得到第一融合特征；对第二频域特征和第二时序特征进行融合，得到第二融合特征；并拼接第一融合特征和第二融合特征，得到拼接融合特征，进而对拼接融合特征进行处理，得到待判别咳嗽音频携带指定肺炎信息的概率。
[0085]
在一种情况中，为了更好的利用待判别咳嗽音频各频段的信息，保证判别结果的准确性，第一划分模块对目标梅尔谱特征进行划分时，可以继续将处于预设非低频段的第二梅尔谱特征划分为，处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征。相应的，第二频域特征包括：处于预设中频段的第三频域特征和处于预设高频段的第四频域特征，其中，第三频域特征包含待判别咳嗽音频在预设中频段的局部信息，第四频域特征包含待判别咳嗽音频在预设高频段的局部信息；
[0086]
第二时序特征包括：处于预设中频段的第三时序特征和处于预设高频段的第四时序特征，其中，第三时序特征包含待判别咳嗽音频在预设中频段的时序信息，第四时序特征包含待判别咳嗽音频在预设高频段的时序信息；
[0087]
第二融合单元，具体配置为融合第三频域特征和第三时序特征，得到包含待判别咳嗽音频在预设中频段的局部信息和时序信息的第三融合特征；融合第四频域特征和第四时序特征，得到包含待判别咳嗽音频在预设高频段的局部信息和时序信息的第四融合特
征。
[0088]
并且，拼接单元，具体配置为对第一融合特征、第三融合特征以及第四融合特征进行拼接，得到拼接融合特征。该拼接融合特征包括待判别咳嗽音频在各频段(预设低频段、预设中频段以及预设高频段)的各自融合后的局部信息和时序信息。后续的，分类层可以基于该拼接融合特征得到准确性更高的判别结果。
[0089]
本实施例，判别设备可以利用音频判别模型从待判别咳嗽音频中提取出的各个频段的局部信息和时序信息，进而基于各个频段的局部信息和时序信息，实现对待判别咳嗽音频携带指定肺炎信息的概率的判别，进而实现利用咳嗽音频进行指定肺炎检测的目的。
[0090]
在本说明书的一种实施例中，所述频域特征提取层包括：预设低频段对应的第一残差网络(residual networks，resnets)，预设非低频段对应的第二残差网络；其中，该第一残差网络和第二残差网络并行设置；
[0091]
频域特征提取模块430，具体配置为将第一梅尔谱特征输入第一残差网络，得到第一频域特征；将第二梅尔谱特征输入第二残差网络，得到第二频域特征。
[0092]
其中，第一残差网络和第二残差网络可以均包含若干层残差网络层。通过残差网络(包括第一残差网络和第二残差网络)的残差结构可以更好的提取出待判别咳嗽音频对应的预设低频段和预设非低频段(包括预设中频频和预设高频段)的局部信息，使得其提取的频域特征，主要关注第一类咳嗽音频与第二类咳嗽音频在不同频段的局部信息及其之间的差异性，以使得后续分类层的判别结果的准确性更高。
[0093]
一种实现中，在处于预设非低频段的第二梅尔谱特征包括，处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征的情况下，该第二残差网络包括并行设置的对应预设中频段的第三残差网络和对应预设高频段的第四残差网络，相应的，频域特征提取模块430将第三梅尔谱特征输入第三残差网络，得到包含待判别咳嗽音频在预设中频段的局部信息的第三频域特征，将第四梅尔谱特征输入第四残差网络，得到包含待判别咳嗽音频在预设高频段的局部信息的第四频域特征。
[0094]
在本说明书的一种实施例中，时序特征提取层包括：预设低频段对应的第一双向长短时记忆网络(bi-directional long short-term memory，bi-lstm)，预设非低频段对应的第二双向长短时记忆网络；该第一双向长短时记忆网络和第二双向长短时记忆网络并行设置；
[0095]
时序特征提取模块440，具体配置为将第一梅尔谱特征输入第一双向长短时记忆网络，得到包含待判别咳嗽音在预设低频段的时序信息的第一时序特征；将第二梅尔谱特征输入第二双向长短时记忆网络，得到包含待判别咳嗽音在预设非低频段的时序信息的第二时序特征。
[0096]
其中，第一双向长短时记忆网络和第二双向长短时记忆网络可以均包含若干层双向长短时记忆网络层。第一双向长短时记忆网络和第二双向长短时记忆网络可以分别关注，第一类咳嗽音频与第二类咳嗽音频在不同频段的时序性信息及其之间的差异性，以使得后续分类层的判别结果的准确性更高。
[0097]
一种实现中，在处于预设非低频段的第二梅尔谱特征包括，处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征的情况下，该第二双向长短时记忆网络包括，并行设置的对应预设中频段的第三双向长短时记忆网络和对应预设高频段的第四双
向长短时记忆网络。相应的，时序特征提取模块440将第三梅尔谱特征输入第三双向长短时记忆网络，得到包含待判别咳嗽音频在预设中频段的时序信息的第三时序特征，将第四梅尔谱特征输入第四双向长短时记忆网络，得到包含待判别咳嗽音频在预设高频段的时序信息的第四时序特征。
[0098]
在本说明书的一种实施例中，分类层包括：第一全连接层和第二全连接层，第一全连接层包括第一线性变换和第一激活函数，第二全连接层包括第二激活函数；
[0099]
分类单元，具体配置为将拼接融合特征输入第一全连接层，以使得第一全连接层对拼接融合特征进行第一线性变换，得到第一线性变换结果；利用第一激活函数和第一线性变换结果，确定中间特征；将中间特征输入第二全连接层，以使得第二全连接层利用第二激活函数和中间特征，得到待判别咳嗽音频携带指定肺炎信息的概率。
[0100]
可理解的是，该拼接融合特征包括待判别咳嗽音频在不同频段对应的信息，分类单元将拼接融合特征输入分类层，即可以通过分类层的第一全连接层和第二全连接层实现对待判别音频的判别，确定其携带指定肺炎信息的概率。具体的，将拼接融合特征输入第一全连接层，以使得第一全连接层对拼接融合特征进行第一线性变换，以得到融合拼接融合特征中不同频段的信息的高维特征，即第一线性变换结果，继而，通过第一激活函数对第一线性变换结果进行激活处理，得到中间特征；将中间特征输入第二全连接层，以使得第二全连接层利用第二激活函数对中间特征进行激活处理，得到待判别咳嗽音频携带指定肺炎信息的概率。
[0101]
其中，第一激活函数可以采用relu函数，relu激活函数表示为：
[0102][0103]
其中，x表示拼接融合特征。
[0104]
第二激活函数可以采用sigmoid函数，sigmoid函数表示为：
[0105][0106]
其中，z表示中间特征。根据sigmoid函数表达式可知，s(z)的值在0-1之间，并且具有很好的对称性，分类层选择sigmoid函数作为激活函数，可以在一定程度上提供分类结果即判别结果的准确性。
[0107]
相应于上述判别设备，在本说明书的一种实施例中，如图5a所示，还提供了另一种利用音频判别模型对音频进行判别的判别设备，用于判别咳嗽音频携带指定肺炎信息的概率，所述音频判别模型包括频域特征提取层、时序特征提取层及分类层，所述设备包括：
[0108]
第二预处理模块，配置为对待判别咳嗽音频进行处理，得到待处理梅尔谱特征；
[0109]
第二划分模块，配置为对所述目标梅尔谱特征进行划分，得到处于预设低频段的第五梅尔谱特征以及处于预设非低频段的第六梅尔谱特征；
[0110]
模型输入模块，配置为将所述第五梅尔谱特征以及所述第六梅尔谱特征输入音频判别模型，以使得所述音频判别模型通过频域特征提取层分别对所述第五梅尔谱特征以及所述第六梅尔谱特征进行频域特征提取，得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第五频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第六频域特征；通过时序特征提取层分别对所述第五梅尔谱特征以及所述第六梅尔谱
特征进行时序特征提取，得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第五时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第六时序特征；通过分类层对所述第五频域特征和第六频域特征，及所述第五时序特征和第六时序特征进行处理，得到所述待判别咳嗽音频携带指定肺炎信息的概率，并将其输出；
[0111]
接收模块，配置为接收所述概率。
[0112]
其中，所述音频判别模型还包括特征融合层；音频判别模型通过特征融合层融合所述第五梅尔谱特征和所述第五时序特征，得到第五融合特征；融合所述第六频域特征和所述第六时序特征，得到第六融合特征；对所述第五融合特征以及所述第六融合特征进行拼接，得到拼接特征；将所述拼接特征输入分类层；相应的，音频判别模型通过分类层对所述拼接特征进行处理，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0113]
其中，第二预处理模块的具体实现过程可以参见上述第一预处理模块410的具体实现过程，第二划分模块的具体实现过程可以参见上述第一划分模块420的具体实现过程，在此不再赘述。该待处理梅尔谱特征可以与前述的目标梅尔谱特征相同，该第五梅尔谱特征可以与前述的第一梅尔谱特征相同，该六梅尔谱特征可以与前述的第二梅尔谱特征相同。
[0114]
可以理解的，处于预设非低频段的第六梅尔谱特征，可以包括：处于预设中频段的第七梅尔谱特征以及处于预设高频段的第八梅尔谱特征。在该类情况下，如图5b所示，为音频判别模型的一种示意性框图。其中，音频判别模型频域特征提取层包括，并行设置的第一残差网络、第三残差网络和第四残差网络。音频判别模型的时序特征提取层包括，并行设置的第一双向长短时记忆网络、第三双向长短时记忆网络和第四双向长短时记忆网络。并且音频判别模型还包括特征融合层，以融合频域特征提取层和时序特征提取层的输出，进而将融合所得的结果(拼接融合特征)输入分类层。
[0115]
如图5b所示，音频判别模型获得模型输入模块输入的第五梅尔谱特征、第七梅尔谱特征以及第八梅尔谱特征之后，通过并行设置的第一残差网络、第三残差网络和第四残差网络，分别对第五梅尔谱特征、第七梅尔谱特征以及第八梅尔谱特征进行频域特征提取，得到对应的第五频域特征、第七频域特征和第八频域特征。
[0116]
并且，音频判别模型通过并行设置的第一双向长短时记忆网络、第三双向长短时记忆网络和第四双向长短时记忆网络，分别对第五梅尔谱特征、第七梅尔谱特征以及第八梅尔谱特征进行时序特征提取，得到对应的第五时序特征、第七时序特征和第八时序特征。
[0117]
接着，音频判别模型通过特征融合层对第五频域特征和第五时序特征进行融合，对第七频域特征和第七时序特征进行融合，对第八频域特征和第八时序特征进行融合；进而对上述三个融合结果进行拼接，得到拼接融合特征。进而音频判别模型通过分类层(设置有第一全连接层和第二全连接层)对拼接融合特征进行处理，得到待判别咳嗽音频携带指定肺炎信息的概率，并将其输出，相应的，判别设备500通过接收模块540获得待判别咳嗽音频携带指定肺炎信息的概率。
[0118]
可以理解的，音频判别模型预先基于多个样本咳嗽音频及其对应的概率标签训练所得。
[0119]
其中，音频判别模型的训练过程，可以是：
[0120]
获得样本咳嗽音频及其对应的概率标签，其中，概率标签表征携带指定肺炎信息
的概率；对样本咳嗽音频进行处理，得到样本咳嗽音频对应的样本梅尔谱特征(具体参见对待判别咳嗽音频的处理过程)；对样本梅尔谱特征进行划分，得到处于预设低频段的第一样本梅尔谱特征和处于预设非低频段的第二样本梅尔谱特征；将第一样本梅尔谱特征及第二样本梅尔谱特征，输入待训练的频域特征提取层，得到各自对应的第一样本频域特征和第二样本频域特征；将第一样本梅尔谱特征及第二样本梅尔谱特征，输入待训练的时序特征提取层，得到各自对应的第一样本时序特征和第二样本时序特征；将第一样本频域特征和第二样本频域特征，及第一样本时序特征和第二样本时序特征输入待训练的分类层，得到样本咳嗽音频携带指定肺炎信息的预测概率；基于概率标签以及预测概率，确定第一损失值；以最小化第一损失值为目标，调整待训练的频域特征提取层、待训练的时序特征提取层以及待训练的分类层的参数，以训练得到音频判别模型。
[0121]
上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。
[0122]
相应于上述判别设备实施例，本说明书实施例，提供了一种计算机可读存储介质600，其示意性框图如图6所示，其上存储有计算机程序610，当所述计算机程序在计算机中执行时，令计算机执行利用音频判别模型对音频进行判别的方法，用于判别咳嗽音频携带指定肺炎信息的概率，所述音频判别模型包括频域特征提取层、时序特征提取层以及分类层，所述方法包括：
[0123]
对待判别咳嗽音频进行处理，得到目标梅尔谱特征；
[0124]
对所述目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处于预设非低频段的第二梅尔谱特征；
[0125]
将所述第一梅尔谱特征以及所述第二梅尔谱特征输入频域特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征；
[0126]
将所述第一梅尔谱特征以及所述第二梅尔谱特征输入时序特征提取层，得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征；
[0127]
将所述第一频域特征和第二频域特征，及所述第一时序特征和第二时序特征输入分类层，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0128]
在一种可实施方式中，所述得到目标梅尔谱特征，包括：
[0129]
对所述待判别咳嗽音频进行特征提取，得到初始梅尔谱特征；
[0130]
对所述初始梅尔谱特征进行预设加权处理，得到所述目标梅尔谱特征，其中，所述预设加权处理用于，增强所述初始梅尔谱特征中处于所述预设低频段的特征。
[0131]
在一种可实施方式中，所述得到所述待判别咳嗽音频携带指定肺炎信息的概率，包括：
[0132]
融合所述第一频域特征和所述第一时序特征，得到第一融合特征；
[0133]
融合所述第二频域特征和所述第二时序特征，得到第二融合特征；
[0134]
对所述第一融合特征以及所述第二融合特征进行拼接，得到拼接融合特征；
[0135]
基于所述拼接融合特征，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0136]
在一种可实施方式中，所述处于预设非低频段的第二梅尔谱特征包括，处于预设中频段的第三梅尔谱特征和处于预设高频段的第四梅尔谱特征；
[0137]
所述第二频域特征包括：处于所述预设中频段的第三频域特征和处于所述预设高频段的第四频域特征；所述第二时序特征包括：处于所述预设中频段的第三时序特征和处于所述预设高频段的第四时序特征；
[0138]
所述得到第二融合特征，包括：
[0139]
融合所述第三频域特征和所述第三时序特征，得到第三融合特征；
[0140]
融合所述第四频域特征和所述第四时序特征，得到第四融合特征；
[0141]
所述得到拼接融合特征，包括：对所述第一融合特征、所述第三融合特征以及所述第四融合特征进行拼接，得到拼接融合特征。
[0142]
在一种可实施方式中，所述分类层包括：第一全连接层和第二全连接层，所述第一全连接层包括第一线性变换和第一激活函数，所述第二全连接层包括第二激活函数；
[0143]
所述对所述第一融合特征、所述第三融合特征以及所述第四融合特征进行拼接，得到拼接融合特征，包括：
[0144]
将所述拼接融合特征输入第一全连接层，以使得所述第一全连接层对所述拼接融合特征进行第一线性变换，得到第一线性变换结果；利用第一激活函数和所述第一线性变换结果，确定中间特征；
[0145]
将所述中间特征输入所述第二全连接层，以使得所述第二全连接层利用第二激活函数和所述中间特征，得到所述待判别咳嗽音频携带指定肺炎信息的概率。
[0146]
在一种可实施方式中，所述频域特征提取层包括：预设低频段对应的第一残差网络，预设非低频段对应的第二残差网络；
[0147]
所述得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第一频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第二频域特征，包括：
[0148]
将所述第一梅尔谱特征输入所述第一残差网络，得到所述第一频域特征；将所述第二梅尔谱特征输入所述第二残差网络，得到所述第二频域特征。
[0149]
在一种可实施方式中，所述时序特征提取层包括：预设低频段对应的第一双向长短时记忆网络，预设非低频段对应的第二双向长短时记忆网络；
[0150]
所述得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第一时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第二时序特征，包括：
[0151]
将所述第一梅尔谱特征输入所述第一双向长短时记忆网络，得到所述第一时序特征；将所述第二梅尔谱特征输入所述第二双向长短时记忆网络，得到所述第二时序特征。
[0152]
相应于上述判别设备实施例，本说明书实施例，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行利用音频判别模型对音频进行判别的方法，用于判别咳嗽音频携带指定肺炎信息的概率，所述音频判别模型包括频域特征提取层、时序特征提取层以及分类层，所述方法包括：
[0153]
对待判别咳嗽音频进行处理，得到目标梅尔谱特征；
[0154]
对所述目标梅尔谱特征进行划分，得到处于预设低频段的第一梅尔谱特征以及处
于预设非低频段的第二梅尔谱特征；
[0155]
将所述第一梅尔谱特征以及所述第二梅尔谱特征输入音频判别模型，以使得所述音频判别模型通过频域特征提取层分别对所述第一梅尔谱特征以及所述第二梅尔谱特征进行频域特征提取，得到包含所述待判别咳嗽音频在所述预设低频段的局部信息的第五频域特征，以及包含所述待判别咳嗽音频在所述预设非低频段的局部信息的第六频域特征；通过时序特征提取层分别对所述第一梅尔谱特征以及所述第二梅尔谱特征进行时序特征提取，得到包含所述待判别咳嗽音频在所述预设低频段的时序信息的第五时序特征，以及包含所述待判别咳嗽音频在所述预设非低频段的时序信息的第六时序特征；通过分类层对所述第五频域特征和第六频域特征，及所述第五时序特征和第六时序特征进行处理，得到所述待判别咳嗽音频携带指定肺炎信息的概率，并将其输出；
[0156]
接收所述概率。
[0157]
上述存储介质实施例与判别设备实施例相对应，具体说明可以参见判别设备实施例部分的描述，此处不再赘述。存储介质实施例是基于对应的判别设备实施例得到，与对应的判别设备实施例具有同样的技术效果，具体说明可参见对应的判别设备实施例。
[0158]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质而言，由于其基本相似于和判别设备实施例，所以描述得比较简单，相关之处参见判别设备实施例的部分说明即可。
[0159]
本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0160]
以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：颜永红张学帅张鹏远
技术所有人：中国科学院声学研究所
我是此专利的发明人

上一篇：一种钢卷座架夹钳的制作方法
上一篇：提高人工核药时效的合成分装极简化运输车的制作方法