语音活动检测模型的训练及检测方法、装置、设备和介质与流程

文档序号:32614345发布日期:2022-12-20 21:00阅读:33来源:国知局
语音活动检测模型的训练及检测方法、装置、设备和介质与流程

1.本技术涉及音频及直播技术领域,特别是涉及一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。


背景技术:

2.语音活动检测(voice activity detection,vad)在实时通信(real-time communication,rtc)领域起着至关重要的作用。它可为语音前端处理算法提供参考,也可为语音数据流传输提供依据。
3.然而,目前技术提供的基于深度学习的语音活动检测方法中,其采用的深度学习模型的检测精确率不足,语音漏判概率较高,难以满足实时通信的需求。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质。
5.第一方面,本技术提供了一种语音活动检测模型的训练方法。所述方法包括:
6.获取纯净语音信号样本;
7.将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
8.针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
9.根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
10.根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
11.利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
12.第二方面,本技术提供了一种语音活动检测方法。所述方法包括:
13.获取待检测语音信号帧;
14.利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;
15.根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
16.第三方面,本技术还提供了一种语音活动检测模型的训练装置。所述装置包括:
17.语音样本获取模块,用于获取纯净语音信号样本;
18.归一化处理模块,用于将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
19.占比获取模块,用于针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
20.标签确定模块,用于根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
21.训练样本获得模块,用于根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
22.模型训练模块,用于利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
23.第四方面,本技术还提供了一种语音活动检测装置。所述装置包括:
24.待检测帧获取模块,用于获取待检测语音信号帧;
25.模型检测模块,用于利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型利用如上所述的语音活动检测模型的训练装置训练得到;
26.结果获得模块,用于根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
27.第五方面,本技术还提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
28.获取纯净语音信号样本;将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
29.第六方面,本技术还提供了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
30.获取待检测语音信号帧;利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
31.第七方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
32.获取纯净语音信号样本;将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
33.第八方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
34.获取待检测语音信号帧;利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型根据如上所述的语音活动检测模型的训练方法训练得到;根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
35.上述语音活动检测模型的训练方法、语音活动检测方法、装置、电子设备和计算机可读存储介质,将纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取该多个纯净语音信号帧样本各自对应的对数能量的归一化值,针对每一纯净语音信号帧样本,根据多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比,该第一纯净语音信号帧样本为对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本,根据该占比确定纯净语音信号帧样本对应的语音活动检测标签,根据纯净语音信号帧样本和预设噪声信号得到携带噪声的语音信号帧样本,利用该携带噪声的语音信号帧样本和前述语音活动检测标签对待训练的语音活动检测模型进行训练。该方案根据纯净的语音信号来制作标签,通过分帧将纯净的语音信号分为若干语音信号帧,然后基于信号能量准确得出每个语音信号帧的语音活动检测标签,还将语音信号帧与噪声按照一定比例进行混合得到携带噪声的语音信号帧以适应实际的噪声环境,最后用该携带噪声的语音信号帧和前述语音活动检测标签对待训练的语音活动检测模型进行训练,以获得检测精确率高的语音活动检测模型,提高语音活动检测模型的检测精确率,降低语音漏判概率,使其满足实时通信的需求。
附图说明
36.图1为本技术实施例中相关方法的应用环境图;
37.图2为本技术实施例中语音活动检测模型的训练方法的流程示意图;
38.图3为本技术实施例中确定语音活动检测标签的步骤的流程示意图;
39.图4为本技术实施例中语音活动检测模型训练的步骤的流程示意图;
40.图5为本技术实施例中语音活动检测模型的示意图;
41.图6为本技术实施例中门控二维卷积层的示意图;
42.图7为本技术实施例中语音活动检测方法的流程示意图;
43.图8为本技术实施例中语音活动检测模型的训练装置的结构框图;
44.图9为本技术实施例中语音活动检测装置的结构框图;
45.图10为本技术实施例中电子设备的内部结构图;
46.图11为本技术另一实施例中电子设备的内部结构图。
具体实施方式
47.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
48.本技术实施例提供的语音活动检测模型的训练方法和语音活动检测方法可以应用于如图1所示的应用环境中,该应用环境可以包括终端和服务器,其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,终端可以通过互联网与服务器进行通信。具体的,本技术实施例提供的语音活动检测模型的训练方法可以由服务器来执行,本技术实施例提供的语音活动检测方法可以应用于终端,其中,服务器根据本技术的语音活动检测模型的训练方法对待训练的语音活动检测模型进行训练得到经训练的语音活动检测模型,然后服务器可以将该经训练的语音活动检测模型发送至终端进行存储,终端可以在音频传输中应用该经训练的语音活动检测模型进行语音活动检测从而准确判断是否传输相应的语音信号帧,从而准确有效地减少传输带宽,降低业务流量。
49.以下结合各实施例及相应附图对本技术提供的语音活动检测模型的训练方法和语音活动检测方法进行依次说明。
50.在一个实施例中,如图2所示,提供了一种语音活动检测模型的训练方法,该方法可以包括以下步骤:
51.步骤s201,获取纯净语音信号样本。
52.步骤s202,将纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取多个纯净语音信号帧样本各自对应的对数能量的归一化值。
53.步骤s201和步骤s202是对纯净语音信号样本进行处理的相关步骤。其中,在步骤s201中先获取纯净语音信号样本,而在对待训练的语音活动检测模型进行训练时需要对应的语音活动检测标签,该语音活动检测标签可以是二元值即0或1,其中,0可以表示非语音,1可以表示语音,该纯净语音信号样本是不含噪声的语音时域信号,在后续步骤中将根据纯净的语音信号即该纯净语音信号样本来制作语音活动检测标签。具体的,在步骤s202中,首先通过分帧将该纯净语音信号样本分为多帧,记为得到多个纯净语音信号帧样本,即该多个纯净语音信号帧样本是对纯净语音信号样本进行分帧所获得的结果,然后获取该多个纯净语音信号帧样本各自对应的对数能量的归一化值,具体可以先计算多个纯净语音信号帧样本各自对应的对数能量再求取其归一化值。
54.在一个实施例中,步骤s202中的取多个纯净语音信号帧样本各自对应的对数能量的归一化值,可以包括:
55.针对每一纯净语音信号帧样本,对纯净语音信号帧样本进行去均值处理,根据去均值处理后的纯净语音信号帧样本计算对应的对数能量,对对数能量进行归一化,得到多个纯净语音信号帧样本各自对应的对数能量的归一化值。
56.具体的,将纯净语音信号样本进行分帧得到多个纯净语音信号帧样本后,针对每一纯净语音信号帧样本,去除纯净语音信号帧样本的均值,以排除直流分量的影响,得到去均值处理后的纯净语音信号帧样本,然后根据去均值处理后的纯净语音信号帧样本,求取该纯净语音信号帧样本的信号能量的均值然后再取对数,得到对应的对数能量,然后可以通过减均值并除以标准差的方式对对数能量进行归一化,由此获得每个纯净语音信号帧样本各自对应的对数能量的归一化值y。
57.步骤s203,针对每一纯净语音信号帧样本,根据多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比。
58.步骤s204,根据第一纯净语音信号帧样本的占比,确定纯净语音信号帧样本对应的语音活动检测标签。
59.步骤s203和步骤s204是基于每一纯净语音信号帧样本各自的对数能量的归一化值确定其对应的语音活动检测标签的相关步骤。具体的,在步骤s203中,已获得每个纯净语音信号帧样本各自的对数能量的归一化值y,然后针对每一纯净语音信号帧样本,基于对数能量的归一化值y进行前后帧搜索,具体的,针对每一纯净语音信号帧样本,获取该纯净语音信号帧样本前后第一预设数量l1(l1≥0)个纯净语音信号帧样本中第一纯净语音信号帧样本的占比z,其中,第一纯净语音信号帧样本是指其对数能量的归一化值y大于归一化值阈值t1(0≤t1≤1)的纯净语音信号帧样本,示例性的,设l1为4,则可以在一纯净语音信号帧样本前后4个纯净语音信号帧样本中统计其对数能量的归一化值y大于归一化值阈值t1的纯净语音信号帧样本的数量并计算得到其占比z。然后在步骤s204中,针对每一纯净语音信号帧样本,根据其对应的第一纯净语音信号帧样本的占比来确定其对应的语音活动检测标签,例如若该纯净语音信号帧样本对应的第一纯净语音信号帧样本的占比z大于占比阈值t2(0≤t2≤1),则判定该纯净语音信号帧样本对应的语音活动检测标签为1,否则判定该纯净语音信号帧样本对应的语音活动检测标签为0,由此可以准确形成每一纯净语音信号帧样本对应的语音活动检测标签。
60.进一步的,在一个实施例中,如图3所示,步骤s204中的根据第一纯净语音信号帧样本的占比,确定纯净语音信号帧样本对应的语音活动检测标签,可以进一步包括:
61.步骤s301,根据第一纯净语音信号帧样本的占比与占比阈值的比较结果,得到纯净语音信号帧样本对应的初始语音活动检测标签。
62.本步骤中,针对每一纯净语音信号帧样本,根据其对应的第一纯净语音信号帧样本的占比z与占比阈值t2的比较结果,得到该纯净语音信号帧样本对应的语音活动检测标签,该语音活动检测标签记为初始语音活动检测标签,由此获得每一纯净语音信号帧样本对应的初始语音活动检测标签。
63.作为一个实施例,步骤s301具体可以包括:若第一纯净语音信号帧样本的占比大于占比阈值,则确定纯净语音信号帧样本对应的初始语音活动检测标签属于第一类标签;若第一纯净语音信号帧样本的占比小于或等于占比阈值,则确定纯净语音信号帧样本对应
的初始语音活动检测标签属于第二类标签。
64.具体的,本实施例中的第一类标签可以是1,表示语音,相应的,第二类标签可以是0,表示非语音。也即,针对每一纯净语音信号帧样本,若其对应的第一纯净语音信号帧样本的占比z大于占比阈值t2,则先判定该纯净语音信号帧样本对应的初始语音活动检测标签为1,若其对应的第一纯净语音信号帧样本的占比z小于或等于占比阈值t2,则先判定该纯净语音信号帧样本对应的初始语音活动检测标签为0,由此获得每一纯净语音信号帧样本对应的初始语音活动检测标签。
65.步骤s302,针对每一纯净语音信号帧样本,根据多个纯净语音信号帧样本各自对应的初始语音活动检测标签,获取纯净语音信号帧样本前后第二预设数量个纯净语音信号帧样本中第二纯净语音信号帧样本的数量。
66.具体的,本步骤中,已获得每一纯净语音信号帧样本各自的初始语音活动检测标签,然后针对每一纯净语音信号帧样本,获取该纯净语音信号帧样本前后第二预设数量l2(l2≥0)个纯净语音信号帧样本中第二纯净语音信号帧样本的数量n,其中,该第二纯净语音信号帧样本为初始语音活动检测标签属于第一类标签的纯净语音信号帧样本,即初始语音活动检测标签为1的纯净语音信号帧样本,示例性的,设l2为5,则可以在一纯净语音信号帧样本前后5帧内统计其初始语音活动检测标签为1的纯净语音信号帧样本的数量n。
67.步骤s303,根据第二纯净语音信号帧样本的数量,确定纯净语音信号帧样本对应的语音活动检测标签。
68.本步骤中,针对每一纯净语音信号帧样本,根据其对应的第二纯净语音信号帧样本的数量n最终确定该纯净语音信号帧样本对应的语音活动检测标签是属于第一类标签还是第二类标签,从而实现在初始语音活动检测标签的基础上进行语音活动检测标签的平滑处理,进一步提高语音活动检测标签的准确性。
69.在一个实施例中,步骤s303具体可以包括:若第二纯净语音信号帧样本的数量大于或等于第二预设数量,则确定纯净语音信号帧样本对应的语音活动检测标签属于第一类标签;若第二纯净语音信号帧样本的数量小于第二预设数量,则确定纯净语音信号帧样本对应的语音活动检测标签属于第二类标签。
70.具体的,针对每一纯净语音信号帧样本,若其对应的第二纯净语音信号帧样本的数量n大于或等于前述的第二预设数量l2(n≥l2),则确定该纯净语音信号帧样本最终对应的语音活动检测标签属于第一类标签即1,若其对应的二纯净语音信号帧样本的数量n小于前述的第二预设数量l2,则确定该纯净语音信号帧样本最终对应的语音活动检测标签属于第二类标签0。
71.步骤s205,根据纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本。
72.为了适配实际中的噪声环境,用于输入至待训练的语音活动检测模型对其进行训练的需要是携带噪声的语音信号帧样本,对此,本步骤中,可针对每一纯净语音信号帧样本,将该纯净语音信号帧样本和预设噪声信号按照一定的信噪比进行混合得到携带噪声的语音信号帧样本。
73.步骤s206,利用携带噪声的语音信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练。
74.本步骤是将携带噪声的语音信号帧样本及其对应的语音活动检测标签应用于对待训练的语音活动检测模型的训练,作为一个示例,可以将携带噪声的语音信号帧样本输入待训练的语音活动检测模型,由该待训练的语音活动检测模型根据携带噪声的语音信号帧样本输出的该样本对应的语音活动检测预测信息,该语音活动检测预测信息可以是该样本属于语音的一个概率值,然后根据该语音活动检测预测信息和语音活动检测标签得到模型损失,基于该模型损失对待训练的语音活动检测模型进行训练,更新模型参数,直至获得的模型损失小于或等于模型损失阈值,得到训练好的语音活动检测模型。
75.本实施例的语音活动检测模型的训练方法,将纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取该多个纯净语音信号帧样本各自对应的对数能量的归一化值,针对每一纯净语音信号帧样本,根据多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比,该第一纯净语音信号帧样本为对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本,根据该占比确定纯净语音信号帧样本对应的语音活动检测标签,根据纯净语音信号帧样本和预设噪声信号得到携带噪声的语音信号帧样本,利用该携带噪声的语音信号帧样本和前述语音活动检测标签对待训练的语音活动检测模型进行训练。该方案根据纯净的语音信号来制作标签,通过分帧将纯净的语音信号分为若干语音信号帧,然后基于信号能量准确得出每个语音信号帧的语音活动检测标签,还将语音信号帧与噪声按照一定比例进行混合得到携带噪声的语音信号帧以适应实际的噪声环境,最后用该携带噪声的语音信号帧和前述语音活动检测标签对待训练的语音活动检测模型进行训练,以获得检测精确率高的语音活动检测模型,提高语音活动检测模型的检测精确率,降低语音漏判概率,使其满足实时通信的需求。
76.在一个实施例中,如图4所示,步骤s206中的利用携带噪声的语音信号帧样本和语音活动检测标签对待训练的语音活动检测模型进行训练,可以包括:
77.步骤s401,获取携带噪声的语音信号帧样本对应的梅尔功率谱。
78.本步骤中,在获得携带噪声的语音信号帧样本后,获取该携带噪声的语音信号帧样本对应的梅尔功率谱,从而将该携带噪声的语音信号帧样本对应的梅尔功率谱作为训练模型时的输入数据,这样可以达到减少模型计算量的效果。具体的,对于携带噪声的语音信号帧样本,可以先使用短时傅里叶变换将该携带噪声的语音信号帧样本从时域转换到频域,然后求得频域的功率谱,然后使用梅尔滤波器组将频域功率谱转换成梅尔功率谱,便可将其作为训练模型时的输入数据输入待训练的语音活动检测模型。
79.步骤s402,将语音信号帧样本对应的梅尔功率谱作为输入特征输入至待训练的语音活动检测模型,获取待训练的语音活动检测模型根据梅尔功率谱输出的语音活动检测预测信息。
80.具体的,结合图5,本步骤中待训练的语音活动检测模型可以包括依次连接的门控二维卷积层(gconv,gated conv-2d)、长短期记忆网络(lstm,long short-term memory)、全连接层(fc,fully connected)和输出层,其中,将语音信号帧样本对应的梅尔功率谱作为输入特征x输入至待训练的语音活动检测模型,依次由门控二维卷积层、长短期记忆网络、全连接层和输出层进行处理,输出语音活动检测预测信息,该语音活动检测预测信息可以是一个概率值以是一个概率值其中,门控二维卷积层具体可以包括三层,每层门控二维
卷积层的结构如图6所示,其中的relu6、lrelu为非线性激活函数,batchnorm为批规范化,二维卷积层conv2d的卷积核大小可设为(k
×
k),步幅可设为(s
×
s),其中,k∈{3,5,7},s∈{1,2}。该三层门控二维卷积层的输出通道数依次可设为n、n、1,其中n为2的正整数次幂。长短期记忆网络可以包括两层。全连接层可以采用1层。输出层可采用非线性激活函数sigmoid。也即,输入特征x可经过三层门控二维卷积层、两层长短期记忆网络、全连接层和经非线性激活函数sigmoid输出一个概率值作为语音活动检测预测信息。
81.步骤s403,将语音活动检测预测信息和语音活动检测标签输入预设的加权焦点损失函数,得到模型损失。
82.本技术在焦点损失函数的基础上进行改进,形成加权焦点损失函数。其中,对于焦点损失函数l
fl
,可表示为:
[0083][0084]
其中,为语音活动检测预测信息,p为语音活动检测标签,γ为一个调节因子,且γ≥0。
[0085]
基于此,本技术形成的加权焦点损失函数wl
fl
为:
[0086][0087]
其中,relu是修正线性单元(rectified linear unit),该加权焦点损失函数能够给1误判为0的情况施加惩罚,从而提高语音活动检测的判别精确率。
[0088]
由此,在获得语音活动检测预测信息和语音活动检测标签后,可将该语音活动检测预测信息和语音活动检测标签输入上述的加权焦点损失函数中,得到对应的模型损失。
[0089]
步骤s404,根据模型损失对待训练的语音活动检测模型进行训练。
[0090]
本步骤中,根据经加权焦点损失函数获得的模型损失对待训练的语音活动检测模型进行训练,不断更新其模型参数,可以在模型损失小于或等于模型损失阈值时获得训练好的语音活动检测模型,进一步提高该语音活动检测模型的语音活动检测精确率,进一步降低语音漏判概率。
[0091]
本实施例的方案,将梅尔功率谱作为训练模型时的输入数据,且使用轻量级的神经网络结构,使得语音活动检测模型的参数量和计算量都较小,避免出现像目前一些技术中所使用的深度学习模型的参数量过大导致内存占用和计算量均偏大而不适合在pc和移动端使用的问题,能够满足pc、手机等电子设备对算法处理功耗和实时性的要求,还使得语音活动检测模型具有精确率高、虚警率低等优势。
[0092]
在一个实施例中,如图7所示,提供了一种语音活动检测方法,该方法可以应用于图1中的终端,该方法可以包括以下步骤:
[0093]
步骤s701,获取待检测语音信号帧;
[0094]
步骤s702,利用经训练的语音活动检测模型对待检测语音信号帧进行检测,得到语音活动检测模型输出的待检测语音信号帧对应的语音活动检测预测信息。
[0095]
其中,该经训练的语音活动检测模型根据本技术如上实施例所提供的语音活动检测模型的训练方法训练得到。
[0096]
步骤s703,根据语音活动检测预测信息,得到待检测语音信号帧的语音活动检测结果。
[0097]
本实施例的方案可应用在直播和语音房等场景中,可以为降噪、回声消除、自动增益控制等音频算法提供准确的语音活动检测结果,能够大幅提高该音频算法的效果,从而显著提升直播和连麦等场景下的音频体验,也可以应用在音频数据传输中,为传输提供关键参考,例如可以在语音活动检测结果为1时才传输音频数据,语音活动检测结果为0是可以不传输音频数据,从而准确且有效地极大减少传输带宽,降低业务流量,从而可以在rtc中为音频算法以及传输提供重要的参考信息。
[0098]
具体的,服务器可以根据本技术如上实施例所提供的语音活动检测模型的训练方法训练得到该经训练的语音活动检测模型然后发送至终端进行存储,在应用中,终端获取待检测语音信号帧,然后利用该经训练的语音活动检测模型对该待检测语音信号帧进行检测,获得语音活动检测模型输出的待检测语音信号帧对应的语音活动检测预测信息,在一些实施方式中,终端可获取待检测语音信号帧对应的梅尔功率谱后将其输入至经训练的语音活动检测模型,得到该语音活动检测模型根据梅尔功率谱输出的待检测语音信号帧对应的语音活动检测预测信息,该待检测语音信号帧对应的语音活动检测预测信息可以是一个概率值然后可根据该概率值获取待检测语音信号帧的语音活动检测结果,作为一个示例,该语音活动检测结果r
vad
可表示为:
[0099][0100]
其中,η为一个阈值,且0≤η≤1,r
vad
=1表示语音活动检测结果为语音,r
vad
=0表示语音活动检测结果为非语音。
[0101]
从整体上看,本技术结合了子带信号处理和轻量级的神经网络结构,使得模型的参数量和计算量都较小,能够满足pc和手机等电子设备对算法处理功耗和实时性的要求,且具有对语音活动检测的精确率高、虚警率低等优势。
[0102]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0103]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的相关方法的相关装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个相关装置实施例中的具体限定可以参见上文中对于相关方法的限定,在此不再赘述。
[0104]
在一个实施例中,如图8所示,提供了一种语音活动检测模型的训练装置,该装置800可以包括:
[0105]
语音样本获取模块801,用于获取纯净语音信号样本;
[0106]
归一化处理模块802,用于将所述纯净语音信号样本进行分帧得到多个纯净语音信号帧样本,获取所述多个纯净语音信号帧样本各自对应的对数能量的归一化值;
[0107]
占比获取模块803,用于针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的对数能量的归一化值,获取所述纯净语音信号帧样本前后第一预设数量个纯净语音信号帧样本中第一纯净语音信号帧样本的占比;所述第一纯净语音信号帧样本为所述对数能量的归一化值大于归一化值阈值的纯净语音信号帧样本;
[0108]
标签确定模块804,用于根据所述第一纯净语音信号帧样本的占比,确定所述纯净语音信号帧样本对应的语音活动检测标签;
[0109]
训练样本获得模块805,用于根据所述纯净语音信号帧样本和预设噪声信号,得到携带噪声的语音信号帧样本;
[0110]
模型训练模块806,用于利用所述携带噪声的语音信号帧样本和所述语音活动检测标签对待训练的语音活动检测模型进行训练。
[0111]
在一个实施例中,标签确定模块804,用于根据所述第一纯净语音信号帧样本的占比与占比阈值的比较结果,得到所述纯净语音信号帧样本对应的初始语音活动检测标签;针对每一纯净语音信号帧样本,根据所述多个纯净语音信号帧样本各自对应的初始语音活动检测标签,获取所述纯净语音信号帧样本前后第二预设数量个纯净语音信号帧样本中第二纯净语音信号帧样本的数量;所述第二纯净语音信号帧样本为所述初始语音活动检测标签属于第一类标签的纯净语音信号帧样本;根据所述第二纯净语音信号帧样本的数量,确定所述纯净语音信号帧样本对应的语音活动检测标签。
[0112]
在一个实施例中,标签确定模块804,用于若所述第二纯净语音信号帧样本的数量大于或等于第二预设数量,则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第一类标签;若所述第二纯净语音信号帧样本的数量小于第二预设数量,则确定所述纯净语音信号帧样本对应的语音活动检测标签属于第二类标签。
[0113]
在一个实施例中,标签确定模块804,用于若所述第一纯净语音信号帧样本的占比大于所述占比阈值,则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第一类标签;若所述第一纯净语音信号帧样本的占比小于或等于所述占比阈值,则确定所述纯净语音信号帧样本对应的初始语音活动检测标签属于第二类标签。
[0114]
在一个实施例中,归一化处理模块802,用于针对每一纯净语音信号帧样本,对所述纯净语音信号帧样本进行去均值处理,根据去均值处理后的纯净语音信号帧样本计算对应的对数能量,对所述对数能量进行归一化,得到所述多个纯净语音信号帧样本各自对应的对数能量的归一化值。
[0115]
在一个实施例中,模型训练模块806,用于获取所述携带噪声的语音信号帧样本对应的梅尔功率谱;将所述语音信号帧样本对应的梅尔功率谱作为输入特征输入至所述待训练的语音活动检测模型,获取所述待训练的语音活动检测模型根据所述梅尔功率谱输出的语音活动检测预测信息;其中,所述待训练的语音活动检测模型包括依次连接的门控二维卷积层、长短期记忆网络、全连接层和输出层;将所述语音活动检测预测信息和语音活动检测标签输入预设的加权焦点损失函数,得到模型损失;根据所述模型损失对所述待训练的语音活动检测模型进行训练。
[0116]
在一个实施例中,如图9所示,提供了一种语音活动检测装置,该装置900可以包
括:
[0117]
待检测帧获取模块901,用于获取待检测语音信号帧;
[0118]
模型检测模块902,用于利用经训练的语音活动检测模型对所述待检测语音信号帧进行检测,得到所述语音活动检测模型输出的所述待检测语音信号帧对应的语音活动检测预测信息;其中,所述经训练的语音活动检测模型利用如上所述的语音活动检测模型的训练装置训练得到;
[0119]
结果获得模块903,用于根据所述语音活动检测预测信息,得到所述待检测语音信号帧的语音活动检测结果。
[0120]
上述相关装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0121]
在一个实施例中,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图10所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储语音信号样本等数据。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音活动检测模型的训练方法。
[0122]
在一个实施例中,提供了一种电子设备,该电子设备可以是终端,其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音活动检测方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0123]
本领域技术人员可以理解,图10和图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0124]
在一个实施例中,还提供了一种电子设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0125]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0126]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0127]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
[0128]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0129]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1