1.本技术涉及人工智能领域,尤其涉及一种声音检测模型训练方法、数据处理方法以及相关装置。
背景技术:
2.人工智能(artificial intelligence,ai)是利用数字计算机控制的机器模拟、延伸和扩展人的智能。通过人工智能可实现语音识别,在生活中各个领域有着广泛的应用,用于将语音转换为可被人类、机器理解的文本,给生产生活带来了便利。虽然安静环境下的语音识别的效果已经接近或者超过人类的水平,但因为混响、回声、背景噪声、人声干扰等因素,复杂环境下的语音识别仍然是一个巨大的挑战。
技术实现要素:
3.鉴于以上内容,有必要提供一种声音检测模型训练方法、数据处理方法、电子设备及存储介质,提高语音识别的效率和准确率。
4.第一方面,本技术实施例提供了一种声音检测模型训练方法,所述方法包括:对获取的混合音频信号进行特征提取,得到混合音频信号对应的混合音频特征;将目标声纹与混合音频信号对应的混合音频特征进行拼接,得到混合音频信号对应的隐层向量;对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果;将混合音频信号对应的标签分类结果与混合音频信号对应的目标标签进行比较,得到第一损失函数;将混合音频信号对应的隐层向量与混合音频信号对应的标签分类结果进行拼接,得到混合音频信号对应的掩码;根据混合音频信号对应的混合音频特征和混合音频信号对应的掩码,得到预测音频特征;将混合音频信号对应的干净音频信号和预测音频特征进行比较,得到第二损失函数;根据第一损失函数和第二损失函数,调整声音检测模型的参数。
5.通过上述技术方案,可以用于训练声音检测模型,通过应用声音检测模型可以增加对干扰人说话的语音片段的抑制,提高语音识别的准确率。
6.在一种实现方式中,将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的隐层向量包括:将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的拼接信号;将拼接信号输入第一长短时记忆网络结构,得到混合音频数据对应的隐层向量。通过上述技术方案,将目标声纹与混合音频特征进行拼接,可以更好地保留混合音频信号中的特征,使得到的混合音频信号对应的隐层向量中可以保留更多的原始信息,提高声音提取的准确率。
7.在一种实现方式中,将目标声纹与混合音频特征进行拼接,得到所述混合音频信号对应的拼接信号包括:对混合音频特征进行标准化处理,将标准化处理后的混合音频特征与目标声纹进行拼接,得到混合音频信号对应的拼接信号。通过上述技术方案,对混合音频特征进行标准化处理,可以提高模型训练的收敛速度和效率。
8.在一种实现方式中,对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果包括:将混合音频信号对应的隐层向量输入第二长短时记忆网络结构进行个性化人声活动检测,得到混合音频信号对应的标签分类结果。
9.通过上述技术方案,从第二长短时记忆网络结构的输出处获取得到标签分类结果,此时获得的标签分类结果对应的隐层向量是高维度的,高纬度的隐层向量可以保留更多的原始信息,提高声音提取的准确率。
10.在一种实现方式中,标签分类结果包括混合音频信号对应的标签概率,将混合音频信号对应的标签分类结果与混合音频信号对应的目标标签进行比较,得到第一损失函数包括:根据混合音频信号对应的概率标签和混合音频信号对应的目标标签概率,计算交叉熵,得到第一损失函数。
11.通过上述技术方案,从全连接层的输出处获取得到标签分类结果,此时获得的标签分类结果对应的隐层向量是低维度的,低纬度的隐层向量能更加准确地提供混合音频对应的标签预测信息,从而提高目标说话人声的提取效率。
12.在一种实现方式中,标签分类结果包括混合音频信号对应的标签概率,将混合音频信号对应的隐层向量与混合音频信号对应的标签分类结果进行拼接,得到混合音频信号对应的掩码包括:将混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量进行拼接,得到混合音频信号对应的组合标签隐层向量,将标签组合隐层向量输入掩码转换层,得到混合音频信号对应的掩码。通过上述技术方案,将混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量进行拼接,可以使得到的掩码中保留更多的原始信息,从而提高声音提取的准确率。
13.在一种实现方式中,将混合音频信号对应的干净音频信号和预测音频特征进行比较,得到第二损失函数包括:对混合音频信号对应的干净音频信号进行特征提取,得到目标音频特征;将目标音频特征和预测音频特征进行比较,得到第二损失函数。通过上述技术方案,对干净音频信号进行特征提取,得到目标音频特征,并基于目标音频特征和预测音频信号进行比较,可以加快确定第二损失函数的效率。
14.在一种实现方式中,所述目标标签包括:非人声片段标签、目标说话人人声片段、非目标说话人人声片段和混合人声片段。通过上述技术方案,可以对混合音频信号进行更精确地划分,提高了声音检测的效率。
15.第二方面,本技术实施例提供一种数据处理方法,所述方法包括:将待识别音频信号输入声音检测模型,得到目标音频特征;其中所述声音检测模型是通过如上述的声音检测模型训练方法训练得到的;
16.对所述目标音频特征进行语音识别,得到识别文本;
17.所述将待识别音频信号输入声音检测模型,得到目标音频特征,包括:对待识别音频信号进行特征提取,得到待识别音频信号对应的识别音频特征;将目标声纹与待识别音频信号对应的识别音频特征进行拼接,得到待识别音频信号对应的隐层向量;对待识别音频信号对应的隐层向量进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果;将待识别音频信号对应的隐层向量与待识别音频信号对应的标签分类结果进行拼接,确定所述待识别音频信号对应的掩码;根据所述待识别音频信号对应的识别音频特征和所述待识别音频信号对应的掩码,确定目标音频特征。
18.通过上述技术方案,应用声音检测模型来实现待识别音频信号的处理,可以增加对干扰人说话的语音片段的抑制,提高语音识别的准确率。
19.在一种实现方式中,所述将目标声纹与所述待识别音频信号对应的识别音频特征进行拼接,得到所述待识别音频信号对应的隐层向量之前,所述方法包括:基于生物识别确定所述待识别音频信号对应的目标用户,并获取所述目标用户的声纹,将所述目标用户的声纹作为目标声纹。通过上述技术方案,基于生物识别可以提高获取目标声纹的准确率,从而提高语音识别的准确率。
20.在一种实现方式中,所述对所述待识别音频信号对应的隐层向量进行个性化人声活动检测,得到所述待识别音频信号对应的标签分类结果包括:确定所述待识别音频信号对应的目标标签;根据所述目标标签对所述待识别音频信号对应的隐层向量进行个性化人声活动检测,得到所述待识别音频信号对应的标签分类结果。通过上述技术方案,根据待识别音频信号对应的目标标签对待识别音频信号对应的隐层向量进行个性化人声活动检测,可以提高标签分类的效率和准确率,得到更准确的标签分类结果。
21.在一种实现方式中,所述将所述待识别音频信号对应的隐层向量与所述待识别音频信号对应的标签分类结果进行拼接,确定所述待识别音频信号对应的掩码包括:根据所述待识别音频信号对应的标签分类结果,确定所述待识别音频信号中目标标签对应的标签概率;将待识别音频信号对应的隐层向量与所述标签概率对应的隐层向量进行拼接,得到待识别音频信号对应的组合隐层向量,根据组合隐层向量,确定待识别音频信号对应的掩码。通过上述技术方案,将待识别音频信号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量进行拼接,可以使得到的掩码中保留更多的原始信息,从而提高声音提取的准确率。
22.第三方面,本技术实施例提供一种电子设备,所述电子设备包括存储器和处理器;
23.所述存储器,用于存储程序指令;
24.所述处理器,用于读取所述存储器中存储的所述程序指令,以实现如上述的声音检测模型训练方法或者实现如上述的数据处理方法。
25.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求上述的声音检测模型训练方法或者实现如上述的数据处理方法。
附图说明
26.图1为本技术实施例提供的一种人声干扰的场景示意图。
27.图2为现有技术中的一种voicefilter
‑
lite模型的结构示意图。
28.图3为现有技术中的一种个性化人声活动检测模型personal vad的结构示意图。
29.图4为本技术实施例提供的一种声音检测模型训练方法的流程图。
30.图5为现有技术中的一种音频信号标签的场景示意图。
31.图6为本技术实施例提供的另一种音频信号标签的场景示意图。
32.图7为本技术实施例提供的一种训练态的声音检测模型的结构示意图。
33.图8为本技术实施例提供的另一种训练态的声音检测模型的结构示意图。
34.图9为本技术实施例提供的一种数据处理方法的流程图。
35.图10为图9中步骤s61的子流程示意图。
36.图11为本技术实施例提供的一种推断态的声音检测模型的结构示意图。
37.图12为本技术实施例提供的另一种推断态的声音检测模型的结构示意图。
38.图13为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
39.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术实施例的描述中,“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。
40.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术中的技术领域的技术人员通常理解的含义相同。本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。应理解,本技术中除非另有说明,“/”表示或的意思。例如,a/b可以表示a或b。本技术中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。
41.通过人工智能实现语音识别,在生活中各个领域有着广泛的应用,用于将语音转换为可被人类、机器理解的文本,给生产生活带来了便利。虽然安静环境下的语音识别的效果已经接近或者超过人类的水平,但因为混响、回声、背景噪声、人声干扰等因素,复杂环境下的语音识别仍然是一个巨大的挑战,其中人声干扰是指在一个语音片段中有两个人在同时或者一前一后地说话,人声干扰的典型场景包括会议、餐厅等环境下的多人讨论场景,或者车载场景下正在播放的广播对个人说话的干扰场景。在这些场景里,往往只关心目标说话人的语音,只想识别目标说话人说话对应的文本,而不想识别其他说话人的语音。例如,如图1所示,目标说话人a和干扰说话人b同时或者一前一后说话,电子设备采集到的语音片段中除目标说话人a的语音外,还存在干扰说话人b的语音,采集到的语音片段中包括三种类型的语音片段:1)只有目标说话人a说话的语音片段;2)只有干扰说话人b说话的语音片段;3)目标说话人a和干扰说话人b同时说话的语音片段。由于采集到的语音片段中包括干扰说话人b说话的语音片段,导致对采集到的语音片段进行语音识别时,对目标说话人a的说话内容识别准确率较低,容易出错,经常出现错字、多字的问题。
42.目标说话人提取(target speaker extraction,tse)技术是一种从多个人同时说话的音频中依据目标说话人的声纹提取出说话人的语音的一种技术。目前,基于神经网络的目标说话人提取技术取得了显著的进展,成为主流。在研究中发现,基于神经网络的目标说话人提取技术的voicefilter
‑
lite模型用于对声音信号进行语音识别,该模型的模型体积较小,能够支持端侧、流式推断。现有的一种voicefilter
‑
lite模型的模型结构如图2所示,其中training stage only框起来的部分表示在训练状态使用到的立项输出和损失函数,asr表示语音识别(automatic speech recognition)。但是voicefilter
‑
lite模型对只
speaker speech,toss),即包含目标说话人的声音片段,同时也可能包含除目标说话人外其他说话人的声音片段;标签nss表示不含目标说话人人声片段(non
‑
target speaker speech,nss),即除目标说话人外其他说话人的声音片段。又例如,如图6所示,图6中包括四个标签。其中,标签ns表示非人声片段(non
‑
speech,ns),即没有人说话的声音片段;标签toss表示目标说话人声片段(target
‑
only speaker speech,toss),即只有目标说话人人声片段;标签noss表示非目标说话人人声片段(non
‑
target
‑
only speaker speech,noss),即除目标说话人外其他说话人的声音片段;标签mss表示混合人声片段(mixed speaker speech,mss),即同时包含目标说话人、干扰说话人的声音片段。将标签从三种扩展到四种,更精细地区分:仅包含干扰人声/多种人声混合这两种场景,实现对混合音频信号更精确地划分,提高了声音检测的效率。
47.示例性的,可以通过滤波器组filterbank进行特征提取,filterbank通过采用模仿人耳听觉效果的方式对音频信号进行处理,提取音频信号中的音频特征,例如逐帧提取filterbank特征。获得语音信号的filterbank特征的一般步骤是:对音频信号进行预加重、分帧、加窗、短时傅里叶变换(short
‑
time fourier transform,stft)、mel滤波、去均值、堆叠。
48.s22、将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的隐层向量。
49.目标声纹为目标说话人对应的声纹,用于区分目标说话人和其他干扰人,通常以向量形式表示。
50.在本技术的一些实施例中,将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的隐层向量可以包括:将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的拼接信号;将拼接信号输入第一长短时记忆网络结构,得到混合音频数据对应的隐层向量。
51.第一长短时记忆网络结构可根据一层或多层长短时记忆网络(long short
‑
term memory,lstm)构成,长短时记忆网络是一种循环神经网络。
52.示例性的,隐层向量可以是二维向量,横轴可用于表示时间,纵轴可用于表示每一个时间的特征。
53.通过将目标声纹与混合音频特征进行拼接,可以更好地保留混合音频信号中的特征,使得到的混合音频信号对应的隐层向量中可以保留更多的原始信息,提高声音提取的准确率。
54.在本技术的一些实施例中,将目标声纹与混合音频特征进行拼接,得到混合音频信号对应的拼接信号可以包括:对混合音频特征进行标准化处理,将标准化处理后的混合音频特征与目标声纹进行拼接,得到混合音频信号对应的拼接信号。
55.通过对混合音频特征进行标准化处理,可以提高模型训练的收敛速度和效率。
56.s23、对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果。
57.个性化人声活动检测(personal voice activity detection,personal vad)是一种判断音频中哪些时间片段包含特定人的人声的技术手段。标签分结果可以包括个性化人声标签分类结果。
58.标签分类结果包括混合音频信号对应的标签概率,例如,标签分类结果包括混合
音频信号中每一个标签对应的标签概率。其中,标签概率可用于表示混合音频信号对应标签的概率。对于标签的详细介绍可以参考上述描述,在此不再赘述。
59.例如,混合音频信号包括标签a、标签b和标签c,混合音频信号的标签分类结果包括标签a对应的标签概率、标签b对应的标签概率和标签c对应的标签概率。
60.在本技术的一些实施例中,对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果包括:将混合音频信号对应的隐层向量输入第二长短时记忆网络结构进行个性化人声活动检测,得到混合音频信号对应的标签分类结果。其中,第二长短时记忆网络结构可包括一层或多层长短时记忆网络。
61.从第二长短时记忆网络结构的输出处,获取到的标签分类结果对应的隐层向量是高维度的,高纬度的隐层向量可以保留更多的原始信息,提高声音提取的准确率。示例性的,将混合音频信号对应的隐层向量输入第二长短时记忆网络结构进行个性化人声活动检测,得到混合音频信号对应的标签分类结果可以包括:将混合音频信号对应的隐层向量输入第二长短时记忆网络结构和全连接层进行个性化人声活动检测,得到混合音频信号对应的标签分类结果。
62.从全连接层的输出处,获取到的标签分类结果对应的隐层向量是低维度的,低纬度的隐层向量能更加准确地提供混合音频对应的标签预测信息,从而提高目标说话人声的提取效率。
63.s24、将混合音频信号对应的标签分类结果与混合音频信号对应的目标标签进行比较,得到第一损失函数。
64.示例性的,根据基于个性化人声活动检测得到的混合音频信号对应的标签分类结果,确定混合音频信号对应的标签概率,并根据混合音频信号对应的标签概率与混合音频信号对应的目标标签对应的目标标签概率,计算交叉熵(cross entropy,ce),得到第一损失函数。其中,混合音频信号对应的目标标签是混合音频信号对应的真实标签,即为混合音频信号中实际人声对应的真实标签。
65.例如,根据个性化人声活动检测得到的标签分类结果,确定混合音频信号中每个标签的标签概率,并将混合音频信号中每个标签的标签概率与混合音频信号每个目标标签对应的目标标签概率进行比较,计算两者之间的交叉熵。
66.s25、将混合音频信号对应的隐层向量与混合音频信号对应的标签分类结果进行拼接,得到混合音频信号对应的掩码。
67.掩码用于将音频信号中一种声音与其他的一种或多种声音隔离开,从而将干净的目标说话人的声音提取出来,可以提高语音识别的准确率。
68.示例性的,确定混合音频信号的标签概率对应的隐层向量,并将混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量进行拼接,得到混合音频信号对应的组合隐层向量,并根据组合隐层得到混合音频信号对应的掩码。其中,混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。
69.例如,可以将混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量进行拼接,得到混合音频信号对应的组合隐层向量,将组合隐层向量输入掩码转换层,得到混合音频信号对应的掩码。
70.其中,掩码转换层包括第三长短时记忆网络结构和全连接层。其中,第三长短时记忆网络结构可根据一层或多层长短时记忆网络构成。
71.通过将混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量进行拼接,得到混合音频信号对应的掩码,可以使得到的掩码中保留更多的原始信息,从而提高声音提取的准确率。
72.s26、根据混合音频信号对应的混合音频特征和混合音频信号对应的掩码,得到预测音频特征。
73.示例性的,可以将混合音频信号对应的掩码与混合音频信号对应的混合音频特征进行点乘,得到增强后的音频特征,在本实施例中,将增强后的音频特征作为预测音频特征。
74.s27、将混合音频信号对应的干净音频信号和预测音频特征进行比较,得到第二损失函数。
75.在本技术的实施例中,干净音频信号是将混合音频信号中非目标说话人的声音进行剔除后,仅保留目标说话人说话声的音频信号。
76.在本技术一些实施例中,将混合音频信号对应的干净音频信号和预测音频特征进行比较,得到第二损失函数可以包括:对混合音频信号对应的干净音频信号进行特征提取,得到目标音频特征;将目标音频特征和预测音频特征进行比较,得到第二损失函数。
77.例如,可以根据目标音频特征与预测音频特征之间的均方误差(mean squared error,mse),得到损失函数,即得到第二损失函数。
78.通过对干净音频信号进行特征提取,得到目标音频特征,并基于目标音频特征和预测音频信号进行比较,可以加快确定第二损失函数的效率。
79.s28、根据第一损失函数和第二损失函数,调整声音检测模型的参数。
80.按照预设的计算规则,根据第一损失函数和第二损失函数,调整声音检测模型的参数。其中,计算规则可以包括计算公式。将第一损失函数和第二损失函数带入计算公式,得到声音检测模型的损失函数;根据计算得到的损失函数,调整声音检测模型的参数。例如,根据计算得到的损失函数,调整声音检测模型中第一长短时记忆网络结构、第二长短时记忆网络结构、第三长短时记忆网络结构、全连接层、标准化层的参数值。
81.示例性的,计算公式可以为:
82.loss=α
×
loss
ce
+(1
‑
α)loss
mse
83.其中,loss
ce
为第一损失函数,loss
mse
为第二损失函数,系数α用于平衡第一损失函数和第二损失函数的重要程度。
84.在上述模型训练方法中,对给定的输入(混合音频信号、混合音频分类标签)和干净音频信号组合,通过前向传播计算损失函数后,再通过神经网络的反向传播算法来更新声音检测模型的参数;训练声音检测模型直到声音检测模型的参数收敛。
85.在本技术的一些实施例中,对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果可以包括:
86.确定音频信号对应的目标标签;根据目标标签对混合音频信号对应的隐层向量进行个性化人声活动检测,得到混合音频信号对应的标签分类结果。
87.根据目标标签对混合音频信号对应的隐层向量进行个性化人声活动检测,计算混
合音频数据中目标标签对应的标签概率,即计算在混合音频数据中每个目标标签对应的标签概率,根据目标标签对应的标签概率得到混合音频信号对应的标签分类结果。
88.目标标签可以包括标签ns,标签tss和标签nss,或者可以包括标签ns、标签toss、标签noss和标签mss,标签ns、标签tss、标签nss、标签toss、标签noss和标签mss的介绍可以参见上述对图5和图6的描述,在此不再赘述。
89.目标标签可以基于语音时间帧级的性别检测分支确定,例如,目标标签包括标签ns、标签mos、标签fos、标签ns、标签mmms、标签mfms和标签ffms,其中标签ns表示非人声片段(non
‑
speech,ns),即没有人说话的片段;标签mos表示只有男性人声片段(male
‑
only speech);标签fos表示只有女性人声片段(female
‑
only speech);标签mmms表示包含两个男性的混合人声片段(male
‑
male mixed speech);标签mfms表示包含男性和女性的混合人声片段(male
‑
female mixed speech);标签ffms表示包含两个女性的混合人声片段(female
‑
female mixed speech)。
90.通过基于语音时间帧级的性别检测分支确定目标标签,并根据确定的目标标签进行个性化人声活动检测,可以提高个性化人声活动检测的准确率,从而提高下游的语音识别的准确率。
91.图7为本技术实施例提供的一种训练态的声音检测模型的结构示意图。如图7所示,将混合音频信号(noisy audio)作为音频输入,经过特征提取(filterbank)、特征堆叠(stack),得到混合音频信号对应的混合音频特征。将标准化(normalization)后的混合音频信号对应的混合音频特征与目标说话人的声纹(d
‑
vector)进行拼接(concat 1)。将拼接后的混合音频特征输入第一长短时记忆网络结构(lstm 1),得到拼接后的混合音频数据对应的隐层向量。
92.将拼接后的混合音频数据对应的隐层向量输入第二长短时记忆网络结构(lstm 2)和全连接(fully connected)层进行个性化人声活动检测,得到混合音频信号对应的标签分类结果;并将混合音频信号对应的标签分类结果与混合音频信号对应的标签(vad label)进行比较,得到第一损失函数(classification loss)。其中,混合音频信号对应的标签为混合音频信号对应的真实标签。示例性的,可以将混合音频信号对应的标签分类结果预测的各个标签的概率与混合音频信号对应的真实标签的概率之间的交叉熵(cross entropy,ce)作为损失函数,例如,作为第一损失函数。
93.将混合音频信号的标签分类结果对应的隐层向量与拼接后的混合音频数据对应的隐层向量进行拼接(concat 2),将拼接后的隐层向量输入第三长短时记忆网络结构(lstm 3)、全连接(fully connected 2)层和掩码转换层(mask),得到混合音频信号对应的掩码。将混合音频信号对应的混合音频特征与混合音频信号对应的掩码进行点乘,得到增强后的音频特征,例如,将增强后的音频特征作为预测音频特征(enhanced stacked filterbank)。
94.对干净音频信号(clean audio)进行经过特征提取(filterbank)和特征堆叠(stack),得到干净音频信号对应的目标音频特征。将目标音频特征与预测音频特征进行比较,得到第二损失函数(mse loss)。示例性的,可以将混合音频信号对应的预测音频特征与干净音频信号的目标音频特征之间的均方误差(mean squared error,mse)作为损失函数,即作为第二损失函数。
95.根据第一损失函数(classification loss)和第二损失函数(mse loss),确定声音检测模型的损失函数(loss),根据损失函数(loss)调整该声音检测模型的参数值。示例性的,可以将第一损失函数(classification loss)和第二损失函数(mse loss)代入损失计算函数公式,计算得到声音检测模型的损失函数(loss),其中损失计算函数公式为:
96.loss=α
×
loss
ce
+(1
‑
α)loss
mse
97.其中,loss
ce
为第一损失函数,loss
mse
为第二损失函数,系数α用于平衡第一损失函数和第二损失函数的重要程度。
98.在本技术的一些实施例中,第一长短时记忆网络结构、第二长短时记忆网络结构和第三长短时记忆网络结构可以由一层或多层长短时记忆网络构成。长短时记忆网络的层数越多,相应的模型拟合能力也越强。
99.在一实施例中,如图7所示,从第二长短时记忆网络结构后的全连接(fully connected 1)层的输出处,获取混合音频信号的标签分类结果对应的隐层向量,并将获取到的混合音频信号的标签分类结果对应的隐层向量与拼接后的混合音频数据对应的隐层向量进行拼接。其中,混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。从全连接层的输出处,获取到的标签分类结果对应的隐层向量是低维度的,低纬度的隐层向量能更加准确地提供混合音频对应的标签预测信息,从而提高目标说话人声的提取效率。
100.在一实施例中,如图8所示,从第二长短时记忆网络结构的输出处,获取混合音频信号的标签分类结果对应的隐层向量,并将获取到的混合音频信号的标签分类结果对应的隐层向量与拼接后的混合音频数据对应的隐层向量进行拼接。其中,混合音频信号对应的隐层向量与混合音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。从第二长短时记忆网络结构的输出处,获取到的标签分类结果对应的隐层向量是高维度的,高纬度的隐层向量保留了更多的原始信息,给第三长短时记忆网络结构更多的自由度以提取面向目标说话人提取任务需要的信息。
101.图9为本技术实施例提供的一种数据处理方法的流程图。可以基于上述训练完成的声音检测模型来实现数据处理方法,例如将上述训练好的声音检测模型应用在电子设备上,通过电子设备实现数据处理方法。根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。如图9所示,该数据处理方法包括以下步骤。
102.s61、将待识别音频信号输入声音检测模型,得到目标音频特征。
103.s62、对目标音频特征进行语音识别,得到识别文本。
104.其中,声音检测模型是通过上述实施例中的声音检测模型训练方法训练得到的。
105.如图10所示,图10为图9中步骤s61的子流程示意图,步骤s61具体可以包括以下步骤。
106.s611、对待识别音频信号进行特征提取,得到所述音频信号对应的识别音频特征。
107.示例性的,可以通过filterbank进行特征提取,filterbank通过采用模仿人耳听觉效果的方式对音频信号进行处理,提取待识别音频信号中的音频特征,例如,逐帧提取filterbank特征。获得待识别音频信号的filterbank特征的通常包括:对音频信号进行预加重、分帧、加窗、短时傅里叶变换(short
‑
time fourier transform,stft)、mel滤波、去均值、堆叠。
108.s612、将目标声纹与识别音频特征进行拼接,得到待识别音频信号对应的隐层向量。
109.目标声纹为目标说话人对应的声纹,目标说话人即为待识别语音的人。例如,当用户通过电子设备进行语音识别时,将该电子设备的机主的声纹确定为目标声纹。
110.在本技术的一些实施例中,所述将目标声纹与识别音频特征进行拼接,得到音频信号对应的隐层向量之前,所述方法可以包括:基于生物识别确定音频信号对应的目标用户,获取目标用户的声纹,并将目标用户的声纹作为目标声纹。生物识别可以包括人脸识别、指纹识别、瞳孔识别等。
111.示例性的,可以预先获取用户对应的声纹存储至预设的存储空间,当确定音频信号对应的目标用户后,可直接在预设的存储空间获取目标用户的声纹。
112.基于生物识别可以提高获取目标声纹的准确率,从而提高语音识别的准确率。在本技术的一些实施例中,将目标声纹与识别音频特征进行拼接,得到待识别音频信号对应的隐层向量可以包括:将目标声纹与识别音频特征进行拼接,得到待识别音频信号对应的拼接信号;将拼接信号输入第一长短时记忆网络结构,得到识别音频数据对应的隐层向量。
113.第一长短时记忆网络结构可根据一层或多层长短时记忆网络构成,长短时记忆网络是一种循环神经网络。
114.示例性的,隐层向量可以是二维向量,横轴可用于表示时间,纵轴可用于表示每一个时间的特征。在本技术的一些实施例中,将目标声纹与识别音频特征进行拼接,得到待识别音频信号对应的拼接信号可以包括:对识别音频特征进行标准化处理,将标准化处理后的识别音频特征与目标声纹进行拼接,得到待识别音频信号对应的拼接信号。
115.通过对识别音频特征进行标准化处理,可以提高模型训练的效率和模型的准确率,从而提高后续语音识别的准确率。
116.s613、对待识别音频信号对应的隐层向量进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果。
117.标签分类结果可以包括待识别音频信号对应的标签概率,例如,标签分类结果包括待识别音频信号中每一个标签对应的标签概率。其中,标签概率可用于表示待识别音频信号对应标签的概率。对于标签的详细介绍可以参考上述描述,在此不再赘述。例如,待识别音频信号包括标签a、标签b和标签c,待识别音频信号的标签分类结果包括标签a对应的标签概率、标签b对应的标签概率和标签c对应的标签概率。示例性的,将待识别音频信号对应的隐层向量输入第二长短时记忆网络结构进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果。其中,第二长短时记忆网络结构可根据一层或多层长短时记忆网络构成。
118.待识别音频信号对应的标签分类结果包括一个或多个标签对应的标签概率。标签的介绍,可以参见上文描述,在此不做赘述。
119.示例性的,将待识别音频信号对应的隐层向量输入第二长短时记忆网络结构和全连接层进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果。
120.s614、将待识别音频信号对应的隐层向量与待识别音频信号对应的标签分类结果进行拼接,得到待识别音频信号对应的掩码。
121.示例性的,确定待识别音频信号的标签概率对应的隐层向量,并将待识别音频信
号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量进行拼接,得到待识别音频信号对应的掩码。其中,待识别音频信号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。
122.在本技术一些实施例中,将待识别音频信号对应的隐层向量与待识别音频信号对应的标签分类结果进行拼接,得到待识别音频信号对应的掩码可以包括:将待识别音频信号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量进行拼接,得到待识别音频信号对应的组合隐层向量,根据组合隐层向量得到待识别音频信号对应的掩码。例如,将组合隐层向量输入掩码转换层,得到待识别音频信号对应的掩码。
123.其中,掩码转换层包括第三长短时记忆网络结构和全连接层。其中,第三长短时记忆网络结构可根据一层或多层长短时记忆网络构成。
124.s615、根据待识别音频信号对应的识别音频特征和待识别音频信号对应的掩码,得到目标音频特征。
125.示例性的,可以将待识别音频信号对应的识别音频特征与待识别音频信号对应的掩码进行点乘,得到增强后的音频特征,作为目标音频特征。
126.在本技术的一些实施例中,对待识别音频信号对应的隐层向量进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果可以包括:
127.确定待识别音频信号对应的目标标签;根据目标标签对待识别音频信号对应的隐层向量进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果。
128.根据目标标签对待识别音频信号对应的隐层向量进行个性化人声活动检测,计算识别音频数据中目标标签对应的标签概率,即计算在识别音频数据中每个目标标签对应的标签概率,根据目标标签对应的标签概率得到待识别音频信号对应的标签分类结果。
129.目标标签可以包括标签ns,标签tss和标签nss,或者可以包括标签ns、标签toss、标签noss和标签mss,标签ns、标签tss、标签nss、标签toss、标签noss和标签mss的介绍可以参见上述对图5和图6的描述,在此不再赘述。目标标签可以基于语音时间帧级的性别检测分支确定,例如,目标标签包括标签ns、标签mos、标签fos、标签ns、标签mmms、标签mfms和标签ffms,标签ns、标签mos、标签fos、标签ns、标签mmms、标签mfms和标签ffms代表的意思可以参见上述描述,在此不做赘述。
130.通过上述技术方案,根据待识别音频信号对应的目标标签对待识别音频信号对应的隐层向量进行个性化人声活动检测,可以提高标签分类的效率和准确率,得到更准确的标签分类结果。上述实施例通过待识别音频信号对应的隐层向量与待识别音频信号对应的标签分类结果进行拼接,得到待识别音频信号对应的掩码,提高了掩码的有效性,增加对干扰人说话的语音片段的抑制,提高语音识别的准确率。
131.图11为本技术实施例提供的一种推断态的声音检测模型的结构示意图。如图11所示,将待识别音频信号(noisy audio)作为音频输入,经过特征提取(filterbank)、特征堆叠(stack),得到待识别音频信号对应的识别音频特征。将标准化(normalization)后的待识别音频信号对应的识别音频特征与目标说话人的声纹(d
‑
vector)进行拼接(concat 1)。将拼接后的识别音频特征输入第一长短时记忆网络结构(lstm 1),得到拼接后的识别音频数据对应的隐层向量。
132.将拼接后的识别音频数据对应的隐层向量输入第二长短时记忆网络结构(lstm 2)和全连接(fully connected 1)层进行个性化人声活动检测,得到待识别音频信号对应的标签分类结果。
133.将待识别音频信号的标签分类结果对应的隐层向量与拼接后的识别音频数据对应的隐层向量进行拼接(concat 2),将拼接后的隐层向量输入第三长短时记忆网络结构(lstm 3)、全连接(fully connected 2)层和掩码转换层(mask),得到待识别音频信号对应的掩码。将待识别音频信号对应的识别音频特征与待识别音频信号对应的掩码进行点乘,得到增强后的音频特征,即目标音频特征(enhanced stacked filterbank)。
134.对得到的目标音频特征(enhanced stacked filterbank)进行语音识别(automatic speech recognition,asr),得到待识别音频信号对应的文本(text)。
135.在本技术的一些实施例中,第一长短时记忆网络结构、第二长短时记忆网络结构和第三长短时记忆网络结构可以由一层或多层长短时记忆网络构成。长短时记忆网络的层数越多,相应的模型拟合能力也越强。
136.在一实施例中,如图11所示,从第二长短时记忆网络结构后的全连接(fully connected1)层的输出处,获取待识别音频信号的标签分类结果对应的隐层向量,并将获取到的待识别音频信号的标签分类结果对应的隐层向量与拼接后的识别音频数据对应的隐层向量进行拼接,例如,将获取到的待识别音频信号的标签概率对应的隐层向量与拼接后的识别音频数据对应的隐层向量进行拼接。其中,待识别音频信号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。从全连接层的输出处,获取到的标签分类结果对应的隐层向量是低维度的。低纬度的隐层向量能更加准确地提供混合音频对应的标签预测信息,从而提高目标说话人声的提取效率。
137.在一实施例中,如图12所示,从第二长短时记忆网络结构的输出处,获取待识别音频信号的标签分类结果对应的隐层向量,并将获取到的待识别音频信号的标签分类结果对应的隐层向量与拼接后的识别音频数据对应的隐层向量进行拼接,例如,将获取到的待识别音频信号的标签概率对应的隐层向量与拼接后的识别音频数据对应的隐层向量进行拼接。其中,待识别音频信号对应的隐层向量与待识别音频信号的标签概率对应的隐层向量可通过并联、串联、求和或者基于注意力(attention)机制等方式进行拼接。从第二长短时记忆网络结构的输出处,获取到的标签分类结果对应的隐层向量是高维度的。高纬度的隐层向量保留了更多的原始信息,给第三长短时记忆网络结构更多的自由度以提取面向目标说话人提取任务需要的信息。
138.图13为本技术实施例提供的一种电子设备的结构示意图。参考图13,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传
感器180k,环境光传感器180l,骨传导传感器180m等。
139.可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
140.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural
‑
network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
141.控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
142.处理器110中还可以设置存储器,用于存储指令和数据。在本技术的一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
143.在本技术的一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter
‑
integrated circuit,i2c)接口,集成电路内置音频(inter
‑
integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general
‑
purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
144.i2c接口是一种双向同步串行总线,包括一根串行数据线(serial data line,sda)和一根串行时钟线(derail clock line,scl)。在本技术的一些实施例中,处理器110可以包含多组i2c总线。处理器110可以通过不同的i2c总线接口分别耦合触摸传感器180k,充电器,闪光灯,摄像头193等。例如:处理器110可以通过i2c接口耦合触摸传感器180k,使处理器110与触摸传感器180k通过i2c总线接口通信,实现电子设备100的触摸功能。
145.i2s接口可以用于音频通信。在本技术的一些实施例中,处理器110可以包含多组i2s总线。处理器110可以通过i2s总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在本技术的一些实施例中,音频模块170可以通过i2s接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
146.pcm接口也可以用于音频通信,将模拟信号抽样,量化和编码。在本技术的一些实施例中,音频模块170与无线通信模块160可以通过pcm总线接口耦合。在本技术的一些实施例中,音频模块170也可以通过pcm接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
147.uart接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在本技术的一些实施例中,uart接口
通常被用于连接处理器110与无线通信模块160。例如:处理器110通过uart接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在本技术的一些实施例中,音频模块170可以通过uart接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
148.mipi接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。mipi接口包括摄像头串行接口(camera serial interface,csi),显示屏串行接口(display serial interface,dsi)等。在本技术的一些实施例中,处理器110和摄像头193通过csi接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过dsi接口通信,实现电子设备100的显示功能。
149.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在本技术的一些实施例中,gpio接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
150.usb接口130是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备100,例如ar设备等。
151.可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本技术另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
152.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
153.电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
154.电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
155.天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
156.移动通信模块150可以提供应用在电子设备100上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对
emitting diodes,qled)等。在本技术的一些实施例中,电子设备100可以包括1个或n个显示屏194,n为大于1的正整数。
162.电子设备100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。
163.isp用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度,肤色进行算法优化。isp还可以对拍摄场景的曝光,色温等参数优化。在本技术的一些实施例中,isp可以设置在摄像头193中。
164.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal
‑
oxide
‑
semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在本技术的一些实施例中,电子设备100可以包括1个或n个摄像头193,n为大于1的正整数。
165.数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
166.视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
167.npu为神经网络(neural
‑
network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
168.内部存储器121可以包括一个或多个随机存取存储器(random access memory,ram)和一个或多个非易失性存储器(non
‑
volatile memory,nvm)。
169.随机存取存储器可以包括静态随机存储器(static random
‑
access memory,sram)、动态随机存储器(dynamic random access memory,dram)、同步动态随机存储器(synchronous dynamic random access memory,sdram)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,ddr sdram,例如第五代ddr sdram一般称为ddr5 sdram)等;
170.非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
171.快闪存储器按照运作原理划分可以包括nor flash、nand flash、3d nand flash等,按照存储单元电位阶数划分可以包括单阶存储单元(single
‑
level cell,slc)、多阶存储单元(multi
‑
level cell,mlc)、三阶储存单元(triple
‑
level cell,tlc)、四阶储存单元(quad
‑
level cell,qlc)等,按照存储规范划分可以包括通用闪存存储(英文:universal flash storage,ufs)、嵌入式多媒体存储卡(embedded multi media card,emmc)等。
172.随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他
正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
173.非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
174.外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
175.电子设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
176.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本技术的一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
177.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐,或收听免提通话。
178.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
179.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中,电子设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
180.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备100平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
181.压力传感器180a用于感受压力信号,可以将压力信号转换成电信号。在本技术的一些实施例中,压力传感器180a可以设置于显示屏194。压力传感器180a
182.的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180a,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180a检测所述触摸操作强度。电子设备100也可以根据压力传感器180a的检测信号计算触摸的位置。在本技术的一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
183.陀螺仪传感器180b可以用于确定电子设备100的运动姿态。在本技术的一些实施
例中,可以通过陀螺仪传感器180b确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180b可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180b检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180b还可以用于导航,体感游戏场景。
184.气压传感器180c用于测量气压。在本技术的一些实施例中,电子设备100通过气压传感器180c测得的气压值计算海拔高度,辅助定位和导航。
185.磁传感器180d包括霍尔传感器。电子设备100可以利用磁传感器180d检测翻盖皮套的开合。在本技术的一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
186.加速度传感器180e可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备100姿态,应用于横竖屏切换,计步器等应用。
187.距离传感器180f,用于测量距离。电子设备100可以通过红外或激光测量距离。在本技术的一些实施例中,拍摄场景,电子设备100可以利用距离传感器180f测距以实现快速对焦。
188.接近光传感器180g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180g检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180g也可用于皮套模式,口袋模式自动解锁与锁屏。
189.环境光传感器180l用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180l也可用于拍照时自动调节白平衡。环境光传感器180l还可以与接近光传感器180g配合,检测电子设备100是否在口袋里,以防误触。
190.指纹传感器180h用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
191.温度传感器180j用于检测温度。在本技术的一些实施例中,电子设备100利用温度传感器180j检测的温度,执行温度处理策略。例如,当温度传感器180j上报的温度超过阈值,电子设备100执行降低位于温度传感器180j附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
192.触摸传感器180k,也称“触控器件”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
193.骨传导传感器180m可以获取振动信号。在本技术的一些实施例中,骨传导传感器180m可以获取人体声部振动骨块的振动信号。骨传导传感器180m也可以接触人体脉搏,接收血压跳动信号。在本技术的一些实施例中,骨传导传感器180m也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180m获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180m获取的血压跳动信号解析心率信息,实现心率检测功能。
194.按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
195.马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
196.指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
197.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多帧卡。所述多帧卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。电子设备100通过sim卡和网络交互,实现通话以及数据通信等功能。在本技术的一些实施例中,电子设备100采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备100中,不能和电子设备100分离。
198.本实施例还提供一种计算机存储介质,该计算机存储介质中存储有计算机指令,当该计算机指令在电子设备100上运行时,使得电子设备100执行上述相关方法步骤实现上述实施例中的声音检测模型训练方法或实现上述各方法实施例中的数据处理方法。
199.本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的声音检测模型训练方法或实现上述实施例中的数据处理方法。
200.另外,本技术的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的声音检测模型训练方法或执行上述各方法实施例中的数据处理方法。
201.其中,本实施例提供的电子设备100、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
202.通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成
以上描述的全部或者部分功能。
203.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
204.该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
205.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
206.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
207.最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。