语音唤醒方法、装置、人机交互设备和存储介质与流程

文档序号:33190803发布日期:2023-02-04 08:22阅读:109来源:国知局
语音唤醒方法、装置、人机交互设备和存储介质与流程

1.本发明涉及语音处理技术领域,尤其涉及一种语音唤醒方法、装置、人机交互设备和存储介质。


背景技术:

2.语音唤醒是指用户通过说出唤醒词来唤醒电子设备,使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。
3.当前语音唤醒一般流程是先确定唤醒词,然后录制若干人的唤醒词音频,进行模型训练,得到深定制模型,然后将模型部署到唤醒系统中,达到较好唤醒效果。
4.但是,由于该方案依赖唤醒词文本的显示确认,依赖数据的大规模录制,依赖显卡进行模型训练,不是一种轻量级的解决方案,推广性弱。


技术实现要素:

5.本发明提供一种语音唤醒方法、装置、人机交互设备和存储介质,用以解决现有技术中语音唤醒方案不是轻量级的解决方案,推广性弱的缺陷。
6.本发明提供一种语音唤醒方法,包括:
7.确定待识别语音;
8.基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
9.基于所述待识别语音的音素信息,进行语音唤醒。
10.根据本发明提供的一种语音唤醒方法,所述声学模型的训练步骤包括:
11.确定初始声学模型,并基于所述初始声学模型,对所述未识别唤醒语音和/或误识别唤醒语音进行音素信息提取,得到所述未识别唤醒语音和/或误识别唤醒语音的音素信息;
12.基于所述未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,确定第一损失函数;
13.对所述误识别唤醒语音的音素信息进行分类,得到唤醒分类结果,所述唤醒分类结果包括唤醒音素信息和非唤醒音素信息,基于所述误识别唤醒语音的音素信息和所述非唤醒音素信息之间的相似度,确定第二损失函数;
14.基于所述第一损失函数,和/或,所述第二损失函数,对所述初始模型进行参数迭代,得到所述声学模型。
15.根据本发明提供的一种语音唤醒方法,所述基于所述待识别语音的音素信息,进行语音唤醒,包括:
16.对所述待识别语音的音素信息进行文本解码,得到所述待识别语音的文本;
17.基于所述待识别语音的文本与唤醒词之间的文本相似度,和/或,基于所述待识别
语音与注册语音的音素信息之间的音素相似度,进行语音唤醒;
18.所述唤醒词基于所述注册语音生成。
19.根据本发明提供的一种语音唤醒方法,所述基于所述待识别语音的文本与唤醒词之间的文本相似度,和/或,基于所述待识别语音与注册语音的音素信息之间的音素相似度,进行语音唤醒,包括:
20.分别对所述待识别语音和注册语音进行频谱特征提取,得到所述待识别语音和注册语音的频谱特征;
21.基于所述待识别语音与注册语音的频谱特征之间的频谱相似度,所述文本相似度和音素相似度,进行语音唤醒。
22.根据本发明提供的一种语音唤醒方法,所述基于所述待识别语音与注册语音的频谱特征之间的频谱相似度,所述文本相似度和音素相似度,进行语音唤醒,进行语音唤醒,包括:
23.分别基于所述文本相似度,音素相似度和频谱相似度,对所述待识别语音进行评分,得到所述待识别语音的文本评分、音素评分和频谱评分;
24.将所述待识别语音的文本评分、音素评分和频谱评分进行融合,得到所述待识别语音的融合评分;
25.在所述待识别语音的融合评分大于等于评分阈值的情况下,执行语音唤醒操作。
26.根据本发明提供的一种语音唤醒方法,所述未识别唤醒语音的确定步骤包括:
27.获取未执行语音唤醒操作的样本语音;
28.在所述样本语音的评分小于第一评分阈值,大于等于第二评分阈值,且在接收到样本语音后的预设时间内执行语音唤醒操作的情况下,确定所述样本语音为未识别唤醒语音;
29.所述样本语音的评分基于所述样本语音与唤醒词之间的文本相似度、所述样本语音与注册语音之间的音素相似度、频谱相似度中的至少一种确定。
30.本发明还提供一种语音唤醒装置,包括:
31.语音确定单元,用于确定待识别语音;
32.音素提取单元,用于基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
33.语音唤醒单元,用于基于所述待识别语音的音素信息,进行语音唤醒。
34.本发明还提供一种人机交互设备,包括:
35.麦克风,用于采集待识别语音,并将所述待识别语音发送至处理器;
36.与所述麦克风连接的处理器,用于基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到,并基于所述待识别语音的音素信息,进行语音唤醒。
37.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音唤醒方法。
38.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法。
39.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法。
40.本发明提供的语音唤醒方法、装置、人机交互设备和存储介质,通过挖掘用户使用过程中的未识别唤醒语音和/或误识别唤醒语音,并以此两类语音作为样本,对声学模型进行训练,并通过声学模型得到用于进行语音唤醒的待识别语音的音素信息,能够实现轻量级的语音唤醒方案,同时提高了语音唤醒的可靠性。
附图说明
41.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本发明提供的语音唤醒方法的流程示意图之一;
43.图2是本发明提供的语音唤醒方法的流程示意图之二;
44.图3是本发明提供的语音唤醒方法中步骤130的流程示意图;
45.图4是本发明提供的语音唤醒方法的流程示意图之三;
46.图5是本发明提供的语音唤醒方法的流程示意图之四;
47.图6是本发明提供的未识别唤醒语音确定方法的流程示意图;
48.图7是本发明提供的语音唤醒方法的流程示意图之五;
49.图8是本发明提供的语音唤醒装置的结构示意图;
50.图9是本发明提供的人机交互设备的结构示意图;
51.图10是本发明提供的电子设备的结构示意图。
具体实施方式
52.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.语音唤醒技术是语音识别技术中重要的分支,语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词,从而进行唤醒处理,目前在车载,导航,智能家居等方面有着重要的应用。但是,目前的语音唤醒方案依赖唤醒词文本的显示确认,依赖数据的大规模录制,依赖显卡进行模型训练,不是一种轻量级的解决方案,推广性弱。
54.考虑到上述问题,本发明实施例提供了一种语音唤醒方法,该方法的技术构思在于,对用户使用智能设备过程中的语音数据进行挖掘,得到未识别唤醒语音和误识别唤醒语音,并应用这两类语音对唤醒模型进行优化,使得模型可以不断的自进化学习,使得语音唤醒系统越用越好的状态。这样,可以避免录制大规模语音数据进行模型训练,同时也无需依赖显卡进行模型训练,能够提供一种轻量级的语音唤醒解决方案。
55.下面结合附图描述本发明的语音唤醒方法的技术方案。
56.图1是本发明提供的语音唤醒方法的流程示意图之一,该方法中各步骤的执行主体可以是语音唤醒装置,该装置可以通过软件和/或硬件实现,该装置可以集成在电子设备中,该电子设备可以是被唤醒的设备本身,也可以是除该设备外的、进行唤醒识别并控制该设备唤醒的其他设备。其中,电子设备可以是移动终端、智能音箱、智能空调等任一具有语音控制功能的设备,进行唤醒识别并控制该电子设备唤醒的其他设备可以是服务器、移动终端等。如图1所示,本发明实施例提供的语音唤醒方法可以包括如下步骤:
57.步骤110,确定待识别语音。
58.具体地,待识别语音可以包括需要进行语音识别的语音,待识别语音可以通过拾音设备得到,此处拾音设备可以是智能手机、平板电脑,还可以是智能电器例如音响、电视和空调等,拾音设备在经过麦克风阵列拾音得到待识别语音后,还可以对待识别语音进行放大和/或降噪等,本发明实施例对此不作具体限定。
59.步骤120,基于声学模型,对待识别语音进行音素信息提取,得到待识别语音的音素信息,声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到。
60.具体地,在得到待识别语音之后,还可首先确定待识别语音的声学特征,此处的声学特征可以是对待识别语音进行分帧加窗后,通过快速傅里叶变换提取得到。在此基础上,可以将待识别语音的声学特征输入至预先训练好的声学模型,由声学模型针对输入的声学特征进行音素信息提取,由此得到声学模型输出的待识别语音的音素信息。此处,待识别语音的音素信息用于表征待识别语音的音素序列,具体可以是子词,子词的颗粒度可以有多种,常见的为上下文相关音素。音素序列可以用于判断待识别语音是否为唤醒词。
61.考虑到在使用智能设备进行语音唤醒的过程中,会产生大量的样本语音,针对样本语音进行挖掘可得到两类语音,即未识别唤醒语音和误识别唤醒语音。其中,未识别唤醒语音是用户说了正确的唤醒词,但是由于未正确识别从而未响应唤醒的语音,误唤醒语音是用户并没有对语音唤醒系统发出有效指令,但由于误判发生应答响应的语音。
62.这两类语音均可作为训练样本,在用户使用智能设备的过程中不断训练声学模型,对声学模型进行训练,实现迭代优化,从而提高语音唤醒的可靠性。
63.具体训练方法可以包括:在以未识别唤醒语音作为训练样本的情况下,以唤醒音素信息作为标签,以未识别唤醒语音的音素信息和唤醒音素信息之间的相似度作为损失函数,对声学模型进行迭代优化。应理解,未识别唤醒语音的音素信息和唤醒音素信息之间的相似度越大,未识别唤醒语音的音素信息提取为唤醒音素信息的概率越大;反之,未识别唤醒语音的音素信息和唤醒音素信息之间的相似度越小,未识别唤醒语音的音素信息提取为唤醒音素信息的概率越小。
64.在以误识别唤醒语音作为训练样本的情况下,首先对误识别唤醒语音的音素信息进行唤醒分类,得到唤醒分类结果,并将唤醒分类结果中的非唤醒音素信息作为标签,对声学模型进行迭代优化。
65.在实际训练迭代过程中,可仅以未识别唤醒语音作为训练样本,也可仅以误识别唤醒语音作为训练样本,当然还可以同时以未识别唤醒语音和误识别唤醒语音作为训练样本,本发明实施例对此不作具体限定。
66.采用未识别唤醒语音和误识别唤醒语音对声学模型进行训练,相较于相关技术中通过大规模的唤醒词录入,依赖显卡进行模型训练的方式,无须录制若干人的唤醒词音频,在实现轻量级的语音唤醒方案的同时,能够提高语音唤醒的可靠性。
67.步骤130,基于待识别语音的音素信息,进行语音唤醒。
68.具体地,在基于声学模型得到待识别语音的音素信息之后,即可应用待识别语音的音素信息进行语音唤醒。例如,可根据待识别语音的音素信息与注册语音之间音素信息的差异性来判断是否进行语音唤醒;或者基于待识别语音的音素信息,确定待识别语音对应的文本信息,基于待识别语音的文本信息和注册唤醒词之间的差异性来判断是否进行语音唤醒;或者还可以综合考虑待识别语音的音素信息、文本信息和声学特征等,来判断是否进行语音唤醒,本发明实施例对此不作具体限定。
69.本发明实施例提供的语音唤醒方法,通过挖掘用户使用过程中的未识别唤醒语音和/或误识别唤醒语音,并以此两类语音作为样本,对声学模型进行训练,并通过声学模型得到用于进行语音唤醒的待识别语音的音素信息,能够实现轻量级的语音唤醒方案,同时提高了语音唤醒的可靠性。
70.基于上述实施例,图2是本发明提供的语音唤醒方法的流程示意图之二,如图2所示,声学模型的训练步骤包括:
71.步骤210,确定初始声学模型,并基于初始声学模型,对未识别唤醒语音和/或误识别唤醒语音进行音素信息提取,得到未识别唤醒语音和/或误识别唤醒语音的音素信息;
72.步骤220,基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,确定第一损失函数;
73.步骤230,对误识别唤醒语音的音素信息进行分类,得到唤醒分类结果,唤醒分类结果包括唤醒音素信息和非唤醒音素信息,基于误识别唤醒语音的音素信息和非唤醒音素信息之间的相似度,确定第二损失函数;
74.步骤240,基于第一损失函数,和/或,第二损失函数,对初始模型进行参数迭代,得到声学模型。
75.具体地,为了进一步提高语音唤醒的可靠性,实现更为准确可靠的针对待识别语音的音素信息提取,需要对声学模型进行训练,实现迭代优化,声学模型的训练步骤可以包括:
76.可以预先收集未识别唤醒语音和/或误识别唤醒语音作为样本语音,并确定初始声学模型,此处的初始声学模型可以是上一次迭代优化得到的声学模型。将未识别唤醒语音和/或误识别唤醒语音分别输入至初始声学模型,由初始声学模型针对输入的未识别唤醒语音和/或误识别唤醒语音进行音素信息提取,由此得到初始声学模型输出的未识别唤醒语音和/或误识别唤醒语音的音素信息。
77.针对未识别唤醒语音,其标签为唤醒音素信息,此处的唤醒音素信息可通过对唤醒词执行对齐操作,将唤醒词转换为子词标签,即上下文相关音素标签。例如唤醒词为“小飞小飞”,则相应的上下文相关音素序列为:sil-x+iao3、x-iao+f、iao-f+ei、f-ei+x、ei-x+iao、x-iao+f、iao-f+ei、f-ei+sil,该上下文相关音素序列即为唤醒音素信息。可根据未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,确定第一损失函数,第一损失函数具体可以是交叉熵损失函数,并以交叉熵准则计算梯度并执行梯度下降操作,对初始声学
模型进行参数迭代,得到声学模型。
78.针对误识别唤醒语音,其标签为非唤醒音素信息,可首先对误识别唤醒语音的音素信息进行二分类,得到唤醒分类结果,唤醒分类结果可包括唤醒音素信息和非唤醒音素信息。随即根据误识别唤醒语音的音素信息和非唤醒音素信息之间的相似度,确定第二损失函数,并基于第二损失函数对初始声学模型进行梯度回传和参数更新,得到声学模型。
79.可理解的是,还可同时以未识别唤醒语音和误识别唤醒语音为样本,结合第一损失函数和第二损失函数,对初始声学模型进行参数迭代,得到声学模型,从而提高了声学模型音素信息提取的准确性和可靠性。
80.本发明实施例提供的方法,以未识别唤醒语音和/或误识别唤醒语音为样本,结合第一损失函数和/或第二损失函数,对初始声学模型进行参数迭代,得到声学模型,实现自学习的同时提高了语音唤醒的准确性和可靠性。
81.基于上述任一实施例,图3是本发明提供的语音唤醒方法中步骤130的流程示意图,如图3所示,步骤130具体包括:
82.步骤131,对待识别语音的音素信息进行文本解码,得到待识别语音的文本;
83.步骤132,基于待识别语音的文本与唤醒词之间的文本相似度,和/或,基于待识别语音与注册语音的音素信息之间的音素相似度,进行语音唤醒;唤醒词基于注册语音生成。
84.具体地,为了实现应用待识别语音的音素信息进行语音唤醒,可通过待识别语音的文本与唤醒词之间的文本相似度,和/或,待识别语音与注册语音之间的音素相似度实现。
85.可通过解码网络对待识别语音的音素信息进行文本解码,得到待识别语音的文本。考虑到由于用户的发音多样性以及模型本身的区分性存在缺陷,导致识别出的音素序列可能存在干扰点,为了进一步提高解码的准确性,可利用语言学信息进行平滑。以中文为例,音素序列应该为声韵母序列,使得平滑后的序列满足声韵母构成规律。基于构建的声韵母序列构建解码网络,得到待识别语音的文本。
86.在此基础上,可计算待识别语音的文本与唤醒词之间的文本相似度,文本相似度越高,则被唤醒的概率越高;反之文本相似度越低,则被唤醒的概率越低。此处的唤醒词与基于注册语音生成的,用户首先进行若干次语音注册,注册成功后可根据注册语音生成用户需要的唤醒词。
87.在另一个实施例中,可通过计算待识别语音与注册语音之间的音素相似度,进行语音唤醒。音素相似度越大,则被唤醒的概率越大;反之音素相似度越小,则被唤醒的概率越小。
88.当然,还可以结合文本相似度和音素相似度进行语音唤醒,比如基于一定的权重将文本相似度和音素相似度进行融合,基于融合后的相似度进行语音唤醒。
89.应说明的是,文本相似度和音素相似度均可通过相似度计算函数得到,比如余弦相似度、欧氏距离和皮尔逊相关系数等。
90.本发明实施例提供的方法,基于文本相似度和/或音素相似度进行语音唤醒,提高了语音唤醒的可靠性。
91.基于上述任一实施例,图4是本发明提供的语音唤醒方法的流程示意图之三,如图4所示,步骤132具体包括:
92.步骤132-1,分别对待识别语音和注册语音进行频谱特征提取,得到待识别语音和注册语音的频谱特征;
93.步骤132-2,基于所述待识别语音与注册语音的频谱特征之间的频谱相似度,所述文本相似度和音素相似度,进行语音唤醒。
94.具体地,在进行语音唤醒时,还可结合频谱相似度进行语音唤醒。频谱相似度可表征待识别语音与注册语音的频谱特征之间的相似度。频谱相似度越高,则设备被唤醒的概率越高;反之频谱相似度越低,则设备被唤醒的概率越低。
95.此处的频谱特征可以是对待识别语音进行分帧加窗后,通过快速傅里叶变换fft(fast fourier transform)提取的待识别语音中每一帧的频谱特征,例如梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)特征或感知线性预测(perceptual linear predictive,plp)特征等。在此基础上,通过动态规划算法计算待识别语音和注册语音的频谱特征之间的相似度,得到频谱相似度。
96.因此,结合待识别语音的文本与唤醒词之间的文本相似度,待识别语音与注册语音之间的音素相似度和频谱相似度,进行语音唤醒,能够进一步提高语音唤醒的准确性和可靠性。
97.基于上述任一实施例,图5是本发明提供的语音唤醒方法的流程示意图之四,如图5所示,步骤132-2具体包括:
98.步骤132-21,分别基于文本相似度,音素相似度和频谱相似度,对待识别语音进行评分,得到待识别语音的文本评分、音素评分和频谱评分;
99.步骤132-22,将待识别语音的文本评分、音素评分和频谱评分进行融合,得到待识别语音的融合评分;
100.步骤132-23,在待识别语音的融合评分大于等于评分阈值的情况下,执行语音唤醒操作。
101.具体地,可分别基于文本相似度,音素相似度和频谱相似度,对待识别语音进行评分,得到待识别语音的文本评分、音素评分和频谱评分。可理解的是,相似度越高,则对应的评分越高。
102.分别得到待识别语音的文本评分、音素评分和频谱评分之后,可对该三类评分进行融合,得到融合评分,例如可采用插值融合的方式进行融合;还可根据预先设置的权重,采用加权融合的方式进行融合。
103.在此基础上,可将融合评分与评分阈值进行比较,以判断是否触发唤醒。评分阈值可以是预先设置的,比如可以是电子设备在出厂时设置的语音唤醒评分阈值。并在待识别语音的融合评分大于等于评分阈值的情况下,执行语音唤醒操作。
104.基于上述任一实施例,图6是本发明提供的未识别唤醒语音确定方法的流程示意图,如图6所示,未识别唤醒语音的确定步骤包括:
105.步骤610,获取未执行语音唤醒操作的样本语音;
106.步骤620,在样本语音的评分小于第一评分阈值,大于等于第二评分阈值,且在接收到样本语音后的预设时间内执行语音唤醒操作的情况下,确定样本语音为未识别唤醒语音;样本语音的评分基于样本语音与唤醒词之间的文本相似度、样本语音与注册语音之间的音素相似度、频谱相似度中的至少一种确定。
107.具体地,未执行语音唤醒操作可以分为两种情况,一种是用户说出了唤醒词但未唤醒的语音,另一种是不带唤醒词的正常对话语音。考虑到不带唤醒词的正常对话语音的评分与评分阈值的差距较大,因此可通过设置评分阈值的方式将该类样本语音过滤掉。
108.同时考虑到未识别唤醒语音没有被正确识别,可进一步通过双门限策略对样本语音进行挖掘得到未识别唤醒语音。可设置低门限和高门限,其中高门限为正常门限,低门限略低于正常门限。即设置二级评分阈值,第一评分阈值可理解为高门限,第二评分阈值可理解为低门限,如果样本语音的评分小于第一评分阈值,大于等于第二评分阈值,则其很可能是未识别唤醒语音。
109.此外,这里依据用户的使用习惯,在第一次说唤醒词没有触发后,用户会接着说第二次,因此,本发明实施例通过预设一个时间段,在这个时间段内执行语音唤醒操作的情况下,则可以认为前一段评分小于第一评分阈值,大于等于第二评分阈值的样本语音为未识别唤醒语音。
110.需要说明的是,在挖掘到未识别唤醒语音之后,可以将该未识别唤醒语音存储于智能语音唤醒系统中,以供智能语音唤醒系统中的声学模型在进行模型优化时读取调用,未唤醒语音可以以音频的形式存储,也可以以语音特征的形式存储。
111.基于上述任一实施例,图7是本发明提供的语音唤醒方法的流程示意图之五,如图7所示,提供一种语音唤醒方法,该方法包括:
112.用户先进行若干次语音注册,注册后即可使用。根据注册语音生成用户需要的唤醒词,支持各种口音和方言。
113.用户使用过程中,采用多专家系统融合,保证唤醒系统的稳定性。
114.专家系统一,使用声学模型对待识别语音进行音素信息提取,得到所述待识别语音的音素信息,对待识别语音的音素信息进行文本解码,得到待识别语音的文本,计算待识别语音的文本与唤醒词之间的文本相似度,唤醒词基于注册语音生成。
115.专家系统二,使用声学模型分别提取待识别语音与注册语音的音素信息,计算待识别语音与注册语音之间的音素相似度。
116.专家系统三,分别对待识别语音和注册语音进行频谱特征提取,得到待识别语音和注册语音的频谱特征,采用动态规划算法计算频谱相似度。
117.基于多专家融合系统,可以实现唤醒系统的部署使用。每个系统会输出一个得分,将得分进行插值融合,基于融合后得分来判断是否触发唤醒。
118.用户使用过程中,产生正式的音频数据,主要有两类:一类是系统不能识别的唤醒数据,即未识别唤醒语音;一类是系统错识别的误唤醒数据,即误识别唤醒语音。基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,对初始声学模型进行参数迭代,得到声学模型。
119.挖掘未识别唤醒语音,可以通过双门限策略来实现,设置低门限和高门限,其中,高门限为正常门限,低门限略低于正常门限。这里依据用户的使用习惯,在第一次说唤醒词没有触发后,用户会接着说第二次,挖掘这种模式的数据,第一次的数据即未识别唤醒语音。
120.挖掘误识别唤醒语音,唤醒模型属于概率体系模型,误唤醒必然存在,而且外部噪声或干扰类型属于一个开集问题,无法穷举。通过收集现网的误唤醒数据,将该问题转换成
一个集内问题。目前的语音交互方式基本为“唤醒词+用户意图”这种模式,尝试利用识别和语义反馈结果判断前置的唤醒是否为误唤醒,例如系统被触发后,后续没有人声或者有意义的交互,可以判别为系统误唤醒。
121.获取这两类数据可以用于唤醒系统的优化,在用户使用过程中,自学习的获取有用数据,进行模型的更新,做到让每个用户都可以方便使用语音唤醒功能,并且达到越用越好用的状态。
122.下面对本发明提供的语音唤醒装置进行描述,下文描述的语音唤醒装置与上文描述的语音唤醒方法可相互对应参照。
123.基于上述任一实施例,图8是本发明提供的语音唤醒装置的结构示意图,如图8所示,提供一种语音唤醒装置,包括:
124.语音确定单元810,用于确定待识别语音;
125.音素提取单元820,用于基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
126.语音唤醒单元830,用于基于所述待识别语音的音素信息,进行语音唤醒。
127.本发明实施例提供的语音唤醒装置,通过挖掘用户使用过程中的未识别唤醒语音和/或误识别唤醒语音,并以此两类语音作为样本,对声学模型进行训练,并通过声学模型得到用于进行语音唤醒的待识别语音的音素信息,能够实现轻量级的语音唤醒方案,同时提高了语音唤醒的可靠性。
128.基于上述任一实施例,语音唤醒装置还包括模型训练单元,用于:
129.确定初始声学模型,并基于所述初始声学模型,对所述未识别唤醒语音和/或误识别唤醒语音进行音素信息提取,得到所述未识别唤醒语音和/或误识别唤醒语音的音素信息;
130.基于所述未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,确定第一损失函数;
131.对所述误识别唤醒语音的音素信息进行分类,得到唤醒分类结果,所述唤醒分类结果包括唤醒音素信息和非唤醒音素信息,基于所述误识别唤醒语音的音素信息和所述非唤醒音素信息之间的相似度,确定第二损失函数;
132.基于所述第一损失函数,和/或,所述第二损失函数,对所述初始模型进行参数迭代,得到所述声学模型。
133.基于上述任一实施例,语音唤醒单元830具体用于:
134.对所述待识别语音的音素信息进行文本解码,得到所述待识别语音的文本;
135.基于所述待识别语音的文本与唤醒词之间的文本相似度,和/或,基于所述待识别语音与注册语音之间的音素相似度,进行语音唤醒;
136.所述唤醒词基于所述注册语音生成。
137.基于上述任一实施例,语音唤醒单元830具体用于:
138.分别对所述待识别语音和注册语音进行频谱特征提取,得到所述待识别语音和注册语音的频谱特征;
139.基于所述待识别语音与注册语音的频谱特征之间的频谱相似度,所述文本相似度和音素相似度,进行语音唤醒。
140.基于上述任一实施例,语音唤醒单元830具体用于:
141.分别基于所述文本相似度,音素相似度和频谱相似度,对所述待识别语音进行评分,得到所述待识别语音的文本评分、音素评分和频谱评分;
142.将所述待识别语音的文本评分、音素评分和频谱评分进行融合,得到所述待识别语音的融合评分;
143.在所述待识别语音的融合评分大于等于评分阈值的情况下,执行语音唤醒操作。
144.基于上述任一实施例,还包括语音确定单元,用于:
145.获取未执行语音唤醒操作的样本语音;
146.在所述样本语音的评分小于第一评分阈值,大于等于第二评分阈值,且在接收到样本语音后的预设时间内执行语音唤醒操作的情况下,确定所述样本语音为未识别唤醒语音;
147.所述样本语音的评分基于所述样本语音的文本与唤醒词之间的文本相似度、所述样本语音与注册语音之间的音素相似度、频谱相似度中的至少一种确定。
148.基于上述任一实施例,图9是本发明提供的人机交互设备的结构示意图,如图9所示,提供一种人机交互设备,包括:
149.麦克风910,用于采集待识别语音,并将所述待识别语音发送至处理器;
150.与所述麦克风连接的处理器920,用于基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到,并基于所述待识别语音的音素信息,进行语音唤醒。
151.具体地,用户可通过说出唤醒词来唤醒该人机交互设备,假设该人机交互设备的唤醒词为“小飞小飞”,当用户说出了上述的唤醒词后,即可启动该人机交互设备。
152.人机交互设备包括麦克风,用于采集用户的待识别语音,并将采集的待识别语音发送至处理器。
153.处理器与麦克风相连,在接收到用户的待识别语音之后,基于声学模型,对待识别语音进行音素信息提取,得到待识别语音的音素信息,基于所述待识别语音的音素信息,进行语音唤醒。
154.声学模型可部署在处理器内部,也可部署在云端。声学模型是基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到的。
155.图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行语音唤醒方法,该方法包括:
156.确定待识别语音;
157.基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音
素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
158.基于所述待识别语音的音素信息,进行语音唤醒。
159.此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
160.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的语音唤醒方法,该方法包括:
161.确定待识别语音;
162.基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
163.基于所述待识别语音的音素信息,进行语音唤醒。
164.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的语音唤醒方法,该方法包括:
165.确定待识别语音;
166.基于声学模型,对所述待识别语音进行音素信息提取,得到所述待识别语音的音素信息,所述声学模型基于未识别唤醒语音的音素信息和唤醒音素信息之间的相似度,和/或,基于误识别唤醒语音的音素信息的唤醒分类结果,进行训练得到;
167.基于所述待识别语音的音素信息,进行语音唤醒。
168.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
169.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
170.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管
参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1