技术简介:
本发明针对语音识别中非关键词干扰导致关键词识别准确率低的问题,提出构建吸收网系统的方法:通过统计非关键词音素概率,按优先级组合设置传输通道,优化非关键词吸收路径,提升关键词识别准确率。该方法通过分层组合高概率音素与非语音音素,形成多级过滤机制,有效抑制干扰信息。
关键词:吸收网系统,语音识别,关键词提取
1.本发明涉及语音处理技术领域,尤其涉及一种吸收网系统及其构建方法、装置、设备及介质。
背景技术:2.在关键词语音识别中,误识别率与识别率同样重要,所述误识别率指的是将非关键词错误识别成关键词的概率。因而,一个完整的解码网络,不仅包含针对关键词的解码,还包含针对将非关键词误识别成关键词的网络,称为吸收网。吸收网决定了误识别率,也决定了将关键词识别成非关键词的概率,该网络的设计与解码网的设计同样决定了整个关键词语音识别系统的性能。
3.在连续语音的自动语音识别(automatic speech recognition,asr)中,不存在吸收网络,所以覆盖了所有潜在可识别的词句,也就不存在误识别的判定。而在关键词识别中,所需识别的语音不一定都是关键词,所以会存在误识别。
4.目前针对误识别的处理方式主要有以下几种:1)使用采用基于asr的解码网络,如果解码得到产生的词句非关键词,则吸收之;2)使用关键词识别概率的阈值来判定是否为误识别。第一种处理方式需要巨大的解码网络,所以很难做到实际应用;第二种处理方式则受噪音的影响较大,使得吸收结果不稳定。
5.因此,本发明提出了一种吸收网系统及其构建方法、装置、设备及介质来提高语音识别应用场景中对非关键词的吸收率,从而提高对关键词识别的准确性。
技术实现要素:6.本发明提出了一种吸收网系统及其构建方法、装置、设备及介质来提高语音识别应用场景中对非关键词的吸收率,从而提高对关键词识别的准确性。
7.第一方面,本发明提供一种吸收网系统的构建方法,包括:获取非关键词音素及所述非关键词音素的概率,所述概率通过统计所述非关键词音素在语音识别应用场景中出现的频率得到的;将n个第一音素设置于至少一条非关键词传输通道中,所述第一音素为所述非关键词音素中概率超过第一预设阈值的音素,所述n为正整数;将m个第二音素依次与所述第一音素进行组合,并将组合后概率最大的所述第二音素设置于相对应的所述非关键词传输通道中,所述第二音素为所述非关键词音素中概率超过第二预设阈值、但不超过所述第一预设阈值的音素,所述m为正整数;依次类推,直至将所述非关键词音素均设置于所述非关键词传输通道中,并使得相应的所述非关键词传输通道上的音素组合在语音识别应用场景中出现的概率最大;并联所述非关键词传输通道以构建所述吸收网系统。
8.其有益效果在于:本发明通过所述非关键词传输通道上的音素组合在语音识别应用场景中出现的概率最大,能够在语音识别应用场景中对非关键词音素的吸收能力达到最强,进一步提高了语音识别应用场景中对关键词的识别效率。
9.可选地,所述吸收网系统的构建方法,还包括:获取非语音音素,并将所述非语音
音素设置于所述非关键词传输通道中。其有益效果在于:因为在语音识别应用场景中可能会存在非语音音素,所以通过将所述非语音音素设置于所述非关键词传输通道中,能够吸收语音识别应用场景中存在的非语音音素,进一步提高了对关键词的识别效率。
10.进一步可选地,所述获取非语音音素,并将所述非语音音素设置于所述非关键词传输通道中,包括:获取所述非语音音素,并根据所述非关键词传输通道中设置的所述非关键词音素的数目超过所述非语音音素的数目,将所述非语音音素设置于所述非关键词传输通道中。其有益效果在于:通过所述非关键词传输通道中设置的所述非关键词音素的数目超过所述非语音音素的数目,以避免弱化所述非关键词传输通道对所述非关键词音素的吸收能力。
11.又进一步可选地,所述吸收网系统的构建方法,还包括:获取关键词音素,并将所述关键词音素设置于所述非关键词传输通道中。其有益效果在于:因为在语音识别应用场景中,非关键词中会包含一定的关键词音素,所以将所述关键词音素设置于所述非关键词传输通道中,以提高对所述非关键词的吸收效率,进一步提高了对关键词的识别效率。
12.再进一步可选地,所述获取关键词音素,并将所述关键词音素设置于所述非关键词传输通道中,包括:获取所述关键词音素,并根据所述非关键词传输通道中设置的所述非关键词音素的数目超过所述关键词音素的数目,将所述关键词音素设置于所述非关键词传输通道中。其有益效果在于:通过所述非关键词传输通道中设置的所述非关键词音素的数目超过所述关键词音素的数目,以避免弱化所述非关键词传输通道对所述非关键词音素的吸收能力。
13.还进一步可选地,所述非关键词传输通道中的所述非关键词音素的数目、所述关键词音素的数目和所述非语音音素的数目之比为3:1:1。其有益效果在于:此时设置的所述非关键词传输通道,在一些情况下,对非关键词音素的吸收能力相对于其他实施例较优,对关键词识别的效率相对于其他实施例较优。
14.第二方面,本发明提供一种吸收网系统的构建装置,所述装置包括用于执行于如第一方面中的任一项所述的构建方法的模块及单元。这些模块及单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
15.第三方面,本发明提供一种吸收网系统,通过如第一方面中任一项所述的构建方法得到,包括:并联的所述非关键词传输通道,所述非关键词传输通道上设有包括非关键词音素的音素组合。
16.第四方面,本技术实施例提供一种电子设备,包括处理器和存储器。其中,存储器用于存储一个或多个计算机程序;当存储器存储的一个或多个计算机程序被处理器执行时,使得该电子设备能够实现上述第一方面的任意一种可能的设计的方法。
17.第五方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现如上述实施例中任一项所述的方法。
18.关于上述第二方面至第五方面的有益效果可以参见上述第一方面中的描述。
附图说明
19.图1为本技术提供的一种吸收网系统的构建方法实施例的流程图;
20.图2为本技术提供的一种吸收网系统的构建装置实施例的示意图;
21.图3为本技术实施例提供的一种电子设备示意图。
具体实施方式
22.下面结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。其中,在本技术实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本技术的限制。如在本技术的说明书和所附权利要求书中所使用的那样,单数表达形式“一种”、“该”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本技术以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
23.在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
24.在本技术实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
25.一般地,语音识别多用于根据用户发出的声音中所包含的文字命令来控制设置有语音识别功能的智能设备。例如:“播放歌曲”,“设置八点半的闹钟”。那么,“播放歌曲”中的“播放”和“歌曲”均为关键词,即对于智能设备来说均为指令,需要执行,其中,“播放”执行的指令为控制智能设备打开并播放音频、视频等包含声音信息的文件;“歌曲”执行的指令为控制智能设备打开的文件指定为音频类,且可能是某一音乐软件中当前停留的歌曲曲目。那么如果用户发出诸如“播放歌曲”类似的声音命令时,可能环境中同时存在噪音,包括隔壁装修吱吱呀呀的声音、马路上汽车飞驰而过的声音。那么这些非语音会连同语音部分一同被输入到智能设备的语音识别系统(也可以是语音识别芯片)中,那么当这些非语音音素被识别为包含音素状态的时候,就会影响智能设备后续执行命令的操作;再或者,当用户发出指令时,由于犹豫或者口吃所说出的话语中包含非关键词,例如“播放,,嗯,,歌曲”,那么此时“嗯”为非关键词,需要对其进行处理,否则有可能会影响智能设备对关键词的识别。
26.为了解决上述问题,本发明实施例提供了一种吸收网系统及其构建方法、装置、设备及介质,来提高对非关键词的吸收率,从而提高语音识别中关键词识别的准确性。其中本发明所提供的吸收网系统可以适用于各种语音识别芯片、语音识别系统以及具有语音识别
功能的设备,比如:智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(personal digitalassistant,pda)、车载设备、智能穿戴设备、玩具、智能家居控制设备、流水线设备控制器。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环。
27.本技术实施例提供一种吸收网系统的构建方法,其流程如图1所示,包括:
28.s101,获取非关键词音素及所述非关键词音素的概率,所述概率通过统计所述非关键词音素在语音识别应用场景中出现的频率得到的。
29.s102,将n个第一音素设置于至少一条非关键词传输通道中,所述第一音素为所述非关键词音素中概率超过第一预设阈值的音素,所述n为正整数。
30.在本步骤中,所述第一预设阈值可以根据实际需要的筛选出的所述第一音素的数目来进行设定。示例性地,如果90%及以上的音素为8个,85%及以上的音素有10个,且想筛选出的所述第一音素的数目为10个,那么所述第一预设阈值为85%。并且,这些音素可以设置在相同的所述非关键词传输通道中,也可以设置在不同的非关键词传输通道中。
31.s103,将m个第二音素依次与所述第一音素进行组合,并将组合后概率最大的所述第二音素设置于相对应的所述非关键词传输通道中,所述第二音素为所述非关键词音素中概率超过第二预设阈值、但不超过所述第一预设阈值的音素,所述m为正整数。
32.在本步骤中,所述第二预设阈值可以根据实际需要筛选出的所述第二音素的数目来进行设定。
33.s104,依次类推,直至将所述非关键词音素均设置于所述非关键词传输通道中,并使得相应的所述非关键词传输通道上的音素组合在语音识别应用场景中出现的概率最大,并联所述非关键词传输通道以构建所述吸收网系统。
34.示例性地,假设所述非关键词音素中包含30个音素。通过统计得知,10个音素的概率在80%及以上,10个音素在60%到80%之间(包括60%),其余10个音素在30%到60%之间(包括30%)。所述吸收网系统中整好存在10条非关键词传输通道,那么可以先将概率在80%以上的10个音素,分别设置于这10条所述非关键词传输通道中,然后将概率在60%到80%之间(包括60%)的这10个音素,其中的每一个音素都需要跟每一条所述非关键词传输通道中音素进行组合,并保留使得相应所述非关键词传输通道上的非关键词音素出现概率为最大的音素组合。最后,将剩余的10个音素分别与每一条所述非关键词传输通道中的音素再一次进行组合,并保留使得相应所述非关键词传输通道上的非关键词音素出现概率为最大的音素组合。
35.当然,上述示例情况仅为比较理想的一种情况。在又一种可能的示例中,还可能所述非关键词音素中包含30个音素,8个音素的概率在80%及以上,10个音素在60%到80%之间(包括60%),其余12个音素在30%到60%之间(包括30%)。所述吸收网系统中整好存在10条非关键词传输通道,那么可以先将概率在80%以上的8个音素,分别设置于这10条所述非关键词传输通道中的其中8条所述非关键词传输通道中,然后将概率在60%到80%之间(包括60%)的这10个音素,其中的每一个音素都需要跟每一条所述非关键词传输通道中音素进行组合,并保留使得相应所述非关键词传输通道上的非关键词音素出现概率为最大的音素组合,并将剩余的2个音素放置于没有非关键词音素的所述非关键词传输通道中。最后,将剩余的12个音素分别与每一条所述非关键词传输通道中的音素又一次进行组合,并
保留使得相应所述非关键词传输通道上的非关键词音素出现概率为最大的音素组合,然后将剩余的两个音素分别与每一条所述非关键词传输通道中的音素再一次进行组合,并将这两个音素设置于概率最大的音素组合所在的所述非关键词传输通道中。
36.针对上述实施例中提到的问题,可通过所述所述非关键词传输通道对非关键词部分“嗯”进行吸收,以保证用于语音识别的部分是关键词“播放歌曲”。在本技术实施例中,本发明通过所述非关键词传输通道上的音素组合在语音识别应用场景中出现的概率最大,能够在语音识别应用场景中对非关键词音素的吸收能力达到最强,进一步提高了语音识别应用场景中对关键词的识别效率。
37.在一种可能的实施例中,所述吸收网系统的构建方法,还包括:获取非语音音素,并将所述非语音音素设置于所述非关键词传输通道中。在本实施例中,因为在语音识别应用场景中可能会存在非语音音素,所以通过将所述非语音音素设置于所述非关键词传输通道中,能够吸收语音识别应用场景中存在的非语音音素,进一步提高了对关键词的识别效率。示例性地,针对上述实施例所提到的隔壁装修吱吱呀呀的声音、马路上汽车飞驰而过的声音,这些实际生活中存在的非语音音素以及人可以预想得到的非语音音素,可通过所述非关键词传输通道进行吸收,以进一步以保证语音识别应用场景中进行识别的是关键词部分“播放歌曲”。
38.在又一种可能的实施例中,所述获取非语音音素,并将所述非语音音素设置于所述非关键词传输通道中,包括:获取所述非语音音素,并根据所述非关键词传输通道中设置的所述非关键词音素的数目超过所述非语音音素的数目,将所述非语音音素设置于所述非关键词传输通道中。
39.在本实施例中,通过所述非关键词传输通道中设置的所述非关键词音素的数目超过所述非语音音素的数目,以避免弱化所述非关键词传输通道对所述非关键词音素的吸收能力。
40.在还一种可能的实施例中,所述吸收网系统的构建方法,还包括:获取关键词音素,并将所述关键词音素设置于所述非关键词传输通道中。在本实施例中,因为在语音识别应用场景中,非关键词中会包含一定的关键词音素,所以将所述关键词音素设置于所述非关键词传输通道中,以提高对所述非关键词的吸收效率,进一步提高了对关键词的识别效率。示例性地,非关键词中可能会携带一些关键词中的部分字词,例如:关键词中的“关闭空调”中的“闭”,可能是非关键词中的“闭目养神”中的“闭”;关键词中的“打开空调”中的“开”,可能是非关键词中的“开饭了”的“开”。
41.在再一些可能的实施例中,所述获取关键词音素,并将所述关键词音素设置于所述非关键词传输通道中,包括:获取所述关键词音素,并根据所述非关键词传输通道中设置的所述非关键词音素的数目超过所述关键词音素的数目,将所述关键词音素设置于所述非关键词传输通道中。在本实施例中,通过所述非关键词传输通道中设置的所述非关键词音素的数目超过所述关键词音素的数目,以避免弱化所述非关键词传输通道对所述非关键词音素的吸收能力。
42.在还一些可能的实施例中,所述非关键词传输通道中的所述非关键词音素的数目、所述关键词音素的数目和所述非语音音素的数目之比为3:1:1。在本实施例中,通过本专利的研发人员做实验发现,通过将所述非关键词传输通道中的所述非关键词音素的数
目、所述关键词音素的数目和所述非语音音素的数目之比设置为为3:1:1,在一些情况下,对非关键词音素的吸收能力相对于其他实施例较优,对关键词识别的效率相对于其他实施例较优。可选地,所述非关键词传输通道中的所述非关键词音素的数目、所述关键词音素的数目和所述非语音音素的数目之比为3:0:1。又一种可选地,所述非关键词传输通道中的所述非关键词音素的数目、所述关键词音素的数目和所述非语音音素的数目之比为3:1:0。实际应用中,所述非关键词传输通道中的所述非关键词音素的数目、所述关键词音素的数目和所述非语音音素的数目之比可以灵活设计,不局限于本技术文件中所提及的设计方式。
43.为了执行如上述任一项实施例所述的构建方法,本发明提供一种吸收网系统的构建装置,如图2所示,所述构建装置包括:获取模块201、分类模块202和处理模块203。这些模块及单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。
44.所述获取模块201用于获取非关键词音素及所述非关键词音素的概率,所述概率通过统计所述非关键词音素在语音识别应用场景中出现的频率得到的。
45.所述分类模块202包括至少l个分类单元,即第一分类单元2021、第二分类单元2022、
……
、第l分类单元202l,所述l为大于等于2的正整数。所述第一分类单元2021用于将n个第一音素设置于至少一条非关键词传输通道中,所述第一音素为所述非关键词音素中概率超过第一预设阈值的音素,所述n为正整数;所述第二分类单元2022用于将m个第二音素依次与所述第一音素进行组合,并将组合后概率最大的所述第二音素设置于相对应的所述非关键词传输通道中,所述第二音素为所述非关键词音素中概率超过第二预设阈值、但不超过所述第一预设阈值的音素,所述m为正整数;依次类推,直至所述第l分类单元202l将所述非关键词音素均设置于所述非关键词传输通道中,并使得相应的所述非关键词传输通道上的音素组合在语音识别应用场景中出现的概率最大。
46.所述处理模块203用于并联所述非关键词传输通道以构建所述吸收网系统。
47.如上述任一项实施例所述的构建方法,本发明得到一种吸收网系统,通过如第一方面中任一项所述的构建方法得到,包括:并联的所述非关键词传输通道,所述非关键词传输通道上设有包括非关键词音素的音素组合。
48.在本实施例中,所述非关键词传输通道的线路结构可以是路径,也可以是树形结构,并且当所述非关键词传输通道的线路结构为树形结构时,可以通过在树的每个节点上设置一个或多个音素,每个节点上设置的音素可以是出现频率较高的音素。
49.因为一般人所发出的命令中的绝大部分是可以根据智能设备的功能进行预设得到,所以可以先提前设置好关键词和非关键词可能出现的在语音的音素状态,且通过不同组合方式,使得所述吸收网系统能够分别对应于各个因素可能出现的各种场合,提高语音识别应用场景中对关键词识别的准确度。例如,当智能设备一个包括听歌软件的设备时,那么所述智能设备中可能出现的关键词所对应的语音的音素状态可以包括“播放某某”、“我想听某某”、“播放下一首”、“单曲循环某某”,其中“某某”可以指代歌曲名称。那么其余的词汇所对应的音素就可以被定义为非关键词音素。
50.并且,又因为一般人所发出的命令中的一些非关键词部分是可以根据语言表达的连贯性来判断,可以包括语义是否连贯、语句是否连贯,并从语音中找到理解不通顺的字词,识别出属于所述非关键词的音素状态,以进一步提高所述吸收网系统吸收非关键词音素的准确度。
51.上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应单元模块的功能描述,在此不再赘述。
52.在本技术的另一些实施例中,本技术实施例公开了一种电子设备,如图3所示,该电子设备可以包括:一个或多个处理器301;存储器302;显示器303;一个或多个应用程序(未示出);以及一个或多个计算机程序304,上述各器件可以通过一个或多个通信总线305连接。其中该一个或多个计算机程序304被存储在上述存储器302中并被配置为被该一个或多个处理器301执行,该一个或多个计算机程序304包括指令,上述指令可以用于执行上述相应实施例中的各个步骤。
53.通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
54.在本技术实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
55.该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本技术各个实施例该方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
56.以上所述,仅为本技术实施例的具体实施方式,但本技术实施例的保护范围并不局限于此,任何在本技术实施例揭露的技术范围内的变化或替换,都应涵盖在本技术实施例的保护范围之内。因此,本技术实施例的保护范围应以所述的权利要求的保护范围为准。