1.本申请涉及自然语言处理技术领域,尤其涉及一种垃圾指令识别方法及装置。
背景技术:2.目前,大部分智能设备都具备语音识别功能,且智能设备的语音识别状态有两种,一种是免唤醒状态,一种是唤醒状态。免唤醒状态与唤醒状态最大的不同在于,唤醒状态是用户先说唤醒词将智能设备唤醒,在智能设备被唤醒之后紧接着说出指令。智能设备在被唤醒之后接收到的用户语音即可以认为是有效的指令,从而直接进行指令内容的功能性识别(如查天气、播音乐等)。而智能设备在免唤醒的状态下,一次唤醒即可实现连续对话的状态,不需要每次对话的时候都说一次唤醒词,从而能够获得更好的用户体验。
3.但是在免唤醒状态下,需要智能设备能够识别接收到的音频是不是给它的指令,过滤掉无效干扰信息,再做出反应。因此,如何高质量的识别出接收到的音频是否为垃圾指令的问题亟待解决。
技术实现要素:4.为解决上述问题,本发明提供一种垃圾指令识别方法及装置,能够高质量的识别出接收到的音频是否为垃圾指令,从而提高智能设备在免唤醒状态下对音频识别的正确率,提升用户体验。
5.为了实现上述目的,在第一方面,本发明实施例提供了一种垃圾指令识别方法,该方法包括:
6.获取音频信息;
7.将所述音频信息转换为文字信息;
8.提取所述音频信息的音频特征生成音频特征集合;
9.利用预训练的文本模型获取所述文本信息的特征向量;
10.将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
11.优选地,在所述获取音频信息之后,所述方法还包括:如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。
12.优选地,在所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令之后,所述方法还包括:如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;如果所述音频信息是垃圾指令,则丢弃所述音频信息。
13.优选地,所述将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令,包括:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
14.优选地,所述音频特征包括:语音音频特征、语音文本特征及语音时长。
15.在第二方面,本发明实施例提供了一种垃圾指令识别装置,该装置包括:
16.第一获取单元,用于获取音频信息;
17.转换单元,用于将所述音频信息转换为文字信息;
18.生成单元,用于提取所述音频信息的音频特征生成音频特征集合;
19.第二获取单元,利用预训练的文本模型获取所述文本信息的特征向量;
20.确定单元,将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
21.优选地,所述装置还包括:丢弃单元,用于如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。
22.优选地,所述装置还包括:执行单元,用于如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;丢弃单元,用于如果所述音频信息是垃圾指令,则丢弃所述音频信息。
23.优选地,所述确定单元具体用于:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
24.优选地,所述音频特征包括:语音音频特征、语音文本特征及语音时长。
25.在第三方面,本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的垃圾指令识别方法。
26.在第四方面,本发明实施例提供了一种电子设备,包括:
27.处理器;
28.用于存储所述处理器可执行指令的存储器;
29.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面所述的垃圾指令识别方法。
30.利用本发明提供的垃圾指令识别方法及装置,将接收到的音频信息的音频特征和音频信息对应的文本信息的特征进行结合,同时将音频特征和文本特征作为深度神经网络分类器的输入,利用深度神经网络分类器进行识别,可高质量的识别出接收到的音频是否是垃圾指令,从而使得智能设备在免唤醒状态下,能够有效地过滤无效内容,准确地识别用户指令,更好地提升用户体验。
附图说明
31.通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
32.图1为本申请示例性实施例提供的一种垃圾指令识别方法的流程示意图;
33.图2为本申请示例性实施例提供的一种垃圾指令识别装置的结构图;
34.图3为本申请示例性实施例提供的另一种垃圾指令识别装置的结构图;
35.图4为本申请示例性实施例提供的电子设备的结构图。
具体实施方式
36.下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
37.图1为本申请实施例示出的一种垃圾指令识别方法的流程示意图。该垃圾指令识别方法可应用于电子设备,如图1所示,该方法包括:
38.步骤101,获取音频信息。
39.在一个例子中,本垃圾指令识别方法的应用场景为电子设备处于免唤醒状态下,在该场景下,获取到的音频信息可以包括:背景音或人声,其中,人声可能是有效指令,也可能是用户闲聊的内容。
40.步骤102,将该音频信息转换为文字信息。
41.具体的,可以利用电子设备中的自动语音识别(automatic speech recognition,asr)模块对该音频信息进行识别,并将该音频信息转换为文字信息。
42.可以理解的是,不是所有的音频信息都可以识别并转换为文字信息,如嘈杂的背景音,那么如果接收到的音频信息无法转换为文字信息,则可以认为该音频信息为垃圾指令。基于此,该方法还可以包括:
43.如果该音频信息无法转换为文字信息,则确定该音频信息为垃圾指令,并丢弃音频信息。
44.步骤103,提取该音频信息的音频特征生成音频特征集合。
45.其中,音频特征包括但不限于:语音音频特征、语音文本特征及语音时长。然后对生成的音频特征进行特征累加和组合,得到音频特征集合。
46.步骤104,利用预训练的文本模型获取该文本信息的特征向量。
47.需要说明的是,该获取文本信息的特征向量的过程可采用现有技术实现,在此不再赘述。
48.步骤105,将音频特征集合和特征向量作为深度神经网络分类器输入,根据该深度神经网络的输出确定该音频信息是否为垃圾指令。
49.具体的,将音频特征集合和特征向量作为深度神经网络分类器输入,根据该深度神经网络的输出确定音频信息是否为垃圾指令,包括:
50.将音频特征集合和特征向量合成为一维特征,并将该一维特征作为深度神经网络分类器输入,根据该深度神经网络的输出确定该音频信息是否为垃圾指令。
51.在一个具体的例子中,音频特征集合是长度为m的一维特征1,该文本信息的特征向量是长度为n的一维特征2,将该一维特征1和一维特征2拼接为长度为(m+n)的一维特征,将该长度为(m+n)的一维特征作为深度神经网络分类器输入,根据该深度神经网络的输出确定该音频信息是否为垃圾指令。
52.在一个例子中,该方法还可以包括:
53.如果该音频信息不是垃圾指令,则对该文本信息进行自然语言理解,并执行该音频信息对应的动作。
54.如果该音频信息是垃圾指令,则丢弃该音频信息。
55.通过利用本发明实施例提供的垃圾指令识别方法,将接收到的音频信息的音频特
征和音频信息对应的文本信息的特征进行结合,同时将音频特征和文本特征作为深度神经网络分类器的输入,利用深度神经网络分类器进行识别,可高质量的识别出接收到的音频是否是垃圾指令,从而使得智能设备在免唤醒状态下,能够有效地过滤无效内容,准确地识别用户指令,更好地提升用户体验。
56.本发明实施例提供一种垃圾指令识别装置,图2为该垃圾指令识别装置的结构图。该装置可应用于电子设备。如图2所示,该垃圾指令识别装置包括:
57.第一获取单元201,用于获取音频信息;
58.转换单元202,用于将所述音频信息转换为文字信息;
59.生成单元203,用于提取所述音频信息的音频特征生成音频特征集合;
60.第二获取单元204,利用预训练的文本模型获取所述文本信息的特征向量;
61.确定单元205,将所述音频特征集合和所述特征向量作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
62.优选地,如图3所示,所述装置还包括:丢弃单元206,用于如果所述音频信息无法转换为文字信息,则确定所述音频信息为垃圾指令,并丢弃所述音频信息。
63.优选地,如图3所示,所述装置还包括:执行单元207,用于如果所述音频信息不是垃圾指令,则对所述文本信息进行自然语言理解,并执行所述音频信息对应的动作;丢弃单元206,用于如果所述音频信息是垃圾指令,则丢弃所述音频信息。
64.优选地,所述确定单元205具体用于:将所述音频特征集合和所述特征向量合成为一维特征,并将所述一维特征作为深度神经网络分类器输入,根据所述深度神经网络的输出确定所述音频信息是否为垃圾指令。
65.优选地,所述音频特征包括:语音音频特征、语音文本特征及语音时长。
66.利用本发明提供的垃圾指令识别装置,将接收到的音频信息的音频特征和音频信息对应的文本信息的特征进行结合,同时将音频特征和文本特征作为深度神经网络分类器的输入,利用深度神经网络分类器进行识别,可高质量的识别出接收到的音频是否是垃圾指令,从而使得智能设备在免唤醒状态下,能够有效地过滤无效内容,准确地识别用户指令,更好地提升用户体验。
67.下面,参考图4来描述根据本申请实施例的电子设备11。
68.如图4所示,电子设备11包括一个或多个处理器111和存储器112。
69.处理器111可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
70.存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的垃圾指令识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
71.在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
72.该输入设备113可以包括例如键盘、鼠标等等。
73.该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
74.当然,为了简化,图4中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
75.示例性计算机程序产品和计算机可读存储介质
76.除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的垃圾指令识别方法中的步骤。
77.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
78.此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的垃圾指令识别方法中的步骤。
79.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
80.以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
81.本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
82.还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
83.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本
申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
84.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。