语音指令的处理方法和装置、存储介质及电子装置与流程

文档序号:31725627发布日期:2022-10-05 00:29阅读:115来源:国知局
技术简介:
本专利针对传统语音指令处理中因能量值判断不准导致执行偏差的问题,提出通过多采集部件协同获取语音信号,结合信号特征筛选目标信号并传输能量值至服务器进行决策的方法,有效提升指令识别准确率。
关键词:语音指令处理,多设备协同

1.本技术涉及通信领域,具体而言,涉及一种语音指令的处理方法和装置、存储介质及电子装置。


背景技术:

2.目前,在一个家庭中可以有多个语音设备(即,具备语音采集功能的智能设备),在用户发出语音指令之后,对于接收到该语音指令的每个语音设备,可以采用分布式语音控制方案进行响应设备的选取。分布式语音控制方案可以根据用户所在的位置,让距离用户最近的设备就近响应,实现就近语音控制。
3.语音设备内可以设置多个语音采集部件(收音部件,例如,麦克风),通过设置的语音采集部件可以进行语音指令采集。在通过多个语音采集部件采集到多通道语音信号之后,可以将预设的固定语音采集部件所采集到的一路语音信号或者语音信号的能量值传递到云端,云端根据接收到的多个语音设备发送的能量值,进行判决(能量小的设备不唤醒,能量最大的设备唤醒)。
4.然而,语音采集部件采集到的语音信号的能量值会因为语音设备的摆放位置的不同,产生比较大的差异。例如,当语音设备靠墙放置时,如果选择靠近墙的语音采集部件所采集到的语音信号计算语音设备能量值,会因为受到墙面反射等的影响,导致计算出的能量值不准,出现唤醒设备选取不准确的情况,进而导致用户发出的语音指令无法被准确执行。
5.由此可知,相关技术中的语音指令的处理方法,存在由于设备确定的语音信号的能量值不准确导致的语音指令执行的精准性差的问题。


技术实现要素:

6.本技术实施例提供一种语音指令的处理方法和装置、存储介质及电子装置,以至少解决相关技术中的语音指令的处理方法存在由于设备确定的语音信号的能量值不准确导致的语音指令执行的精准性差的问题。
7.根据本技术实施例的一个方面,提供了一种语音指令的处理方法,包括:获取智能设备上的多个采集部件采集到的多个语音信号,其中,所述多个语音信号中的每个语音信号为所述多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;根据所述多个语音信号的信号特征,从所述多个语音信号中选取出目标语音信号;将所述目标语音信号的能量值发送给服务器,以由所述服务器根据所述目标语音信号的能量值确定是否由所述智能设备对所述语音控制指令进行响应。
8.在一个示例性实施例中,所述根据所述多个语音信号的信号特征,从所述多个语音信号中选取出目标语音信号,包括:根据所述多个语音信号的信号特征,从所述多个采集部件中选取出距离所述目标对象最近的目标采集部件;将所述多个语音信号中,由所述目标采集部件所采集到的语音信号,确定为所述目标语音信号;或者,将所述多个语音信号
中,能量值最大的语音信号,确定为所述目标语音信号。
9.在一个示例性实施例中,所述根据所述多个语音信号的信号特征,从所述多个采集部件中选取出距离所述目标对象最近的目标采集部件,包括:根据所述多个语音信号的信号特征,确定所述目标对象的对象角度信息,其中,所述对象角度信息用于描述所述目标对象与所述智能设备的相对角度;根据所述对象角度信息,从所述多个采集部件中选取出所述目标采集部件,其中,所述目标采集部件为按照所述相对角度将所述目标对象投射到所述多个采集部件所在的平面后,与所述目标对象距离最近的采集部件。
10.在一个示例性实施例中,在所述根据所述多个语音信号的信号特征,从所述多个语音信号中选取出目标语音信号之前,所述方法还包括:对所述多个语音信号执行声学回声消除操作,得到处理后的所述多个语音信号;对处理后的所述多个语音信号中的每个语音信号进行信号特征提取,得到所述多个语音信号的信号特征。
11.在一个示例性实施例中,在所述获取智能设备上的多个采集部件采集到的多个语音信号之前,所述方法还包括:通过所述智能设备上的图像采集部件对所述目标对象进行图像采集,得到目标采集图像;对所述目标采集图像进行对象识别,得到所述目标对象的对象位置信息,其中,所述对象位置信息用于表示所述目标对象与所述智能设备的相对位置;根据所述对象位置信息,调整所述多个采集部件进行语音信号采集的采集角度。
12.在一个示例性实施例中,在所述将所述目标语音信号的能量值发送给服务器之前,所述方法还包括:将所述目标语音信号中的多个采样点的幅度值的平均值,确定为所述目标语音信号的能量值;或者,将所述目标语音信号中的多个采样点的幅度值的平方和,确定为所述目标语音信号的能量值。
13.在一个示例性实施例中,在所述将所述目标语音信号的能量值发送给服务器之后,所述方法还包括:接收多个设备中的每个设备发送的语音信号的能量值,其中,所述多个设备包括所述智能设备,所述每个设备发送的语音信号的能量值所属的语音信号为与所述目标对象发出的语音控制指令对应的语音信号;根据所述每个设备发送的语音信号的能量值,从所述多个设备中确定目标设备,其中,所述目标设备为所述多个设备中用于执行所述语音控制指令的设备;控制所述目标设备执行与所述语音控制指令匹配的设备操作。
14.根据本技术实施例的另一个方面,还提供了一种语音指令的处理装置,包括:获取单元,用于获取智能设备上的多个采集部件采集到的多个语音信号,其中,所述多个语音信号中的每个语音信号为所述多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;选取单元,用于根据所述多个语音信号的信号特征,从所述多个语音信号中选取出目标语音信号;发送单元,用于将所述目标语音信号的能量值发送给服务器,以由所述服务器根据所述目标语音信号的能量值确定是否由所述智能设备对所述语音控制指令进行响应。
15.在一个示例性实施例中,所述选取单元包括:选取模块,用于根据所述多个语音信号的信号特征,从所述多个采集部件中选取出距离所述目标对象最近的目标采集部件;第一确定模块,用于将所述多个语音信号中,由所述目标采集部件所采集到的语音信号,确定为所述目标语音信号;或者,第二确定模块,用于将所述多个语音信号中,能量值最大的语音信号,确定为所述目标语音信号。
16.在一个示例性实施例中,所述选取模块包括:确定子模块,用于根据所述多个语音
信号的信号特征,确定所述目标对象的对象角度信息,其中,所述对象角度信息用于描述所述目标对象与所述智能设备的相对角度;选取子模块,用于根据所述对象角度信息,从所述多个采集部件中选取出所述目标采集部件,其中,所述目标采集部件为按照所述相对角度将所述目标对象投射到所述多个采集部件所在的平面后,与所述目标对象距离最近的采集部件。
17.在一个示例性实施例中,所述装置还包括:执行单元,用于在所述根据所述多个语音信号的信号特征,从所述多个语音信号中选取出目标语音信号之前,对所述多个语音信号执行声学回声消除操作,得到处理后的所述多个语音信号;提取单元,用于对处理后的所述多个语音信号中的每个语音信号进行信号特征提取,得到所述多个语音信号的信号特征。
18.在一个示例性实施例中,所述装置还包括:采集单元,用于在所述获取智能设备上的多个采集部件采集到的多个语音信号之前,通过所述智能设备上的图像采集部件对所述目标对象进行图像采集,得到目标采集图像;识别单元,用于对所述目标采集图像进行对象识别,得到所述目标对象的对象位置信息,其中,所述对象位置信息用于表示所述目标对象与所述智能设备的相对位置;调整单元,用于根据所述对象位置信息,调整所述多个采集部件进行语音信号采集的采集角度。
19.在一个示例性实施例中,所述装置还包括:第一确定单元,用于在所述将所述目标语音信号的能量值发送给服务器之前,将所述目标语音信号中的多个采样点的幅度值的平均值,确定为所述目标语音信号的能量值;或者,第二确定单元,用于将所述目标语音信号中的多个采样点的幅度值的平方和,确定为所述目标语音信号的能量值。
20.在一个示例性实施例中,所述装置还包括:接收单元,用于在所述将所述目标语音信号的能量值发送给服务器之后,接收多个设备中的每个设备发送的语音信号的能量值,其中,所述多个设备包括所述智能设备,所述每个设备发送的语音信号的能量值所属的语音信号为与所述目标对象发出的语音控制指令对应的语音信号;第三确定单元,用于根据所述每个设备发送的语音信号的能量值,从所述多个设备中确定目标设备,其中,所述目标设备为所述多个设备中用于执行所述语音控制指令的设备;控制单元,用于控制所述目标设备执行与所述语音控制指令匹配的设备操作。
21.根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音指令的处理方法。
22.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的语音指令的处理方法。
23.在本技术实施例中,采用基于各个语音采集部件所采集到的语音信号的信号特征,从多个语音信号中选取出用于表征语音设备与用户之间距离的语音信号的方式,通过获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由
智能设备对语音控制指令进行响应,由于对于一个语音设备,根据其上的多个语音采集部件所采集到的多个语音信号的信号特征,从多个语音信号中选取出用于表征语音设备与用户之间距离的语音信号,相对于选择固定语音部件所采集到语音信号的方式,可以基于当前采集到的语音信号的信号特征动态选择最能表征语音设备与用户之间距离的语音信号,可以实现提升设备确定的语音信号的能量值的准确性的目的,达到了提升语音指令执行的精准性的技术效果,进而解决了相关技术中的语音指令的处理方法存在由于设备确定的语音信号的能量值不准确导致的语音指令执行的精准性差的问题。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
25.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
26.图1是根据本技术实施例的一种可选的语音指令的处理方法的硬件环境的示意图;
27.图2是根据本技术实施例的一种可选的语音指令的处理方法的流程示意图;
28.图3是根据本技术实施例的一种可选的语音指令的处理方法的示意图;
29.图4是根据本技术实施例的另一种可选的语音指令的处理方法的示意图;
30.图5是根据本技术实施例的一种可选的语音指令的处理装置的结构框图;
31.图6是根据本技术实施例的一种可选的电子装置的结构框图。
具体实施方式
32.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
33.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.根据本技术实施例的一个方面,提供了一种语音指令的处理方法。可选地,上述语音指令的处理方法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligence house)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述语音指令的处理方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环
境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
35.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
36.本技术实施例的语音指令的处理方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本技术实施例的语音指令的处理方法也可以是由安装在其上的客户端来执行。
37.以由终端102来执行本实施例中的语音指令的处理方法为例,图2是根据本技术实施例的一种可选的语音指令的处理方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
38.步骤s202,获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号。
39.本实施例中的语音指令的处理方法可以应用到通过智能设备(即,上述终端102)对目标对象发送的语音控制指令进行处理的场景中。上述智能设备可以是智能家居设备,也可以是终端设备。上述的智能家居设备可以是位于用户家庭中的智能家居设备,可以为智能电视机、智能冰箱、智能热水器等安装有智能芯片的电子设备,上述智能家居设备相比于传统的家居设备增加了计算模块、网络接口、输入输出装置等,从而使得本实施例中的智能家居设备具有智能分析和智能服务的功能。
40.可选地,目标对象可以是与智能家居设备建立连接关系的对象,也可以是与智能家居设备位于同一位置区域的对象,其可以用于表示特定用户,也可以用于表示与智能家居设备位于同一位置区域的用户,本实施例中对此不做限定。例如,目标对象可以是与智能冰箱位于同一个房间的用户。
41.在本实施例中,对于目标智能设备,目标智能设备可以获取目标对象发出的语音控制指令,可选地,目标智能设备可以获取目标智能设备上的多个采集部件(多个语音采集部件,例如,麦克风阵列)中的每个采集部件采集到的语音信号,得到多个语音信号,上述多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号。
42.上述采集部件可以是智能设备内设置的语音采集部件。可选地,上述采集部件可以是智能设备内设置的麦克风部件,例如,可以通过智能设备内设置的多个麦克风获取用户发送的语音控制指令。
43.可选地,为了更好的通过多个采集部件对目标对象发出的语音控制指令进行采
集,可以在获取智能设备上的多个采集部件采集到的多个语音信号之前,对多个采集部件进行语音信号采集的采集角度进行调整,本实施例中对此不做限定。
44.需要说明的是,上述多个采集部件在智能设备内可以是圆周排列的,也可以是采用其他的排列方式进行排列的,本实施例中对此不做限定。此外,上述智能设备中的多个采集部件的数量可以4个,也可以是6个,或者是其他数量,本实施例中对此不做限定。
45.例如,可以通过智能家居设备上可以设置有麦克风阵列,可以通过麦克风阵列采集到多通道麦克风信号。
46.步骤s204,根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号。
47.在本实施例中,在获取到多个语音信号之后,可以从多个语音信号中选取出目标语音信号,该目标语音信号是用于表示目标智能设备的语音信号,或者说,用于表示目标智能设备与目标对象之间的距离的语音信号。可选地,可以先对多个语音信号中的每个语音信号执行特征提取操作,得到每个语音信号的信号特征,再根据每个语音信号的信号特征,从多个语音信号中选取出目标语音信号,本实施例中对此不做限定。
48.可选地,上述根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号的过程可以是:根据多个语音信号对应的多个能量值,从多个语音信号中选取出目标语音信号,或者是先根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件,再将目标采集部件采集到的语音信号,确定为目标语音信号,还可以是其他选取目标语音信号的方式,本实施例中对此不做限定。
49.需要说明的是,在对多个语音信号执行特征提取操作,得到多个语音信号的信号特征之前,可以对多个语音信号执行预处理操作,提升多个语音信号的信号特征提取的精准性,上述预处理操作可以是对多个语音信号执行的aec(acoustic echo cancellation,声学回声消除)操作,或者是对多个语音信号执行的滤波操作,以过滤掉多个语音信号中的干扰信号,本实施例中对此不做限定。
50.步骤s206,将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应。
51.在本实施例中,在从多个语音信号中选取出目标语音信号之后,可以将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应。
52.可选地,上述服务器可以是与目标智能设备建立连接关系的服务器,即,目标智能设备与服务器之间可以进行数据交换。服务器在接收到目标智能设备发送的目标语音信号的能量值之后,可以将目标语音信号的能量值与接收到的其他设备发送的语音信号的能量值进行比较,并根据比较的结果确定是否由目标智能设备对语音控制指令进行响应(即,由哪个智能设备对语音控制指令进行响应)。本实施例中对此不做限定。
53.需要说明的是,由于目标智能设备在将目标语音信号的能量值发送给服务器的过程中存在被窃取的风险,因此,可以在对目标语音信号的能量值进行加密之后,再发送给服务器。本实施例中对此不做限定。
54.通过上述步骤s202至步骤s206,通过获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所
采集到的、与目标对象发出的语音控制指令对应的语音信号;根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应,解决了相关技术中的语音指令的处理方法存在由于设备确定的语音信号的能量值不准确导致的语音指令执行的精准性差的问题,提升了语音指令执行的精准性。
55.在一个示例性实施例中,从多个语音信号中选取出目标语音信号的方式可以有多种,可以包括但不限于以下至少之一:基于语音信号特征直接从多个语音信号中选取出目标语音信号,基于语音信号特征先从多个采集部件中选取出目标采集部件,再将目标采集部件所采集到的语音信号,确定为目标语音信号。
56.作为一种可选的实施方式,根据多个语音信号的信号特征,从多个采集部件中选取出目标采集部件,包括:
57.s11,根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件;
58.s12,将多个语音信号中,由目标采集部件所采集到的语音信号,确定为目标语音信号。
59.可以根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的采集部件,得到目标采集部件。例如,可以根据多个麦克风采集到的语音信息,采用doa(direction of arrival,波达方向)算法,从多个麦克风中选取出距离使用对象最近的麦克风,得到目标麦克风(上述目标采集部件的一种实施例)。
60.作为另一种可选的实施方式,根据多个语音信号的信号特征,从多个采集部件中选取出目标采集部件,包括:
61.s13,将多个语音信号中,能量值最大的语音信号,确定为目标语音信号。
62.可以将多个语音信号中,能量值最大的语音信号,确定为目标语音信号。例如,若多个麦克风a、b、c、d中,a麦克风所采集的语音信号的能量值为40,b麦克风所采集到的能量值为30,c麦克风所采集的语音信号的能量值为45,d麦克风所采集到的能量值为35,则将会将c麦克风采集到的语音信号确定为目标语音信号。
63.通过本实施例,将多个采集部件中距离目标对象最近的采集部件所采集到的语音信号或者将能量值最大的语音信号,确定为目标语音信号,可以提高语音信号选取的灵活性和准确性。
64.在一个示例性实施例中,根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件,包括:
65.s21,根据多个语音信号的信号特征,确定目标对象的对象角度信息,其中,对象角度信息用于描述目标对象与智能设备的相对角度;
66.s22,根据对象角度信息,从多个采集部件中选取出目标采集部件,其中,目标采集部件为按照相对角度将目标对象投射到多个采集部件所在的平面后,与目标对象距离最近的采集部件。
67.在本实施例中,可以根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件。可选地,上述根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件的过程可以是:先根据多个语音信号的信
号特征,确定目标对象的对象角度信息,再根据对象角度信息,从多个采集部件中选取出目标采集部件。例如,可以先根据采集到的多个通道的麦克风信号,通过doa算法计算出用户声源的角度信息,再根据计算出的角度信息,找到距离用户声源最近的麦克风信号的通道。
68.可选地,上述对象角度信息用于描述目标对象与智能设备的相对角度,上述目标采集部件为按照相对角度将目标对象投射到多个采集部件所在的平面后,与目标对象距离最近的采集部件。例如,可以先确定使用对象与智能设备的相对角度,再按照相对角度将使用对象投射到多个麦克风所在的平面。
69.可选地,上述确定目标对象的对象角度信息的过程可以是:先以目标智能设备所在的位置为原点建立坐标系,再根据目标对象在坐标系中的位置,确定目标对象与智能设备的相对角度。本实施例中对此不做限定。
70.通过本实施例,先根据多个语音信号的信号特征,确定目标对象的对象角度信息,再根据对象角度信息,从多个采集部件中选取出目标采集部件,可以提高语音信号选取的精准性。
71.在一个示例性实施例中,在根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号之前,上述方法还包括:
72.s31,对多个语音信号执行声学回声消除操作,得到处理后的多个语音信号;
73.s32,对处理后的多个语音信号中的每个语音信号进行信号特征提取,得到多个语音信号的信号特征。
74.在本实施例中,由于采集部件采集到的语音信号中可能存在干扰信号,可能会影响提取出的语音信号的信号特征的精准性。可选地,在根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号之前,可以先对多个语音信号进行去噪处理,再提取处理后的语音信号的信号特征。
75.可选地,上述对多个语音信号进行去噪处理的过程可以是:对多个语音信号执行声学回声消除操作,得到处理后的多个语音信号。在得到处理后的多个语音信号之后,可以对处理后的多个语音信号中的每个语音信号进行信号特征提取,得到多个语音信号的信号特征。
76.可选地,上述多个信号的信号特征可以是多个信号的能量值。当信号特征为能量值时,上述对处理后的多个语音信号中的每个语音信号进行信号特征提取,得到多个语音信号的信号特征的过程可以是:将处理后的多个语音信号中的每个语音信号中多个采样点的预设要素的平均值或者是平方和,确定为该语音信号的能量值(即,信号特征)。上述预设要素可以是采样点的幅度值,也可以是采样点的能量值,还可以是采样点的其他要素,本实施例中对此不做限定。
77.通过本实施例,对多个语音信号执行声学回声消除操作后,提取多个语音信号的信号特征,可以提升语音信号的信号特征提取的精准性。
78.在一个示例性实施例中,在获取智能设备上的多个采集部件采集到的多个语音信号之前,上述方法还包括:
79.s41,通过智能设备上的图像采集部件对目标对象进行图像采集,得到目标采集图像;
80.s42,对目标采集图像进行对象识别,得到目标对象的对象位置信息,其中,对象位
置信息用于表示目标对象与智能设备的相对位置;
81.s43,根据对象位置信息,调整多个采集部件进行语音信号采集的采集角度。
82.在本实施例中,为了更好地通过采集部件对目标对象发送的语音控制指令进行语音采集,可以在获取智能设备上的多个采集部件采集到的多个语音信号之前,对多个采集部件的采集角度进行调整,例如,向目标对象所在的方向进行调整。由于无法准确确定目标对象何时会发出语音控制指令,因此,可以根据目标对象的位置实时调整或者周期性地调整多个采集部件的采集角度。
83.在进行一次采集角度调整时,可以先通过智能设备上的图像采集部件(例如,摄像头)对目标对象进行图像采集,得到目标采集图像,再目标采集图像进行对象识别,得到目标对象的对象位置信息,上述对象位置信息用于表示目标对象与智能设备的相对位置;最后根据对象位置信息,调整多个采集部件进行语音信号采集的采集角度。
84.可选地,在调整多个采集部件进行语音信号采集的采集角度之后,采集部件进行语音信号采集的角度可以是朝向目标对象。此外,也可以通过其他感知传感器(例如,人体传感器)检测目标对象与目标智能设备的相对位置,并基于检测到的相对位置调整多个采集部件进行语音信号采集的采集角度。
85.由于目标对象可能处于移动状态(例如,例如,用户可以在智能设备周围进行移动),因此,目标对象与目标智能设备的相对位置可能是不断变化的。因此,可以不断调整多个采集部件进行语音信号采集的采集角度。可选地,可以周期性地对目标对象进行图像采集,得到目标采集图像,并根据周期性采集到的目标采集图像,调整多个采集部件进行语音信号采集的采集角度。
86.可选地,为了减少资源的消耗,可以在下个周期确定出的目标对象的对象位置信息与上一个周期确定出的目标对象的对象位置信息的差值大于预设阈值时,才对多个采集部件进行语音信号采集的采集角度进行调整,本实施例中对此不做限定。
87.需要说明的是,上述图像采集部件可以是智能设备上的摄像头,也可以是智能设备上的红外面阵投射器,还可以是其他图像采集部件,本实施例中对此不做限定。
88.通过本实施例,通过检测用户与智能设备的相对位置,并根据相对位置调整智能设备上的采集部件进行语音信号采集的角度,可以提高获取的语音信号的信号质量。
89.在一个示例性实施例中,在将目标语音信号的能量值发送给服务器之前,上述方法还包括:
90.s51,将目标语音信号中的多个采样点的幅度值的平均值,确定为目标语音信号的能量值;或者,
91.s52,将目标语音信号中的多个采样点的幅度值的平方和,确定为目标语音信号的能量值。
92.在本实施例中,在将目标语音信号的能量值发送给服务器之前,可以确定目标语音信号的能量值。可选地,可以根据目标语音信号中的多个采样点的幅度值,确定目标语音信号的能量值。
93.作为一种可选的实施方式,可以将目标语音信号中的多个采样点的幅度值的平均值,确定为目标语音信号的能量值。例如,多个采样点e1、f1、g1的幅度值分别为2,3,4,目标语音信号的能量值为3(即,(2+3+4)/3)。
94.作为另一种可选的实施方式,可以将目标语音信号中的多个采样点的幅度值的平方和,确定为目标语音信号的能量值,采样点的数量可以是预先设定的。例如,多个采样点e2、f2、g2的幅度值分别为2,3,4,目标语音信号的能量值为29(即,2^2+3^2+4^2=29)。
95.通过本实施例,将语音信号中的多个采样点的幅度值的平均值或平方和,确定为语音信号的能量值,可以提高语音信号的能量值确定的便捷性。
96.在一个示例性实施例中,在将目标语音信号的能量值发送给服务器之后,上述方法还包括:
97.s61,接收多个设备中的每个设备发送的语音信号的能量值,其中,多个设备包括智能设备,每个设备发送的语音信号的能量值所属的语音信号为与目标对象发出的语音控制指令对应的语音信号;
98.s62,根据每个设备发送的语音信号的能量值,从多个设备中确定目标设备,其中,目标设备为多个设备中用于执行语音控制指令的设备;
99.s63,控制目标设备执行与语音控制指令匹配的设备操作。
100.在本实施例中,在将目标语音信号的能量值发送给服务器之后,服务器可以根据接收到的目标语音信号的能量值,还可以接收其他智能设备发送的语音信号的能量值,即,接收到多个设备发送的语音信号的能量值,每个设备发送的语音信号的能量值所属的语音信号均是与目标对象发出的语音控制指令对应的语音信号
101.确定是否由智能设备对语音控制指令进行响应。
102.可选地,服务器可以接收多个设备中的每个设备发送的语音信号的能量值,上述多个设备包括智能设备,每个设备发送的语音信号的能量值所属的语音信号为与目标对象发出的语音控制指令对应的语音信号。
103.在接收到每个设备发送的语音信号的能量值之后,服务器可以根据每个设备发送的语音信号的能量值,从多个设备中确定目标设备,上述目标设备为多个设备中用于执行语音控制指令的设备。
104.可选地,上述根据每个设备发送的语音信号的能量值,从多个设备中确定目标设备的过程可以是:将多个设备中,发送的语音信号的能量值中最大的能量值对应的设备,确定为目标设备。例如,若服务器接收到的h设备发送的语音信号的能量值为40,i设备发送的语音信号的能量值为38,j设备发送的语音信号的能量值为45,则将会将j设备确定为目标设备。
105.可选地,在确定目标设备之后,可以控制目标设备执行与语音控制指令匹配的设备操作。例如,当语音控制指令为设备唤醒指令时,可以将目标设备唤醒;当语音控制指令用于控制目标设备执行特定的设备操作时,可以设备操作指令发送至目标设备,该设备操作指令中可以携带有特定的设备操作的操作参数。目标设备在接收到设备操作指令之后,可以按照设备操作指令中的操作参数执行特定的设备操作。
106.通过本实施例,基于多个设备发送的能量值选取响应语音操作指令的设备,可以提高语音控制指令执行的精准度,进而提升用户的使用体验。
107.下面结合可选示例对本技术实施例中的语音指令的处理方法进行解释说明。在本可选示例中,目标智能设备为智能家居设备,采集部件为麦克风,服务器为云端(即,云端服务器)。
108.相关技术中的语音指令的处理方法,大致过程如图3所示,会选择将多通道麦克风阵列中固定的一路信号用于计算设备的能量值,将该路通道采集的信号经过aec处理之后,计算出能量值的大小,然后将计算出的能量值传递至云端,云端在接收到各个设备上传的能量数值之后,可以比较不同设备的能量值,并进行判决,然后把判决结果下发给设备端。
109.然而,选择多通道麦克风阵列中固定的一路信号用于计算设备的能量值,所计算出的能量值会随着用户的设备摆放位置,产生比较大的能量差异。比如当用户靠墙放置,如果选择靠近墙的麦克风信号用于计算设备的能量值,就会收到墙面反射等的影响导致计算出的设备的能量值不准,进而出现唤醒不准确的现象,本来与设备a的距离最近却唤醒了设备b。
110.针对上述设备的能量值计算不准确的问题,本可选实例中提供了一种提高语音设备唤醒准确率的方法,在计算设备能量值时,首先计算出距离用户最近的麦克风序号,利用此通道麦克风信号进行能量值计算,通过利用距离用户最近的麦克风序号的通道计算出的能量值,可以有效避免设备摆放位置的干扰。
111.结合图4所示,本可选示例中的语音指令的处理方法的流程可以包括以下步骤:
112.步骤s402,获取多通道麦克风信号。
113.步骤s404,对获取到的多通道麦克风信号进行声学回声消除处理。
114.步骤s406,根据处理后的多通道麦克风信号,计算出用户声源的角度信息。
115.步骤s408,根据计算出用户声源的角度信息,找到距离用户声源最近的麦克风信号的通道。
116.步骤s410,利用距离用户声源最近的麦克风信号进行能量计算。
117.音频能量的计算可以采用采样点的平方和或者类似的方式得出。
118.步骤s412,将设备所计算出的能量值上传到云端。
119.步骤s414,云端根据多个设备上报的能量值进行决策。
120.步骤s416,将能量值最大的设备唤醒。
121.通过本实施例,可以有限规避设备摆放位置的回声或者墙面反射(例如,设备麦克风靠墙放置或者设备麦克风有遮挡时)的影响,提高设备相应的准确性,避免唤醒不准确问题,提升用户体验以及控制精度,并可以有效解决同一家庭用户下的多设备就近唤醒,唤醒不准确的问题。
122.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
123.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom(read-only memory,只读存储器)/ram(random access memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或
者网络设备等)执行本技术各个实施例所述的方法。
124.根据本技术实施例的另一个方面,还提供了一种用于实施上述语音指令的处理方法的语音指令的处理装置。图5是根据本技术实施例的一种可选的语音指令的处理装置的结构框图,如图5所示,该装置可以包括:
125.获取单元502,用于获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;
126.选取单元504,与获取单元502相连,用于根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;
127.发送单元506,与选取单元504相连,用于将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应。
128.需要说明的是,该实施例中的获取单元502可以用于执行上述步骤s202,该实施例中的选取单元504可以用于执行上述步骤s204,该实施例中的发送单元506可以用于执行上述步骤s206。
129.通过上述模块,通过获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应,解决了相关技术中的语音指令的处理方法存在由于设备确定的语音信号的能量值不准确导致的语音指令执行的精准性差的问题,提升了语音指令执行的精准性。
130.在一个示例性实施例中,选取单元包括:
131.根据多个语音信号的信号特征,从多个采集部件中选取出距离目标对象最近的目标采集部件;
132.第一确定模块,用于将多个语音信号中,由目标采集部件所采集到的语音信号,确定为目标语音信号。
133.在一个示例性实施例中,选取单元包括:
134.第二确定模块,用于将多个语音信号中,能量值最大的语音信号,确定为目标语音信号。
135.在一个示例性实施例中,选取模块包括:
136.确定子模块,用于根据多个语音信号的信号特征,确定目标对象的对象角度信息,其中,对象角度信息用于描述目标对象与智能设备的相对角度;
137.选取子模块,用于根据对象角度信息,从多个采集部件中选取出目标采集部件,其中,目标采集部件为按照相对角度将目标对象投射到多个采集部件所在的平面后,与目标对象距离最近的采集部件。
138.在一个示例性实施例中,上述装置还包括:
139.执行单元,用于在根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号之前,对多个语音信号执行声学回声消除操作,得到处理后的多个语音信号;
140.提取单元,用于对处理后的多个语音信号中的每个语音信号进行信号特征提取,
得到多个语音信号的信号特征。
141.在一个示例性实施例中,上述装置还包括:
142.采集单元,用于在获取智能设备上的多个采集部件采集到的多个语音信号之前,通过智能设备上的图像采集部件对目标对象进行图像采集,得到目标采集图像;
143.识别单元,用于对目标采集图像进行对象识别,得到目标对象的对象位置信息,其中,对象位置信息用于表示目标对象与智能设备的相对位置;
144.调整单元,用于根据对象位置信息,调整多个采集部件进行语音信号采集的采集角度。
145.在一个示例性实施例中,上述装置还包括:
146.第一确定单元,用于在将目标语音信号的能量值发送给服务器之前,将目标语音信号中的多个采样点的幅度值的平均值,确定为目标语音信号的能量值;或者,
147.第二确定单元,用于将目标语音信号中的多个采样点的幅度值的平方和,确定为目标语音信号的能量值。
148.在一个示例性实施例中,上述装置还包括:
149.接收单元,用于在将目标语音信号的能量值发送给服务器之后,接收多个设备中的每个设备发送的语音信号的能量值,其中,多个设备包括智能设备,每个设备发送的语音信号的能量值所属的语音信号为与目标对象发出的语音控制指令对应的语音信号;
150.第三确定单元,用于根据每个设备发送的语音信号的能量值,从多个设备中确定目标设备,其中,目标设备为多个设备中用于执行语音控制指令的设备;
151.控制单元,用于控制目标设备执行与语音控制指令匹配的设备操作。
152.此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
153.根据本技术实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本技术实施例中上述任一项语音指令的处理方法的程序代码。
154.可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
155.可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
156.s1,获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;
157.s2,根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;
158.s3,将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应。
159.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
160.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、rom、ram、移动硬
盘、磁碟或者光盘等各种可以存储程序代码的介质。
161.根据本技术实施例的又一个方面,还提供了一种用于实施上述语音指令的处理方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
162.图6是根据本技术实施例的一种可选的电子装置的结构框图,如图6所示,包括处理器602、通信接口604、存储器606和通信总线608,其中,处理器602、通信接口604和存储器606通过通信总线608完成相互间的通信,其中,
163.存储器606,用于存储计算机程序;
164.处理器602,用于执行存储器606上所存放的计算机程序时,实现如下步骤:
165.s1,获取智能设备上的多个采集部件采集到的多个语音信号,其中,多个语音信号中的每个语音信号为多个采集部件中的一个采集部件所采集到的、与目标对象发出的语音控制指令对应的语音信号;
166.s2,根据多个语音信号的信号特征,从多个语音信号中选取出目标语音信号;
167.s3,将目标语音信号的能量值发送给服务器,以由服务器根据目标语音信号的能量值确定是否由智能设备对语音控制指令进行响应。
168.可选地,在本实施例中,通信总线可以是pci(peripheral component interconnect,外设部件互连标准)总线、或eisa(extended industry standard architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
169.上述的存储器可以包括ram,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
170.作为一种示例,上述存储器606中可以但不限于包括上述设备的控制装置中的获取单元502、选取单元504以及发送单元506。此外,还可以包括但不限于上述设备的控制装置中的其他模块单元,本示例中不再赘述。
171.上述处理器可以是通用处理器,可以包含但不限于:cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等;还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
172.可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
173.本领域普通技术人员可以理解,图6所示的结构仅为示意,实施上述语音指令的处理方法的设备可以是终端设备,该终端设备可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图6其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示的不同的配置。
174.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质
中,存储介质可以包括:闪存盘、rom、ram、磁盘或光盘等。
175.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
176.上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。
177.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
178.在本技术所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
179.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
180.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
181.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!