语音控制方法、装置和终端设备与流程

文档序号:13878844阅读:233来源:国知局
语音控制方法、装置和终端设备与流程

本发明涉及电子技术领域,特别是涉及到一种语音控制方法、装置和终端设备。



背景技术:

目前,语音控制已广泛应用于智能家居、机器人智能交互、移动终端等领域,用户只需发出语音指令,就可以控制电子设备,解放了人们的双手,并且可以远程控制,非常方便快捷。然而,语音控制技术是通过解析用户的语音内容来执行相应的指令的,因此任何人说出相同的内容都可以控制电子设备,因此安全性较差。此外,当多人同时发出语音指令时,还会出现控制冲突问题,导致控制失效或者系统崩溃,进而影响稳定性。



技术实现要素:

本发明的主要目的为提供一种语音控制方法、装置和终端设备,旨在提高语音控制的安全性,提升用户体验。

为达以上目的,本发明实施例提出一种语音控制方法,所述方法包括以下步骤:

接收语音指令;

提取所述语音指令的声纹特征;

根据所述声纹特征匹配出所述语音指令所对应的权限信息;

根据所述权限信息响应所述语音指令。

可选地,所述权限信息包括权限级别。

可选地,所述根据所述权限信息响应所述语音指令的步骤包括:

当同时接收到至少两个语音指令时,从中选取权限级别最高的语音指令;

响应选取的语音指令。

可选地,所述权限信息还包括权限范围,所述响应选取的语音指令的步骤包括:

判断选取的语音指令是否在其对应的权限范围内;

当所述语音指令在所述权限范围内时,执行所述语音指令;

当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述根据所述权限信息响应所述语音指令的步骤包括:

当控制权限被锁定时,判断当前接收到的语音指令所对应的权限级别是否大于或等于锁定所述控制权限的语音指令所对应的权限级别;

若是,则响应当前接收到的语音指令;

若否,则不予响应当前接收到的语音指令。

可选地,所述权限信息还包括权限范围,所述响应当前接收到的语音指令的步骤包括:

判断当前接收到的语音指令是否在其对应的权限范围内;

当所述语音指令在所述权限范围内时,执行所述语音指令;

当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述根据所述声纹特征匹配出所述语音指令所对应的权限信息的步骤包括:

判断预存的声纹特征中是否包括所述语音指令的声纹特征;

若否,则确定所述语音指令对应的权限级别为普通权限;

若是,则确定所述语音指令对应的权限级别为超级权限。

可选地,所述根据所述声纹特征匹配出所述语音指令所对应的权限信息的步骤包括:

判断预存的声纹特征中是否包括所述语音指令的声纹特征;

若否,则确定所述语音指令对应的权限级别为普通权限;

若是,则判断所述语音指令的声纹特征是否在黑名单内;

若所述语音指令的声纹特征在黑名单内,则确定所述语音指令对应的权限级别为无权限;

若所述语音指令的声纹特征不在黑名单内,则确定所述语音指令对应的权限级别为超级权限。

可选地,所述确定所述语音指令对应的权限级别为超级权限的步骤之后还包括:

根据声纹特征与权限等级的对应关系,匹配出所述语音指令的声纹特征所对应的权限等级。

可选地,所述权限信息包括权限范围,所述根据所述权限信息响应所述语音指令的步骤包括:

判断所述语音指令是否在所述权限范围内;

当所述语音指令在所述权限范围内时,执行所述语音指令;

当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述接收语音指令的步骤包括:

通过麦克风阵列接收声音信号;

从所述声音信号中分离出至少两个语音指令。

本发明实施例同时提出一种语音控制装置,所述装置包括:

指令接收模块,用于接收语音指令;

声纹提取模块,用于提取所述语音指令的声纹特征;

权限匹配模块,用于根据所述声纹特征匹配出所述语音指令所对应的权限信息;

指令响应模块,用于根据所述权限信息响应所述语音指令。

可选地,所述指令响应模块包括:

指令选取单元,用于当同时接收到至少两个语音指令时,从中选取权限级别最高的语音指令;

第一响应单元,用于响应选取的语音指令。

可选地,所述权限信息还包括权限范围,所述第一响应单元包括:

第一判断子单元,用于判断选取的语音指令是否在其对应的权限范围内;

第一执行子单元,用于当所述语音指令在所述权限范围内时,执行所述语音指令;当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述指令响应模块包括:

权限判断单元,用于当控制权限被锁定时,判断当前接收到的语音指令所对应的权限级别是否大于或等于锁定所述控制权限的语音指令所对应的权限级别;

第二响应单元,用于若所述权限判断单元的判断结果为是,则响应当前接收到的语音指令;若所述权限判断单元的判断结果为否,则不予响应当前接收到的语音指令。

可选地,所述权限信息还包括权限范围,所述第二响应单元包括:

第二判断子单元,用于判断当前接收到的语音指令是否在其对应的权限范围内;

第二执行子单元,用于当所述语音指令在所述权限范围内时,执行所述语音指令;当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述权限匹配模块包括:

声纹判断单元,用于判断预存的声纹特征中是否包括所述语音指令的声纹特征;

第一确定单元,用于当预存的声纹特征中不包括所述语音指令的声纹特征时,则确定所述语音指令对应的权限级别为普通权限;

第二确定单元,用于当预存的声纹特征中包括所述语音指令的声纹特征时,则确定所述语音指令对应的权限级别为超级权限。

可选地,所述权限匹配模块包括:

声纹判断单元,用于判断预存的声纹特征中是否包括所述语音指令的声纹特征;

第一确定单元,用于当预存的声纹特征中不包括所述语音指令的声纹特征时,则确定所述语音指令对应的权限级别为普通权限;

名单判断单元,用于当预存的声纹特征中包括所述语音指令的声纹特征时,判断所述语音指令的声纹特征是否在黑名单内;

第三确定单元,用于若所述语音指令的声纹特征在黑名单内,则确定所述语音指令对应的权限级别为无权限;

第四确定单元,用于若所述语音指令的声纹特征不在黑名单内,则确定所述语音指令对应的权限级别为超级权限。

可选地,所述权限匹配模块还包括等级匹配单元,所述等级匹配单元用于:当所述语音指令对应的权限级别为超级权限时,根据声纹特征与权限等级的对应关系,匹配出所述语音指令的声纹特征所对应的权限等级。

可选地,所述权限信息包括权限范围,所述指令响应模块包括:

范围判断单元,用于判断所述语音指令是否在所述权限范围内;

指令执行单元,用于当所述语音指令在所述权限范围内时,执行所述语音指令;当所述语音指令不在所述权限范围内时,拒绝执行所述语音指令。

可选地,所述指令接收模块包括:

接收单元,用于通过麦克风阵列接收声音信号;

分离单元,用于从所述声音信号中分离出至少两个语音指令。

本发明实施例还提出一种电子设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音控制方法。

本发明实施例所提供的一种语音控制方法,通过提取语音指令的声纹特征,根据声纹特征匹配出对应的权限信息,最后根据权限信息响应语音指令,从而为语音控制提供了权限限制,可以为不同的用户分配不同的语音控制权限,提高了语音控制的安全性,提升了用户体验。

并且,当多个用户同时发出语音指令时,可以执行权限级别最高的用户发出的语音指令,避免控制失效或者系统崩溃,提高了语音控制的稳定性和控制效果,进一步提升了用户体验。

附图说明

图1是本发明的语音控制方法一实施例的流程图;

图2是图1中步骤s13的具体流程图;

图3是图1中步骤s13的又一具体流程图;

图4是图1中步骤s14的具体流程图;

图5是本发明的语音控制装置一实施例的模块示意图;

图6是图5中指令接收模块的模块示意图;

图7是图5中权限匹配模块的模块示意图;

图8是图5中权限匹配模块的又一模块示意图;

图9是图5中的指令响应模块的模块示意图;

图10是图9中的第一响应单元的模块示意图;

图11是图5中的指令响应模块的又一模块示意图;

图12图11中的第二响应单元的模块示意图;

图13图5中的指令响应模块的又一模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personalcommunicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personaldigitalassistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

本技术领域技术人员可以理解,这里所使用的服务器,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,服务器、终端设备与wns服务器之间可通过任何通信方式实现通信,包括但不限于,基于3gpp、lte、wimax的移动通信、基于tcp/ip、udp协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。

本发明实施例的语音控制方法和装置,可以应用于各种电子设备,包括智能家居设备(如智能电视、智能冰箱、智能空调等)、人工智能设备(如机器人设备等)、移动终端(如手机、平板等)、计算机终端(如个人电脑、笔记本电脑等),等等。

参照图1,提出本发明的语音控制方法第一实施例,所述方法包括以下步骤:

s11、接收语音指令。

可选地,电子设备通过一个麦克风接收语音指令。此时,电子设备在同一时间只能接收由一个用户发出的一个语音指令。

可选地,电子设备通过由至少两个麦克风组成的麦克风阵列接收语音指令。此时,电子设备在同一时间可以接收由至少两个用户发出的至少两个语音指令。具体的,电子设备通过麦克风阵列接收声音信号,该声音信号中包括环境噪声和由至少两个用户同时发出的语音指令,并对接收到的声音信号进行语音分离(例如利用fastica算法进行语音分离),获得至少两个语音指令。

例如,假设有n个声音源信号s1、s2、s3……sn,麦克风阵列有m(m≥n)个麦克风,a为麦克风阵列的位置混合矩阵,麦克风阵列接收到的声音信号为x,则有x=as,也就是x(i)=as(i)

采用基于负熵最大的快速ica(fastica)算法从声音信号中分离出n个语音指令,利用公式y=wtx,先求解w:

(1)数据预处理:零均值化、白化;

(2)初始化向量w;

(3)要分离的独立成分个数n,先分离第一个,p=1;

(4)更新w值:w=e{zg(wtz)}-e{g′(wtz)}w;

其中,g(y)=tanh(ay),2≥a≥1,a一般取1即可;

(5)正交化:

(6)每次迭代后对w进行标准化:w=w/||w||;

(7)重复(4)~(6),直到w收敛,即为wp;

(8)p=p+1,重复(4)~(7),直到p=n,计算出所有独立成分的w;

最后,利用公式y=wtx,求解出所有n个语音指令,即分离出每一个语音指令。

s12、提取语音指令的声纹特征。

本步骤s12中,电子设备对语音指令进行声纹识别,提取出语音指令的声纹特征。当语音指令至少有两个时,则分别提取出各个语音指令的声纹特征。作为优选,电子设备可以采用gmm-ubm(高斯混合模型-通用背景模型)对语音指令进行声纹识别,提取出声纹特征,获取相应的特征参数。

s13、根据声纹特征匹配出语音指令所对应的权限信息。

本发明实施例中,电子设备预存了至少两个声纹特征,每个声纹特征设置了相应的权限信息。例如,电子设备可以采用gmm-ubm对用户语音进行训练,提取出用户语音的声纹特征,并保存其相应的特征参数,设置相应的权限信息。

本发明实施例所述的权限信息,可以包括权限级别和权限范围之中的一种或两种。例如,对有安全性要求的智能设备,可以根据声纹特征进行权限分级管理,按权限级别从高到低的顺序分为超级权限、普通权限和无权限。其中,普通权限为未录入声纹特征的用户的权限,无权限为录入的声纹特征中被拉入黑名单内的声纹特征所对应的用户的权限,超级权限为录入的声纹特征中没有被拉入黑名单内的声纹特征所对应的用户的权限。超级权限还可以进一步细分为至少两个等级,如分为a、b、c、d四个等级,权限依次降低。

电子设备在匹配权限信息时,可以为已录入电子设备的声纹特征和未录入电子设备的声纹特征分别匹配出不同的权限级别和/或权限范围,还可以进一步为已录入电子设备的不同声纹特征分别匹配出不同的权限级别和/或权限范围。

以权限信息包括权限级别为例,电子设备可以通过以下方式匹配出语音指令的权限级别:

可选地,如图2所示,电子设备匹配权限级别的具体流程如下:

s101、判断预存的声纹特征中是否包括语音指令的声纹特征。当预存的声纹特征中不包括语音指令的声纹特征时,进入步骤s102;当预存的声纹特征中包括语音指令的声纹特征时,进入步骤s103。

电子设备将语音指令的声纹特征与预存的声纹特征进行比对,判断预存的声纹特征中是否有与语音指令的声纹特征相匹配的声纹特征。当预存的声纹特征中有与语音指令的声纹特征相匹配的声纹特征时,则说明预存的声纹特征中包括语音指令的声纹特征;当预存的声纹特征中没有与语音指令的声纹特征相匹配的声纹特征时,则说明预存的声纹特征中不包括语音指令的声纹特征。

s102、确定该语音指令对应的权限级别为普通权限。

当预存的声纹特征中没有与语音指令的声纹特征相匹配的声纹特征时,说明该语音指令的声纹特征没有录入电子设备中,电子设备则确定该语音指令对应的权限级别为普通权限。

s103、确定该语音指令对应的权限级别为超级权限。

当预存的声纹特征中有与语音指令的声纹特征相匹配的声纹特征时,说明该语音指令的声纹特征已录入电子设备中,电子设备则确定该语音指令对应的权限级别为超级权限。

进一步地,电子设备还可以根据预设的声纹特征与权限等级的对应关系,匹配出该语音指令的声纹特征所对应的权限等级。例如,超级权限进一步包括等级依次降低的a、b、c、d四个等级,声纹特征1、2、3、4分别对应权限等级a、b、c、d,假设语音指令的声纹特征为声纹特征3,则匹配出该语音指令所对应的权限级别为c级超级权限。

当同时接收到多个语音指令时,则分别匹配出每个语音指令的权限级别。

可选地,如图3所示,电子设备匹配权限级别的具体流程如下:

s201、判断预存的声纹特征中是否包括语音指令的声纹特征。当预存的声纹特征中不包括语音指令的声纹特征时,进入步骤s202;当预存的声纹特征中包括语音指令的声纹特征时,进入步骤s203。

s202、确定语音指令对应的权限级别为普通权限。

步骤s201和s202分别与前述步骤s101和s102相同,在此不再赘述。

s203、判断语音指令的声纹特征是否在黑名单内。当语音指令的声纹特征在黑名单内时,进入步骤s204;当语音指令的声纹特征不在黑名单内时,进入步骤s205。

当预存的声纹特征中有与语音指令的声纹特征相匹配的声纹特征时,说明该语音指令的声纹特征已录入电子设备中,电子设备继续判断语音指令的声纹特征是否在黑名单内。

s204、确定语音指令对应的权限级别为无权限。

当语音指令的声纹特征在黑名单内时,电子设备则确定该语音指令对应的权限级别为无权限,即发出该语音指令的用户无权控制电子设备,电子设备不予响应该语音指令。

s205、确定语音指令对应的权限级别为超级权限。

当语音指令的声纹特征不在黑名单内时,电子设备则确定该语音指令对应的权限级别为超级权限。

进一步地,电子设备还可以根据预设的声纹特征与权限等级的对应关系,匹配出该语音指令的声纹特征所对应的权限等级。例如,超级权限进一步包括等级依次降低的a、b、c、d四个等级,声纹特征1、2、3、4分别对应权限等级a、b、c、d,假设语音指令的声纹特征为声纹特征3,则匹配出该语音指令所对应的权限级别为c级超级权限。

当同时接收到多个语音指令时,则分别匹配出每个语音指令的权限级别。

在其它实施例中,也可以只对录入声纹特征的用户授予控制权限,未录入声纹特征的用户则无权限。

当权限信息包括权限范围时,其匹配方式与权限等级的匹配方式类似。例如,当预存的声纹特征中不包括语音指令的声纹特征时,确定该语音指令的权限范围为普通范围;当预存的声纹特征中包括语音指令的声纹特征且该声纹特征在黑名单中时,确定该语音指令的权限范围为无权限;当预存的声纹特征中包括语音指令的声纹特征且该声纹特征不在黑名单中时,确定该语音指令的权限范围为超级范围。超级范围的权限数量多于普通范围的权限数量,无权限即权限为零,电子设备不予响应。

当权限信息包括权限级别和权限范围时,每一个权限级别可以对应不同的权限范围。其中,被拉入黑名单中的用户,其权限级别和权限范围均为无权限,即电子设备拒绝执行黑名单中的用户的语音指令。

s14、根据权限信息响应语音指令。

可选地,当权限信息包括权限级别时,如果同时接收到至少两个语音指令,电子设备则从中选取权限级别最高的语音指令,并响应选取的语音指令。

进一步地,当权限信息还包括权限范围时,电子设备响应选取的语音指令的具体流程为:判断选取的语音指令是否在其对应的权限范围内;当选取的语音指令在其对应的权限范围内时,执行该语音指令;当选取的语音指令不在其对应的权限范围内时,拒绝执行该语音指令。

当然,在响应选取的语音指令时,电子设备也可以直接执行该语音指令。

例如,用户a、b、c同时发出语音指令,电子设备同时接收到语音指令a、b、c,由于用户a的权限级别最高,因此直接执行语音指令a。或者,先判断语音指令a是否在用户a的权限范围内,当在用户a的权限范围内时执行语音指令a,当不在用户a的权限范围内时,拒绝执行语音指令a。

可选地,当权限信息包括权限级别时,权限级别较高的用户(如具有超级权限的用户)还可以临时锁定控制权限。当控制权限被锁定后再接收到语音指令时,电子设备判断当前接收到的语音指令所对应的权限级别是否大于或等于锁定控制权限的语音指令所对应的权限级别;若是,则响应当前接收到的语音指令;若否,则不予响应当前接收到的语音指令。也就是说,当电子设备的控制权限被锁定时,只有大于或等于锁定控制权限的用户的权限级别的用户才能控制该电子设备或解锁该电子设备。

进一步地,当权限信息还包括权限范围时,电子设备响应当前接收到的语音指令的具体流程为:判断当前接收到的语音指令是否在其对应的权限范围内;当当前接收到的语音指令在其对应的权限范围内时,执行该语音指令;当当前接收到的语音指令不在其对应的权限范围内时,拒绝执行该语音指令。

当然,在响应当前接收到的语音指令时,电子设备也可以直接执行该语音指令。

例如,用户a、b、c的权限级别依次减小,用户b临时锁定了电子设备的控制权限,则用户a或用户b可以取消控制权限的锁定,也可以在权限范围内控制该电子设备,用户c既不能取消控制权限的锁定,也不能控制该电子设备。

可选地,当权限信息只包括权限范围时,或者权限信息包括权限范围和权限级别但只接收到一个语音指令时,电子设备根据权限信息响应语音指令的具体流程为:判断语音指令是否在其对应的权限范围内;当语音指令在其对应的权限范围内时,执行语音指令;当语音指令不在其对应的权限范围内时,拒绝执行语音指令。

例如,用户a的权限范围包括读取和存储。当用户a发出的语音指令为删除数据时,由于该语音指令超出了用户a的权限范围,电子设备则拒绝执行删除数据的语音指令;当用户a发出的语音指令为读取数据时,由于该语音指令在用户a的权限范围内,电子设备则执行读取数据的语音指令。

如图4所示,在一可选实施例中,权限信息包括权限范围和权限级别,电子设备根据权限信息响应语音指令的具体流程包括以下步骤:

s301、判断是否同时接收到至少两个语音指令。当同时接收到至少两个语音指令时,进入步骤s302;当只接收到一个语音指令时,进入步骤s303。

s302、从接收到的语音指令中选取权限级别最高的语音指令。

s303、判断控制权限是否被锁定。当控制权限被锁定时,进入步骤s304;当控制权限没有被锁定时,进入步骤s305。

s304、判断接收到的语音指令所对应的权限级别是否大于或等于锁定控制权限的语音指令所对应的权限级别。若接收到的语音指令所对应的权限级别大于或等于锁定控制权限的语音指令所对应的权限级别,则进入步骤s305;若接收到的语音指令所对应的权限级别小于锁定控制权限的语音指令所对应的权限级别,则进入步骤s307。

s305、判断接收到的语音指令是否在其对应的权限范围内。若接收到的语音指令在其对应的权限范围内,则进入步骤s306;若接收到的语音指令不在其对应的权限范围内,则进入步骤s307。

s306、执行接收到的语音指令。

s307、拒绝执行接收到的语音指令。

本发明实施例的语音控制方法,通过提取语音指令的声纹特征,根据声纹特征匹配出对应的权限信息,最后根据权限信息响应语音指令,从而为语音控制提供了权限限制,可以为不同的用户分配不同的语音控制权限,提高了语音控制的安全性,提升了用户体验。

并且,当有多个用户同时发出语音指令时,可以执行权限级别最高的用户发出的语音指令,避免控制失效或者系统崩溃,提高了语音控制的稳定性和控制效果,进一步提升了用户体验。

参照图5,提出本发明的语音控制装置一实施例,所述装置包括指令接收模块10、声纹提取模块20、权限匹配模块30和指令响应模块40。

指令接收模块10:用于接收语音指令。

可选地,指令接收模块10通过一个麦克风接收语音指令。此时,指令接收模块10在同一时间只能接收由一个用户发出的一个语音指令。

可选地,指令接收模块10通过由至少两个麦克风组成的麦克风阵列接收语音指令。此时,指令接收模块10在同一时间可以接收由至少两个用户发出的至少两个语音指令。

具体的,如图6所示,指令接收模块10包括接收单元11和分离单元12,其中:接收单元11,用于通过麦克风阵列接收声音信号;分离单元12,用于从声音信号中分离出至少两个语音指令。接收单元11接收的声音信号中包括环境噪声和由至少两个用户同时发出的语音指令,分离单元12对接收到的语音指令进行语音分离,例如利用fastica算法进行语音分离,获得至少两个语音指令。

声纹提取模块20:用于提取语音指令的声纹特征。

声纹提取模块20对语音指令进行声纹识别,提取出语音指令的声纹特征。当语音指令至少有两个时,则分别提取出各个语音指令的声纹特征。作为优选,声纹提取模块20可以采用gmm-ubm(高斯混合模型-通用背景模型)对语音指令进行声纹识别,提取出声纹特征,获取相应的特征参数。

权限匹配模块30:用于根据声纹特征匹配出语音指令所对应的权限信息。

本发明实施例中,电子设备预存了至少两个声纹特征,每个声纹特征设置了相应的权限信息。例如,电子设备可以采用gmm-ubm对用户语音进行训练,提取出用户语音的声纹特征,并保存其相应的特征参数,设置相应的权限信息。

本发明实施例所述的权限信息,可以包括权限级别和权限范围之中的一种或两种。例如,对有安全性要求的智能设备,可以根据声纹特征进行权限分级管理,按权限级别从高到低的顺序分为超级权限、普通权限和无权限。其中,普通权限为未录入声纹特征的用户的权限,无权限为录入的声纹特征中被拉入黑名单内的声纹特征所对应的用户的权限,超级权限为录入的声纹特征中没有被拉入黑名单内的声纹特征所对应的用户的权限。超级权限还可以进一步细分为至少两个等级,如分为a、b、c、d四个等级,权限依次降低。

权限匹配模块30在匹配权限信息时,可以为已录入电子设备的声纹特征和未录入电子设备的声纹特征分别匹配出不同的权限级别和/或权限范围,还可以进一步为已录入电子设备的不同声纹特征分别匹配出不同的权限级别和/或权限范围。当同时接收到多个语音指令时,权限匹配模块30则分别匹配出每个语音指令的权限级别和/或权限范围。

以权限信息包括权限级别为例,权限匹配模块30可以通过以下方式匹配出语音指令的权限级别:

可选地,如图7所示,权限匹配模块30包括声纹判断单元31、第一确定单元32和第二确定单元33,其中:声纹判断单元31,用于判断预存的声纹特征中是否包括语音指令的声纹特征;第一确定单元32,用于当预存的声纹特征中不包括语音指令的声纹特征时,则确定语音指令对应的权限级别为普通权限;第二确定单元33,用于当预存的声纹特征中包括语音指令的声纹特征时,则确定语音指令对应的权限级别为超级权限。

声纹判断单元31将语音指令的声纹特征与预存的声纹特征进行比对,判断预存的声纹特征中是否有与语音指令的声纹特征相匹配的声纹特征。当预存的声纹特征中有与语音指令的声纹特征相匹配的声纹特征时,则说明预存的声纹特征中包括语音指令的声纹特征;当预存的声纹特征中没有与语音指令的声纹特征相匹配的声纹特征时,则说明预存的声纹特征中不包括语音指令的声纹特征。

当预存的声纹特征中没有与语音指令的声纹特征相匹配的声纹特征时,说明该语音指令的声纹特征没有录入电子设备中,第一确定单元32则确定该语音指令对应的权限级别为普通权限。

当预存的声纹特征中有与语音指令的声纹特征相匹配的声纹特征时,说明该语音指令的声纹特征已录入电子设备中,第二确定单元33则确定该语音指令对应的权限级别为超级权限。

可选地,如图8所示,权限匹配模块30包括声纹判断单元31、第一确定单元32、名单确定单元、第三确定单元35和第四确定单元36,其中:声纹判断单元31,用于判断预存的声纹特征中是否包括语音指令的声纹特征;第一确定单元32,用于当预存的声纹特征中不包括语音指令的声纹特征时,则确定语音指令对应的权限级别为普通权限;名单判断单元34,用于当预存的声纹特征中包括语音指令的声纹特征时,判断语音指令的声纹特征是否在黑名单内;第三确定单元35,用于若语音指令的声纹特征在黑名单内,则确定语音指令对应的权限级别为无权限;第四确定单元36,用于若语音指令的声纹特征不在黑名单内,则确定语音指令对应的权限级别为超级权限。

进一步地,前述两种方案中,权限匹配模块30还可以包括等级匹配单元,等级匹配单元用于:当语音指令对应的权限级别为超级权限时,根据声纹特征与权限等级的对应关系,匹配出语音指令的声纹特征所对应的权限等级。

等级匹配单元可以根据预设的声纹特征与权限等级的对应关系,匹配出该语音指令的声纹特征所对应的权限等级。例如,超级权限进一步包括等级依次降低的a、b、c、d四个等级,声纹特征1、2、3、4分别对应权限等级a、b、c、d,假设语音指令的声纹特征为声纹特征3,则匹配出该语音指令所对应的权限级别为c级超级权限。

当权限信息包括权限范围时,其匹配方式与权限等级的匹配方式类似。例如,当预存的声纹特征中不包括语音指令的声纹特征时,确定该语音指令的权限范围为普通范围;当预存的声纹特征中包括语音指令的声纹特征且该声纹特征在黑名单中时,确定该语音指令的权限范围为无权限;当预存的声纹特征中包括语音指令的声纹特征且该声纹特征不在黑名单中时,确定该语音指令的权限范围为超级范围。超级范围的权限数量多于普通范围的权限数量,无权限即权限为零。

当权限信息包括权限级别和权限范围时,每一个权限级别可以对应不同的权限范围。其中,被拉入黑名单中的用户,其权限级别和权限范围均为无权限,即电子设备拒绝执行黑名单中的用户的语音指令。

指令响应模块40:用于根据权限信息响应语音指令。

可选地,当权限信息包括权限级别时,指令响应模块40如图9所示,包括指令选取单元41和第一响应单元42,其中:指令选取单元41,用于当同时接收到至少两个语音指令时,从中选取权限级别最高的语音指令;第一响应单元42,用于响应选取的语音指令。

进一步地,当权限信息还包括权限范围时,第一响应单元42如图10所示,包括第一判断子单元421和第一执行子单元422,其中:第一判断子单元421,用于判断选取的语音指令是否在其对应的权限范围内;第一执行子单元422,用于当选取的语音指令在其对应的权限范围内时,执行该语音指令;当选取的语音指令不在其对应的权限范围内时,拒绝执行该语音指令。

当然,第一响应单元42也可以直接执行该语音指令。

例如,用户a、b、c同时发出语音指令,指令接收单元同时接收到语音指令a、b、c,由于用户a的权限级别最高,因此指令响应模块40的第一响应单元42直接执行语音指令a。或者,第一响应单元42的第一判断子单元421先判断语音指令a是否在用户a的权限范围内,当在用户a的权限范围内时第一执行子单元422则执行语音指令a,当不在用户a的权限范围内时,第一执行子单元422则拒绝执行语音指令a。

可选地,当权限信息包括权限级别时,权限级别较高的用户(如具有超级权限的用户)还可以临时锁定控制权限。此时,指令响应模块40如图11所示,包括权限判断单元43和第二响应单元44,其中:权限判断单元43,用于当控制权限被锁定时,判断当前接收到的语音指令所对应的权限级别是否大于或等于锁定控制权限的语音指令所对应的权限级别;第二响应单元44,用于若权限判断单元43的判断结果为是,则响应当前接收到的语音指令;若权限判断单元43的判断结果为否,则不予响应当前接收到的语音指令。

进一步地,当权限信息还包括权限范围时,第二响应单元44如图12所示,包括第二判断子单元441和第二执行子单元442,其中:第二判断子单元441,用于判断当前接收到的语音指令是否在其对应的权限范围内;第二执行子单元442,用于当当前接收到的语音指令在其对应的权限范围内时,执行该语音指令;当当前接收到的语音指令不在其对应的权限范围内时,拒绝执行该语音指令。

当然,第二响应单元44也可以直接执行该语音指令。

例如,用户a、b、c的权限级别依次减小,用户b临时锁定了电子设备的控制权限,则用户a或用户b可以取消控制权限的锁定,也可以在权限范围内控制该电子设备,用户c既不能取消控制权限的锁定,也不能控制该电子设备。

在某些实施例中,也可以将前述两种方案结合起来。

可选地,当权限信息只包括权限范围时,或者权限信息包括权限范围和权限级别但只接收到一个语音指令时,指令响应模块40如图13所示,包括范围判断单元45和指令执行单元46,其中:范围判断单元45,用于判断语音指令是否在其对应的权限范围内;指令执行单元46,用于当语音指令在其对应的权限范围内时,执行该语音指令;当语音指令不在其对应的权限范围内时,拒绝执行该语音指令。

例如,用户a的权限范围包括读取和存储。当用户a发出的语音指令为删除数据时,由于该语音指令超出了用户a的权限范围,指令执行单元46则拒绝执行删除数据的语音指令;当用户a发出的语音指令为读取数据时,由于该语音指令在用户a的权限范围内,指令执行单元46则执行读取数据的语音指令。

本发明实施例的语音控制装置,通过提取语音指令的声纹特征,根据声纹特征匹配出对应的权限信息,最后根据权限信息响应语音指令,从而为语音控制提供了权限限制,可以为不同的用户分配不同的语音控制权限,提高了语音控制的安全性,提升了用户体验。

并且,当有多个用户同时发出语音指令时,可以执行权限级别最高的用户发出的语音指令,避免控制失效或者系统崩溃,提高了语音控制的稳定性和控制效果,进一步提升了用户体验。

本发明同时提出一种电子设备,所述电子设备包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行语音控制方法。所述语音控制方法包括以下步骤:接收语音指令;提取语音指令的声纹特征;根据声纹特征匹配出语音指令所对应的权限信息;根据权限信息响应语音指令。本实施例中所描述的语音控制方法为本发明中上述实施例所涉及的语音控制方法,在此不再赘述。

本领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1