个人助理应用访问方法及系统的制作方法

文档序号:7992170阅读:320来源:国知局
专利名称:个人助理应用访问方法及系统的制作方法
技术领域
本发明涉及应用访问技术领域,特别涉及一种个人助理应用访问方法及系统。
背景技术
计算机技术的普及发展促成了智能手机时代的到来,智能手机除具备传统手机的通话功能外,还实现了计算机的多数功能,如个人信息管理、网络交互(如电子邮件、即时通讯)以及其他各类增值服务(如股票交易、新闻检索、电子购物)等。融合3C(Computer、 Communication, Consumer)的智能手机成为人们日常生活中不可或缺的助手,担当着越来越重要的职责。传统多级菜单设置下通过逐级选定实现交互的模式已经不适应功能日益复杂的智能手机应用,用户迫切需要一种更自然的交互模式,以便高效快捷地实现应用程序的准确定位。

发明内容
本发明实施例针对上述现有技术存在的问题,提供一种个人助理应用访问方法及系统,以提高人机交互效率。本发明实施例提供如下技术方案一种个人助理应用访问方法,包括接收用户输入的语音信号;识别所述语音信号中的命令内容及参数;根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作。优选地,所述方法还包括在根据所述参数对所述应用进行操作之前,根据所述语音信号对所述用户进行身份认证,以确定所述用户是否为合法用户;向所述应用的应用服务提供第三方发送身份认证结果,或者如果所述用户为合法用户,则根据所述参数对所述应用进行操作。优选地,所述方法还包括在根据所述语音信号对所述用户进行身份认证之前,检查所述应用是否为需要通过身份认证保护的应用;如果是,则执行所述根据所述语音信号对所述用户进行身份认证的步骤。优选地,所述方法还包括如果所述应用为需要通过身份认证保护的应用,则对所述应用的直接调用方式进行修正。优选地,所述方法还包括如果所述应用为需要通过身份认证保护的应用,则在对用户进行身份认证之前, 检查所述应用的保护级别,并获取与所述保护级别对应的认证阈值;所述对所述用户进行身份认证包括根据所述认证阈值对所述用户进行身份认
4证。 优选地,所述对用户进行身份认证,以确定所述用户是否为合法用户包括
从所述语音信号中对应所述命令内容的语音段提取声纹特征序列;将所述声纹特征序列与背景模型进行匹配,得到第一相似度;将所述声纹特征序列与注册用户的声纹模型进行匹配,得到第二相似度;根据得到的第一相似度和第二相似度计算似然比;如果所述似然比大于所述认证阈值,则确定所述用户是合法用户。优选地,所述方法还包括如果所述用户是合法用户,则根据所述声纹特征序列对所述声纹模型进行更新。可选地,所述注册用户的声纹模型为与所述命令内容相关的用户声纹模型;或者文本无关的用户声纹模型。优选地,所述识别所述语音信号中的命令内容及参数包括从所述语音信号中提取声学特征序列;对所述声学特征序列进行连续语音解码,得到最优字串序列;对所述最优字串序列进行文本语义分析,得到命令内容及参数。一种个人助理应用访问系统,包括接收单元,用于接收用户输入的语音信号;语音识别单元,用于识别所述语音信号中的命令内容及参数;应用确定单元,用于根据所述命令内容确定需要访问的应用;命令执行单元,用于根据所述参数对所述应用进行操作。优选地,所述系统还包括认证单元,用于在所述命令执行单元根据所述参数对所述应用进行操作之前,根据所述接收单元接收的语音信号对所述用户进行身份认证,以确定所述用户是否为合法用户;认证结果发送单元,用于向所述应用的应用服务提供第三方发送身份认证结果; 或者所述命令执行单元具体用于在所述认证单元确定所述用户为合法用户后,根据所述参数对所述应用进行操作。优选地,所述系统还包括检查单元,用于在所述认证单元根据所述语音信号对所述用户进行身份认证之前,检查所述应用是否为需要通过身份认证保护的应用,如果是,则通知所述认证单元执行所述根据所述语音信号对所述用户进行身份认证的操作。优选地,所述系统还包括修正单元,用于在所述检查单元检查到所述应用为需要通过身份认证保护的应用时,对所述应用的直接调用方式进行修正。优选地,所述检查单元,还用于在所述应用为需要通过身份认证保护的应用时,在所述认证单元对用户进行身份认证之前,检查所述应用的保护级别,并获取与所述保护级别对应的认证阈值;相应地,所述认证单元具体用于根据所述检查单元获取的认证阈值对所述用户进行身份认证。优选地,所述认证单元包括声纹特征提取子单元,用于从所述语音信号中对应所述命令内容的语音段提取声纹特征序列;第一匹配子单元,用于将所述声纹特征序列与背景模型进行匹配,得到第一相似度;第二匹配子单元,用于将所述声纹特征序列与注册用户的声纹模型进行匹配,得到第二相似度;计算子单元,用于根据得到的第一相似度和第二相似度计算似然比;确定子单元,用于在所述似然比大于所述认证阈值时,确定所述用户是合法用户。优选地,所述系统还包括模型更新单元,用于在所述确定子单元确定所述用户是合法用户后,根据所述声纹特征提取子单元提取的声纹特征序列对所述声纹模型进行更新。优选地,所述语音识别单元包括声学特征提取子单元,用于从所述语音信号中提取声学特征序列;语音解码子单元,用于对所述声学特征序列进行连续语音解码,得到最优字串序列;语义分析子单元,用于对所述最优字串序列进行文本语义分析,得到命令内容及参数。本发明实施例个人助理应用访问方法及系统,通过语音识别等技术识别用户输入的语音信号中的命令内容及参数,根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作,也就是说,将用户自然的语音信号转化为可执行的应用程序指令, 实现复杂应用程序的高效快捷的命令定向,提高人机交互效率,从而更好地实现智能设备的私人虚拟助理职能。进一步地,通过声纹认证等技术在后台验证用户身份的有效性,还可实现对个人助理上应用的有效保护。进一步地,还可以根据用户的实际需要,通过弹性身份认证方式,实现对不同应用的不同级别保护。


为了更清楚地说明本发明实施的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明实施例个人助理应用访问方法的流程图;图2是本发明实施例个人助理应用访问方法的另一流程图;图3是本发明实施例中对用户进行身份认证的流程图;图4是本发明实施例个人助理应用访问方法的另一流程图;图5是本发明实施例个人助理应用访问系统的一种结构示意图;图6是本发明实施例个人助理应用访问系统的另一种结构示意图7是本发明实施例个人助理应用访问系统的另一种结构示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。由于随着智能手机的普及和移动通讯技术的发展,移动设备的功能日益增强,更多地承担起私人助理的角色,用户在其上可实现众多个性化操作。而语音交互作为最自然的交互方式之一,可以在智能手机上可以发挥重要的作用。为此,本发明实施例个人助理应用访问方法及系统,通过语音识别等技术将用户自然的语音命令转化为可执行的应用程序指令,实现复杂应用程序的高效快捷的命令定向,从而更好地实现智能设备的私人虚拟助理职能。如图1所示,是本发明实施例个人助理应用访问方法的流程图,包括以下步骤步骤101,接收用户输入的语音信号。本发明实施例个人助理应用访问方法,支持用户以随意说的方式指示应用操作, 也就是说,用户输入的语音信号可以是“打电话给XXXl ”,“给XXX发邮件”,“去淘宝”等自然说的口令。该语音命令是连续的语音信号。在本发明实施例中,可以将用户输入的语音信号采样为一系列离散能量值存入数据缓存区。步骤102,识别所述语音信号中的命令内容及参数。从步骤101采集的语音能量值中提取出具有高表征力的声学特征,具体地,可以选用语音识别领域常用特征,比如MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)特征,按照时序顺序依次对窗长25ms帧移IOms的短帧语音做频谱变换得到 M(比如M = 39)维MFCC参数,将原始的易受噪音干扰的语音能量信号转换为具有更高鲁棒性的特征。经过声学特征提取,连续语音能量信号可以表征为一系列的特征矢量0 = (O1, O2, ... , 0T),其中T为语音总帧数,这些特征矢量组成了一个声学特征序列。当然,为了进一步提高系统的鲁棒性,在上述过程中,还可以先对接收的用户输入的语音信号做前端降噪处理,以减少信道噪声及背景噪声的干扰,提高语音信噪比,进而提高后续系统对该信号的处理能力。在提取出声学特征序列后,通过连续语音解码确定最优字串序列。具体地可采用传统经典算法实现,比如Token Passing算法等。 然后,对上述最优字串序列进行文本语义分析,得到命令内容及相应参数。在本发明实施例中,可以采用基于文法规则匹配的算法从输入的连续语句中分别提取命令内容及对应参数。具体可以包括以下步骤1.系统预置应用程序调用规则,该规则由系统预先从海量文本数据中归纳总结得至IJ。如“短消息”发送指令规则中包括确定的指令内容及可替换的命令参数等,比如a) ·[发送 I 发 I 发给][个 I 一个][$message][给]{$host 联系人};b) ·[给]{$host 联系人}[发送 I 发 I 发给][个 I 一个][$message];
7
c) ·[告诉I通知I知会]{$host 联系人}。在实际应用中,可以将所有规则统一放入一个规则库中。2.对给定的连续输入的语句命令,对其遍历规则库中的规则进行匹配,获取匹配度最高的规则作为优选结果。3.根据选定的规则形式,确定命令内容并从连续语句相应位置提取命令参数。需要说明的是,本发明实施例并不仅限于上述语音识别过程来识别所述语音信号的命令内容及参数,还可以采用其它语音识别的方式,对此不再一一举例。步骤103,根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作。本发明实施例个人助理应用访问方法,支持用户以随意说的方式指示应用操作。比如,用户输入的语音信号为“打电话给张三”,通过上述步骤102,可以识别该语音信号的命令内容为“打电话”,相应的参数为“张三”;则根据该命令内容启动个人助理上的通话应用,如果通讯录中有“张三”的号码,还可以自动拨打该号码;如果没有相应的号码,则可以只进入拨号的应用,并向用户展现相应的界面。再比如,用户输入的语音信号为“去淘宝”,通过上述步骤102,可以识别该语音信号的命令内容为“去”,相应的参数为“淘宝”;则在个人设备上搜索“淘宝”客户端并通过客户端登陆访问。再比如,用户输入的语音信号为“查询合肥天气”,通过上述步骤102,可以识别该语音信号的命令内容为“查询”,相应的参数为“合肥天气”,则根据该命令内容启动个人助理上的无线上网功能,并在调用的浏览器内填入参数执行搜索功能。另外,还可以允许用户自定义设置应用程序语音命令调用的关键字词等。可见,本发明实施例个人助理应用访问方法,通过语音识别等技术识别用户输入的语音信号中的命令内容及参数,根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作,从而实现复杂应用程序的高效快捷的命令定向,更好地实现智能设备的私人虚拟助理职能。需要说明的是,上述个人助理可以是智能手机或其它类似设备。由于功能强大的个人助理应用大大便利了用户的日常生活,促使人们越来越习惯于在个人助理上处理各种可能涉及用户个人信息的应用操作,如电子购物,股票交易等,因此相应的用户数据安全在信息发展的当今显得更为重要。为此,本发明实施例个人助理应用访问方法,还可进一步通过声纹认证等技术在后台验证用户身份的有效性,实现对个人助理上应用的有效保护,进而保证用户信息的安全性。如图2所示,是本发明实施例个人助理应用访问方法的另一流程图,包括以下步骤步骤201,接收用户输入的语音信号。步骤202,识别所述语音信号中的命令内容及参数。步骤203,根据所述命令内容确定需要访问的应用。步骤204,根据所述语音信号对所述用户进行身份认证,以确定所述用户是否为合法用户。步骤205,根据身份认证结果执行相应语音命令。
具体地,可以向应用服务提供第三方提供身份认证结果,比如与应用服务提供第三方签有相应协议,将身份认证结果发送给应用服务提供第三方,应用服务提供第三方就无需再对该用户进行身份认证。或者,对本地端应用,在确认所述用户为合法用户后,根据所述参数对所述应用进行操作。需要说明的是,上述步骤204中对所述用户进行身份认证的过程可以在系统后台进行,而且,上述步骤204也可以在步骤203之前进行。另外,如果身份认证结果是所述用户不是合法用户,则可以向用户返回并显示用户身份不合法的提示信息,或者对用户指令提供受限的访问权限。在本发明实施例中,可以采用传统的声纹识别技术,对用户进行身份认证。比如, 可以采用GMM-UBM(Gaussian Mixture Model-Universal Background Model,基于高斯混合模型以及通用背景模型)算法,通过分别计算用户输入的语音信号中的命令内容所对应的语音段的声纹特征序列和用户声纹模型的匹配得分、以及该声纹行征序列和背景模型的匹配得分的比值,确定该比值与设定的认证阈值的大小关系,确定所述用户是否为合法用户。另外,需要说明的是,为了方便用户的使用,有选择性地保护某些应用的安全性, 可以允许用户通过自定义方式设置需要通过身份认证保护的应用。相应地,在上述步骤203和步骤204之间,还需要检查所述应用是否为需要通过身份认证保护的应用。如果是,再执行步骤204 ;否则,可以直接根据所述参数对所述应用进行操作。另外,为了方便用户的使用,个人设备上的应用可能不仅会提供语音调用方式,而且还提供非语音调用方式,比如,通过键盘输入命令调用相应应用。针对这种情况,为了防止非法用户避开语音方式调用受保护的应用,在本发明实施例中,还可进一步对设置了需要通过身份认证保护的应用的直接调用方式进行修正,比如在对该应用非语音调用时要求进行密码验证,或者提供受限功能等,从而可以确保对该应用程序的有效保护。下面详细说明本发明实施例中对用户进行身份认证的过程。如图3所示,是本发明实施例中对用户进行身份认证的流程图,包括以下步骤步骤301,从所述语音信号中对应所述命令内容的语音段提取声纹特征序列。考虑到用户输入的语音信号中不仅包含有语音命令,还包含有随机变化的命令参数及用于连接的辅助词等信息,因此,可以首先从该语音信号中提取出相对固定的语音命令信息,比如前面所述的命令内容,并据此通过文本相关的声纹认证技术提高用户身份认证的准确度。为此,在本发明实施例中,可以采用语音信号处理领域传统的关键词提取方法,如基于Filler模型的非关键词信号吸收或者关键词匹配等技术处理,从所述语音信号中提取出所述命令内容。然后,确定用户输入的语音信号中与该命令内容对应的语音段,从该语音段中提取声纹特征序列。另外,还可以基于前面语音识别的结果,得到所述命令内容。然后,确定用户输入的语音信号中与该命令内容对应的语音段,从该语音段中提取声纹特征序列。上述声纹特征序列包含一组声纹特征。该声纹特征主要有谱包络参数语音特征,基音轮廓、共振峰频率带宽特征,线性预测系数,倒谱系数等。考虑到上述声纹特征的可量化性、训练样本的数量和系统性能的评价等问题,可以选用MFCC特征,对窗长25ms帧移IOms的每帧语音数据做短时分析得到MFCC参数及其一阶二阶差分,共计39维。这样,每句语音信号可以量化为一个39维声纹特征矢量序列X。步骤302,将所述声纹特征序列与背景模型进行匹配,得到第一相似度。所述背景模型用于描述说话人声纹的共性,可以采用基于多说话人数据训练具有 1024甚至更多高斯数的复杂混合高斯模型,以更好地兼容各说话人的特异性。具体地,帧数为T的声纹特征矢量序列X相应于背景模型(UBM)的似然度为
权利要求
1.一种个人助理应用访问方法,其特征在于,包括 接收用户输入的语音信号;识别所述语音信号中的命令内容及参数;根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作。
2.如权利要求1所述的方法,其特征在于,所述方法还包括在根据所述参数对所述应用进行操作之前,根据所述语音信号对所述用户进行身份认证,以确定所述用户是否为合法用户;向所述应用的应用服务提供第三方发送身份认证结果,或者如果所述用户为合法用户,则根据所述参数对所述应用进行操作。
3.如权利要求2所述的方法,其特征在于,所述方法还包括在根据所述语音信号对所述用户进行身份认证之前,检查所述应用是否为需要通过身份认证保护的应用;如果是,则执行所述根据所述语音信号对所述用户进行身份认证的步骤。
4.如权利要求3所述的方法,其特征在于,所述方法还包括如果所述应用为需要通过身份认证保护的应用,则对所述应用的直接调用方式进行修正。
5.如权利要求3所述的方法,其特征在于,所述方法还包括如果所述应用为需要通过身份认证保护的应用,则在对用户进行身份认证之前,检查所述应用的保护级别,并获取与所述保护级别对应的认证阈值;所述对所述用户进行身份认证包括根据所述认证阈值对所述用户进行身份认证。
6.如权利要求5所述的方法,其特征在于,所述对用户进行身份认证,以确定所述用户是否为合法用户包括从所述语音信号中对应所述命令内容的语音段提取声纹特征序列; 将所述声纹特征序列与背景模型进行匹配,得到第一相似度; 将所述声纹特征序列与注册用户的声纹模型进行匹配,得到第二相似度; 根据得到的第一相似度和第二相似度计算似然比; 如果所述似然比大于所述认证阈值,则确定所述用户是合法用户。
7.如权利要求6所述的方法,其特征在于,所述方法还包括如果所述用户是合法用户,则根据所述声纹特征序列对所述声纹模型进行更新。
8.如权利要求6所述的方法,其特征在于,所述注册用户的声纹模型为与所述命令内容相关的用户声纹模型;或者文本无关的用户声纹模型。
9.如权利要求1至8任一项所述的方法,其特征在于,所述识别所述语音信号中的命令内容及参数包括从所述语音信号中提取声学特征序列;对所述声学特征序列进行连续语音解码,得到最优字串序列;对所述最优字串序列进行文本语义分析,得到命令内容及参数。
10.一种个人助理应用访问系统,其特征在于,包括 接收单元,用于接收用户输入的语音信号;语音识别单元,用于识别所述语音信号中的命令内容及参数;应用确定单元,用于根据所述命令内容确定需要访问的应用; 命令执行单元,用于根据所述参数对所述应用进行操作。
11.如权利要求10所述的系统,其特征在于,所述系统还包括认证单元,用于在所述命令执行单元根据所述参数对所述应用进行操作之前,根据所述接收单元接收的语音信号对所述用户进行身份认证,以确定所述用户是否为合法用户; 认证结果发送单元,用于向所述应用的应用服务提供第三方发送身份认证结果;或者所述命令执行单元具体用于在所述认证单元确定所述用户为合法用户后,根据所述参数对所述应用进行操作。
12.如权利要求11所述的系统,其特征在于,所述系统还包括检查单元,用于在所述认证单元根据所述语音信号对所述用户进行身份认证之前,检查所述应用是否为需要通过身份认证保护的应用,如果是,则通知所述认证单元执行所述根据所述语音信号对所述用户进行身份认证的操作。
13.如权利要求12所述的系统,其特征在于,所述系统还包括修正单元,用于在所述检查单元检查到所述应用为需要通过身份认证保护的应用时, 对所述应用的直接调用方式进行修正。
14.如权利要求12所述的系统,其特征在于,所述检查单元,还用于在所述应用为需要通过身份认证保护的应用时,在所述认证单元对用户进行身份认证之前,检查所述应用的保护级别,并获取与所述保护级别对应的认证阈值;所述认证单元具体用于根据所述检查单元获取的认证阈值对所述用户进行身份认证。
15.如权利要求14所述的系统,其特征在于,所述认证单元包括声纹特征提取子单元,用于从所述语音信号中对应所述命令内容的语音段提取声纹特征序列;第一匹配子单元,用于将所述声纹特征序列与背景模型进行匹配,得到第一相似度; 第二匹配子单元,用于将所述声纹特征序列与注册用户的声纹模型进行匹配,得到第二相似度;计算子单元,用于根据得到的第一相似度和第二相似度计算似然比;确定子单元,用于在所述似然比大于所述认证阈值时,确定所述用户是合法用户。
16.如权利要求15所述的系统,其特征在于,所述系统还包括模型更新单元,用于在所述确定子单元确定所述用户是合法用户后,根据所述声纹特征提取子单元提取的声纹特征序列对所述声纹模型进行更新。
17.如权利要求10至16任一项所述的系统,其特征在于,所述语音识别单元包括 声学特征提取子单元,用于从所述语音信号中提取声学特征序列;语音解码子单元,用于对所述声学特征序列进行连续语音解码,得到最优字串序列; 语义分析子单元,用于对所述最优字串序列进行文本语义分析,得到命令内容及参数。
全文摘要
本发明涉及应用访问技术领域,公开了一种个人助理应用访问方法及系统,该方法包括接收用户输入的语音信号;识别所述语音信号中的命令内容及参数;根据所述命令内容确定需要访问的应用,并根据所述参数对所述应用进行操作。利用本发明,可以提高人机交互效率。
文档编号H04M1/725GK102510426SQ20111038770
公开日2012年6月20日 申请日期2011年11月29日 优先权日2011年11月29日
发明者何婷婷, 刘庆峰, 胡国平, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1