用于控制对应用程序的访问的方法和设备的制造方法_3

文档序号：9794417阅读：来源：国知局

或分配以确定安全级别“I”和“5”之间的中等安全级别“2”、“3”和“4”的阈值。在一个实施例中，电子装置200通过同样划分最高阈值与最低阈值之间的差来确定安全级别“2”、“3”和“4”的阈值。在此情况下，差可除以4(即，中等安全级别加I)以计算阈值增量。一或多个阈值增量可随后添加至最低阈值以确定中等安全级别“2”、“3”和“4”的阈值。替代地，可从最高阈值减去一或多个阈值增量以确定中等安全级别“2”、“3”和“4”的阈值。以此方式，安全级别中的每一者可由其相关联的指示安全级别的最小置信度值的阈值递增地定义。
[0055]图5说明根据本发明的一个实施例的经配置以在来自说话者的语音命令经验证时访问应用程序的语音激活单元254的框图。语音激活单元254包含命令检测单元510、安全级别确定单元520和说话者验证单元530。命令检测单元510识别语音命令以利用输入声音访问应用程序且安全级别确定单元520确定应用程序的安全级别。如果语音命令经验证来自被授权用户，那么说话者验证单元530随后访问应用程序。
[0056]在语音激活单元254中，命令检测单元510经配置以从话音检测器252接收输入声音流且利用输入声音流识别用于访问应用程序的语音命令。为识别语音命令，命令检测单元510从所接收到的输入声音流提取一或多个声音特征(例如，音频手指指纹、MFCC向量)。所提取的声音特征随后使用基于HMM、SMM或类似者的任何合适话音识别方法分析，以识别语音命令。在一个实施例中，命令检测单元510可将输入声音流分为例如音素的多个基础声音单元，且随后访问存储于存储单元270中的语音命令的话音或声学模型以识别语音命令。如果语音命令经识别，那么命令检测单元510将所识别的语音命令发射至安全级别确定单元520。在一个实施例中，所提取的声音特征可发射至说话者验证单元530以用于验证语音命令。
[0057]安全级别确定单元520接收语音命令且基于所识别的语音命令识别待访问的应用程序。在一个实施例中，多个命令、与语音命令相关联的应用程序标识符和应用程序的安全级别存储于存储单元270的应用程序安全数据库310中。基于语音命令，安全级别确定单元520利用应用程序安全数据库310识别待访问的应用程序。安全级别确定单元520还可利用应用程序安全数据库310确定与待访问的应用程序相关联的安全级别。用于访问应用程序的应用标识符及其安全级别随后发射至说话者验证单元530。
[0058]说话者验证单元530经配置以接收输入声音流和具有其安全级别的应用程序识别符，且验证语音命令是否来自经授权访问应用程序的用户。说话者验证单元530可基于说话者模型330和从输入声音流提取的声音特征确定输入声音流中的语音命令的置信度值。在此情况下，说话者验证单元530可从输入声音流提取声音特征或使用从命令检测单元510接收的所提取的声音特征。在一个实施例中，声音特征中的每一者的置信度值可基于说话者模型330计算，且声音特征的置信度值的平均值可用作语音命令的置信度值。
[0059]说话者验证单元530还经配置以从存储单元270中的说话者验证数据库320获得应用程序识别符的安全级别的阈值。说话者验证单元530随后比较阈值与语音命令的置信度值以确定置信度值是否超过阈值。如果置信度值并未超过阈值，那么语音命令经验证并非来自被授权用户。在此情况下，说话者验证单元530可从说话者接收额外输入以进一步认证用于访问应用程序的语音命令。如果说话者未经验证，那么应用程序未经访问。
[0060]另一方面，如果语音命令的置信度值超过阈值，那么语音命令经验证来自被授权用户。说话者验证单元530随后响应于语音命令产生激活信号以访问所识别的应用程序。另夕卜，说话者验证单元530将所访问的应用程序的安全级别、语音命令的置信度值和声音特征作为用于语音命令的新声音样本发射至数据库更新单元260。
[0061]图6展示根据本发明的一个实施例的用于基于电子装置200中的语音命令控制对应用程序的访问的方法600的流程图。电子装置200具备多个应用程序。应用程序中的每一者与安全级别相关联，所述安全级别具有最小置信度值作为访问应用程序的阈值。
[0062]在610处，从说话者接收到用于访问多个应用程序当中的目标应用程序的包含语音命令的输入声音流。在620处，一旦语音命令经识别为用以访问目标应用程序的命令，则基于被授权用户的说话者模型330验证语音命令是否指示被授权用户。如果语音命令经验证，那么用于访问目标应用程序的激活信号产生，且目标应用程序被访问。另外，在630处，如果语音命令经验证，那么说话者模型330通过作为新声音样本的语音命令更新。在640处，基于经更新的说话者模型，安全级别的阈值中的至少一者经调整。因此，电子装置200可使用经更新的说话者模型和经调整阈值来验证用于访问应用程序的后续语音命令。
[0063]图7为根据本发明的一个实施例的经配置以通过验证来自说话者的语音命令访问应用程序的说话者验证单元530的框图。说话者验证单元530包含语音验证单元710和辅助验证单元740。语音验证单元710进一步包含置信度确定单元720和应用程序访问控制器730。
[0064]语音验证单元710从安全级别确定单元520接收指示待访问的应用程序和应用程序的安全级别的应用标识符。另外，语音验证单元710从话音检测器252接收输入声音流且可从输入声音流提取声音特征。替代地，语音验证单元710可从命令检测单元510接收所提取的声音特征。置信度确定单元720随后基于所提取的声音特征和来自存储单元270的说话者模型330确定语音命令的置信度值。语音命令的置信度值随后发射至应用程序访问控制器730。
[0065]置信度确定单元720确定语音命令的置信度值。在一个实施例中，置信度确定单元720可基于说话者模型330计算声音特征中的每一者的置信度值和所述声音特征的置信度值的平均值。在此情况下，平均值置信度值可用作语音命令的置信度值。举例来说，当说话者模型330为包含均值和方差的GMM模型时，置信度确定单元720计算声音特征属于GMM模型的可能性作为置信度值。语音命令的声音特征的置信度值可随后被平均计算以产生声音特征的平均置信度值。在其他实施例中，置信度确定单元720可使用用于确定语音命令的置信度值的任何其他合适的算法，例如隐式马尔可夫模型、模式匹配算法、神经网络、向量量化和决策树、逆说话者技术(例如通用背景模型)等。
[0066]利用说话者验证数据库320，应用程序访问控制器730获取待访问的应用程序的安全级别的阈值。随后比较安全级别的阈值与语音命令的置信度值。如果置信度值超过安全级别的阈值，那么语音命令经验证来自被授权用户。在此情况下，应用程序访问控制器730产生用于访问应用程序的激活信号。另外，置信度值、应用程序的安全级别和作为新声音样本的声音特征发射至数据库更新单元260以更新说话者模型330且调整安全级别的阈值中的至少一者。
[0067]另一方面，如果输入声音的置信度值并未超过安全级别的阈值，那么语音验证单元710通知辅助验证单元740从说话者接收额外输入以验证语音命令来自被授权用户。辅助验证单元740可随后请求说话者经由I/O单元220提供一或多个输入，例如额外话音样本、密码、生物识别扫描(包含虹膜扫描、指纹扫描、面部扫描)等。
[0068]一旦从说话者接收到输入，辅助验证单元740经配置以确定额外输入是否来自被授权用户。举例来说，如果辅助验证单元740请求用于验证的密码，那么说话者可经由I/O单元220中的小键盘输入密码。当输入密码与存储于存储单元270中的被授权用户的密码相同时，辅助验证单元740通知应用程序访问控制器730语音命令的说话者经验证为被授权用户。在另一实例中，当接收到额外话音样本时，其可发射至语音验证单元710以验证额外话音样本来自被授权用户。
[0069]基于额外说话者验证，辅助验证单元740可验证起初未经验证的语音命令来自经授权访问应用程序的用户。如果语音命令的说话者基于额外说话者验证而验证，那么辅助验证单元740通知语音验证单元710语音命令的说话者经验证。作为响应，应用程序访问控制器730产生用于访问应用程序的激活信号。另外，应用程序访问控制器730将置信度值、应用程序的安全级别和作为新声音样本的语音命令的声音特征发射至数据库更新单元260。
[0070]图8说明根据本发明的一个实施例的经配置以更新说话者模型330且基于经验证语音命令调整安全级别316的阈值322的数据库更新单元260的框图。当说话者模型330已经更新且安全级别316的阈值322已响应于经验证语音命令而经调整时，它们可用于验证用于访问应用程序的后续语音命令。数据库更新单元260包含说话者模型更新单元810和阈值调整单元820。
[0071]说话者模型更新单元810经配置以接收用于经验证语音命令的新声音样本和针对新声音样本确定的置信度值。说话者模型更新单元810随后通过添加新声音样本更新说话者验证数据库320的声音样本324。在一个实施例中，声音样本324基于其置信度值而经映射至相关联的安全级别316。举例来说，如果与新声音样本相关联的置信度值为9.1且安全级别“I”的阈值为9.0，那么新声音样本经映射至安全级别“I”。
[0072]如所说明，说话者模型更新单元810通过基于均值332和方差334以及新声音样本的置信度值确定新均值和新方差来更新说话者模型330。替代地，说话者模型更新单元810可使用经更新的声音样本324确定说话者模型330的新均值和新方差。在确定说话者模型330的新均值和方差中，新声音样本可根据其置信度值加权。举例来说，如果新声音样本的置信度值较低，那么新声音样本可在计算说话者模型330的新均值和方差中被给予低权数。另一方面，如果新声音样本的置信度值较高，那么新声音样本可在计算说话者模型330的新均值和方差中被给予高权数。
[0073]在一些实施例中，说话者模型330的均值332和方差334可通过使用最大后验概率(MAP)自适应技术更新。在此情况下，均值332和/或方差334通过执行先前均值和/或方差与使用新声音样本计算出的新均值和/或方差的线性组合而更新。先前均值和/或方差与新均值和/或方差中的每一者基于新声音样本的置信度值而进行不同地加权。举例来说，如果新声音样本的置信度值较高，则当执行线性组合时可使用新均值的较大系数值。使用新声音样本，说话者模型330的均值3

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6