检测语音输入短语混淆风险的制作方法_2

文档序号：9925377阅读：来源：国知局

手动创建的发音、和/或音素识别。
[0023]在某些实施例中，语音语法术语仅使用开发者提供的文本表示来被转换成语音学表示。在其它实施例中，为进一步的精确性，附加的信息可被考虑。例如，如在208所描绘的，对应于提议的语音语法术语的一个或多个音频样本可被存储器中检索，并由语音识别引擎使用“强制对准”模式来分析。强制对准模式将音频样本与从文本表示中确定的所提议的语音语法术语的语音学表示进行匹配，并输出该术语的语音学表示并带有指示每个音素在音频样本中的持续时间的时戳。这样的音频样本可在实际使用期间从终端用户接收和/或在软件开发期间从开发者接收，或以任何其它合适的方式获得。
[0024]对于口头语言中音节可在其中缩短或丢弃的单词，强制对准将输出具有那些音节的小的时戳值的音素。如此，音素的时戳可与阈值时间范围(可以是绝对的或相对的)进行比较，并且具有低于阈值的时戳的任何音素可从发音表示中被忽略，如在210所指示的。作为非限制性示例，在单词“vegetable”的日常发音中，该单词的第二个音节可被缩短或忽略。如此，如从强制对准中确定的这个音节的时戳可足够小以将这个音节从“vegetable”的语音学表示中忽略。以此方式，相比于如果术语的声学样本的强制对准没有被应用，所提议的语音语法术的语音学表示可接近地反映术语的实际讲话发音，并且因此可帮助更精确地标识潜在可混淆的语音命令。
[0025]在生成所提议的语音语法术语的语音学表示之后，方法200包括，在212，使用语音学相似性矩阵来比较各对提议的语音语法术语的语音学表示。如上面所描述的，语音学相似性矩阵可包括关于每个音素的语音学特征的信息(或大于音素的单元，例如音节矩阵)，并且可允许各音素之间的语音学距离被确定。
[0026]图3示出了示例语音学相似性矩阵300的一部分的示意性描述，该部分矩阵描绘十个英语音素的每一个的四个语音学特征。四个语音学特征是CNS(辅音)、CNT(持续)、V0I(浊音)、和ANT(前部的)。如在示例语音学相似性矩阵中可见，/p/和/b/通过四个语音学特征之一 (VOI)来区分，而/p/和/g/通过两个(V0I和ANT)来区分。因此，/p/和/g/相比/p/和/b/更不容易被混淆。
[0027]在某些实施例中，每个音素的每个语音学特征可被给予两个值(例如O和I)之一，表示不相似和相似。在其它实施例中，如图3所示，语音学相似性矩阵可被加权，使得每个语音学特征具有在值的范围内(例如O到100的值)的权重。在语音学相似性矩阵中权重的使用可允许矩阵例如基于在现实世界使用期间所检测到的短语混淆来被调整，并且还反映针对语音识别的各种语音学特征的相对重要性。权重还为语音学相似性矩阵的距离度量增加了粒度和细化。
[0028]返回到图2，在212比较所提议的语音语法术语可涉及各种过程。例如，语音语法术语的语音学表示可与另一语音语法术语的语音学表示对准用于比较，如在214所示。对准可被用来确保两个语音学表示以这样的方式被比较以产生两个术语之间最强的语音学相似性。任何合适的对准方法可被使用，包括但不限于Smi th-Waterman对准方法。在对准之后，可为该对语音学表示确定编辑距离，如在216所示。这可帮助确定在这两个语音学表示之间存在多少语音学差异，并且因此该表示在语音学上是多么不同。如上面描述的，语音学相似性矩阵可被用于确定这个编辑距离。
[0029]在确定一对所提议的语音语法术语的语音学表示之间的编辑距离之后，方法200可包括，在218，提供关于该对所提议的语音语法术语之间的混淆的风险的输出。该混淆风险可以按照任何合适的方式来确定。例如，混淆风险可通过将一对提议的语音语法术语的编辑距离(或其它相似性测量)与一个或多个阈值(每个阈值定义一选择的混淆风险)进行比较来确定。任何合适数量的阈值可被用于确定任何合适数量的不同混淆风险。例如，在某些实施例中，单个阈值可被用于区分混淆的两种风险(例如“风险”或“无风险”)。在其它实施例中，两个或更多个阈值可被用来在三个或更多个混淆的风险中进行区分，如在220所示。在一个非限制性示例中，输出可指示短语是否是同音字(例如bye和buy)、高度可混淆的(例如Bieber和beaver)、中等可混淆的(例如search和surge)、以及不会混淆的或以其他方式低风险的。阈值可手动选择并基于搜索来调节，和/或自动选择并基于音频数据来调节，和/或可由希望指定特定级别的混淆风险的开发者选择(例如，“仅向我示出高混淆风险”或“向我示出全部混淆风险”)。输出可以以任何合适的方式被提供，诸如通过显示在计算设备显示器上的可视指示符。
[0030]如果输出指示混淆风险存在，则开发者可选择为开发中的程序修改所提议的语音语法。如此，方法200包括，在222，接收经修改的所提议的语音语法术语，在224，将经修改的所提议的语音语法术语实现在程序中。
[0031]在某些实施例中，当混淆的风险被标识时，语音语法开发工具可推荐替代短语。所建议的替代短语可基于与位置、同义词、和/或任何其它合适的信息相关的数据来被选择。例如，如果提议的术语‘dismiss’由于其与某个其它短语可混淆，那么该工具可建议‘ cancel ’作为这个命令的替代。
[0032]在开发完成之后，程序可被分发到终端用户供使用。方法200因此包括，在226，经由终端用户计算系统利用所实现的语音语法来操作程序。当终端用户经由语音输入与程序交互时，程序有时可能不正确地标识语音输入。为提高针对正确和不正确的标识两者的反馈，通过终端用户计算系统执行的遥测模块可被用来收集这样的数据供分析，如果终端用户选择允许这样的遥测的执行。如此，方法200包括，在228，接收批准与所实现的语音语法的执行相关的遥测的使用的输入。此外，方法200包括，在230，收集语音识别系统执行数据，并将该数据发送到程序开发服务。该数据可包括关于正确的语音标识的数据232，以及关于不正确的语音标识的数据234。其中所述数据示出语音语法术语的不正确的标识的多个实例，相似性矩阵可被调节以帮助避免那个术语将来的错误标识。
[0033]经由遥测接收的数据可被用于条件语音学相似性矩阵，如在236指示的。任何合适的调节可被作出。例如，如在238指示的，与矩阵中语音学特征相关联的一个或多个权重可被调节。此外，如在240所指示的，如果术语的实际发音不同于期望的发音，则实际发音的语音学表示可被存储。对相似性矩阵这样的调节可手动作出，如在242所指示的，和/或自动地作出，如在244所指示的。
[0034]所揭示的各实施例可以以相比于涉及迭代地测试所提议的语音语法而言简单和高效的方式来帮助避免选择有风险混淆语音识别系统的语音语法术语。这样，所揭示的各实施例可帮助开发者将产品更快且更少花费地移动到市场。
[0035]在某些实施例中，本文所述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，这样的方法和过程可以实现为计算机应用程序或服务、应用程序编程接口(API)、库和/或其他计算机程序产品。
[0036]图4示意性地示出计算系统400的非限制性实施例，该计算系统可以进行上述方法和过程中的一个或多个。计算系统400以简化形式示出。计算系统400可采取以下形式:一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)和/或其他计算设备。
[0037]计算系统400包括逻辑子系统402和存储子系统404。计算系统400可任选地包括显不子系统406、输入子系统408、通信子系统410和/或在图4中未不出的其他组件。
[0038]逻辑子系统402包括被配置为执行指令的一个或多个物理设备。例如，逻辑子系统可以被配置为执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其它逻辑构造的一部分的指令。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。
[0039]逻辑子系统可包括被配置成执行机器可读软件指令的一个或多个处理器。附加地或可替代地，逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑子系统。逻辑子系统的处理器可以是单核的或多核的，其上执行的指令可以被配置用于串行、并行和/或分布式处理。逻辑子系统的个体组件可任选地分布在两个或更多个分开的设备之间，所述设备可以位于远程以及/或者被配置用于协同处理。逻辑子系统的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。
[0040]存储子系统404包括被配置成保持可由逻

完整全部详细技术资料下载

当前第2页1 2 3