检测语音输入短语混淆风险的制作方法

文档序号：9925377阅读：567来源：国知局

检测语音输入短语混淆风险的制作方法
【专利说明】检测语音输入短语混淆风险
[0001 ] 背景
[0002]计算机语音识别可被用来以通过诸如话筒之类的音频换能器检测到的人类语言的形式接收计算设备输入。许多不同类型的计算设备可利用语音输入，包括但不限于移动设备、膝上计算机、台式计算机、游戏设备、以及甚至集成到汽车和其它机器的计算机。语音输入可被用来控制执行在计算设备上的程序的许多不同方面，包括但不限于操作系统功能和应用功能。
[0003]概述
[0004]与在计算机程序开发期间标识语音学上类似的语音语法术语相关的各实施例被揭示。例如，一个所揭示的实施例提供一种方法，包括提供输入的语音语法开发工具，该工具被配置用于接收多个提议的语音语法术语的每一个的文本表示的输入，将每个文本表示转换为语音语法术语的语音学的表示，使用经加权的相似性矩阵将语音语法术语的语音学的表示与其它语音语法术语的语音学的表示进行比较，并基于两个提议的语音语法术语的语音学的表示的比较来提供关于两个提议的译音语法术语之间的混淆的风险的输出。该方法还包括接收关于不正确语音语法术语标识的数据，并基于该数据修改经加权的相似性矩阵中的一个或多个权重。
[0005]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。而且，所要求保护的主题不限于解决该公开的任一部分中所注的任何或全部缺点的实现方式。
[0006]附图简述
[0007]图1示出了计算机程序开发和使用环境的实施例的框图。
[0008]图2A-2C示出了用于在计算机程序开发期间检测语音语法术语之间的短语混淆风险的方法的实施例的流程图。
[0009]图3示出了用于标识语音语法术语之间的短语混淆风险的经加权相似性矩阵的部分的实施例。
[0010]图4示出了计算系统的一实施例。
[0011]详细描述
[0012]在计算机程序开发期间，语音学上类似潜在地可被语音识别系统混淆的语音语法术语可被选择。如果用户作出的语音输入被语音识别系统错误标识，那么计算设备可能执行不同于用户打算的动作的动作。这可能导致不令人满意的用户体验。
[0013]据此，计算机程序开发者可能非常小心避免在程序的同一状态中使用可造成这样的混淆的风险的两个或更多语音语法术语。如此，开发者可执行包括使用现实音频数据和现实提议语音语法来迭代地执行大量语音识别模拟的测试。该测试可能消耗大量时间和资源。此外，在某些实例中，开发者可能没有意识到混淆的风险直到修复问题非常昂贵，或甚至太晚了。
[0014]因此，在此揭示了预测语音语法术语可能被语音识别系统混淆的风险的各实施例。简言之，所揭示的各实施例将提议的语音语法术语的文本表示转换成语音学表示，并接着将语音学表示进行比较以确定术语间的相似性。如果确定了存在混淆风险，可提供输出来警告开发者这个风险。在某些示例中，多个不同级别的风险可被识别，并且针对不同级别的风险可提供对应的不同警告。以此方式，可提供提议的语音语法的使用现实音频数据的迭代测试。进一步，所揭示的各实施例还可随时间基于来自终端用户和/或开发者的实际使用数据来更新对话和比较过程中所使用的数据，这将有助于随时间改善潜在的混淆语音语法术语的标识。
[0015]在详细地讨论这些实施例之前，先参考图1描述示例使用环境100。环境100包括多个开发者计算系统，示意性地示为开发者计算系统I 102和开发者计算系统η 104。开发者计算系统可表示由计算机程序开发者在开发利用语音输入的计算机程序时操作的计算系统。示例程序由开发中的程序I 106和开发中的程序η 108示意性地表示。开发中的程序可包括提议的语音语法110。提议的语音语法110可指定例如在对应程序的每个状态中利用的语音命令。
[0016]计算机程序可通过软件开发工具(例如软件开发工具包(SDK))(例如，由制造计算机程序要在其上执行的设备和/或操作系统的公司所提供的)来开发。图1示出了程序开发服务120，诸如语音语法开发工具122之类的计算机程序开发工具可在该程序开发服务120处被开发者利用计算系统102、104来访问。语音语法开发工具可被下载到开发者计算系统供本地地在开发者计算系统上执行，如在122a处所示，和/或可从开发者计算系统作为远程软件服务来被远程执行。
[0017]如以下更详细讨论的，语音语法开发工具122被配置来帮助计算机程序开发者通过将文本表示转换成语音学表示，并随后将语音学表示进行比较来确定一对提议的语音语法术语之间的相似性，来从开发者的文本表示输入中标识处潜在混淆的语音语法术语。此夕卜，在某些实施例中，游戏开发工具122可被配置来建议造成较小语音学混淆的风险的同义词。为了帮助确定提议的语音语法术语之间的相似性，语音语法开发工具122可利用语音学相似性矩阵124。如以下更详细地讨论的，语音学相似性矩阵可包括关于各音素之间语音学特征的差异的信息，并因此可被用于通过多少语音学特征音素差异来确定。作为非限制性示例，“pin”和“bin”之间的语音学差异可能小于“bin”和“tin”之间的语音学差异，因为音素/p/和/b/仅通过语音学特征“浊音的”来区分，而/b/和/t/通过截然不同的特征“浊音的”和“舌尖的”来区分。
[0018]在某些实施例中，语音学相似性矩阵124可包括各自的可调节权重126，其用于在语音学相似性矩阵124中加权每个语音学特征。因为对于语音识别来说不是所有的区别语音学特征都是同等重要的，各自的权重可被设置以强调语音学特征并且不强调其它。此外，权重126可基于所观察到的从现实生活使用数据中确定的语音识别错误来调整。
[0019]现实生活使用数据可从终端用户计算系统(由终端用户计算系统I130和终端用户计算系统η 132表示)收集。每个终端用户计算系统130、132可包括配置用于检测通过话筒136或其它合适的声学输入设备接收的经识别的语音片段的语音识别系统134。所识别的语音片段可由语音识别系统134基于终端用户计算设备上的程序的语音语法来提供给那些程序(由程序I 138和η 140表示)。随着终端用户与终端用户计算系统130、132通过语音输入来交互，关于正确标识的语音输入和不正确标识的语音输入两者的数据可通过遥测模块142来收集。遥测模块142可将这样的数据提供给程序开发服务120，如在144所指示的，以用于潜在地修改语音相似性矩阵124。例如，如果发现两个语音语法术语比从语音相似性矩阵124期望的更频繁地混淆，该语音语法术语的一个或多个语音学特征的权重可被调整以反映混淆的较高风险。类似地，如果发现语音语法术语具有相比于语音语法开发工具122生成的语音学表示而言非预期的的实际发音，那么实际发音语音学表示可被存储供在生成那个语音语法术语的未来的语音学表示中使用。将理解，权重可基于现实生活使用数据来手动调节，和/或算法地调节。遥测数据144可包括任何合适的信息，包括但不限于音频样本146、关于基于该音频样本标识的语音语法术语的信息、以及关于音频样本中的短语被正确标识还是不正确标识的信息，包括关于标识的置信度分数的信息(例如，指示语音识别器在结果中有多么确信的分数)。
[0020]图2A-2C示出了用于检测语音语法术语之间的短语混淆风险的方法200的实施例的流程图。方法200示出了发生在三个不同示例位置的过程，即开发者计算系统(由左栏表示)、程序开发者服务(由中间栏表示)、和终端用户计算系统(由右栏表示)。将理解，图2A—2B中所示的特定位置和处理的次序是出于示例的目的而描绘的，且不旨在以任何方式进行限制，因为可以以任何合适的次序和在任何合适的位置执行所描绘的过程。
[0021]方法200包括，在202，提供语音语法开发工具供开发者计算系统使用。该语音语法开发工具可由开发者计算系统下载，可作为开发者计算系统通过网络203可访问的远程服务，或可以以任何其它合适的方式操作。方法200还包括:在204处，接收开发中的程序的提议的语音语法术语的文本表示的输入。
[0022]如上面提及的，如果提议的语音语法包括可混淆的短语，则存在语音识别引擎可能不正确地解释检测到的语音输入的风险。如此，为了帮助检测潜在可混淆的语音语法术语，方法200包括，在206，将每个文本表示转换为语音学表示以允许对潜在可混淆语音语法术语的标识。任何合适的方法可被用于将文本表示转换成语音学表示(其可以是或可以不是基于文本的)。各示例包括但不限于语音识别引擎的使用、字母到声音技术、发音词典、

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·恰尔弗;P·克尔纳姆;D·穆尼;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

上一篇：发送设备、发送方法、接收设备和接收方法
上一篇：具有复杂度优化的房间效果的声音空间化的制作方法