用于提高的声音搜索体验的方法与流程

文档序号：13146613阅读：337来源：国知局

相关申请的交叉引用本申请要求在2014年1月8日提交并具有题目“AMethodologyforEnhancedVoiceSearchExperience”的待批准的第14/149,985号美国申请的优先权。技术领域本发明涉及到减少智能个人助理系统中的响应时间延迟。

背景技术：
自动语音识别(ASR)系统确定语音输入说什么。通常，输入语音被处理为一系列数字语音特征帧。每个语音特征帧可被视为表示语音的短时间窗口期间存在的语音信号的各种特性的多维向量。例如，每个语音帧的多维向量可来源于语音信号的短时傅立叶变换的倒谱特征(MFCC)-给定频段的短时功率或分量-以及对应的第一和第二阶导数(“δ”和“δ-δ”)。在连续识别系统中，可变数量的语音帧被组织为表示一段语音接着是随后停顿的“说话”，其在现实生活中不精确地对应于口头句子或词语。ASR系统比较输入的说话以找出最佳地匹配向量序列特性的统计声学模型，并确定与声学模型有关的对应代表文字。更正式地，给定一些输入观察A，说词串W的概率被表示为P(W|A)，其中ASR系统尝试确定最可能的词串：W^=argmaxWP(W|A)]]>给定统计声学模型的系统，该公式可被表示为：W^=argmaxWP(W)P(A|W)]]>其中P(A|W)对应于声学模型，且P(W)反映如由统计语言模型提供的词序列的先验概率。声学模型通常是诸如隐马尔科夫模型(HMM)的、使用例如概率分布函数(高斯)或神经网络的混合来对语音声音建模的概率状态序列模型。声学模型通常代表具体环境中的音素，其被称之为PEL(语言要素)，例如，具有已知左和/或右环境的三音素或音素。状态序列模型可被按比例放大以表示如声学建模的音素的连接序列的字和如连接的词序列的词语或句子。当模型被一起组织为字、词语和句子时，额外的与语言有关的信息也通常被合并为以统计语言模型形式的模型。与最佳匹配模型结构有关的字或词语被称为识别候选或假设。系统可产生单个最佳识别候选-识别结果-或以诸如N-最佳清单、识别格或混淆网络的各种形式的多个识别假设。关于连续语音识别的其他细节被提供在题目为“ContinuousSpeechRecognition”的美国专利申请第5,794,189号和题目为“SpeechRecognitionLanguageModels”的美国专利申请第6,167,377中，其内容通过引用并入本文。近年来，在移动设备上由语音识别技术提供的功能已经超过单纯的文字输入显著地扩展，并寻求包含使用ASR的智能个人助理(IPA)系统，所述系统将来自语音和/或文本的用户输入与环境和位置信息以及其他信息源结合以实际地为用户实施有用的服务。诸如苹果公司的Siri和IPA应用和Nuance公司的Nina产品的IPA应用已经变得在现代智能设备中广泛可用的。图1A-C示出来自用于会话对话框中的一个这种IPA应用NuanceNina的应用界面100的各种示例截屏，其中用户安排从用户的支票账户支付信用卡账单。图2示出与移动设备一起使用的典型的客户端-服务器IPA安排(例如，使用基于云的服务的基于云的计算安排)中的各种元件。移动设备200上的用户界面201从用户接收最初未知的语音输入信号208。本地/远程控制器204生成语音输入208的表示，且本地ASR处理器202使用本地识别数据源203来实施对语音输入信号的本地ASR处理，以确定对应于语音输入的本地ASR结果。本地/远程控制器204在无线通信网络205上向用于远程ASR/IPA处理的远程服务器206发送语音输入表示和/或本地识别结果。服务器ASR212使用服务器ASR数据源207来实施远程ASR处理并将识别结果传递给服务器IPA209，其还访问其他应用210和其他数据源211来基于用户输入208实施行动并通过远程服务器206将结果传回给移动设备200，用于在用户界面201上显示。尽管图2中示出的具体安排可能显示各种服务器侧的组件位于单个共同位置处，当然，这只是一个具体基于云的客户端服务器IPA安排，且应理解，本讨论和本文中描述并声称的发明并不限制于具体拓扑结构，且在其他具体拓扑结构中，例如，个体组件可以位于不同的位置处并在基于云的安排中相互通信(即，通过互联网)。客户端-服务器IPA安排的难题之一是各种系统组件中的内在的响应延迟。具体地，具有三个主要的系统延迟的源：(1)ASR延迟；(2)IPA延迟；以及(3)网络延迟。语音识别过程在能够产生以高度盖然性匹配输入语音的识别文本之前要求一些大量的语音(对应于若干个字)，从而提供一个延迟分量。当IPA过程处理用户输入并与其他应用和数据源交互的时候带来另一个延迟分量。此外，远程服务器安排还产生反映在通信网络上发生的数据传输延迟的额外的响应延迟。所有这些响应延迟的结合效应可被最小化到一定程度，但是由于IPA过程、语音识别过程中的算法限制和计算机网络速度的物理限制而不能彻底消除它们。仍然非常期望的是，最小化对于用户的响应延迟的效应。在实时IPA应用中，与响应延迟有关的用户效应是双重的。第一，用户不清楚地了解IPA系统的当前状态。如果已经说了话但是系统响应尚未出现在用户界面上，系统向用户呈现未定义的状态。因为所有的用户知道，系统可能未能记录语音，基于服务器的语音识别系统中的网络连接可能被中断，语音识别引擎可能未能产生输出文本，IPA处理可能挂断，或者可能有延迟且结果可能最终被产生。此外，用户不能继续工作流程任务，直到来自待处理的输入话语的结果已被彻底处理且用户界面已被更新。美国专利出版物20120216134描述了用于通过为用户提供作为识别处理进程的部分识别结果来处理语音识别响应延迟的一个现有方式。部分结果是在识别过程中在给定时刻识别者认为最可能的字。照此，部分结果趋向于变化，且延迟减少只是在给用户低延迟的感觉上明显，而不减少实际的语音识别延迟。概述本发明的实施方式针对用于减少自动语音识别应用中的响应时间延迟的安排。当接收用户请求时，为用户请求的接收的部分自动准备抢先响应。为用户请求的接收的部分生成部分分类候选字，然后应用预测组件以生成包含部分分类候选字和额外的分类候选字的扩展的分类候选字。对扩展的分类候选字实施初步搜索以准备抢先响应。当输入请求继续时，更新抢先响应，并当输入请求结束时，准备的抢先响应被用于响应用户请求。在具体实施方式中，预测组件可基于搜索语言模型。口头用户请求的自动语音识别可被用于生成一个或多个部分分类候选字。用户请求是由准备抢先响应的本地服务器从远程设备接收的。抢先响应可反映地理和/或时间限制。附图简述图1A-C示出来自使用客户端-服务器ASR的移动设备应用的示例截屏。图2示出用于移动设备的典型客户端-服务器IPA安排中的各种元件。图3示出根据本发明的实施方式的最小化延迟的IPA安排。图4A-C示出根据本发明的实施方式的在输入请求期间准备抢先响应的示例。详细描述本发明的实施方式通过当接收用户请求时准备抢先部分响应来最小化IPA系统中的实际响应延迟。当用户请求继续时，更新抢先响应；当请求结束时，抢先响应提供用于对用户请求的系统响应的基础。本发明的实施方式适用于以下环境，这些环境中，用户寻找对于她/他的诸如找饭馆，寻找病历档案，正确地选择路线等的请求的响应。在以下解释中，可能有用的是，设想在准备对进行中的用户请求的这种抢先响应的最终目标和对用户输入分类的初步目标之间存在差别。“分类”具有与输入的一些表面语言相似性。例如，给定用户请求：“找到”其分类可能是类似于以下项：“找到最好的餐馆”，然而“响应”不一定以表面形式与用户请求有关；例如，给定用户请求：“找到最好的餐馆”，系统响应可以是：“UnionOysterHouse”。图3示出最小化延迟的IPA安排的功能性流程，且图4A-C示出根据本发明的实施方式的在输入请求期间准备抢先响应的示例。假设用于移动设备的典型客户端-服务器IPA安排(例如在图2中所示的安排)，图4上的时刻1表示刚在用户说“找到”之后的口头用户请求301的初始接收的部分302。当接收用户请求的剩余部分时，系统自动开始用于接收的部分302的抢先响应。如在图3中所示的，为用户请求301的接收的部分302中的字(其包含来自接收的部分302的自动语音识别的一个或多个部分分类候选字304)生成部分分类结果303。看图4的上部，用于在时刻1处所接收部分302的部分分类候选字304被示出为包含“找到(find)”、“好(fine)”等。预测组件(例如，基于搜索语言模型)被用于生成扩展的分类结果305，扩展的分类结果305包含一个或多个扩展的分类候选字306，扩展的分类候选字306包含部分分类候选字304和通过预测组件的方式生成的额外的分类候选字。对于图4A中所示的示例，扩展的候选字306可以如下：·找到o找到最好的餐馆o找到最近的电影院o…·好o好的烹饪o……因为预测组件生成扩展的分类结果305，它们相对于用户请求301的状态在时间上延迟，或它们实际上在用户请求301的瞬时状态之前在时间提前。系统然后实施扩展分类候选字306的初步搜索，导致包含一个或多个抢先响应308的抢先响应准备307。对于图4A上的时刻1，这种抢先响应308的示例可包含：[UnionOysterHouse、BistroDuMidi、MammaMaria,…][AMCLoewsBostonCommon、KendallSquareCinema、…][http://www.finecooking.com,FineCooking:Magazines,…]…抢先响应308可反映地理限制(例如，用户位置附近或用户请求301中提及的位置附近)和/或时间限制(例如，在用户请求301的时刻或在用户请求301中提及的时刻处)。随着用户请求继续，通过迭代重复该过程来更新抢先响应308。因此，例如，参考图4B，在时刻2处，用户请求301结束，词语“找到最好的意大利餐馆”，但是由于系统响应延迟，识别过程尚未结束并继续，从而使得在时刻2处，部分分类候选字304可以是：·找到最好的意大利的·找到打赌意大利·…预测组件在时刻2处更新扩展分类候选字306以包含：·找到最好的意大利的o找到最好的意大利餐馆o找到最好的意大利葡萄酒o…·找到打赌意大利o找到意大利对西班牙的下注概率o…且初始搜索在时刻2处更新抢先响应308(可修改清单)：当输入请求301结束时，准备的抢先响应308被用于响应用户请求301。由于系统响应延迟，这可能是在用户请求301的实际结束之后的一段时间，但是要比传统现有技术安排中的快得多(低得多的延迟)。因此例如在图4C中，在时刻3处(在结束用户请求301“找到最好的意大利餐馆”之后的某一点)，最终识别结果将是扩展的分类结果305的更新版：找到最好的意大利餐馆，且更新的抢先响应308的最终搜索结果可被快速提供为系统响应309：[MammaMaria、TerramiaRestorante、…]。用户比传统的现有技术安排中的快得多的接收系统响应309，因为系统基于由更新抢先响应308表示的选项选择系统响应309。在传统的现有技术安排中，系统响应由对延迟的两个贡献者拖慢：用户输入查询301的识别和根据所识别的必要行动的性能。本发明的实施方式可以全部或部分地以常规计算机编程语言实现。例如，优选实施方式可以以程序化程序语言(例如，“C”)或面向对象编程语言(例如，“C++”、“C#”)实现。本发明的替代实施方式可以作为预编程硬件元件、其他相关的组件或者作为硬件和软件组件的组合实现。实施方式可以全部或部分地作为用于与计算机系统一起使用的计算机程序产品实现。此类实现方式可以包括一系列的计算机指令，所述一系列的计算机指令固定在诸如计算机可读介质(例如，磁盘、CD-ROM、ROM或固定盘)等有形介质上或经由诸如经介质连接到网络的通信适配器等的调制解调器或其他接口设备可传输到计算机系统。所述介质可以是有形介质(例如，光通信线路或模拟通信线路)或用无线技术(例如，微波、红外线或其他传输技术)实现的介质。所述一系列的计算机指令体现为本文之前结合所述系统所描述的全部或部分功能。本领域的技术人员应该理解，此类计算机指令可以采用与许多计算机架构或操作系统一起使用的编程语言编写。此外，此类指令可以存储在诸如半导体存储器设备、磁存储器设备、光学存储器设备或其他存储器设备的任何存储器设备中，并且可以使用诸如光传输技术、红外线传输技术、微波传输技术或其他传输技术的任何通信技术传输。期望此类计算机程序产品可以被分布为预载有计算机系统(例如，在系统ROM或固定盘上)的或经网络(例如，互联网或万维网)从服务器或电子公告板发布的具有随附打印或电子文档(例如，压缩打包软件)的可移动介质。当然，本发明的一些实施方式可以作为软件(例如，计算机程序产品)和硬件的组合实现。本发明的另一些实施方式完全作为硬件或完全作为软件(例如，计算机程序产品)实现。虽然本发明的各种示例性实施方式已公开，但是对本领域的技术人员应该明显的是，可以做出将实现本发明的一些优点而不脱离本发明的真实范围的各种变化和修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿尔弗雷德·K·王;洛尔·多伦;
技术所有人：纽昂斯通讯公司;
我是此专利的发明人

上一篇：蓄能器的制作方法
上一篇：基于箱粒子PHD滤波的多目标视频跟踪方法与流程