用于识别语音的系统和方法

文档序号:9529295阅读:883来源:国知局
用于识别语音的系统和方法
【技术领域】
[0001] 本发明总体上设及自动语音识别,并且更具体地,设及在给予用户低认知负荷的 同时提供语音识别。
【背景技术】
[0002] 通常已知的是,由驾驶员执行的任何非驾驶相关任务都可能使注意力不集中于驾 驶。因此,近期关注通过立法手段和通过驾驶员教育两者来减少驾驶时移动电话的使用。对 于驾驶员在车辆中使用信息、通信W及娱乐功能来说,还存在日益增长的需求。
[0003]研究表明,与常规视觉或手动接口相比,基于语音的接口可W不太分散注意力。用 于有限功能的基于命令的语音接口在车辆中正变得普遍。然而,因为识别大词汇量连续语 音易于出错,所W针对像SMS运种功能使用语音的文本输入是困难的。由此,需要纠正或W 其它方式改变已经利用语音输入的文本,同时减少正在驾驶的用户方面的分屯、。
[0004] 用于纠正不受限制语音的一些方法利用编辑应用,即,具有计算机显示器和常规 键盘的字处理机。例如,U.S. 5, 960, 447中描述的方法通过W与关联语音来标记所识别文 本中的词(word)并且允许字处理软件的用户收听用于编辑文本转录的语音,来纠正错误 识别的语音。
[0005]U.S. 5, 970, 460中描述的另一种方法通过在编辑应用程序中关联"语音事件数据 库"和文本转录中的位置并且加宽上下文,来改进编辑操作。运种方法需要主要关注纠正任 务,包括常规键盘、鼠标器W及菜单选择,并且具体来说,利用为关注视觉显示所需的视觉 资源。然而,键盘、触摸屏W及大视觉显示器的使用未最小化从驾驶分屯、。
[0006] 其它方法通过利用随后语音编辑由第一语音所产生的转录,来最小化交互作用的 复杂性。例如,U.S. 6, 064, 959中描述的方法利用随后说话来纠正语音识别的结果。类似 的是,U.S. 7, 444, 286中描述的方法选择语音识别中的要重新识别的部分。然而,该语音的 随后解释可W产生错误,从而导致增加纠错工作,并且还导致驾驶员分屯、。
[0007]U.S. 2006/293889中描述的另一方法使用纠正由用户给出的单个词,来调整针对 与该单个词相邻的词的另选建议。然而,如果用户的语音中的多个词被不正确地解释,则该 用户必须多次纠正该语音解释。而且,与更一般类型的交互作用相对比,运种方法的纠正限 于替换所选择词,其可W导致用户的进一步分屯、。因此,需要将引导语音的解释所需的交互 作用和用户注意力减到最小。

【发明内容】

[0008]本发明的一些实施方式基于W下认知,即,在对包括一系列词的大词汇量连续语 音的语音识别中出现的错误通常与其它错误相关联。因此,对识别结果的纠正可W用于预 测其它错误可能出现在哪里并且用于纠正附加错误,而不是只纠正初始错误并等待附加的 用户输入。运些其它错误可在相邻的词位置出现,或者可能在无需对相邻的词进行任何改 变的情况下在较远的位置出现,因此纠正应当用于更新识别结果。
[0009] 例如,在导航关注点任务中的识别结果可能包括两个另选词序列"Museumof FineArts"和"EmporiumofFineCarts"。在运种情况下,如果原始解释是"Museumof FineArts",并且用户将"Arts"改变成"Carts",则很可能的是,词"Museum"应当改变成 "Emporium",即使其间存在解释未发生改变的几个词。
[0010] 另外,本发明的一些实施方式基于W下总体认知,即,对大词汇量连续语音的语音 识别的解释的纠正不需要被限制成将一个可能的词改变成另一个,而是还可W包括更一般 种类的纠正约束。于是可将该纠正约束用于重新解释用户说出的言语。
[0011] 与仅使用和单个词相对应的声学信号的解释相比,运种约束可W改进正确解释一 组词的概率。
[001引 例如,假设识别结果包括可选择对象"Wreckanicebeach"和"Reco即ize speech",可W使用主题是"污染"的约束来更新第一识别的概率。
[0013] 因此,一些实施方式基于特定的认知,即,可W通过对所提供的(例如由用户说出 语音)的词序列使用约束来改进整个语音的重新解释。例如,词序列约束可W包括语音中 的词的数量和次序、语音中的在特定时间说出的特定词、语音中缺少该特定词、该语音中的 两个特定词的连接或分离。
[0014] 例如,代替请求用户纠正语音的解释中的特定词或多个特定词,可W将来自用户 的输入用于确定词序列约束,所述词序列约束可被用于更新该语音的整个解释。该实现允 许减少用户纠正该语音的工作,因为词序列约束可W导致纠正语音的整个解释,而纠正词 仅可W导致纠正词。
[0015] 由此,本发明的一些实施方式使用由用户提供的词序列约束,W更新该用户的语 音的解释。例如,整个语音的最佳假设可W在词序列约束的情况下确定。实际上,运种方法 可W将确定语音序列的正确解释所需的许多交互减到最少。
[0016] 各种实施方式在接收语音之前、同时或之后确定词序列约束。例如,在一些实施方 式中,词序列约束包括该语音的元数据,诸如语音中的词的数量或语音中存不存在特定词。 运种词序列约束可W按任何时间收集。
[0017] 在另一实施方式中,该词序列约束更特定于语音的上下文。例如,词序列约束可W 包括有关语音的初始解释的信息,并且运种信息被用于重新评估整个语音的解释。该实施 方式的一个变型例通过利用用户接口W允许纠正语音识别假设内的特定词来最小化用户 的认知负荷。纠正被反馈到系统中,作为被用于提高语音的假设正确的概率的约束,由此, 减少所需纠正动作的数量。
[0018] 因此,一个实施方式公开了一种用于识别包括词序列的语音的方法。该方法包括: 利用声学模型和语言模型来生成所述语音的一组解释;针对每个解释,确定在表示所述词 序列时代表解释的正确性的分数,W生成一组分数;确定用于识别经受词序列约束的所述 语音的约束;W及基于每个解释与所述约束的一致性来更新所述一组分数。所述方法的步 骤通过处理器来执行。
[0019] 另一实施方式公开了一种用于识别用户的语音的方法,该方法包括W下步骤:识 别所述语音,W生成一组解释,该组解释与表示所述语音时代表各个解释的正确性的对应 的一组分数相关联;W及根据至少一个约束迭代地更新该组分数,使得针对每一个迭代,对 于每一个解释,如果该解释与所述约束一致,则增加该解释的分数,并且如果该解释与所述 约束不一致,则减少该解释的分数。所述方法的步骤通过处理器来执行。
[0020] 又一实施方式公开了一种用于识别语音的系统。该系统包括:处理器,该处理器实 现语音识别模块和纠错模块,其中,所述语音识别模块利用声学模型和语言模型来生成所 述语音输入的一组解释,并且针对每一个解释,确定在表示所述语音时代表解释的正确性 的分数;并且其中,所述纠错模块确定用于识别所述语音的约束,并且基于每一个解释与所 述约束的一致性来更新所述解释的分数。
【附图说明】
[0021][图1A]
[0022] 图1A是根据本发明一个实施方式的用于语音识别的系统的组件的示意图;
[0023][图1B]
[0024] 图1B是包括根据本发明一些实施方式的系统的车辆的仪表盘的局部正视图;
[00巧][图 2A]
[0026] 图2A是例示根据本发明一个实施方式的语音识别模块的功能的框图;
[0027][图2B]
[0028] 图2B是图2A的方法的步骤的示例;
[0029][图3A]
[0030] 图3A是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤 的流程图;
[003。[图3B]
[0032] 图3B是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤 的流程图;
[0033][图3C]
[0034] 图3C是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤 的流程图;
[003引[图3D]
[0036] 图3D是按照根据本发明不同实施方式的在语音识别中纠错的方法所执行的步骤 的流程图;
[0037][图 4]
[0038] 图4是根据本发明一个实施方式的具有强调的词的词序列的示意图;
[0039][图引
[0040] 图5是根据本发明一
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1