非可听语音输入校正的制作方法_3

文档序号:8528154阅读:来源:国知局
后果是,在语音输入的处理及其转换中没有正确识别词。例如,在从语音输入接口接收输入的消息应用程序中,用户可以说出下面的短语:“Text Bob”继之以“What time is the game”。虽然实际语音输入包括词“time”,但是语音输入接口可能曲解了这个词,并且选择发声相似的词(并且因此类似于语音识别引擎)。例如,这个文本可能被翻译为“What dime is the game”。
[0034]传统地,面对这样的翻译,用户可以手动地返回并且校正词“dime”,例如,经由触摸输入接口来触摸它/点击它并且键入正确的词“time”等。或者,在一些语音输入接口中,语音识别引擎可以指定“dime”作为低置信度匹配项,以使得用户只需触摸词“dime”并且从预先确定的匹配项中选择,其中之一可能包括“time”。
[0035]在这种情况下,语音识别已经为词指定了低置信度,例如,在以上示例中的“dime”,实施例可以使用非可听输入以重新翻译歧义的一个或多个词。
[0036]作为例子,用户提供语音输入“time”(其以低置信度被评为“dime”的输入),语境(例如句子结构等)可能确实有助于重新翻译该词。然而,存在很多语境数据要么不可用要么没有用的情况。例如,在考虑实际语音输入“look at this guy”对比于曲解项“lookat the sky”中,语境数据(例如短语的周边词)可能对确定正确的短语没有用。
[0037]因此,实施例使用非可听输入,例如通过摄像机捕获的视觉线索,以确定用户的嘴巴/嘴唇动作是否比另一个词或短语更好地与一个词或短语相匹配。在实施例中,标准摄像机(例如可见光摄像机)可以用来捕获与语音输入相关的非可听数据(例如检测用户的嘴巴/嘴唇动作)用于可视化数据,该可视化数据有助于翻译包括在语音输入中的语音,例如辅音如“P”或“T”,其中,嘴唇清晰地接触或不接触。
[0038]虽然存在现有方法以通过嘴唇/嘴巴阅读来检测语音本身,但是这种方法尚未被有效地用于在重新翻译歧义语音输入中增强语音识别引擎。值得注意的是,虽然可见光摄像机已被描述为非可听传感器,但是可以使用其它传感器,例如包括红外摄像机、超声波接收器或者其它能够捕捉有用信息的传感器,以确定有助于消除语音输入的歧义的数据,该有用信息例如关于用户语音输入的表面特征(例如用户的嘴唇)和/或内部特征(例如嘴巴、咽喉、肌肉或者骨骼特征)。
[0039]因此,例如通过将非可听输入映射到与语音输入的声音/短语相关的已知的特征,实施例可以使用这种与用户的语音输入有关(例如在时间上相匹配)的非可听输入来消除语音输入(或其部分)的歧义。这可以一般地进行和/或为特定的用户或用户群体进行训练。例如,同一身体部位的动作可以与过去的声音相匹配,以协助语音检测并且随着时间过去在重新解释语音输入中提供改进。
[0040]可以根据策略例如考虑能源节约和/或其它语境参数来执行非可听输入的捕获和/或处理。例如,如果电力或者电池使用对具体设备来说是个问题,则例如根据预定的策略,在某些场景中,常规语音识别可以通过非可听辅助的语音识别(例如使用摄像机输入)来进行辅助。
[0041]策略例如可以包括:如果语音置信度低(当前或历史,例如在具体对话期间或者用于具体的一个或多个用户),则使用非可听输入。对于包括与歧义项有关的预定声音特性的(一个或多个)特定词,例如某些辅音,置信度可以预定为低。因此,例如策略可以连续地捕获非可听输入,但是仅当包括某些语音时才处理非可听输入。
[0042]策略例如可以包括:如果存在多种语音候选项,其超过预先定义的(检测的)置信度阈值和/或具有类似的(检测的)高置信水平,则使用非可听输入。策略例如可以包括:当背景噪音超过阈值时、当同时存在其它检测到的由非主要用户的某人的语音时、当用户重复短语或者进行校正(例如例如通过摄像机捕捉到的非可听输入可以用于第二而非第一输入的翻译等)时等等,使用非可听输入。策略例如可以包括:当用户的语音是非典型的(例如:基于输入的时间,例如在清晨对比于在傍晚;基于用户的情况,例如正在吃、躺下(例如通过回转仪感测到)、生病的(声音是非典型的)等)时,使用非可听输入。策略例如可以包括:基于设备使用历史(例如首次在设备上检测到的输入)、基于设备的状态(例如设备移动或者环境等)来使用非可听输入。因此可以实施策略,以使得非可听传感器及其输入不被连续地捕获和/或不被连续地处理。
[0043]因此,实施例可以以智能的方式使用来自用户的非可听输入,以重新翻译歧义的语音。参考图3作为例子,在301处用户初始提供语音输入,并且如策略所规定的那样,实施例还捕捉用户的非可听输入,例如通过摄像机捕获的图像。在302处,实施例可以在翻译语音输入中使用语音识别引擎。作为这个过程的一部分,实施例可以确定某些词被评分为例如关于预定的阈值较低的置信水平。
[0044]因此,在303处,实施例可以识别翻译语音输入中的至少一个歧义项,例如那些具有较低置信度得分的词。如果确定没有歧义项,则实施例可以按照正确的翻译提交输入。然而,如果例如根据阈值存在歧义项(即使是轻微的),则随后在304处,实施例可以访问存储的非可听输入(亦即在301处的语音输入期间捕获的非可听输入),其在时间上与至少一个歧义项相关联。在303处,实施例可以再次基于某些触发项确定存在歧义项,该触发项包括除了低置信度得分之外的触发项,例如,在语音输入中检测到的词或词的语音,其虽然评分为有置信度,但是与歧义项有关联,例如某些辅音、某些词、在一定的条件下所接收的语音输入等。
[0045]使用非可听输入,例如嘴唇或嘴巴的动作特性等,在305处,实施例可以使用非可听输入重新翻译至少一个歧义项。例如,这可以包括将非可听输入特征映射到与预定的语音输入或其部分相关的特征,例如与已知的声音相关的已知的嘴唇动作等。以这种方式,实施例可以使用在用非可听输入中可用的额外数据,以协助翻译各种(一个或多个)词或(一个或多个)短语。这允许实施例更准确地翻译语音输入。此外,它允许实施例使用比平时更低的阈值用于翻译,以使得可以使用非可听输入经由重新翻译来确认通常可能是“有置信度地”被翻译的词。这可能有助于避免以下情况:即使就传统置信度评分而言得分高,也曲解了某些词或短语。在304处的重新翻译还包括校正语音输入,例如,使用非可听输入改变语音输入的初始翻译。
[0046]如本领域的技术人员将理解的,各个方面可以被实施为系统、方法或设备程序产品。因此,方面可以采用全部硬件实施例或者包括软件的实施例的形式,所有这些实施例在本文中通常可以称为“电路”、“模块”或“系统”。此外,方面可以采用设备程序产品的形式,所述设备程序产品包含在一个或多个设备可读存储介质中,所述设备可读存储介质具有包含在其中的设备可读程序代码。
[0047]可以利用一个或多个非信号设备可读存储介质的任何组合。存储介质可以是例如电子、磁、光、电磁、红外或半导体系统、装置或设备或前述的任何适当的组合。存储介质的更多的具体示例可以包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或快闪
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1