非可听语音输入校正的制作方法

文档序号:8528154阅读:508来源:国知局
非可听语音输入校正的制作方法
【技术领域】
[0001]本发明涉及信息处理技术领域,具体地涉及非可听语音输入校正。
【背景技术】
[0002]信息处理设备(“设备”),例如笔记本电脑、平板电脑、智能手机、电子阅读器、台式电脑、智能电视等,可以用来与语音输入接口连接,其将语音输入转换成机器文本。如果提供了语音输入接口,则因此很多不同设备应用程序(例如所有允许文本输入的那些)可以使用语音输入。常见的示例包括消息应用程序(例如即时消息应用程序、SMS文本消息应用程序、电子邮件应用程序)、字处理应用程序、互联网搜索应用程序、导航应用程序(车载式或者以手持式或其它移动格式提供)等。设备将运行语音输入接口(语音到文本或者语音识别引擎)作为全球性服务,其提供可以跨应用程序使用的输入接口,例如类似于键盘或者触摸屏输入接口。某些应用程序(或者其集合)可以独立地或者作为应用子组件或特征提供语音输入功能。
[0003]语音输入接口可能曲解语音输入,亦即,对于对应的语音输入(例如命令、消息内容等)输入错误的文本。用户可以手动地更改或者校正曲解的文本,例如,将其删除并且重新输入。这要求选择无效的文本并且重新说话或者键入正确的文本。用户也可以选择低置信度文本,例如,语音输入接口指示可能被曲解的词或短语,并且从下拉列表中选择替换项。

【发明内容】

[0004]总之,一方面提供了一种方法,包括:在信息处理设备的音频接收器处接收用户的语音输入;使用处理器翻译所述语音输入;使用处理器识别翻译所述语音输入中的至少一个歧义项;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及使用所述非可听输入来调整所述语音输入的翻译。
[0005]另一方面提供了一种信息处理设备,包括:音频接收器;传感器,其捕获输入;处理器;以及存储器,其存储指令,所述指令由所述处理器执行以:在所述音频接收器处接收用户的语音输入;翻译所述语音输入;识别翻译所述语音输入中的至少一个歧义项;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入;以及使用来源于所述传感器的所述非可听输入调整所述语音输入的翻译。
[0006]另一方面提供了一种产品,包括:设备可读存储装置,其具有随其存储的设备可读代码,所述设备可读代码由处理器执行,并且包括:接收用户语音输入的代码;翻译所述语音输入的代码;识别翻译所述语音输入中的至少一个歧义项的代码;随后访问存储的在时间上与所述至少一个歧义项相关联的非可听输入的代码;以及使用所述非可听输入调整所述语音输入的翻译的代码。
[0007]前面是总结并且因此可能包含简化、概括以及细节的遗漏;因此,本领域技术人员将理解,总结仅是示例性的,并且不意在以任何方式进行限制。
[0008]为了更好地理解实施例、连同其它和进一步的特征及其优势,结合附图对以下的说明作出参考。本发明的范围将在所附权利要求中指出。
【附图说明】
[0009]图1图示了信息处理设备电路的示例。
[0010]图2图示了信息处理设备的另一个示例。
[0011]图3图示了使用非可听语音输入校正的示例方法。
【具体实施方式】
[0012]将容易理解的是,除了所描述的示例实施例以外,可以以多种不同的配置来放置和设计如在本文图中一般性地描述和说明的实施例中的部件。因此,如在图中所表示的以下示例实施例的更详细描述不意图限制如所要求保护的实施例的范围,而仅仅是示例实施例的代表。
[0013]贯穿这个说明书中提到“一个实施例”或“实施例”(等等)意思为结合实施例所描述的具体特征、结构或特性被包含在至少一个实施例中。因此,贯穿这个说明书中各处出现的短语“在一个实施例中”或“在实施例中”等等未必都指代同一个实施例。
[0014]此外,可以在一个或者多个实施例中以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中,提供了许多具体的细节以提供对实施例的彻底理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体的细节的情况下,或者使用其它方法、部件、材料等来实践各种实施例。在其它的实例中,未详细示出或描述公知的结构、材料或操作以避免模糊。
[0015]语音输入接口正变得越来越流行。虽然语音到文本转换的精度已经改进并且将继续改进,但是在语音输入到机器文本的正确转换中仍会发生不可避免的错误。例如,现有的语音检测使用音频以确定说的是什么。因为很多发音是相似的,所以这导致错误的语音检测。例如,辅音(例如“B”、“C”、“D”、“E”、“G”、“P”、“T”、“V”、“Z”等)发音相同或相近,并且基于音频的语音检测无法总是正确地翻译说的是什么。
[0016]虽然存在传统的方法用于校正错误的输入转换,例如,手动校正它或者从下拉菜单中选择“最好的猜测”,但是每个都要求颇有侵入性的修复,其通过用户中断他的或者她的语音输入并且手动地干预系统来实现。因此,即使当提供下拉菜单时,这仍然要求用户手动地修复每个曲解项。此外,依靠下拉菜单预先假定的是,语音输入接口已正确地识别可能已发生错误的输入的(一个或多个)词。亦即,文本输入的一些单词可能是错误的,并且尽管如此,但是不能被系统识别为低置信度,或反之亦然。这减少了以直观的或者用户友好的方式快速修复每个曲解项的机会。
[0017]此外,在采用语境数据以协助翻译语音输入的系统中,这预先假定适当的语境数据可用并且可以被使用。例如,很多现有的解决方案使用语境,通过验证词在给定的短语/句子中初始的翻译是合理的以确定正确的语音。这种方法的缺点包括但不限于:由存在的大量可能性给出的不完善的校正;在一个句子可以具有多个可以接受的语境的情况下的不精确性;对庞大的语境数据库和处理能力的要求以为每个短语快速地检查数据库;除了存储在本地的语境数据库的子集之外,对云连接(或类似的连接)的要求等等。
[0018]因此,实施例提供了用于校正语音(贯穿全文被称作“语音输入”)到机器文本的错误转换的机制。通过示例的方式,实施例提供了一种方法,其中语音输入在音频接收器处接收,该音频接收器例如是信息处理设备(例如平板电脑设备、智能手机、笔记本电脑设备、导航设备等)的麦克风。然后可以使用语音识别引擎来翻译语音输入,以关于该语音输入包括什么词/短语/命令做出初步确定。作为识别/翻译处理的部分,实施例可以识别翻译语音输入中的歧义项,例如,具有关于正确翻译的低置信水平的词或者短语。
[0019]因此,实施例可以随后访问存储的在时间上与歧义项相关联的非可听输入,而不是例如征求反馈或者利用惯例语境解决机制(例如,简单检查周围的词等)。例如,实施例可以操作非可听传感器例如摄像机,其在提供语音输入时捕获用户的图像并且存储这个非可听输入以便在重新翻译歧义项中使用。以这种方式,例如,使用来源于以嘴唇的动作、用户的动作(例如嘴巴、头、手势等)为例的非可听输入,实施例可以确定被识别为歧义项的语音输入的适当翻译。
[0020]参考附图将最好地理解所说明的示例实施例。以下描述仅意图通过示例的方式,并且简要说明了某些示例实施例。
[0021]虽然可以在
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1