用于使用上下文信息的语音识别修复的方法和系统的制作方法

文档序号:9580334阅读:695来源:国知局
用于使用上下文信息的语音识别修复的方法和系统的制作方法
【专利说明】
[0001] 相关申请夺叉引用
[0002] 本申请是申请号为201210369739. 0、申请日为2012年09月28日的中国发明专利 申请的分案申请。
技术领域
[0003] 本发明涉及语音识别系统,且在一个实施例中,涉及用以控制数据处理系统的语 音识别系统。
【背景技术】
[0004] 许多语音识别系统所具有的常见问题是准确性。用户可对着语音识别器说话,且 系统可用识别文本做出响应,但所述识别文本通常可能含有许多错误,因为语音识别器未 能恰当地识别人类用户的话语。
[0005] 语音识别可用以在电话上调用话音拨号,例如当用户在电话上口述命令"call mom(呼叫妈妈)"时。使用语音来控制数据处理系统可在来自语音识别器系统的转录错误 决定用户口述"callTom(呼叫汤姆)"而非"callmom(呼叫妈妈)"时导致异常系统行为。 转录错误可由硬件缺点(例如不能够经由蓝牙头戴式耳机俘获高质量音频记录)或用户错 误(例如不正确或不完全的发音或背景噪声)造成。一些语音识别系统可采用使用上下文 来改善语音识别系统;美国专利7, 478, 037提供可采用上下文来辅助语音识别过程的语音 识别系统的实例。

【发明内容】

[0006] 本发明的实施例提供一种语音控制系统,其可识别口述命令和相关联字词(例如 "呼叫在家里的妈妈")且可致使选定应用程序(例如电话拨号器)执行所述命令以致使系 统(其可为智能电话)执行基于所述命令和相关联字词的操作(例如,向在家里的妈妈发 出电话呼叫)。在一个实施例中,所述语音控制系统可使用包括常规声学模型和常规语言 模型的语言识别器来根据从人类用户的语音获得的数字化输入产生文本输出。在一个实 施例中,所述语音控制系统可由用户可调用的语音辅助应用程序来启动,且此语音辅助应 用程序可解释并修复来自所述语音识别器的所述文本输出且将经修复的文本输出提供到 一组应用程序中的选定应用程序;所述组应用程序可包括(例如)一个或一个以上应用程 序,例如电话应用程序(用以拨号并建立话音电话呼叫连接)和媒体播放器应用程序(例 如,iTunes)和SMS(短消息服务)"文本消息"应用程序和视频会议(例如,"面对面时间 (FaceTime) ")或聊天应用程序和用以找到或定位例如朋友等个人的应用程序和其它应用 程序。
[0007] 在一个实施例中,语音辅助应用程序使用一组解释器来解释所述文本输出,所述 解释器中的每一者经设计以解释所述组应用程序所使用的特定类型的文本。举例来说,名 字解释器经设计以解释地址簿或通讯录数据库中的名字(在名字字段中),姓氏解释器经 设计以解释地址簿或通讯录数据库中的姓氏(在姓氏字段中),全名解释器经设计以解释 地址簿或通讯录数据库中的全名,且公司名称解释器经设计以解释地址簿或通讯录数据库 中的公司名称。在一个实施例中,这些解释器可经配置以使用不同算法或过程来解释文本 输出中的每一字词;举例来说,全名解释器可使用模拟匹配(使用编辑距离相似性测量) 算法来将文本输出中的字词与地址簿或通讯录数据库中的字词进行比较,但在一个实施例 中,不使用η码组(n-gram)算法来将文本输出中的字词与地址簿或通讯录数据库中的字词 进行比较,而名字解释器使用η码组算法来将文本输出中的字词与地址簿或通讯录数据库 中的字词进行比较。此外,在一个实施例中,这些解释器可在搜索地址簿或通讯录数据库以 查找匹配时使用不同搜索算法。在一个实施例中,每一解释器还可在解释字词时使用上下 文(例如,所述上下文可包括媒体播放器正在播放歌曲的指示)。在一个实施例中,所述上 下文可包括用户输入历史(例如会话历史(例如,先前识别语音))或所述组应用程序中的 应用程序的状态等。在一个实施例中,所述组中的每一解释器可处理文本输出中的每一字 词以试图确定其是否能修复所述字词,且在一个实施例中,每一解释器自行决定其是否能 修复每一字词;所述解释器产生指示其是否能修复所述字词的得分或置信度。
[0008] 在一个实施例中,所述组解释器的控制器可通过排列所得的经修复解释(使用每 一解释器的得分或置信度来执行所述排列)且接着合并所述经排列的解释来处理所述组 解释器的结果。在一个实施例中,所述合并设法避免解释的重叠,使得仅使用来自一个解释 器的输出来修复特定字词。
[0009] 在一个实施例中,所述语音辅助应用程序可基于字词在字词串中的位置来确定来 自语音识别器系统的文本输出中的命令或通过使用语法剖析器来确定所述命令,且所述命 令连同经修复的语音转录可由语音辅助应用程序传递到一组应用程序中的特定应用程序 以供所述特定应用程序使用经修复的语音转录执行所述命令。在此实施例中,语音辅助应 用程序可基于所述命令来选择所述特定应用程序;举例来说,识别文本中的"呼叫"命令致 使语音辅助应用程序通过API将所述"呼叫"命令连同经修复的语音转录传递到电话拨号 器或电话应用程序,而识别文本中的"停止"命令致使语音辅助应用程序通过API将"停止" 命令传递到媒体播放器(例如iTunes)以停止播放当前正在播放的歌曲。在此实例中,提供 到所述组解释器中的媒体播放器解释器的上下文可包括媒体的状态(例如,上下文包括在 语音识别器系统接收到含有识别字词"停止"的语音输入时披头士歌曲"ComeTogether( - 起来)"当前正在播放的状态)。在此实例中,用户不需要在口述命令之前选择特定的所要 应用程序;而是,用户在将语音辅助应用程序作为最前端应用程序(且具有语音输入焦点) 的情况下进行口述且语音辅助应用程序接着自动地(不需要用户直接指定应用程序)基于 所述命令来在所述组应用程序中选择恰当的应用程序,且接着通过API将所述命令传递到 选定应用程序。
[0010] 在一个方面中,一种机器实施方法包括:从数据处理系统的用户接收语音输入; 在所述数据处理系统中确定所述语音输入的上下文;通过语音识别系统在所述语音输入中 识别文本,所述文本识别产生文本输出;将所述文本输出存储为具有多个标记的剖析数据 结构,所述多个标记各自表示所述文本输出中的字词;用一组解释器处理所述标记中的每 一者,其中每一解释器经设计以修复所述文本输出中的特定类型的错误,搜索一个或一个 以上数据库以识别所述数据库中的一个或一个以上项目与所述标记中的每一者之间的匹 配,且根据所述所识别的匹配和所述上下文确定所述解释器是否能修复所述文本输出中的 标记;合并由所述组解释器产生的选定结果以产生经修复的语音转录,所述经修复的语音 转录表示所述文本输出的经修复版本;以及基于所述经修复的语音转录中的命令而将所述 经修复的语音转录提供到一组应用程序中的选定应用程序,其中所述选定应用程序经配置 以执行所述命令。
[0011] 在一些实施例中,所述上下文包括先前用户输入历史,且其中所述一个或一个以 上数据库包括通讯录数据库,所述通讯录数据库存储姓名、地址和电话号码中的至少一者。
[0012] 在一些实施例中,所述上下文包括会话历史,其中所述一个或一个以上数据库包 括媒体数据库,所述媒体数据库存储歌曲、题目和艺术家中的至少一者,且其中所述组解释 器中的解释器在评估可能的匹配时使用至少两个字词的字符串。
[0013] 在一些实施例中,所述组解释器中的第一解释器使用第一算法来确定是否修复字 词,且所述组解释器中的第二解释器使用第二算法来确定是否修复字词,所述第一算法不 同于所述第二算法。
[0014] 在一些实施例中,所述组解释器中的第三解释器使用第三算法来搜索所述一个或 一个以上数据库,且所述组解释器中的第四解释器使用第四算法来搜索所述一个或一个以 上数据库,所述第三算法不同于所述第四算法。
[0015] 在一些实施例中,所述组解释器中的所述解释器不试图修复所述命令。
[0016] 在一些实施例中,所述合并仅合并来自所述组解释器的不重叠结果,并且将来自 所述组解释器的重叠结果排列在分级组中,且选择所述分级组中的一个结果并将其合并到 所述经修复的语音转录中。
[0017] 在一些实施例中,每一解释器经设计以修复的所述特定错误类型是基于由所述解 释器搜索的所述一个或一个以上数据库中的一个或一个以上字段来确定的。
[0018] 在一些实施例中,所述组解释器在确定是否修复所述文本输出中的一个或一个以 上字词时搜索所述一个或一个以上数据库以将所述文本输出中的字词与所述一个或一个 以上数据库中的一个或一个以上项目进行比较。
[0019] 在一些实施例中,语法剖析器根据所述文本输出确定所述命令。
[0020] 在一些实施例中,所述组应用程序包括以下各项中的至少两者:(a)电话拨号器, 其使用所述经修复的语音转录来拨打电话号码;(b)媒体播放器,其用于播放歌曲或其它 内容;(c)文本消息接发应用程序;(d)电子邮件应用程序;(e)日历应用程序;(f)本地搜 索应用程序;(g)视频会议应用程序;或(h)人员或物体定位应用程序。
[0021 ] 在一些实施例中,所述方法包括上文所陈述的特征的任何组合。
[0022] 在一个方面中,一种数据处理系统包括:语音识别器,其可操作以在语音输入中识 别文本且产生文本输出;上下文确定模块,其可操作以确定所述语音输入的上下文;麦克 风,其耦合到所述语音识别器以将所述语音输入提供到所述语音识别器;存储装置,其用于 将所述文本输出存储为具有多个标记的剖析数据结构,所述多个标记各自表示所述文本输 出中的字词;一组解释器,其耦合到所述语音识别器和所述上下文确定模块,其中每一解释 器经设计以修复所述文本输出中的特定类型的错误,搜索一个或一个以上数据库以识别所 述数据库中的一个或一个以上项目与所述标记中的每一者之间的匹配,且根据所述所识别 的匹配和所述上下文确定所述解释器是否能修复所述文本输出中的标记;以及控制器,其 用于合并由所述组解释器产生的选定结果以产生经修复的语音转录且用于基于所述经修 复的语音转录中的命令来将所述经修复的语音转录提供到一组应用程序中的选定应用程 序,其中所述经修复的语音转录表示所述文本输出的经修复版本,且所述选定应用程序经 配置以执行所述命令。
[0023] 在一些实施例中,所述上下文包括先前用户输入历史,且所述一个或一个以上数 据库包括通讯录数据库,所述通讯录数
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1