用于检测可听输入中的中止的装置、设备及方法_3

文档序号:8361170阅读:来源:国知局
例如,基于嘴跟踪软件和/或基于使用将嘴的位置与嘴的位置的指示进行关 联的查找表格)表示用户正在提供或将要提供可听输入。作为另一示例,可以通过装置针 对用户的眼睛甚至更具体地针对用户的瞳孔是否是对准装置、对准装置附近或者朝向装置 (这可以使用眼睛跟踪软件确定),来对来自用于采集用户的图像并且将图像提供给装置 的处理器的摄像头的一个或更多个信号进行分析、检查等,用户的眼睛对准装置、对准装置 附近或者朝向装置可以表示用户正基于用户的眼睛对准装置来提供或将要提供的可听输 入。相反地,如果确定用户的眼睛例如不是看着装置、看着装置附近或朝向装置(例如,盯 着远方和/或用户的面部从装置转开(例如,在转开时相对于例如由用户的视线建立的矢 量与装置成预先确定的和/或阈值度数)),则可能即使从用户接收到了音频也使逻辑确定 用户没有向装置提供可听输入,并且因而不应该进行处理。
[0039] 无论如何,如果在菱形框204处逻辑确定用户的嘴和/或眼睛不是表示提供可听 输入或将要提供可听输入,则逻辑可以返回菱形框202并从此前进。然而,如果在菱形框 204处逻辑确定用户的嘴和/或眼睛表示提供可听输入或将要提供可听输入,则逻辑替代 地进行到块206。在块206处,逻辑开始处理可听输入序列(和/或等待提供可听输入序 列)和/或响应于接收到可听输入序列而执行功能。此后,逻辑进行到判定菱形框208,在 判定菱形框208处,逻辑确定是否接收到了"语音分隔符","语音分隔符"尽管是由用户输 入的,但例如不构成可听输入序列的一部分(例如,有意的部分),其对于装置而言是错误 的输入,对于装置而言是无意义的和/或无法理解的,和/或不构成对于装置的命令的一部 分。
[0040] 可以通过装置像这样来辨识这样的"语音分隔符":例如,响应于确定该"语音分隔 符"相对于可听输入的其它部分(例如,与大部分输入和/或用户说出的作为输入的第一个 词或多个词不同的部分)为不同语言的词;响应于确定所输入的"语音分隔符"不是在提供 输入的其它部分时所说的语言中的真实的词,和/或响应于确定用户所输入的"语音分隔 符"与语音分隔符数据表中的如下语音分隔符匹配,例如在处理可听命令序列时,该语音分 隔符被装置忽略。除了前述方式以外或替代前述方式,可以通过装置像这样响应于如下确 定来辨识"语音分隔符":至少部分地基于对由装置的摄像头采集的用户的面部的至少一个 图像应用读唇软件而确定尽管装置正在接收音频,然而该音频是来自例如紧闭的嘴和/或 不动的/静止的嘴的、不构成真实词部分的声音,从而确定该"语音分隔符"是不能理解的。 在任何情况下,应该理解的是,例如响应于像这样被辨识的"语音分隔符"输入,装置忽略该 "语音分隔符"输入,排除该"语音分隔符"作为将要处理的可听输入序列的部分,和/或以 相反不将它作为其中提供该"语音分隔符"的可听输入序列和/或命令的部分进行处理。
[0041] 例如,在对于装置的输入为"Pleasefindthenearestuhhrestaurant"的情况 下,可以将输入中的每个单词与英语单词表进行比对,其中,例如基于将输入的单词与英语 单词表中的各个相应的条目进行匹配而确定"nearest"和"restaurant"是英语单词(例 如,和/或基于作为与初始单词"please"相同语言的单词而被确定为构成命令的一部分), 而确定"uhh"不是英语单词因此不应作为命令的一部分进行处理(例如,和/或在由装置 处理时从可听输入序列中去除"uhh")。除上述方式之外或替代前述方式,可以基于"uhh" 在"语音分隔符"表中和/或"uhh"是不能理解的输入而将"uhh"辨识为装置要忽略的输 入。
[0042] 仍然参照图2,如果在菱形框208处做出了肯定的判断,则逻辑可以返回块206并 继续处理可听输入序列,并且/或者忽略和/或拒绝将"语音分隔符"包括为序列的一部分 同时仍将来自用户的音频的其它部分处理为序列的一部分。在这方面,如以下将会进一步 描述的那样,"语音分隔符"可以延长可听输入序列应用的音频处理而没有中止(例如,连续 的和/或基本连续的)。然而,如果在菱形框208处做出了否定的判断,则逻辑替代地前进 到判定菱形框210。
[0043] 在判定菱形框210处,逻辑确定用户是否正在进行装置上的其它操作(例如,其它 应用)。例如,如果逻辑确定用户正在操作装置的触控显示器以使用浏览器应用浏览互联 网,则逻辑可以前进到块212,在块212处,逻辑例如在用户正在操作其它应用(例如,浏览 器应用)期间中止对可听输入序列的处理,以例如不对不构成和/或不意欲构成对于装置 的命令的一部分的音频进行处理。
[0044] 虽然没有根据图2的表面证实,但是应该理解,在一些实施方式中,根据本原理确 定正执行另一操作可以与确定用户已停止提供可听输入序列(例如,和/或完全地停止提 供音频)相结合,以依然不中止或不停止处理可听输入,因为装置可能还是继续"接听"来 自下述序列的输入,在用户例如针对对可听输入序列有用的信息浏览因特网时已经至少部 分地提供了该序列。
[0045] 然而,如在图2的示例性逻辑中所示,逻辑可以响应于确定用户正在执行装置的 另一操作和/或应用而前进到块212以例如不论用户是否仍在说话和/或提供可听输入都 中止处理,或者基于在菱形框210处的肯定的判断结合用户已停止提供任何音频(例如,基 于对用户的图像执行读唇软件确定了用户的嘴唇不再动来判定用户已经停止说话,因而确 定用户不再对该装置提供输入)的确定而前进到块212。
[0046] 无论哪种情况,注意,在菱形框210处的否定判断使逻辑前进到判定菱形框214。 在菱形框214处,逻辑确定来自装置的加速度计和/或来自装置的表面接近传感器的一个 或更多个信号是否表示装置在距离阈值以外和/或正移至距离阈值以外,其中针对阈值的 距离是相对于装置与用户的面部之间的距离。因此,例如,基于用户由于例如不打算向装置 提供任何进一步输入而将其面部区域从装置移开(例如,移开至少预定义的距离),在菱形 框214处可以做出肯定的判断。然而,不管前述如何,在一些实施方式中,如果尽管用户相 对于装置在距离阈值之外,但在菱形框214处还确定用户继续说话(例如,即便所说的音 频是"语音分隔符"),则在菱形框214处逻辑仍然可以前进到判定菱形框216 (将在以下描 述)。
[0047] 在任何情况下,应该理解,响应于肯定的判断,逻辑返回到块212。然而,在菱形框 214处的否定的判断使逻辑行进到判定菱形框216,在判定菱形框216处逻辑确定在可听输 入序列中是否发生了可听中止。例如,可听中止可以是用户中止说话(例如,完全地中止和 /或不提供任何声音)和/或停止向装置提供可听输入。基于根据用户的嘴至少几乎全部 闭合(和/或不动/静止),用户的嘴闭合(和/或不动/静止),和/或用户的嘴至少部 分地张开(例如,但是不动/静止)而确定用户的当前面部表情(基于由装置的摄像头采 集的用户的图像)表示不是要提供可听输入,可以进行菱形框216处的判断。
[0048] 如果在菱形框216处做出否定的判断,则逻辑可以返回块206。然而,如果在菱形 框216处做出肯定的判断,则逻辑替代地返回到块212并且如本文所描述的那样中止处理 可听输入。然后,(例如,不管从哪个判定菱形框到达块212)图2的逻辑从块212继续到 判定菱形框218。在菱形框218处,逻辑确定触控显示器没有接收到触摸输入的阈值时间是 否期满,触控显示器没有接收到触摸输入的阈值时间期满可以表示用户(例如,在如本文 阐述的使用触控显示器进行装置的另一操作之后)例如恢复或将要恢复向装置提供可听 输入(例如,在用户使用因特网浏览器找出用于提供可听输入的有用信息之后)。因此,在 用户执行装置的另一操作的实例中,可以到达判定菱形框218,而在其它实施方式中逻辑可 以从块212直接进行到将要描述的判定菱形框220。在任何情况下,在菱形框218处的否定 的判断可以使逻辑继续进行菱形框218处的判断直到做出肯定的判断的时间为止。然后, 当在菱形框218处做出肯定的判断时,逻辑前进到判定菱形框220。
[0049] 在判定菱形框220处,逻辑基于例如在装置在距用户的面部阈值距离以内时对音 频的检测,基于如本文所阐述在用户看着装置、看着装置附近或朝向装置看时对音频的检 测,和/或基于如本文所阐述的在用户的嘴正在活动时对音频的检测等,来确定是否正再 次向装置提供可听输入。菱形框220处的否定的判断可以使逻辑继续进行菱形框220的判 断直到做出肯定的判断为止。菱形框220处的肯定的判断使逻辑前进到块222,在块222 处,逻辑恢复对可听输入序列的处理和/或执行在所提供的可听输入序列中提供的命令和 /或从所提供的可听输入序列获得的命令。
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1