用来完成语音识别的方法、系统和程序的制作方法

文档序号:2820321阅读:3773来源:国知局
专利名称:用来完成语音识别的方法、系统和程序的制作方法
技术领域
本发明涉及用来完成语音识别的方法、系统和程序。
本发明的现有技术不连续的大词汇表语音识别系统在编写这份专利申请之前已经有大约10年在台式个人计算机上使用的历史。连续的大词汇表语音识别系统在这个时候之前已经有大约五年在这样的计算机上使用的历史。这样的语音识别系统已被证明有相当大的价值。事实上,本专利申请的大部分文本是在使用连续的大词汇表语音识别系统之前准备的。
如同在这份说明书和权利要求书使用的那样,当我们提及大词汇表语音识别系统的时候,我们有能力识别作为至少两千个不同的词汇表单词之中任何一个单词的给定的发声,取决于那些单词之中哪个单词有最接近地与给定的口语单词相匹配的对应的语音学模型。
如同

图1指出的那样,大词汇表语音识别通常是通过用户100对着话筒102说话起作用的,在图1的例子中该话筒是移动电话104的话筒。话筒随着时间的逝去把单词的发声引起的空气压力的变化转换成用电子信号106表示的对应的波形。在许多语音识别系统中,这个波形信号被用计算机处理器或专用的数字信号处理器108完成的数字信号处理转换成时域表达。时域表达往往包括众多参数结构112,每个参数结构都代表在众多连续的时间周期之中的每个周期(例如,每一个百分之一秒)里用波形106表示的声音的特性。
如同图2指出的那样,然后,将要识别的发声的时域(或结构)表达与对应于大词汇表中不同的单词的语音学模型200的众多可能的序列配对。在大多数大词汇表语音识别系统中,个别单词202每个都是用与在大多数词典中找到语音学拼法类似的对应的语音学拼法204表示的。语音学拼法中的每个音素有与它相关联的一个或多个语音学模型200。在许多系统中,模型200是当它在给定单词的语音学拼法中按前后音素的上下文关系出现的时候模仿与它们相关联的音素的声音的音素上下文关系模型(phoneme-in-context models)。语音学模型普遍由一个或多个概率模型的序列组成,每个概率模型代表用在要识别的发声的时域表达110的结构中的每个参数的不同的参数值的概率。
近几年,个人计算机的主要趋势之一是增加使用较小的而且时常更便于携带的计算机装置。
原来大多数个人计算机处理是在用图3表示的通用型的台式计算机上完成的。然后,在以膝上型电脑的形式使用更小巧的个人计算机方面有所增加,因为膝上型电脑大体上具有与台式计算机相同类型的计算能力和用户界面,所以在附图中未予以展示。最新的大词汇表语音识别系统已经为在这样的系统上使用而设计出来。
最近已经增加了新型计算机的使用,例如,图4展示的图形输入板计算机、图5展示的个人数字助理、图6展示的已增强计算能力的移动电话、图7展示的腕式电话计算机和图8展示的用由可戴在头上的装置提供的荧屏和目视跟踪(eyetracking)和/或声音输出提供用户界面的可穿戴的计算机。
因为在计算能力方面最近的增加,这样的新型装置可以有等于提供不连续的大词汇表识别系统的第一台式机的计算能力,而且在某些情况下其计算能力与在首次运行连续的大词汇表语音识别的台式计算机上提供的同样高。这样的较小的和/或更便于携带的个人计算机的计算能力随着时间逝去只会逐渐增高。
涉及在更容易携带的计算机上提供有效的大词汇表语音识别的较为重要的挑战之一是提供使在这样的装置上创造、编辑和使用语音识别变得更容易和更快速的用户界面。
本发明的概述本发明的一个方面涉及使用可选择的识别模式的语音识别。这包括若干创新,例如允许用户在有和没有语言上下文关系的情况下在识别模式之间选择;允许用户在连续的和不连续的大词汇表语音识别模式之间选择;允许用户在至少两种不同的按字母顺序进入的语音识别模式之间选择;以及允许用户在创造文本的时候从四个以上下列的识别模式之中选择大词汇表模式、字母识别模式、数字识别模式和标点识别模式。
本发明的另一方面涉及在大词汇表语音识别中使用选项选项列表。这包括若干创新,例如提供字符排序的选项选项列表;提供可垂直滚动的选项选项列表;提供可水平滚动的选项选项列表;和在按字母顺序的过滤器中提供用来限制识别候选项的关于字符的选项选项列表。
本发明的另一方面涉及使用户能够选择单词转换。这包括若干创新,例如使用户能够从众多要在被识别的单词上完成的转换中选择一种转换以便以预期的方式改变它,例如,从单数变成复数、赋予给单词某种动名词形式,等等。它还包括诸如使用户能够选择在按字母顺序的和非按字母顺序的形式之间转换选定的单词之类的创新。它还包括诸如把与被识别的单词相对应的经转换的单词的选项选项列表提供给用户和允许用户选择经转换的单词之一作为输出之类的创新。
本发明的另一方面涉及以一种以上指定的方式自动地关闭识别的语音识别。这包括诸如开启识别然后自动地关闭这样的识别直到收到另一条重新开启识别的指令为止的大词汇表语音识别指令之类的创新。它还包括语音识别的创新,其中按压按钮引起在用这样的按压时间长度确定的持续时间里识别和点击同一按钮引起在与这样的点击长度无关的时间里识别。
本发明的另一方面涉及大词汇表语音识别的电话按键控制。这包括使用电话按键从选项选项列表中选择单词、使用它们选择提供关于随后按压的按键的解释的帮助模式和使用它们选择当前与电话按键相关联的功能的列表的创新。它还包括有文本导航模式的语音识别的创新,在这种模式中多个有数字的电话按键同时有与它们相关联的多种不同的按键映射,而且按压这样的按键引起与有数字的电话按键相关联的功能变成与被按压的按键相关联的映射。
本发明的另一方面涉及使用电话按键按字母顺序过滤和拼写的语音识别。所谓按字母顺序过滤,我们指的是支持包括与用户输入所指出的字母序列相对应的字母序列(通常是最初的字母序列)的单词的语音识别。本发明的这个方面包括使用按压电话按键作为过滤输入的创新,其中每次按压按键可作多种解释,因为它表明在预期的单词中对应的字符位置与用那个电话按键标识的众多字母之一相对应。本发明的这个方面还包括使用按压电话按键的序列作为过滤输入的创新,其中零次或多次重复按压给定的按键的数字提供与那个按键相关联的多个字母倾向于在过滤器中使用的明确指示。本发明的这个方面还包括把这样的可作多种解释的和明确的电话按键输入用于拼写除了借助语音识别产生的文本之外能够使用的文本的创新。
本发明的另一方面涉及使用户能够完成二次发声识别的语音识别,其中语音识别是为了帮助语音识别比较好地选择一个或多个适合该发声的最佳记分文本序列在一个或多个单词的序列的二次说出和同一序列的早期说出两者之上完成的。
本发明的另一方面涉及语音识别和文本-至-语音(TTS)的组合。这包括有诸如语音学的拼写和字母转化成声音的规则之类的语音识别和TTS软件共享资源的创新。它还包括有至少一种模式自动使用TTS在识别之后说出被识别的文本和使用TTS或录制的声音在识别之后说出被识别的指令的列表的大词汇表语音识别系统的创新。本发明的这个方面还包括使用每个发声后面的TTS的文本自动重复被识别的文本的大词汇表系统的创新。这个方面还包括使用户能够在每次这样的移动被TTS说出之后在被识别的文本中把在当前位置的一个或多个单词向后或先前移动的大词汇表系统的创新。这个方面还包括使用语音识别产生选项选项列表并且提供一个或多个那个列表的入选者的TTS输出的大词汇表系统的创新。
本发明的另一方面涉及语音识别与手写和/或字符识别的组合。这包括选择一个或多个最佳记分识别候选项作为要识别的一个或多个单词的序列的手写和口语表达的识别的函数的创新。它还包括使用一个或多个字母的字符或手写识别按字母顺序过滤一个或多个单词的语音识别的创新。它还包括使用一个或多个字母标识单词的语音识别按字母顺序过滤手写识别和使用语音识别修正一个或多个单词的手写识别的创新。
本发明的另一方面涉及大词汇表语音识别与声音的录制和回放的组合。它包括有大词汇表语音识别和用户能在下列记录声音输入的模式之中至少两种模式之间切换的声音再次编码的手持式装置的创新没有对应的语音识别输出就记录声音的模式;用对应的语音识别输出记录声音的模式;和没有对应的声音就记录声音的语音识别输出的模式。本发明的这个方面还包括有大词汇表语音识别和声音再次编码能力而且使用户能够选择一部分先前录制的声音和有在它之上完成的语音识别的手持式装置的创新。它还包括使用户能够使用大词汇表语音识别为一部分没有对应的语音识别输出就被记录的声音提供文本标记的大词汇表语音识别系统的创新和使用户能够通过发出标记单词的声音、识别发声和搜索包含那些单词的文本搜索与未被识别的录音部分相关联的文本标记的系统的创新。本发明的这个方面还包括允许用户用单一的输入在回放先前录制的声音和完成语音识别之间切换的大词汇表系统的创新,其中相继的声音回放略微在先前的回放结束之前自动开始。本发明的这个方面还包括有大词汇表语音识别和声音录制和回放能力的移动电话的创新。
附图摘要通过对结合附图的优选的实施方案的详细描述,本发明这些和其他方面将会变得一目了然附图1图解口语的声音如何被转变成用于语音识别软件的听觉的参数帧的示意图。
附图2是示意图,图解使用发音拼写,语音识别如何能用如图1所示的参数帧的序列来识别单词,以及在单词的发音模型之间的时间安排如何被用于初始参数帧被从中产生的原始声学信号相对的那些单词的时间安排。
附图3至8展示了计算平台的不同类型的发展,基于它,许多当前的发明的方面能被用,而且举例说明向更小及[或]更便携的计算装置发展的趋势。
附图9举例说明一个个人的数字助手,或PDA,该装置具有一个收录了本发明许多方面的显示软件输入屏面的触摸屏,或SIP,允许通过文本的语音识别录入进运行在这样的装置上的应用程序。
附图10是可以在附图9所示类型的PDA中可找到的许多硬件和软件组成部分的高度示意的图解。
附图11是附图9中的荧屏图像的放大,用于指出在附图9中的语音识别SIP的许多的具体的元素。
附图11与附图12类似。除了它也举例说明被语音识别SIP产生的修正窗口以及大部分其图解式的用户界面的数据项。
附图13至17提供语音识别SIP作出的,特别是从其图形用户界面收到的各种不同的输入的回应的高度地简化的代码描述。
附图18是或者在如附图9所示的语音识别SIP,或者在附图59所示的行动电话实施方案中的识别用于决定回应一个或更多的用户界面按钮的按压的语音识别的打开的时间的长度的持续时间逻辑的高度简化的代码描述。
附图19是使用户能看到通过触摸结合附图9所示的语音识别的每一个数据项的功能的帮助模式的高度地简化的代码描述。
附图20而且21是在附图19中被描述的帮助模式产生的荧屏影像。
附图22是displayChoiceList程序的高度地简化的代码的描述,其不同形式被用于通过如附图9的语音识别SIP和如附图59的行动电话实施方案来显示修正窗口。
附图23是getChoice程序的高度地简化的代码的描述,其不同形式被用于语音识别SIP和行动电话实施方案以产生一个或更多的选项列表用于显示附图22中的显示选项列表。
附图24和25举例说明用于附图23所示的getChoice程序的发声列表的数据结构。
附图26是filterMatch程序的高度地简化的代码的描述,该程序由getChoices程序使用,以限制修正窗口选项匹配由用户录入的过滤输入。
附图27是wordFormList程序的高度地简化的代码的描述,其各种不同形式被语音识别SIP和行动电话实施方案使用,从而产生一个显示给定单词或选择的替代形式的单词形式修正列表。
附图28和29提供了filterEdit程序的高度地简化的代码的描述,其各种不同形式被用于语音识别SIP和行动电话实施方案,从而编辑用于附图26的filterMatch程序的过滤器字符串以回应来自用户的按字母顺序的过滤信息。
附图30提供filterCharacterChoice程序的高度地简化的代码的描述,其各种不同形式被用于语音识别SIP和行动电话实施方案,以显示过滤器字符串的单个字符的选项列表。
附图31至35举例说明在用户和语音识别SIP之间的交互作用,用户使用一次-在-一个-时间的非连续的语音识别方法来录入和修正单词的识别。
附图36展示SIP的用户如何修正在附图35末尾的错误识别,通过滚动修正窗口提供的选项列表直到找到预期单词,然后使用大写按钮在该单词录入文本之前将其大写。
附图37展示SIP的用户如何修正错误识别,通过选择在修正窗口中的部分候补选项并使用它作为选择预期语音识别输出的过滤器。
附图38展示SIP的用户如何选择在修正窗口中的两个连续的按字母顺序排序的后备选项,造成语音识别器的输出成为以位于两个按字母顺序的选项当中的一个序列的字符为开始的有限的输出。
附图39举例说明SIP的用户如何使用字母名字的语音识别来输出过滤字符以及过滤器字符选项菜单如何被用于在这样的过滤字符的识别中修正错误。
附图40举例说明SIP的用户如何使用国际通信字母表录入一个或更多的过滤器字符串字符,以及SIP界面如何向用户展示该字母表之外的单词。
附图41展示用户如何在修正窗口中选择来自候补选项的字符的初始序列,然后使用国际通信字母表将字符加入该序列从而完成预期输出的拼写。
附图42至43举例说明用户交互作用的序列,用户录入并使用连续语音识别编辑进入SIP的文本。
附图45举例说明用户如何通过使用连续字母名字识别作为模糊的(或多值的)过滤器来拼写全部或部分的预期输出,以及用户如何使用过滤器字符选项列表来快速修正在这样的连续字母名字识别中产生的错误。
附图46举例说明语音识别SIP如何使用户能通过提取字符识别来输入字符。
附图47是字符识别模式的高度简化的代码描述,当实施如附图46所示类型提取字符识别时用于SIP。
附图48举例说明语音识别SIP如何时用户通过使用手写识别输入文本。
附图49是手写识别模式的高度简化的代码的描述,当实施如附图48所示手写识别时用于SIP。
附图50举例说明语音识别系统如何使用户能够用一个软件键盘输入本文。
附图51举例说明一个过滤器录入模式,该模式被选择以挑选录入过滤信息的不同方法,包括语音识别,字符识别,手写识别和软件键盘输入。
附图52至54举例说明字符识别,手写识别,或软件键盘输入如何能用来过滤在SIP修正窗口中产生的过滤器语音识别选项。
附图55至56举例说明SIP如何允许字或过滤字符的语音识别被用来修正手写识别输入。
附图58时附图22中的显示选项列表程序的替代实施方案的高度简化的代码的描述,其中,产生的选项列表仅通过识别记分对选项排序,而不是附图22中的由字母顺序排序。
附图59举例说明一个具体表达本发明的许多方面的行动电话。
附图60提供如附图59所示的典型的行动电话的主要组成部分的高度简化的结构图。
附图61是包含在一个或更多的附图59所示的行动电话中的大量存储装置中的不同程序设计和数据结构的高度简化的结构图。
附图62举例说明附图59所示行动电话允许传统的电话拨号,藉着按压数字的电话按键。
附图63是附图59所示行动电话的指令结构的高度简化的代码描述,当该处于其顶极-水平电话模式,如附图62所示荧屏顶部所示。
附图64举例说明附图59所示行动电话的用户如何能访问并通过按压行动电话上的菜单按键快速的阅览主菜单中的指令。
附图65至66提供附图64所示主菜单操作的高度简化的代码描述。
附图67至74举例说明在与附图59所示行动电话上运行的语音识别文本编辑器相关的每一个不同的重要模式和菜单中的行动电话数字按键的治理映射。
附图75举例说明行动电话的文本编辑软件的用户如何能快速看到功能,功能与一个或更多在非-菜单模式下的按键结合,通过按压菜单按钮和滚动指令列表,如附图64所示菜单实质的使用方式。
附图66至68提供行动电话的语音识别软件的回应的高度简化的代码描述,当在其文本窗口、编辑器模式中时。
附图79和80提供录入模式菜单的高度简化的代码描述,可从不同语音识别模式进入该模式,选择不同的方法录入文本。
附图81至83提供correctionWindow程序的高度简化的代码描述,该程序用于行动电话显示修正窗口,以及当修正窗口显示时回应用户输入。当如此的修正窗口展示的时候,直到83提供高度地单一化的被行动电话用显示一修正窗口并且回应用户输入的修正窗口程序的代码描述。
附图84是编辑导航菜单的高度简化的代码描述,当编辑模式文本窗口显示时,允许用户用行动电话的导航按键选择不同的导航方法。
并且选择不同的方法使修正窗口回应修正窗口中的替代选项的选择。
附图85是修正窗口导航菜单的高度简化的代码描述,当处于修正窗口时,允许用户用行动电话的导航按键选择不同的方法导航,并同样选择不同的方法使修正窗口回应修正窗口中的替代选项的选择。
附图86至88提供按键Alpha模式的三种稍微不同的实施方案的高度简化的代码描述,使用户能通过说出以该字母起始的单词录入字母,并且通过实质上限制与被按压按键相关的三或四个字母中的一个起始的单词的识别,回应电话按键的按压。
附图89至90提供编辑选项菜单下的一些可用的选项的高度简化的代码的识别,可从行动电话语音识别程序涉及的许多模式访问该菜单。
附图91和92提供单词类型菜单的高度简化的代码的描述,单词类型菜单可以被用于浆识别选项限制在特定单词类型,例如单词的特定语法类型。
附图93提供录入优选菜单的高度简化的代码描述,该菜单可用于设置不同语音识别功能的默认识别设置,或设置识别持续时间的设置。
附图94提供可在行动电话上使用的文本到语音回放操作的高度简化的代码识别。
附图95提供行动电话文本到语音产生如何使用程序设计和同样用于行动电话语音识别的数据结构的高度简化的代码描述。
附图96是行动电话转录模式的高度简化的代码描述,使用户更容易使用装置的语音识别能力转录记录在行动电话上的音频。
附图97是程序设计的高度简化的代码描述,使行动电话语音识别编辑器被用于录入和编辑展示在行动电话的对话框中的文字,以及转变控制的状态例如列表框检查框和在这样的对话框中的无线电通信按钮。
附图98是可用于行动电话上的帮助程序的高度简化的代码描述,使用户能快速找到行动电话指令结构的不同位置的描述。
附图99和100举例说明附图98的程序设计所显示的帮助菜单类型的例子。
附图101和102举例说明用户如何使用附图98的帮助程序设计快速搜索和接收与不同部分的行动电话指令结构相关的功能的描述。
附图103和104举例说明在用户和行动电话的语音识别的编辑器用户界面之间的交互作用,该界面中,用户用连续语音识别录入和修正文本。
附图105举例说明用户能在显示在行动电话的修正窗口中如何水平地滚动。
附图107举例说明在附图86中展示的按键Alpha模式的操作。
附图108和109举例说明行动电话的语音识别编辑器如何允许用户寻址和录入和编辑在可以被行动电话无线通信能力发送的电子邮件讯息中的文本。
附图110举例说明行动电话的语音识别如何从具有来自先前连续再识别这些单词的记分的一个或更多的单词的非连续语音识别以帮助产生预期输出。
附图111举例说明为了使用行动电话的无线通信能力访问一个国际互联网网站,行动电话语音识别软件能如何用来进入一个URL。
附图112和113举例说明行动电话的语音识别用户界面的数据项能如何用来导航国际互联网网页并且在这样的网页的领域中选择项目和录入和编辑本文。
附图.114举例说明行动电话语音识别用户界面的数据项能如何用来使用户能够更轻松的阅读在行动电话荧屏上显示的文字领域中的太大而不能一次都看到的文本字符串,例如网页或对话框的文字领域。
附图115举例说明行动电话的找到对话框,用户如何通过语音识别录入搜寻字符串进入该对话框,找到功能如何实施录入的字符串的搜索,以及找到的文本如何用于标识记录在电话中的音频。
附图116举例说明附图97所示对话框编辑器程序设计如何能使语音识别用于在来自结合列表框的可能的赋值中选择。
附图117举例说明语音识别能如何藉着名字拨号给某人,以及行动电话的音频回放和记录能力如何在行动电话通话期间被使用。
附图118举例说明当行动电话正在记录音频,语音识别如何被打开和关闭,从而将文本标识或文本评论插入记录的音频。
附图119举例说明行动电话如何在先前记录的部分音频上使用户能够运行语音识别。
附图120举例说明行动电话如何使用户能够从该声音的音频记录中剥离给定的声音片断的识别的文本。
附图121举例说明行动电话如何使用户能够到或打开或在哪一一个本文的挑选片段分配的指示外已经被联合声音的录音。
附图122至125举例说明行动电话语音识别软件如何允许用户通过语音识别录入电话号码并且当号码是错误的时候修正该识别。
附图126举例说明多少在附图59至125中展示的行动电话实施方案的方面可被用于车载环境,包括TTS和行动电话实施方案的持续时间逻辑方面。
附图127和128举例说明所有的在附图59至125中展示的行动电话实施方案的方面可被用于在附图中展示的行动电话实施方案的方面那大部分。59完成的125能被用或在无线的电话或在通讯电缆的电话。
附图129提供部分的展示在附图117的行动电话实施方案的名字拨号程序设计的高度简化的代码描述。
附图130提供附图122至125的行动电话的数字拨号程序设计的高度简化的代码描述。
发明的详细描述附图9展示了个人的数字助手(或PDA)900,本发明的许多方面可应用于其上。所展示的PDA类似于现在市面上销售的Compaq iPAQTMH3650口袋个人计算机,Casio CassiopeiaTM,和Hewlett-PackardTMJornado 525。
个人数字助手900包括一个相对的高分辨率的触摸屏902,使用户能够经由碰触触摸屏选择软件按钮和部分的本文,例如使用铁笔904或手指。个人数字助手也包括一组输入按钮906和二维的导航控制908。
在本申请的说明书详细描述和权利要求中,一个导航输入装置通常被设计为包含在按钮的定义之中,以允许用户选择在一维或多维上的不连续单位的运动;这非常象电话的界面,采用电话的按键或电话的按钮作为导航装置的向上,向下,向左,和向右输入。
附图10提供个人数字助手900的一个系统示意图表。图中展示了触摸屏902和输入按钮906(包括导航输入908)。图中也展示了具有一个中央的处理单元(例如微处理器1002)的装置。微处理器1002在一或更多的电子通讯总线1004上与只读存储器1006连接(通常采用flash只读存储器);随机存储器1008;一或更多的I/O装置1010;视频控制器1012,用于触摸屏902的显示控制;以及一个音频装置1014,音频装置1014接收来自麦克风1015的输入、而且给一个扬声器1016提供音频输出。
个人数字助手也包括一个电池1018,为个人数字助手提供便携式电源;一个头戴式耳机输入和头戴式耳机输出的插座1020,插座1020被连接到音频电路1014;一个对接连接器1022,用于提供个人数字助手和另外的一部计算机、例如台式机的连结;以及一个附加连接器1024,以便于用户将器件加入个人数字助手、例如附加的flash只读存储器,一个调制解调器,一个无线电收发机1025,或一个大容量存储装置。
附图10展示了一个大容量存储装置1017。事实上,这个存储装置可能是任何类型的大容量存储装置,包括全部或部分的flash只读存储器1006或微型硬盘。在一个如此大容量的存储装置中,个人数字助手通常会储存有一个操作系统1026,以提供装置的许多基本功能。除了操作系统和将在下面介绍的语音识别系统之外,通常包括一个或更多的应用程序,例如一个文字处理器程序、一个电子数据表格程序、一个网络浏览器或一个个人字母息管理系统。
当个人数字助手900被应用于本发明的时候,它通常会包括语音识别程序设计1030。该程序包括为实施以上在附图1和2中展示的字词匹配的程序设计。语音识别程序设计通常也包括一个或更多的词汇表表或词汇表编组1032,词汇表编组1032具有至少包括二千个字、词的大词汇量。许多大的词汇表系统有五万到几十万的词汇。对于词汇表的每个单词,通常有一个拼写本文1034和一个或更多的该单词所属的词汇表编组1036(举例来说,本文输出“.”可能实际上是在一个大词汇识别词汇表中,一个拼写词汇表中,和某些系统中的一个标点词汇表编组中)。每个词汇表中的单词也通常有一个或更多的语音部分的标识符1038,并根据标识符对单词分类;以及对应于单词的每个语音部分的语音拼音1040。
语音识别程序设计通常包括发音猜测器1042,用于猜测新加入系统的、因而没有预先定义的单词的发音。语音识别程序设计通常包括一个或更多的发音词典树1044。一个发音词典树是树形的数据结构,树形数据结构在一个共同的路径从树“根”(其中的所有的语音的拼音以相同的音位开始)聚集在一起。使用这种发音词典树提高了识别的表现,因为它使不同单词的所有部分共享被划分到一起的相同的原始语音拼音。
优选的语音识别程序设计也包括一个多字母组合语言模型1045,用来指示本文中的不同单词的发生可能性的,包括发生在给出了一个或更多的前和/或后的单词的文本中的单词的可能性。
通常,语音识别程序设计会储存语言模型更新数据1046,语言模型更新数据包括能用来更新上文描述的多字母组合语言模型1045的字母息。通常这个语言模型更新数据包括或包含统计字母息,该统计字母息源于用户创建的文本、或经用户指示的与他或她预期产生的文本类似的文本。在附图10中,展示的语音识别程序设计储存了包括名字、地址、电话号码、email地址和用于一些或全部此类字母息的连络数据1048。这一数据用来帮助语音识别程序设计识别讲话或此类联络字母息。在许多实施方案中,此类的连络数据将会被包含在一个外部的程序中,例如应用程序1028之一或操作系统1026的附件,但是,甚至在如此的情况,语音识别程序设计通常会需要访问这些名字,地址,电话号码,email地址和它们的语音的表达。
语音识别程序设计也通常包括类似于展示在图2中的语音模型200的语音声学模型1050。通常语音识别程序设计也存储声学模型更新数据1052,该声学模型更新数据也包括来自于系统以前识别的声学字母号的字母息。通常,这样的声学模型更新数据是参数帧的形式,如同附图1和2中示出的参数帧,或者声学模型更新数据是从这样的帧提取的统计数据的形式。
附图11提供了由附图9中显示的由触摸屏902提供的用户界面的详细展示。本发明的许多方面具体地包含在个人数字助手使用的软件输入屏面(或SIP)1100。
附图12与附图11类似,除了附图12还展示了当语音识别软件输入屏面正在显示一个修正窗口1200时的界面。
附图13到17连续展示了代码的详细描述的连续页,表现了语音识别软件输入屏面如何响应其图形用户界面上的各种不同的输入。为了简化的目的,这些代码是作为在响应用户输入的软件输入屏面程序的一个主循环1300而展示的。
在附图13至17中,这个事件循环被描述为具有二个主要的开关语句一个是附图13中的开关语句1301,无论修正窗口1200是否显示,开关语句1301对于用户界面上的输入响应都将被产生;以及一个附图15中的开关语句1542,1542只有当修正窗口1200显示时才会产生用户输入的响应。
如果用户按在附图11中示出的“Talk”按钮1102,图13中的功能块1302导致功能块1304至1308被运行。功能模块1304检测以了解在软件输入屏面缓冲中是否具有如附图11中的窗口1104中展示的文本。在附图中展示的软件输入屏面的实施方案中,软件输入屏面缓冲被设计为拥有相对小数量行的文本,软件输入平面的软件会保持声学输入的轨迹以及与每个单词的识别相关的最佳选择,和由这样的文本创建的语言的上下文关系。采用这样的文本缓冲是因为语音识别软件输入屏面经常没有关于附图11中的窗口1106中展示的远程应用中的本文的确认,在附图11中的窗口1106中之内,软件输入屏面在当前的光标1108在应用中的位置输出文本。在本发明的其它的实施方案中,可采用更大的软件输入屏面缓冲。在其他的实施方案中,本发明的许多方面会被作为一个不需要为输入文本使用软件输入屏面的独立的语音识别文本创造应用而使用。使用语音识别器作为软件输入屏面,可以为几乎任何运行于个人数字助手的应用程序提供输入。
回到附图13,因为Talk按钮1102被如同一个方法提供给用户,指示软件输入屏面,他正在新的文字段口述本文,所以功能块1304清除来自软件输入屏面缓冲1104的任何本文。因此,如果软件输入屏面的用户已经移动附图11的应用窗口1106的光标1108,他应该通过点击Talk按钮1102来开始下一段口述。
通过测试以明确是否语音识别系统当前在正确的状态,在附图13中的功能模块1306响应于Talk按钮的点击。如果是,它退出该状态,清除任何如附图12中展示的可能示出的修正窗口1200。
当修正窗口被显示、但是没有被选择以收到输入来自大部分主软件输入屏面的界面的按钮的输入时候,在附图中展示的软件输入屏面不是在修正模式下;当修正窗口被显示,并且被选择以收到来自于大多数主要的软件输入屏面的按钮的输入时,附图中展示的软件输入屏面是处于修正模式下。这一区别有设计的考虑,因为特别被显示的软件输入屏面可以被选择以运行在“一次一种模式”下,在这种模式下,单词被读出和被谨慎的识别,并且在该模式下,当每个单词被识别的时候,都显示修正窗口,从而是用户可以快速的看到选择清单或软件所提供的修正输入。在“一次一种模式”下,大部分形式的、并不明确的相关于作出修正的用户输入被用于执行附加功能,附加功能确认显示在当前选择列表中的第一选择是想得到的单词。当系统不是在“一次一种模式”下,修正窗口通常只在用户提出要求修正以前的输入时才被显示。在这种情况下,修正窗口的显示是在修正模式,因为它假设由于用户选择作出修正,大部分形式的输入都应该被导入修正窗口。
应该认识到,本系统中的“一次一种模式”的识别的价值,否则还需要加入用于切入或跳出修正系统的切换应用程序。
回到功能模块1306,功能模块1036除去任何的当前的修正窗口,因为按压Talk按钮1302就指示了一个开始新的口述的要求,而不是修正以前的口述。
附图13中的功能模块1308响应于Talk按钮的按压,该响应是藉由依照先前选择的、当前的识别持续模式导致软件输入屏面缓冲识别而开始的。这一识别不需要任何用于起始单词的先前的语言模型上下文关系就开始发生。优选的是,语言模型上下文关系来源于作为按压Talk按钮的响应识别的单词,并且语言模型上下文关系用于在这样的识别过程中提供用于识别第二个单词和其后单词的语言的上下文关系。
附图18示意性的展现了识别持续程序设计1800,作为对按压或点击可以被用于启动软件识别的软件输入屏面界面上的任何按钮的响应,识别持续程序设计1800使用户能选择不同的模式的激活语音识别,在所示的实施方案中,有许多的按钮,包括用于启动语音识别的Talk按钮。这使用户能选择识别的给定的模式,以及在该模式,通过点击一个按钮启动识别。
功能模块1802帮助决定附图18中的哪一个功能模块被运行,依赖当前的识别持续模式。识别持续模式可以在多种不同的方法下被设定,包括由默认设置设定和在图46中展示的功能模块菜单中的录入性能选项中的选项。
如果点击唯一的识别持续类型已经被选定,功能模块1804会造成功能模块1806和1808识别在按压语音按钮期间的语音发声。这一识别持续类型即简单又复杂,因为它使用户能控制识别长度,通过一个简单的规则识别在按压语音按钮时发生并且只在按压语音按钮时发生。优选的发声和/或发声检测的结束是在任何识别模式被使用的,以减少背景噪声被识别为发声的可能性。
如果当前的识别持续类型是按压和点击至发声结束类型,功能模块1810将会藉由在该次点击期间识别的语音,导致功能模块1812和1814回应一个语音按钮的按压。在这情况下,语音按钮的″按压″为长于给定的期间被定义为在比给定持续时间长的时间推一个如此的按钮,举例来说,比1秒钟的四分之一或三分之一长的时间。如果用户推一个语音按钮比较短的时段,推将会被当做″点击″,而不是″按压″,而且功能模块1816和1818将会开始识别的启动、从该点击的时候起直到发声检测的下一个结束。
按压和点击至对发声结束识别持续类型具有益处,使用一个按钮快速和简便的在两种模式之间选择,允许用户选择不同延时长度的识别的模式和只识别一个简单的发声的模式。
如果当前的识别持续类型是按压连续、点击不连续至发声结束类型,功能模块1820功能模块1822至1828被运行。如果语音按钮被点击,如以上刚刚定义的,功能模块1822和1824运行不连续识别直到发声的下一个结束。如果,另一方面,语音按钮被按压,如以上刚刚定义过的,只要语音按钮保持被按压,功能模块1826和1828执行连续的识别。
这一识别持续类型益处在于,它让用户很快地只在连续的和不连续的识别之间转变,藉由使用在一个给定的语音按钮上的按压的不同类型。在展示的软件输入屏面实施方案中,其它的识别持续类型在连续和不连续的识别之间不转变。
如果当前的识别持续类型是点击至超时的类型,功能模块1830造成功能模块1832到1840被运行。如果语音按钮被按,功能模块1833到1836通常从关闭到打开切换识别。功能模块1834回应点击,通过测试以明确是否语音识别现在是在打开。如果如此,而且如果正在被点击的语音按钮是除了改变词汇表的一个之外,它藉由关闭语音识别来回应点击。另一方面,如果当语音按钮被点击的时候,语音识别是关闭的,功能模块1836打开语音识别,直到经过一个超时持续期间。这个超时持续时间的长度可以由用户在图46所示的功能菜单4602中的录入性能选项中设置。如果语音按钮被按压超过一个给定的持续时间,如前所述,功能模块1838和1840会造成识别在按压期间开启,但当其结束时关闭。
这个识别持续类型提供一个快的和容易的方法给用户选择,并只用一个按钮在语音识别开和关之间切换,而且导致语音识别只有在语音按钮的按压期间被打开。
回到附图中13的功能模块1308,可以看到,选择不同的识别持续类型可以允许用户选择如何用Talk按钮和其他语音按钮开始识别。
如果用户选择在附图11中展示的Clear按钮1112,功能模块1309至1314清除任何修正窗口,修正窗口可以被显示以及清除软件输入缓冲中的上下文关系而不向操作系统文本输入发送任何删除。如前所述,在展示的语音软件输入屏面,在附图11中展示的软件输入屏面本文窗口被设计为存有相对小的本文。由于本文在软件输入屏面缓冲中被录入或编辑的,字符被供应给个人数字助手的操作系统,引起相应的在附图11中展示的应用窗口1006的本文的变化。Clear按钮使用户能够清除来自软件输入屏面缓冲的本文,防止它过负荷,而不引起对应的应用窗口的本文的删除。
在附图11中展示了Continue按钮1114,当用户想要口述一段连续的文本,或在如图11中的软件识别屏面缓冲1104中的当前位置插入文本时使用Continue按钮1114。当这一Continue按钮1114个按钮被按压的时候,功能模块1316引起功能模块1318至1330被运行。功能模块1318清除任何的修正窗口,因为按压Continue按钮指示出用户没有对使用修正窗口的兴趣。接下来,功能模块1132个测试,如果在软件输入屏面缓冲窗口中的当前光标有先前的语言上下文关系,该语言上下文关系能用来在预测第一个字的可能性或作为按压Continue按钮的结果的任何被识别发声的文字的可能性。如果如此,它引起语言上下文关系被使用。如果不是,而且如果现在没有软件输入屏面缓冲的本文,功能模块1326使用先前送入软件输入屏面缓冲中的、当Continue按钮启动识别开始时的语言上下文关系的最后的一个或更多的单词。接下来,功能模块1330启动软件输入屏面缓冲识别,也就是说,使用当前的识别持续模式,对文本的识别被输出至软件输入屏面缓冲的光标处。
如果用户选择附图中11展示的Backspace按钮1116,功能模块1132至功能模块1336被运行。功能模块1134检测是否软件输入屏面现在是在修正模式中。如果如此,它将退后送入修正窗口的过滤器编辑器之内。在附图12中展示了修正窗口1200。修正窗口包括第一选择窗口1202。如同下面将详细描述的,修正窗口界面允许用户选择和编辑在第一选择窗口的一个或更多的字符,作为过滤器的部分字符串,该过滤器的部分字符串标识一序列的属于想要的识别单词的初始字符。如果软件输入屏面是在修正模式中,按压后退将会从过滤器字符串和当前在第一选择窗口选择的字符中被删除,而且如果没有字符是这样选出,将会删除到过滤器光标1204的左边的字符。
如果软件输入屏面现在不是在修正模式中,功能模块1136将会回应Backspace按钮的按压,通过将退后字符送入软件输入屏面缓冲之内而且将相同的字符输出至操作系统,以便能对附图11中的应用窗口1106中的相应文本作出相同的变化。
如果用户选择在附图11中展示的New Paragraph按钮1118,图13中的功能模块1338至1342将退出修正模式,如果软件输入屏面现在是在修正模式,而且他们将会送入一个新的段落字符进软件输入屏面缓冲之内,而且提供对应的输出给操作系统。
如功能模块1344至1338所指示的,软件输入屏面回应Space按钮1120的用户选择,与它回应后退采取实质上同样的方式,也就是说,通过将它送入过滤器编辑器之内,如果软件输入屏面是在修正模式中,否则将其输出至软件输入屏面缓冲和操作系统。
如果用户选择Vocabulary Selection按钮1122至1132,如附图11中所示。附图13中的功能模块1350至1370,附图14中的功能模块1402至1416,根据当前的识别持续模式和对识别模式的其他设置,相应于所选择的按钮和在该模式下启动的语音识别,适当的识别模式词汇表会被设置至词汇表。
如果用户选择名字识别按钮1122,根据当前的识别持续期间设置和其他的适当的语音设置,功能模块1350和1356将当前模式的识别词汇表设置为名字词汇表并启动识别。通过包括名字和打词汇表按钮的所有的词汇表按钮,取决于软件识别屏面是否处于修正模式,这些功能模块将当前识别模式视为过滤器或软件识别屏面缓冲识别。这是因为其他的词汇按钮与作为输入适合定义过滤器字符串的字符序列的词汇有关的这些或为直接的录入录入软件输入屏面缓冲之内。然而,大的词汇表和名字词汇表,被认为不适合过滤器字符串编辑,以及,因此,在所揭示的实施方案中,当前的识别模式被认为是重复发声或软件输入屏面缓冲识别,依赖软件输入屏面是否是在修正模式中。在其他的实施方案中,名字和大的词汇识别可以被用于编辑多词过滤器。
除了与一个词汇按钮的按压有关的标准回应之外,如果AlphaBravo词汇表按钮被按压,功能模块1404至1406引起一连串的所有被国际通讯字母表(或ICA)使用的单词被展示,如同在附图40的数字4002中展示的。
如果用户选择在附图11中展示的连续的/不连续的识别按钮1134,附图14中的功能模块1418至1422被运行。这些在连续的识别模式之间的切换,使用连续语音声学模型而且允许多字识别候选项与给定的单一发声相匹配;以及,一个不连续的识别模式,使用不连续的识别声学模型而且只允许为单一发声识别单一词识别候选项。该功能模块也使用或不连续的或连续的识别开启语音识别,如同刚刚通过按压连续/不连续的按钮而被选择。
如果用户通过按压它选择功能键1110,功能模块1424和1426调用在附图46中展示的功能菜单4602。这一功能菜单允许用户从包括直接地从那些在附图11和12中展示的按钮可得的其他选项选择。
如果用户选择在附图11中展示的帮助按钮1136。附图14中的功能模块1432和1434调用帮助状态。
如附图19所示,当帮助模式被录入以回应帮助按钮的按压的时候,一个功能模块1902显示帮助窗口2000提供关于使用帮助模式的字母息,如附图20所举例。在帮助模式的后来的操作中,如果用户触摸部分的软件输入屏面界面,功能模块1904和1906显示具有关于被触摸部分的界面的字母息的帮助窗口,该帮助窗口持续被显示只要用户继续触摸。这在附图21中图解说明,用户已经用铁笔904按压修正窗口的过滤器按钮1218。作为回应,帮助窗口2100被显示以解释过滤器按钮的功能。如果在帮助模式期间用户双点击部分的显示屏,功能模块1908和1910显示帮助窗口,帮助窗口会持续显示直到用户按压另一部分的界面。这使用户能使用附图21中展示的帮助窗口中的卷轴卷标,从而滚动和阅读太大而不能一次显示在帮助窗口2102中的字母息。
虽然没有在附图19中显示出来,帮助窗口也具有按钮2100,对于保持按钮2100,用户可以拖曳从开始的按压的一部分的感兴趣的软件输入屏面用户界面,到同样选择以保持帮助窗口,直到触摸另一部分的软件输入屏面用户界面。
在最初录入帮助模式之后,当用户再一次碰触在附图11、20和21中展示的帮助按钮1136,功能模块1912和1914清除任何帮助窗口并退出帮助模式,关闭帮助按钮的突出显示。
如果用户在软件输入屏面缓冲上点选一个单词,附图14中的功能模块1438至1436使所选的词成为当前选项并调用展示在附图22中显示的选择列表程序,该列表程序具有作为当前选项的所点选的单词以及具有与所点选的单词相关的声学数据。
如附图22所示,显示选择列表程序与下列的参数一起被调用选择参数;过滤器字符串参数;过滤器范围参数;单词类型参数,和非选择列表标记。选择参数在软件输入屏面缓冲中指出本文,选择列表程序为该文本而被调用。过滤器字符串指示出一个序列的一个或更多字符,该字符指示出数据项,数据项定义一组一个或更多可能的拼写、预期的识别输出以该拼写开始。过滤器范围字符定义两个字符序列,该序列结合部分的字母表,预期输出落在该该字母表中。单词类型参数指示出预期的识别输出是某种类型,例如预期的文法类型。非选择列表标记指示一个列表的一个或更多的单词,用户的方式指示并非预期的单词。
如附图23所示,显示选择列表程序的功能模块2202调用得到选择程序。藉由过滤器字符串、过滤器范围参数,以及与选择参数相关的发声列表,显示选择列表程序通过过滤器范围参数被调用。
如附图24和25所示,发声列表2404存储一个或更多的被念出的声音表征,作为部分的预期的序列的一个或更多的与当前选项相关的单词。如前所述,当附图22中的功能模块2202调用得到选择程序时,如附图24所示,它放置一个声音部分2402的表征2400,当前选项的单词从声音部分2402被识别。如附图2所指示的,语音识别的过程相对于音频字母号的表达对声学模型时间安排。识别系统优选的存储这些时间安排,以致当所选的文本修正或回放是预期的,它可以从这样的时间安排找到相应的音频表达。
在附图24中,发声列表的第一个录入2004的是连续的发声2402的部分。本发明使用户能够把一个预期序列的另外一个或更多词的附加发声加入选择的说语列表,而且识别可以在所有这些发声一起实施,以加入正确的识别预期的输出的机会。如附图24所示,如此的附加发声能包括不连续的发声,例如录入2400A,连同连续的发声,例如录入2400B。每个额外的发声包含字母息,如数字2406和2408所指出的,即是否是连续或不连续的发声,以及口述的词汇表模式。
在附图24和25中,在发声列表中的发声的声学表征被展示为波形。应该认识到,在许多实施方案中,其他形式的声学表征会被使用,包括参数帧表征,例如附图1和2中展示的表征110。
附图25类似于附图24,除了附图25中的原始发声列表录入是不连续发声序列。附图25展示了附加发声录入可同样分别包括不连续或连续的发声,2500A和2500B,附加发声录入用于帮助修正最初的序列的一个或更多的不连续的发声。
如附图23所示,得到选择程序2300包括模块2302,功能模块2302检测以明确是否为选择已经有先前的识别为这一程序已经被调用以与当前的发声列表和过滤器赋值一起运行(即过滤器字符串和过滤器范围赋值)。如果如此,它导致功能模块2304以返回之前的识别的选择,因为当之前的识别作出的时候起就已经没有在识别参数方面的改变。
如果功能模块2302的测试不符合,功能模块2306测试以明确是否过滤器范围参数是无效的。如果它不是无效的,功能模块2308测试以明确是否过滤器范围比当前的过滤器字符串详细,并且,如果如此,它将过滤器字符串换成过滤器范围的公用图形符号。如果不是,功能模块2312无效过滤器范围,因为过滤器字符串包含它做的更为详细的字母息。
如同将会在下面被解释的,当用户在一个选择列表选择两个选项的时候,过滤器范围被选择,如同一个指示,即预期的识别输出在字母表中落在它们当中。当用户选择二个共享初始的图形符号的时候,功能模块2310导致过滤器字符串与那些被共享的图形符号一致。这被做,以便当选项列表被显示的时候,被共享的图形符号将会被指示给用户,作为符合预期输出的初始的参数的证明。
应该领会到,当用户运行指令来选择的新的过滤器范围或过滤器字符串,如果新选择的这二个参数的赋值矛盾,这二个参数中的旧的一个的赋值将会被无效。
如果有来自当前的发声列表的先前识别的任何候选项,功能模块2316导致功能模块2318和2320被运行。为每一个这样的先前识别的具有候选项的先前识别记分和当前过滤器定义的候选项功能模块2318调用一个在附图26中展示的过滤器匹配程序。而且功能模块2320删除那些被当作这样的调用的结果的、低于某个记分限值的、被返回的候选项。
如附图26所指出的,过滤器匹配程序2600在单词候选项之上运行过滤。在展示的发明实施方案中,这一个过滤器极端的灵活,因为它允许过滤器字符串、过滤器范围或单词类型定义过滤器。之所以灵活是因为它允许一个单词类型和过滤器字符串或过滤器范围详细说明的组合,并且由于它允许模糊过虑所以它也是有柔性的而且或过滤器字符串,否则过滤器排列规格,而且因为它允许模糊的过滤,包括模糊过滤器,在一个过滤器字符串的数据项不但关于他们的结合的参数的赋值是模糊的而且在其相关的字符序列的字符树是模糊的。
当我们说过滤器字符串或过滤器字符串的部分是模糊的时候,我们想表明许多的可能的字符序列可以被认为与它匹配。模糊的过滤是有价值的,尤其用于过滤器字符串输入时,虽然被可靠的识别,没有唯一定义一个单一的字符,例如模糊的电话键过滤了下面叙述的类型的情况、关于本发明的许多方面在行动电话的实施方案。
模糊的过滤对于不能被高度肯定的识别的过滤器字符串输入同样是有价值的,例如字面意义的名字的识别,特别是如果识别被不断地运行。在如此的情况下,不但有极大的可能性字符的序列的识别的最佳选项会包括一个或更多的错误,而且有合理的可能是在最佳记分的识别选项中识别的的字符的数量与念出的数量不一。但是拼全部或预期的输出的开始字符是输入过滤字母息的非常迅速的和直觉方法,尽管来自这样的识别的最佳选项经常是不正确的,特别是当口述的时候处于不利的环境时。
过滤器匹配程被每个个别的单词候选项调用。程序与单词的候选项的之前的识别记分一起被调用。如果任何的,或别的记分为1,程序返回一个识别记分,该识别记分与由于候选项匹配当前过滤器赋值的可能性被多次调用的记分相等。
过滤器匹配程序的功能模块2602至2606测试以明确是否单词类型参数已经被定义,并且,如果是这样并且单词候选项不是定义的单词类型,它从过滤器匹配功能模块返回记分0,这表明单词候选项显然与当前过滤器赋值不一致。
功能模块26082614测试以明确是否当前的赋值为过滤器范围被定义。如果如此,而且如果当前的单词候选项按字母顺序地是在开始和终止之间的过滤器范围的字,他们以不变的记分赋值返回,否则他们以记分赋值0返回。
功能模块2616决定是否有被定义的过滤器字符串。如果如此,它引起功能模块2618至2653被运行。功能模块2618设置当前的候选项字符为造成过滤器匹配被调用的单词候选项中的第一字符,一个将会被用于以下循环的变量。然后,循环2620被运行,直到过滤器字符串的结束被它的重复达成。这一个循环穿越包括功能模块2622至2651。
这一个循环的每个重复的第一个功能是第2622步骤的测试以决定过滤器字符串的下一数据项的性质。在展示的实施方案中,三种类型的过滤器字符串数据项被允许的非模糊的字符,模糊的字符,和一种表现一系列模糊的字符序列的模糊数据项,这可能是有不同长度的。
一个非模糊的字符清楚地标识字母表的字母或其他的字符,例如空格。它可以被任何形式的字母输入的非模糊的识别产生,但是它通常结合字母或ICA字识别、键盘输入或非模糊的电话使用中的电话键输入。仅通过收到被如非模糊的字符序列的识别的单一的最佳记分拼写输出,任何字母输入的识别能被当做非模糊的。
一个模糊的字符可以具有多个字母赋值,但是有一个明确的字符长度。如上所述,这一目标能基于一个电话的实施方案的按键的模糊按压而实现,或通过对语音或文字的字符识别而实现。这一目标也能通过连续的字面的名字的识别而实现,字面的名字中的所有最佳记分的字符序列拥有相同的字符长度的。
一种模糊的长度的数据项普遍结合连续的字面的名字的识别或手写识别的输出。它表现对于手写或口语的输入的多个的最佳记分文字序列,一些这样的序列能有不同的长度。
如果在过滤器字符串中的下一数据项是非模糊的字符,功能模块2644导致功能模块2626至2606被运行。功能模块2626测试以明确是否当前的候选项字符匹配当前的非模糊的字符。如果不匹配,对过滤器匹配的调用为当前的单词候选项返回记分0。如果匹配,功能模块2630增量当前的候选项字符的位置。
如果在过滤器字符串中的下一数据项是模糊的字符,功能模块2632导致功能模块2634至2636被运行。功能模块2634检测以明确是否当前的字符无法匹配模糊的字符的识别的赋值中的一个。如果匹配,功能模块2636从调用过滤器匹配返回记分0。否则,作为模糊字符匹配当前候选项字符的赋值的可能性的功能,功能模块2638至2642改变如匹配当前的单词候选项的记分,然后增量当前的候选项字符位置。
如果在过滤器字符串中的下一数据项是模糊长度的数据项,功能模块2644为每一个以模糊长度的数据项表现的字符序列运行循环2646。这一循环包括功能模块2648至2652。功能模块2648检测以明确是否在当前候选项字符位置具有匹配循环2646的当前字符序列的当前字符开始的匹配序列。如果有,作为表现为模糊长度数据项的识别的匹配序列的可能性的功能,功能模块2649转变单词候选项的记分,并且,通过在匹配模糊长度数据项序列的字符数量,功能模块2650加入当前位置的当前候选项字符。起始于当前的单词候选项字符位置,如果没有字符序列匹配与模糊长度的数据项结合的任何字符序列,功能模块2651和2652从过滤器匹配的调用返回记分0。
如果循环2620被完成,当前的单词候选项将会匹配整个的过滤器字符串。在这种情况下,功能模块2653从过滤器匹配返回由循环2620产生的当前单词的记分。
如果第2616步骤测试发现没有被定义的过滤器字符串,第2654步骤仅从过滤器匹配返回未改变的当前单词候选项记分。
现在回到附图23中的功能模块2318,可以看到,为每个单词候选项的过滤器匹配的调用会给候选项返回一个记分。这些记分用于确定在功能模块2320中删除哪个单词候选。
一旦实施删除,功能模块2322测试以明确是有在删除后剩下的先前的识别候选项的数量,如果有,功能模块2320低于预期数量的候选项。通常,这个预期数量会表现预期数量的用于选项列表的选项。如果先前识别候选项的数量低于这样的预期数量,功能模块2324至2336被运行。功能模块2324基于发声列表2400的一个或更多的录入中的每一个实施语音识别,如附图24和25所示。如功能模块2326和2328所指示的,这一识别过程包括一个测试以决定是否有发声列表中的连续和不连续的录入,并且,如果如此,将连续录入的识别中的可能的单词候选项的数量限制为相应于在一个或更多的不连续录入检测到的单独的发声的数量。如同展示在附图24和25中的连续或不连续的识别指示2406,依赖于每一个被接收时各自的模式是有效的,功能模块2324的识别也包括在具有连续或不连续识别的发声列表中辨别每个录入。如同2332所指示的,每个发声列表录入的识别也包括使用前述的过滤器匹配程序并使用为识别每一个这样的发声、在选择最佳记分的可收到的候选项的列表中的语言模型。在过滤器匹配程序中,展示在附图24和25中的、为最新近的发声列表中的发声的词汇表指示器2408被用作单词类型过滤器,以反映用户的任何指示,预期的单词序列被限制在来自特定词汇表的一个或更多的单词。所使用的语言模型是PolyGram语言模型,例如一个bigram或tigram语言模型,语言模型用于任何先前的用于帮助选择最佳记分的候选项的语言文本。
当一个或更多的发声列表中的录入的识别被运行后,如果在发声列表有多于一个录入,基于不同识别的记分的组合,功能模块2334和2336为发声列表选择一个最佳记分的识别候选项列表。应该领会到,在本发明的一些实施方案中,记分的组合可以被用于不同发声的识别,以便提高使用多个发声的识别的有效性。
如果被产生被功能模块2314至2336产生的识别候选项的数目少于预期的数目,并且如果有非无效过滤器字符串或过滤器范围定义,从结合发声列表中的最新近的录入的词汇表中,或如果发声列表中没有录入则从当前识别词汇表中,功能模块2338和2340使用过滤器匹配来选择预期数量的附加选项。
如果在得到选项程序运行到附图23中的功能模块2342时,在识别或当前词汇表中没有候选项,功能模块2344使用作为选项匹配当前过滤器字符串的最佳记分的字符序列,直至预期数目的选项。当过滤器字符串只包含非模糊的字符时候,只有匹配那些非模糊的字符的单一字符序列将会被选择为可能的选项。然而,过滤器字符串中有模糊字符和模糊长度的数据项,将会有许多这样的字符序列选项。而且,在那里,有模糊长度的数据项的模糊字符具有与不同相关序列的一个或更多的字符结合的不同的可能性,由功能模块2344产生的选项将会相应地被一个记分机制记分,如图26中展示的功能模块2616至2606。
当调用得到选项返回时,通过识别、通过依照过滤器的词汇表的选择、或可能的过滤器的选择而产生的一列表的选项通常会被返回。
现在回到附图22,当得到选项的调用在功能模块2202返回显示选项列表程序,功能模块2204测试以明确是否有任何过滤器为了当前选择而被定义,是否有任何发声加入了当前选择的发声列表,以及,是否导致显示选项列表被调用的选择不是在无选项列表中,该无选项列表包括一个列表的经用户指示不是预期的识别候选项的一个或更多的单词。如果这些条件匹配,功能模块2206为显示在修正窗口的第一选项作出选择,该程序创造选择。接下来,功能模块2210清除任何其他的从调用得到选择程序产生的包含在无选项列表中的候选项。然后,如果第一选项没有被功能模块2206选择,功能模块2212作出由得到选项调用返回的最佳记分的候选项,为接下来的修正窗口显示的第一选项。如果没有单一的最佳记分识别候选项,依字母顺序的次序能用来选择作为第一选项的候选项是。接下来,功能模块2218选择对应于过滤器字符串的第一选项的字符,如果有任何的,对于特别的显示。如同以下所描述的,在优先的实施方案中,符合非模糊的过滤器的第一选项的字符在一个方法中被指出,而且符合一个模糊的过滤器的第一选项的字符以不同的方式被指出,以便用户能理解哪个过滤器字符串部分符合哪个过滤器数据项类型。接下来,功能模块2220在不符合过滤器字符串的第一选项的第一个字符前放置一个过滤器光标。当有没有过滤器字符串被定义时,这一个光标将会在第一选项的第一个字符之前被放置。
接下来,功能块2222导致的2224步至2228步被实施,如果得到选项程序返回了除了当前第一选项之外的任何候选项。在这种情况下,功能模块2224从一系列这样的候选项的最佳记分创造出第一-字符-顺序选项列表,并且在修正窗口中一次全部示出。如果有更多的识别候选项,从所剩的最佳记分候选项中,功能模块2226和2228为所有这样的选项创造等于预置筛选数量第二-字符-顺序选项列表。
当所有这些已经完成,功能模块2230显示修正窗口,修正窗口展示当前的第一选项,允许任何或在过滤器中的字符的指示,当前的过滤器光标位置的指示,以及,第一选项的列表。在附图12中,由于当前没有任何过滤器被定义,第一选项1206被展示在第一选项窗口1202中,并且过滤器光标1204被展示在第一字符或第一选项之前。
应该领会到,显示选项列表程序可以与用于当前选择以及用于无相关发声的文本选择的无效值被调用。在这种情况下,藉由实施以功能模块2338和2340的操作为基础的单词完备化回应照字母次序的输入。为识别没有采用过滤或重复发声的发声允许选择选项,采用过滤和/或重复发声以帮助修正先前的识别,实施基于字母顺序的输入的单词完备化,以及,如果预期的,通过输入一个序列的发声,帮助这样的按字母顺序的完备化过程,以拼写出一个不是在当前的具有按字母顺序的输入的词汇表的单词,以混合和匹配不同形式的字母顺序的输入,包括非模糊的形式、关于字符模糊的形式、以及关于长度模糊的形式。
现在回到附图14,我们已经解释过功能模块1436和1438如何藉由调用显示选项列表回应在软件输入屏面点选一个单词,按顺序,引起修正窗口被显示,例如附图12中的修正窗口1200。通过仅在一个单词上点选,显示修正窗口和其相关的选项列表的能力为用户修正个别单词错误提供了一个快速的和方便的方法。
如果用户双击点选在软件输入屏面缓冲上的一个选择,功能模块1440至1444从当前应被显示的修正窗口跳出,并且开始软件输入屏面,依照当前的识别持续模式并使用当前的选择的当前语言上下文关系。识别持续逻辑响应于与这样的双击相关的按压的时间,以决定是否回应,如同为了如同附图18中描述的目的的按压或点击。任何这样的识别输出将会代替当前的选择。虽然不在附图中显示,如果用户在软件输入屏面缓冲的一个字上双击点选,它被当做为了功能模块1444的目的的当前选择。
如果用户在任何不包括本文的软件输入屏面缓冲的部分中点选,例如在单词之间或单词之前或在缓冲中的本文之后,功能模块1446引起功能模块1448到1452被运行。在点选的位置,功能模块1448个植入一个光标。如果点选位于在软件输入屏面缓冲中在本文之后的的任何点,光标将会在那一个缓冲的最后一个单词之后被放置。如果点选是双击点选,依照当前识别持续模式和其它的设置,在新的光标位置,功能模块1450 1452开始软件输入屏面缓冲识别,采用双击点选的第二次触碰延时来决定是否应作为按压或作为点击响应。
附图15是与上述的附图13和14相关的代码的延续。
如果用户拖曳在软件输入屏面缓冲中的一个或更多字的部分,功能模块1502和1504调用在上面被描述的与附图22相关的显示选择列表程序。所有的单词全部或部分的被拖曳作为当前选择,以及与识别相关的这些单词声学数据,如果任何,作为发声列表的第一录入。
如果用户拖曳经过在软件输入屏面缓冲中的个别单词的一个开始部分,功能模块1506和1508个调用显示选择列表功能,该单词作为选择、该单词被加入非选择列表、该拖曳的初始部分的单词作为过滤器字符串、以及与该单词相关的发声数据作为发声列表的第一录入。这个程序设计解释了一个事实,即用户拖曳经过一个单词的仅仅最初部分就如同一个指示,指示整个单词并非预期的选项,并且付诸实施,该单词被加入非选择列表。
如果用户拖曳经过一个软件输入屏面缓冲中的单词,功能模块1510和1512调用显示选项列表程序,该单词作为选择,将选择加入无选项列表,该单词的最初部分作为过滤器字符串,以及与所选单词相关的声学数据作为发声列表中的第一录入。
如果一个软件输入屏面缓冲有超过特定量的本文的指示被接收,功能1514和1516显示对用户的缓冲接近充满的一个警告。在被揭示的实施方案中,这一个警告告知用户缓冲将会自动地被清除,如果超过一个附加数量的字符被加入缓冲,并且要求用户查证当前在缓冲中的文本是正确的,以及按压谈话键或继续清除缓冲。
如果收到软件输入屏面缓冲已经收到本文输入的指示,功能模块1518引起的1502至1528步骤被运行。功能模块1520测试以明确是否当前光标在软件输入屏面缓冲的末尾。如果不是,功能模块1522对操作系统输出许多的后退其距离等于从软件输入屏面缓冲的最后字母到缓冲内的当前光标位置。接下来,功能模块1526引起本文输入,文本输入可能由一个或更多字符组成,在它的当前光标位置的被输出至软件输入屏面缓冲之内。第1527和1528步骤输出相同的本文序列和任何软件输入屏面缓冲中的其后的文本至操作系统的本文输入。
在识别的文本被馈送到操作系统之前,功能模块1522向操作系统馈送后退。同样,功能模块1528也向操作系统馈送任何接收的文本之后的文本,造成的对任何软件输入屏面缓冲中的文本的改变,响应于先前接收的被提供给应用窗口的文本也被做成在应用窗口中的该文本。
当新的软件输入屏面缓冲本文输入的指示被收到的时候,如果软件输入屏面程序是在一次-在-一个-时间模式,功能模块1536测试以明确是否响应于语音识别的文本输入已经被产生。如果如此,功能模块1537为识别的本文调用显示选项列表程序,而且功能模块1538关掉修正模式。通常,显示选择列表程序的调用将系统切换为修正模式,但是当一次-在-一个-时间模式被使用时,用功能模块1538阻止这一情况的发声。如同以上所述,这是因为在一次-在-一个-时间模式,修正窗口在每一次对单词发声的语音识别被运行的时候自动的显示,而且因此有一种较大的可能,用户希望最多对被使用的软件输入屏面界面的非修正窗口方面提供输入的目的,而不是在修正窗口中提供输入。另一方面,作为特别的用户输入的结果,修正窗口被显示表面要修正一个或更多的单词的愿望,进入修正模式后,某些非修正窗口中的输入将会被导入修正窗口。
功能模块1539测试以明确是否下列的一组条件是匹配的软件输入屏面是在一次-在-一个-时间模式,修正窗口被显示,但是系统不在修正模式中。这是在一次-在-一个-时间模式下,通常在每个单词的发声之后呈现的状态。如果所述的情况存在,为了导致该选项被作为本文输出被引入软件输入屏面缓冲和操作系统目的、为了顺序其后的一个或更多的单词更新当前的语言上下文关系的目的、为了提供在更新语言模型中使用的数据的目的、以及,为了向更新声学模型提供数据的目的,通过确定在修正窗口中的第一选项的识别,功能模块1540回应在附图13、14和15中的任何输入。这使用户能够确定先前在一次-在-一个-时间模式中单词的识别,通过任何一个或大量的也可以被用于提升识别过程输入。
应该领会到,如果用户是在一次-在-一个-时间模式中,而且产生了指示期望改正的显示在选择列表中的单词的输入,软件输入屏面将会被设置为修正模式,而且后来的输入在那一个模式的持续期间将不引起功能模块1540的运行。
在附图15中,功能模块1542指示了与当修正窗口被显示时的输入相关的软件输入屏面程序的主响应循环的开始部分。这部分扩展示附图15和附图16和17的全部。
如果在附图12中展示的修正窗口的跳出按钮1210被按压,功能模块1544和1546引起软件输入屏面程序退出修正窗口而不改变当前选择。
如果按压在附图12中展示的修正窗口的删除按钮1212。功能模块1548和1550删除当前在软件输入屏面缓冲中的选择并向操作系统发送输出,这引起在应用窗口中的任何文本的变化相应于软件输入屏面缓冲中的变化。
如果按压在附图12中展示的新建按钮1214,功能模块1552引起功能模块1553至1556被运行。功能模块1553删除相应于修正窗口的软件输入屏面缓冲的当前选择,以引起在应用窗口中的本文的对应的变化。功能模块1554对新的发声默认的组识别模式,通常是大的词汇表识别模式,而且能被用户设定为连续的或不连续的识别模式。功能模块1556使用当前的识别持续模式和其他的识别的设定开始软件输入屏面缓冲识别。依照上述的功能模块1518到1538的操作,软件输入屏面缓冲识别会给软件输入屏面缓冲提供输入。
附图16继续软件输入屏面程序的主循环响应在修正窗口的显示期间收到的输入的说明。
如果附图12中的那再-发声按钮1216被按压。功能模块1602导致功能模块1603至1610被运行。如果组软件输入屏面程序不在修正模式,功能模块1603将组软件输入屏面程序设置为修正模式。以上情况将会发声,如果修正窗口作为一次-在-一个-时间模式中的单词识别的结果已经展示,并且用户通过在修正窗口按压一个按钮,在这情况中是再-发声按钮,表明一种为修正目的使用修正窗口的意图。接下来,功能模块1604将当前识别模式设置为与再-发声识别结合的识别模式。然后,根据当前的再-发声识别持续模式河其他的识别设置,包括词汇表,功能模块1606接收一个或更多的发声。接下来,为了修正窗口选择,功能模块1608将一个或更多的由功能模块1606收到的发声加入发声列表,伴随着一个指示,表明在那些发声时的词汇表模式以及是连续或非连续识别在起作用。这造成了附图24和25中展示的发声列表2004具有了附加的发声。
然后功能模块1610调用附图22中的显示选项列表程序,如上文所描述的。按顺序,这将会调如上所述的附图23中的得到选择功能模块,而且将会引起功能模块2306至2336运行使用新的发声列表录入的再发声识别。
如果按压在附图12中展示的过滤按钮1218。附图16的功能模块1612引起功能模块1613至1620被运行,功能模块1613进入修正模式,并且,如果软件输入屏面当前不是处于修正模式,如上所述与功能模块1603相关的,功能模块1614检测以明确是否当前录入模式是语音识别模式,并且,如果当前录入模式是语音识别模式,根据当前过滤识别持续模式和设置,引起功能模块1616开始过滤识别。这造成任何这样的识别产生的输入被引导至当前过滤器字符串的光标处。另一方面,如果当前过滤器录入模式是非语音识别录入窗口模式,功能模块1618和1620调用合适的录入窗口。如同下面将被描述的,在所展示的本发明的实施方案中,这些非语音录入窗口模式对应于字符识别录入模式,手写识别录入模式和键盘录入模式。
如果用户按压附图12中展示的单词形式按钮1220,功能模块1622至1624引起软件输入屏面程序进入修正模式,如果当前软件输入屏面程序不是在修正模式,并且,引起附图27的列表程序中的单词为了当前第一选项单词被调用,直到用户给修正窗口提供输入造成修正窗口的重复显示,当前的第一选项通常会是一个选择,修正窗口为了该选择被调用。这意味着,通过在软件输入屏面缓冲选择一个或更多的单词,并且,通过在修正窗口按压单词形式按钮,用户可以为任何这样一个选择快速的选择一个列表的形式的候选。
附图25举例说明了单词形式列表程序的功能。如果修正窗口在它被调用时已经被显示,功能模块2702和2704将当前最佳选项作为选择,单词形式列表为该选择显示。如果当前的选择是一个单词,功能模块2706引起功能模块2708至2714运行。如果当前的选择有任何的同音异义字,功能模块2708把他们放在单词形式选择列表的开始。然后,第2710步骤发现所选择的单词的字根形式,而且功能模块2712为单词产生一连串的替换的文法的形式。然后在任何的同音异义字之后功能模块2714按字母顺序地将所有这些文法形式排序在选项列表中,同音异义字可以由功能模块2708被加入列表中。
在另一方面,如果选择由多个单词组成,功能模块2716引起功能模块2718至2728被运行。功能模块2718测试以明确是否选择具的单词中间有任何空格见。如果有,功能模块2720把选择的副本加入其单词中间没有空格的选项列表,并且功能模块2222加入空格被连字符代替的选择的副本。虽然没有在附图27中显示,附加的功能模块可以被运行来使用空格或省略空格替换连字符。如果选择具有服从于相同的拼写/非拼写的变换功能的多个数据项,2726把选择和所有的先前的选择变换的副本加入选项列表。举例来说,这将会把一系列的数字名字转变成一个数字的同等物,或把重复出现的单词”时期”转变成对应的标点标志。接下来,功能模块2728按字母顺序的排序选项列表。
一旦为一个单词或多个单词的选择的选项列表已经被产生,功能模块2730显示修正窗口,修正窗口展示作为第一选项的选择,过滤器光标在第一选项的开始,以及滚动选项列表和滚动列表。在一些实施方案中,选择是一个单一的单词,其过滤器具有单一序列的以其所有语法形式出现的字符,过滤器光标可以被置于该普通序列之后,该普通序列指示为非模糊的过滤器字符串。
在本发明的一些实施方案中,单词形式列表提供一个单一字母顺序排序的可选择的单词形式列表。在其他的实施方案中,选项能根据使用的频率被排序,或可能有按字母顺序的第一和第二选择列表,第一选项列表包含一组通常被选择的可以一次被装进修正窗口的可选形式,而且第二列表包含较少使用的单词形式。
如同将在下面示范的,单词形式列表提供一个非常迅速方法来修正非常普通类型的语音识别错误,即,第一选项时预期单词的同音异义字或第一选项是预期单词的候选语法形式。
如果用户按压在附图12中展示的大写按钮1222,功能模块1626至1628会进入修正模式,如果当前模式不是修正模式,而且会为修正窗口的当前第一选项调用大写循环功能模块。大写修正循环会引起一序列不都具有最初的大写的一个或更多的单词具备每个单词的最初的大写,会引起一序列的一个或更多的具有最初的大写的单词变成全部大写的形式,以及,会引起一序列的一个或更多的都具有大写的形式的单词变成较低格的形式。通过重复地按压大写按钮,用户能快速地在这些形式之间选择。
如果用户选择在附图12中展示的播放按钮1224,功能模块1630和1632导致在结合修正窗口的相关选项的发声列表的第一录入的音频回放,如果任何这样的录入存在的话。这使用户能够确切的地听到相关于被错误识别的序列的一个或更多的单词的发音。虽然没有示出,当修正窗口首先显示的时候,优先的实施方案使用户能够选择一个自动地引起这样的声音自动地被播放的设定。
如果按压在附图12中展示加入单词按钮1226,当它没有显示为灰色状态时,功能模块1634和1636调用一个对话框,该对话框允许用户键入当前第一选项单词进入现行的或后备的词汇表。在这一特别的软件输入屏面的识别器的实施方案中,系统以一个它的总词汇表的子集作为在使用大的词汇表模式的通常识别时的现行的词汇表。功能模块1636允许用户制造一个通常在现行的词汇表的后备词汇表部分中的单词。它也允许用户加入一个单词,该单词不在任何词汇表中,但是通过使被加入现行或后备词汇表的用字母输入,该单词在第一选项窗口被拼出。应该领会到,在具有较大硬件资源的本发明的其他的实施方案中,就不需要现行和后备词汇表的区别。
当第一的选择单词当前不是在现行的词汇中的时候,加入单词按钮1226只会在灰色的状态。这提供给用户一个指示,他或她可以把第一选择加入现行的或后备的词汇。
如果用户选择在附图12中展示的检查按钮1228,功能模块1638至1648清除当前的修正窗口并且向软件输入屏面输出其第一选项,以及向操作系统馈送一个序列的必要按键,从而在应用窗口作出相应修改。
如果用户点选在附图12中的修正窗口中展示的选项1230之一,功能模1650至1653除去当前的修正窗口,并且对软件输入屏面缓冲输出选项并向操作系统馈送一个序列的必要的按键,从而在应用窗口作出相应的修改。
如果用户点选在附图12中展示的其中一个编辑按钮1232,功能模块1654导致功能模块1656至1658被运行。如果系统当前不是在修正模式,功能模块1656使系统转入修正模式。功能模块1656使与点选的选项编辑按钮相关的按钮成为第一选项,并且成为当前过滤器字符串,然后功能模块1658调用具有新的过滤器字符串的显示选项列表。如同以下将描述的,这使用户能够选择单词选项或单词序列作为当前过滤器字符串,并且编辑该过滤器字符串,通常是通过删除与预期单词不一致的字符串的后部。
如果用户拖曳任何选项,包括第一选项的一个或更多的初始字符,如果当前系统不在修正模式的话,功能模块1664至1666变换系统至修正模式,而且用被拖曳的被加入到选项列表的选项以及用被拖曳的初始部分的选项作为过滤器字符串调用显示选项列表。这些功能允许用户指出,当前的选择不是预期的第一选项,而是被拖曳的初始部分的选项应该作为过滤器以帮助预期的选项。
附图17提供软件输入屏面识别器回应修正窗口的输入作出的功能列表的最后的延拓。
如果用户拖曳一个包括第一选项的选项的结尾,功能模块1702和1704使系统进入修正模式如果系统当前不是在修正模式,并且,用部分的被加入非选项列表的拖曳的选项和用作为过滤器字符串的未被拖曳的初始部分的选项,调用显示选项列表。
如果用户在选项列表拖曳两个选项,功能模块1706至1708使系统进入修正模式如果系统当前不在修正模式,并且,用于被加入非选项列表的两个选项和作为当前过滤器定义的开头和结尾单词,调用显示选项列表。
如果用户点选第一选项的字符之间,功能模块1710至1712使软件输入屏面进入修正模式如果软件输入屏面不是已经在修正模式,并且移动过滤器光标至点选的位置。在这一时间,没有任何对显示选项列表的调用,因为用户没有对过滤器作出任何变化。
在修正模式,如果用户通过按压Backspace按钮1116录入一个后退,如前关于附图13中的功能模块1334所述,功能模块1714引起功能模块1718至1720被运行。当后退被输入时,功能模块1718调用附图28和29中的过滤器编辑程序。
如同将要举例描述的关于附图28,过滤器编辑程序2800被设计为给用户在编辑结合非模糊、模糊和/或模糊长度的过滤器数据项的灵活性。
这一程序包括功能模块2802,用来检测以明确是否有任何字符在可以在过滤器光标的当前位置被调用选项中。如果如此,它引起功能模块2804定义程序通过其被调用的作为老过滤器字符串的过滤器字符串,而且功能模块2806在程序通过其在过滤器光标位置前被调用的选项中制造该字符,新的过滤器光标,以及所有的被非模糊定义的字符串中的字符。这使用户能定义任何部分的第一选项,因为编辑任务的位置被自动的确认为正确的过滤器字符。
接下来,功能模块2807测试以明确是否过滤器编辑部分通过其被调用的输入是后退。如果如此,它引起功能模块2808至2812被运行。如果过滤器光标是一个非选择光标,功能模块2808和2810删除新的过滤器字符串的最后一个字符。如果过滤器光标符合当前的第一选择的一个或更多字符的选择,这些字符已经不被前述的功能模块2806的操作包含在新过滤器之中。然后功能模块2812清除旧的过滤器字符串,因为当过滤器编辑的输入是退后,可以假设,没有任何部分的先前的对后退位置的权限的过滤被计划为过滤器的将来所包括的。这删除了任何可能以前作为过滤器光标位置的权利的过滤器字符串的模糊和非模糊的数据项。
如果过滤器编辑程序通过其被调用的输入是一个或更多的非模糊的字符,功能模块2814和2816为新的过滤器字符串的末尾加入一或更多的非模糊的字符。
如果过滤器编辑程序的输入是一个或更多固定长度的模糊字符的序列,功能模块2818和功能模块2820放置一个表现在新的过滤器结尾的序列中的每个模糊的字符的数据项。
如果过滤器编辑程序的输入是一种模糊长度的数据项,功能模块2822导致功能模块2824至2832被运行。功能模块2824选择结合模糊输入的最佳记分的字母序列,如果该序列被加入先前的非模糊部分的过滤器,该序列会符合全部或词汇单词的一个开始部分。应该记住,当这一个功能模块被运行的时候,新的过滤器字符串的所有之前的部分将会被前述的功能模块2806的操作确认,接下来,功能模块2826测试以明确是否有任何由功能模块2824选择的任何序列超过某一最小记分。如果如此,它将会导致功能模块2828选择最佳记分的独立于词汇表的字母序列。这样做是因为如果功能模块2826测试到的条件匹配,表明模糊过滤器被用来清楚地说明一个词汇表单词。接下来,功能模块2830和2832结合由功能模块2824至功能模块2824采用新的模糊的过滤器数据项选出的字符序列,它们将那个新的模糊过滤器数据项加入新的过滤器字符串的结尾。
然后,为旧的过滤器字符串中的每一个过滤器数据项运行循环2834。这一循环包含在附图28的剩余中展示的功能模块2836至2850以及在附图29中展示的功能模块2900至2922。
如果循环2834的当前的旧过滤器字符串数据项是模糊的、固定长度的数据项,该数据项延伸超过由功能模块2814至2820加入新的过滤器字符串的新的固定长的数据项,功能模块2836和2838将旧的数据项加入新的过滤器字符串的末尾如果它延伸超过那些新的数据项。这样做是因为编辑过滤器字符串而不是通过使用Backspace按钮并不删除先前录入的相应于部分先前的过滤器至新的编辑的右边的过滤器字母息。
如果循环2834的当前的旧的数据项是模糊的,固定长度数据,该数据项延伸超过一些通过功能模块2822至2832的操作被加入新的过滤器字符串的结尾的新的模糊长度的数据项,功能模块2840引起功能模块2842至2850被运行。为每一个被加入过滤器字符串的表现为新的模糊长度的数据项的字符序列,功能模块2842实施循环。为每个新的模糊长度的数据项的这样的字符序列运行的循环包括一个循环2844,循环2844是为与循环2834的当前的旧的模糊的固定长度一致的每个字符序列而运行的。这一内循环2844包括一功能模块2846,功能模块2846检测以明确是否旧的数据项匹配,以及是否旧的数据项延伸超过在新的数据项中的当前序列。如果如此,功能模块2848将相应于当前的序列的新的字符序列加入表现为新的模糊长度的数据项的字符序列列表,当前序列来自新的数据项加上部分的来自延伸超过来自新的数据项的当前序列的旧的数据项的序列。
如果当前的旧数据项是一种模糊长度数据项,包含延伸超过一种已经被加入到新的过滤器的新固定的长度数据项的任何字符序列,附图29中的功能模块2900导致功能模块2902至2910被运行。
功能模块2902是一个为被旧的模糊长度数据项表现的每个序列运行的循环。它由测试2904组成,检测以明确是否与来自旧的数据项的当前的序列与新的固定长度数据项匹配,而且延伸超过新的固定长度数据项。如果如此,功能模块2906产生新的字符序列,相应于来自延伸超过新数据项的旧数据项的延长。在这一个循环已经被完成之后,一个功能模块2908测试以明确是否任何的新序列已经被功能模块2906产生,而且,如果如此,他们导致功能模块2910加入新的模糊长度数据项至新的过滤器的末尾,在新的数据项之后。这个新的模糊长度数据项表现每个被功能2906产生的序列可能性。优选的是,可能性记分与每个这样的新的序列有关,新的序列以每个被循环2902发现了匹配当前的新固定的长度数据项的字符序列的相对的可能性记分为基础。
如果当前的旧数据项是一种模糊长度的数据项,有延伸超过新的模糊长度数据项的一些字符序列,功能模块2912导致功能模块2914至2920被运行。功能模块2914是一个被为新的模糊长度数据项的每个字符序列运行的循环。它由一个被为旧的模糊长度数据项的每个字符序列运行的内部循环2916组成。这一内部的循环由功能模块2918和2920组成,检测以明确是否来自旧的数据项的字符序列匹配而且延伸超过来自新的数据项的当前的字符序列。如果如此,他们结合新的模糊长度数据项,新的字符序列相应于加上来自当前的旧数据项字符序列的延伸的来自新的数据项的当前的序列。
一旦循环2834的所有功能的被完成,功能模块2924从调用的过滤器编辑返回、伴随已经被那一个调用产生的新过滤器字符串。
应该领会到,在本发明的许多的各种不同方面的实施方案中,不同的而且经常更简单的过滤器-编辑方案能被使用。但是,也应该领会到,附图中28和29中展示的过滤器编辑方案的主要优势在于,它使人能够很快地进入模糊过滤器,例如的通过连续字母识别,并且,然后藉着较可靠的照字母次序的录入模式编辑它,或甚至藉着随后的连续的字母识别编辑。举例来说,这一个方案会允许一个被连续的字母识别录入的过滤器全部或部分的被来自不连续字母识别、ICA单词识别或甚至手写识别的输入代替。在这一个方案之下,当用户编辑较早的部分的过滤器字符串,被包含在后面部分的过滤器字符串中的字母息不会被破坏,除非用户指出一个如此意图,这在展示的实施方案中是藉着使用后退字符。
现在回到附图17,当调用过滤器编辑的功能模块1718返回,功能模块1724为了选择调用显示选项列表,伴随由过滤器编辑调用返回的新的过滤器字符串。
无论何时,当过滤输入被接收,或者通过上述的附图16中的功能模块1612相关的响应过滤按键被按压的识别的结果,或者通过任何其他方式,功能模块1722至1738被实施。
功能模块1724测试以明确是否系统是在一次-在-一个-时间识别模式,以及,是否过滤器输入已经被语音识别产生。如果如此,它引起功能模块1726至1730被运行。功能模块1726测试以明确是否过滤器字符选择窗口是当前显示的,例如在附图39中展示的窗口3906。如果如此,功能模块1728关闭那个过滤器选项窗口,并且,功能模块1730调用过滤器编辑,伴随第一选项过滤器字符作为输入。这引起过滤器字符串的所有先前的字符被当做非模糊定义的过滤器序列。不管功能模块1726测试的结果,功能模块1732为新的过滤器输入调用过滤器编辑,过滤器输入引起功能模块1722和在它下面被列出的功能模块的运行。然后,功能模块1734对于当前的选择和新的过滤器字符串调用显示选择列表。然后,如果系统是在一次-在-一个-时间模式,功能模块1736和1738调用过滤器字符选项程序,伴随由过滤器编辑返回的过滤器字符串,以及,伴随着作为选择的过滤器字符的新识别的过滤器输入。
附图30举例说明过滤器字符选择子程序3000的操作。它包括功能模块3002,功能模块3002测试以明确是否程序由于其而被调用的选择的过滤器字符符合于具有多个最佳字符选项与其相关的当前过滤器字符串中的模糊字符或非模糊字符。如果是这种情形,功能模块3004设定和与那一个字符有关的所有字符相等的过滤器字符选择列表。如果字符的数量超过一次在过滤器字符选项列表上适合的数量,选项列表能滚动按钮使用户能够看见此外的字符。优选的是,选项在依字母顺序的次序中展示使它变得更易于用户到比较快速地为需要的字符扫描。附图30中的的过滤器字符选项程序也包括功能模块3006,功能模块3006测试以明确是否选择的过滤器字符符合在当前过滤器字符串中的模糊长度的过滤器字符串数据项。如果如此,它引起功能模块3008至3114被运行。功能模块3008测试以明确是否选择的过滤器字符是模糊的长度数据项的第一个字符。如果如此,功能模块3010将过滤器字符选项列表设置为相等于任何模糊的数据项相关的字符序列的所有第一个字符。如果选择的过滤器字符不符合模糊长度数的据项的第一字符,功能模块3012至3014将过滤器字符选择列表设定为等同于以模糊数据项为代表的任何字符序列中的所有字符,模糊数据项与当前第一选项中选择的过滤器字符以相同字符开始。一旦功能模块3002和3004或功能模块3006至3014已经产生一个过滤器字符选项列表,功能模块3016在一个窗口显示选项列表,例如在附图39中展示的窗口3906。
如果软件输入屏面程序收到用户在过滤器字符选项窗口的过滤器字符选择的的一个选择,功能模块1740导致功能模块1742至1746被运行。功能模块1742关闭这样的选择已经被作出的过滤器选择窗口。功能模块1744调用过滤器编辑功能,伴随在过滤器选项窗口中已被选择作为新的输入的字符的当前的过滤器字符串。然后功能模块1746调用显示选项列表程序,伴随新过滤器字符串被过滤器编辑返回。
如果向上拖曳从过滤器字符串的一个字符,在附图45的修正窗口4526和4538中展示的类型,功能模块1747导致功能模块1748至1750被运行。为已经被拖曳的字符,功能模块1748调用过滤器字符选择程序,这引起产生过滤器字符选项窗口如果有与那一个字符有关的任何其他的字符选项。如果在这一窗口的过滤器选项字符之上的拖曳被释放,功能模块1749产生被释放的过滤器字符选项的选择。这样,它引起以上刚刚描述的功能模块1740至1746的运行。如果被释放的拖曳在过滤器字符选项窗口的选项上,功能模块1750关闭过滤器选项窗口。
如果,再-发声被收到,而不是再-发声按钮被按压,如以上关于功能模块1602和1610的描述,例如通过在修正模式按压大词汇表按钮或名字词汇表按钮,如同上述功能模块1350、1356和1414,以及附图13和14中的功能模块1416,分别的,附图17中的功能模块1752导致功能模块1754和1756被运行。功能模块1754把任何的这样的新的发声加入修正窗口的选择发声列表,而且功能模块1756为了选择和实施再-识别使用新的发声语调用选项列表程序。
现在转到附图31至41,我们将会提供一个刚刚已经被描述的用户接口能如何用来口述本文的序列例证。在这一特别的序列中,界面被显示处于一次-在-一个-时间模式,该模式是一个不连续的识别模式,造成每一次不连续的发声被识别式具有选项列表的修正窗口都被显示。
在附图31中,数字3100指向个人数字助手屏幕的screenshot(荧屏的映像),该屏幕展示了用户点选Talk按钮1102从而开始新的语言学上下文的口述。加亮显示的大词汇表按钮1132表明,软件输入屏面识别器是在大词汇表模式中。连续/不连续按钮1134上的分开的点的序列表面识别器是在一个不连续的识别模式中。它被假定软件输入屏面是在附图18中的关于数字1810到1816的按压和点击至结束发声识别持续模式。作为结果,Talk按钮的点击导致识别发生直到下一个发声的结束。数字3102表现用户对单词″这″的发声。藉由把识别的本文3106放在软件输入屏面本文窗口1104,向应用窗口1106输出这一个本文,以及,通过显示一包括第一选项窗口1202中的识别的单词和第一选项列表1208的修正窗口1200,数字3104指向个人数字助手的荧屏的一个图像以回应这个发声。
在附图31的例子中,用户点选如数字的3108所指向的大写按钮1222。这导致个人数字助手荧屏具有3110指出的外表,在其中,在软件输入屏面缓冲和应用窗口的当前第一选项和本文输出被改变为具有大写的开始。
在例子中,用户点击Continue按钮1104被指向数字3102,读单词”是”指向数字3114。在例子中,假定这发声被错误的识别,当单词”它的”字导致个人数字助手荧屏具有由数字3116指向的显示,在该显示中,具有作为其第一选项3118的错误识别的单词和用于该识别1208的新的选项列表在新的修正窗口1200被显示。
附图32表现这一例子的继续,其中用户点击被数字3202指向的图像中的选项单词″是″3200。这导致个人数字助手荧屏具有藉着数字3204指示的外表,其中修正窗口被消除。并且修正的本文出现在软件输入屏面缓冲窗口和应用窗口中。
在由数字3206指向的screenshot中,展示用户点选字母名字词汇表按钮1130,当按钮1130被加亮的显示时,这将当前的识别模式换成字母名字词汇表。正如上面指出之的关于功能1410和1412,这一按钮的点选开始依照当前的识别持续模式的语音识别。这导致系统发声字母名字″e″的顺序识别,如数字3208所指向的。
为了要强调当前界面的很快修正识别错误的能力,例子假设系统错误的认识这一字母如字母″p″3211,如显示在一次-在-一个-模式中的在修正窗口所指示的发声3208的回应。如同3210指向的修正窗口中被见到的,正确的字母是″e″,然而,是在修正窗口中展示的选项之一。在被数字3214指向的修正窗口的视野中,用户在选项3212上点选,这导致个人数字助手荧屏显示被数字3216指向的外表,其中,正确的字母在软件输入屏面缓冲和应用窗口都被录入。
附图33举例说明这个例子的继续,用户在如被按钮11,024指向的screenshot所指出的标点词汇表按钮11,024上点选。这开始引起被数字的3300指向的”时期”那个字的发声的识别,这将识别词汇表换成标点词汇表,如加亮数字3302所指出引起被3304指向的修正在标点标志″。″在第一选项窗口跟随着标点标记名字被示出,用户易于识别。
因为,在例子中,这是正确的识别,用户确定它而且通过按压按钮1130开始使用字母名字词汇表的新的发声的识别,如screenshot数字3306所示,以及说字母的发声3308″l″。这一录入过程定期的被重复,直到个人数字助手荧屏具有数字3312显示的外表。此时,假定用户横拖曳本文″e。l。v。i。s。″,如screenshot3314所示,如引该文本被选择,并且,引起起在附图的上面左侧角落附近的screenshot3400的修正窗口1200被显示。因为假设选择的文本字符串不在当前的词汇表中,所以没有候补选项显示在这个选项列表中。在3402所指向的修正窗口的视野中,用户点选单词形式按钮1220,将调用上述的关于附图27的单词形式列表程序。既然选择的文本字符串包括空格,它被当做一个多-单词的选择,引起在附图27中举例展示的部分程序功能模块2716至2728被运行。这包括选项列表,例如包括由3404指向的选项3406,其中,空格已经被从修正窗口的选择清除。在例子中,用户点选最靠近选项3406的下一个编辑按钮1232。如被数字3410指向的修正窗口所展示,这引起选项3406被选择作为第一选项,如3412所指向的修正窗口所展示的。用户点选大写按钮,直到第一选项全部成为大写的,这时,修正窗口具有在screenshot3414指向的外表。此时,用户点击由3416指向的标点词汇表按钮1124,并且说出″逗点″3418指向的发声。在例子中,假定这发声语正确地被识别出,将引起被数字3420指向的修正窗口1200展示作为文本输出的先前的第一选项″e。l。v。i。s。″。
附图35是这一个例子的继续。其中,假设用户点击由数字3500指示的大的词汇表按钮,然后说出发声″the″3502。这引起修正窗口3504被显示。用户通过再次灾难性如3506所示大词汇表按钮,以及对3508指向的″embedded″发声,回应确认这一识别。在这个例子中,这引起修正窗口3510被显示,其中的发声被错误识别为“imbeded”,并且预期的单词没有被显示在第一选项列表中。此时开始,如同被意见3512指出的,许多不同的修正选项将会被举例说明。
附图36举例说明与错误的识别有关的第一和第二选项列表滚动的修正选项。在3604指向的修正窗口的视野中,展示用户点选修正窗口的滚动条3602中的下页滚动按钮3600,以引起第一选项列表3603被第二个选项列表的第一满屏代替,如修正窗口3606所示出。如同在该视野中展示的,修正窗口的滑动条3608向下移动至水平条3609下面,这在与第一选项列表的末尾结合的滚动条中定义位置。在例子中,预期单词不在按字母顺序地排序的第二选项的部分中,如在视野3606中展示的列表,而且用户如3610所示按压滚动条的下一页按钮,这导致修正窗口有在视野3612中展示的外表,其中一个新的屏满显示在按字母顺序列出的选项中。如同被3616指出的,在例子中,预期的单词“embedded”显示在这个选项列表中。在例子中,用户在一个如在3618指向的修正窗口的视野所显示的与这个预期选择有关的这个选项按钮3619上点击。这导致修正窗口具有3620指向的视野,其中这一选择在第一选项窗口中展示。在例子中,用户如数字3622指向点选大写化按钮,导致这第一选项具有如screenshot3624所显示的大写开始。
可以看到,软件输入屏面界面从在一相对地大量的识别选项之中提供一个迅速的方法允许用户选择。在展示的实施方案中,第一选项列表由最多六个选项组成,以及第二选项列表能包括最多额外的18个选项的最多三个额外荧屏。既然选择按字母顺序地被安排而且所有的四个荧屏在小于1秒内能被观看,这从在最多24个选择之中使用户能够非常快地选择。
附图37藉由横拖曳选项的一个开始部分举例说明过滤选择的方法,如同关于功能1664至1666已经在上面附图16中被描述。在这一个附图的例子中,假设第一选项列表包括在3700指向的修正窗口的视野中展示的选项3702,这包括预期单词的最初六个字符″embodded″。如同被展示在修正窗口3704中的,用户横拖曳这些开始的六字母,并且系统回应展示一个新的修正窗口限制以非模糊过滤器开始的识别候选项为六个字符,如同展示在screenshot3706。在这个screenshot中,预期单词是第一选择,而且最初6个非模糊确认的第一选择的字母如同加亮显示的框3708所示出,而且过滤器光标3710也被举例展示。
附图38藉由横拖曳2个选项列表中的选项,举例说明过滤选项的方法,如附图17中关于功能模块1706至1708描述的。在这一个例子中,当它按字母顺序地在二个展示的数字3802和3804之间发生的时候,修正窗口3800个显示预期选项″embodded″。如视野3806所示,用户指出预期的单词落入这一范围的字母排列,藉由横拖曳这二选项。这引起新的修正窗口被显示,其中可能的选项被限制到发生的字在挑选范围的字母表内,如screenshot3808所指出。在这一个例子中,假设预期的单词被如第一选项和由在3806展示的选择所引起的过滤结果选择。在这screenshot中,形成二个选项的开始部分的第一选项的部分在视野3806中选择的在被指出为非模糊确认的过滤器字符串3810的部分,并且过滤器光标3812被放置在确认了过滤器部分之后。
附图39举例说明一个方法,在该方法中,照字母次序的过滤被用于一次-在-一个-时间模式帮助选择预期单词选项。在这一个例子中,用户按压如修正窗口3900视野所示的过滤器按钮。假定默认过滤器词汇是字母名字词汇。按压过滤器按钮开始为下一个发声开始语音识别,并且用户读出字母″e″,如3902所指示的。这引起显示的修正窗口3904被显示,在该窗口中,假设过滤器字符被错误的识别为″p″。在展示的实施方案中,在一次-在-一一个-时间模式,照字母次序的输入也具有为它的识别显示的选项列表。在这种情况,它是一个类型如上述附图30中的过滤器字符选项子程序的过滤器字符选择列表的窗口3906。在例子中,用户选择预期的过滤字符,字母″e″,如3908所示,引起新的修正窗口3900被显示。在例子中,用户决定录入一个额外的过滤器字母,通过如3912所示的再次按压过滤器按钮,并且然后读出发声“m”3914。这引起修正窗口3916被显示,该窗口显示过滤器字符选项窗口3918。在这个修正窗口,过滤器字符串已经被正确的识别了,并且用户可以通过读出额外的过滤器字符或选择如窗口3916所示的正确字母。这一对预期过滤器字符的确认引起了新的修正窗口被显示,伴随过滤器字符“em”被视为非模糊的确认的过滤器字符串。在screenshot3920展示的例子中,这造成预期单词被识别。
附图40举例说明一个用AlphaBravo、ICA单词、或照字母次序的拼写来依照字母次序过滤的方法。在screenshot4000中,用户在AlphaBravo按钮1128上点选。这将字母换成ICA单词字母,如附图14中描述的功能模块1402至1408。在这一个例子中,假定Display_Alpha_On_Double_Click变数没有被设定。这样,当按压AlphaBravo按钮1128时,附图14中的功能模块1406会将列表的ICA单词4002显示在screenshot4004中。在例子中,用户录入ICA单词“echo”,字母″e″跟随着如4008所示的在AlphaBravo按钮之外的第二次按压,以及读出代表字母″m″的第二个ICA单词″Mike″。在例子中,这些二个照字母次序的过滤字符的输入成功地产生由预期的字母″em″组成、而且产生预期的单词“embodded”的识别的非模糊的过滤器字符串。
附图41举例说明一个方法,该方法中,用户选择部分的选项作为一个过滤器,并然后使用AlphaBravo拼写来完成不在系统的词汇中的字选择,在这情况下组成单词″embodded″。
在这一个例子中,用户与包括选项4100的修正窗口4100一起呈现,并且包括预期单词的最初六个字母。如修正窗口4104所示,用户拖曳这最初六个字母导致那些字母被非模糊的确认当前的过滤器字符串的字符。这造成一修正窗口4106。screenshot4108?展示修正窗口的显示内容,在其中,用户从过滤器按钮1218拖曳,并释放非连续/连续按钮1134,从不连续的过滤器口述模式转换到连续的过滤器口述模式,如同在screenshot4108展示的按钮上的连续线所示。在screenshot4110中,用户再一次按压alpha按钮,而且读出一个发声包含下列的ICA字″回声,三角州,回声,呈齿状起伏的山脉,探戈舞″。这导致当前的过滤器字符串符合预期的单词的拼写。因为没有词汇表中的单词匹配这过滤器字符串,如同在修正窗口4114中展示的,过滤器字符串本身变成第一选择。以所展示的窗口4116来看,用户在检查按钮上点选从而指出第一选项的选择,引起个人数字助手具有4108所示的显示。
附图42至44示范连续语音的口述,识别和修正。在screenshot4200中,用户点击关清楚按钮1112,如于附图13中所示的相关的功能模块1310至1314。这引起软件输入屏面缓冲1104中的文本被清除,而不引起任何在应用窗口1106中的相关文本的变化,如同screenshot4204所指示的。在screenshot4204中,用户点击连续/非连续按钮1134,这引起一个转变,从screenshot4002中的按钮所一序列的点变成连续线所指示的非连续识别的转变。这启动了依照当前识别模式的语音识别,并且如数字4206所指示的,用户读出下列单词的连续发声″largevocabulary interface system from voice signal technologies period″。系统通过识别此发声作出回应,并且在软件输入屏面缓冲1104放置识别的文本,并通过操作系统至应用窗口1106,如screenshot4208所示。由于识别的文本稍稍多于软件输入屏面窗口一次的容量,如数字4210所示,用户滚动软件输入屏面窗口,并且点选单词″vocabularies″4214,以引起附图14中的功能模块1436至1438选择该单词,并为其产生修正窗口。在回应中修正窗口4216展示。在例子中预期单词″vocabulary″4218是在这个修正窗口的选项列表上并且,在修正窗口4220的视野中,用户点选导致它被选择,这将会用那个选择的字代替在应用窗口中的软件输入屏面缓冲中的单词″vocabularies″。
现在继续说附图43,这一个修正被screenshot4300显示。在例子中,用户藉由横拖曳如4302的视野所指出的四个犯错的单词″enter faces men rum″选择这四个单词。这导致功能模块1502和1504显示具有作为选择的被拖曳的单词的选项窗口,如同被视野4304所示。
附图44举例说明展示在附图43的底部的修正窗口如何能通修正窗口的水平线和垂直的滚动以及在其中显示的选项的组合被修正。在附图中43中的数字4400指向在4304展示的相同窗口。在它里面是不但一个垂直的滚动条4602被展示而且有一个水平的滚动条4402在这视野之外。用户点选在垂直的滚动条的下一页按钮3006引起部分的选项列表被显示,从而从4400中展示的一页按字母顺序地排序的第一选项列表转到第二按字母顺序地排序的第一选项列表。在例子中没有一个识别候选项在这部分第二选项列表中用匹配预期的识别输出的字符序列开始,这是″界面系统从″因此用户如数字4408所指再一次点选下一页卷轴按钮3600。这导致修正窗口显示在4410展示的外表,其中两个被显示的选项4412开始以字符序列匹配预期的识别输出。为了要看看是否这些识别候选项的终止匹配了用户滚动在如4414所示的水平滚动条4402上的一个相似的单词预期的输出。这使用户看到,选项4418匹配预期的输出。同样地展示在4420,用户点选这一选项而且导致它被插入被口述的本文之内,如在screenshot4422展示的,被插入在软件输入屏面窗口1104中和在应用窗口1106中。
附图45举例说明被连续念出字母名字的识别产生的模糊过滤器的使用,以及被过滤器字符选择窗口编辑能用来快速地改正错误的口述。在这一个例子中,用户同样地按压显示在4500的Talk按钮1102,然后如4502所示读出”trouble”那个单词的发声。在例子中,假定这发声是过错误识别为如4504所示的”treble”。在例子中,用户在如3506所示的在”treble”上点选,引起修正窗口在4508被展示。因为当预期的单词不是展示为任何选项,即用户如4510所示点选过滤器按钮1218,并且作出包含预期单词”trouble”的每一字母的连续发声4512。在这一个例子中,它被假定过滤器识别模式被设定来包括连续的字母名字识别。
在例子中,系统藉由显示选项的列表4518回应发声4512的识别。在这一个例子中,一般假定这发声语的识别结果是引起产生包含那一种模糊长度的数据项的过滤器。当关于功能模块2644至2652已经在上面被描述之时,模糊长度的过滤器数据项允许在它的开始字符序列的对应部分被那种模糊的数据项表现的字符序列之一中包含的任何识别候选项。在修正窗口4518中,符合一种模糊的过滤器数据项的第一个选项的单词4519部分被模糊的过滤器指示器4520指出。因为过滤器使用一种模糊的数据项,选项列表显示包含最佳记分的识别候选项该候选项以不同字符序列开始,包括长度少于部分的第一选项的符合表现为模糊的数据项的字符序列。
在例子中,用户向上拖曳的第一选项的第一个字符,引起附图17中的功能模块1747至1750的操作。这导致过滤器选项窗口4526被显示。如修正窗口4524所示,用户拖曳预期字符字母并在该位置释放拖曳,引起功能模块1749和1740至1746被运行。这关闭过滤器选择窗口,调用加入作为如非模糊修正的选择的字符至先前模糊修正数据项的过滤器,并引起新的修正窗口伴随如4528所示的新的过滤器被显示。如这个修正窗口中所示,第一选项4530与为了其第一个字母″t″的非模糊过滤器指示器以及为其剩下字符的模糊过滤器指示器4534被显示。接下来,如同4536所示的同样的修正窗口所展示的,用户向上拖曳新的第一选项的第五字母″p″,引起新的修正窗口4538被显示。当用户释放在字符″p″上的这一个拖曳的时候导致被非模糊的定义在当前的过滤器中这的那一个字符和所有的在第一选项之前的字符在新的修正窗口4540中被指出,选择作为结果展示该窗口中的第一的选择4542是预期的单词,而且过滤器的非模糊部分被模糊的过滤器数据项的非模糊的过滤器指示器4544和剩余部分指出,通过功能2900至2910的操作,这停留在过滤器字符串中,如附图所示29。
附图46举例说明软件输入屏面识别器允许用户也输入文本和过滤信息,通过使用字符识别器类似于采用Windows CE操作系统的字符识别器。
如这一附图中的screenshot4600所示,如果用户向上拖曳附图14中的功能键功能模块1428和1430。它将会显示按压和菜单4608,并且如果用户在菜单的字符识别录入4604,在附图47中被描述的字符识别模式将会被打开。
如附图47所示,这导致功能模块4702显示字符识别窗口4608,如附图46中显示,然后录入一个被重复的输入循环4704,直到用户藉由选择在功能菜单4602上的另外输入选项选择退出窗口。当在这一个循环中时,如果用户碰触字符识别窗口,在碰触期间功能模块4906记录″ink″,这记录运动,如果任何碰触经过部分显示的表面、碰触相应于字符识别窗口的荧屏。如果用户释放这一窗口的碰触,功能模块4708至4714被运行。在当前窗口中,功能模块4710对″ink″实施字符识别。功能模块4712清除字符识别窗口,如附图46的数字4610所指出。而且功能模块4708对软件输入屏面缓冲和操作系统提供相应的识别的字符。
附图48举例说明当展示之时,如果用户选择展示在screenshot4600的功能菜单的手写识别选项,手写识别录入窗口4008将会与软件输入屏面共同展示在screenshot4802。
手写模式的操作被提供在附图49中。当这一个模式进入功能模块4902的时候显示手写识别窗口,然后进入一个循环4903直到用户选择使用另外的输入选项。在这一个循环中,如果用户然后在任何的地方中碰触手写识别窗口,除在附图48中展示的删除按钮4804,通过功能模块4904,如果碰触时有任何动作记录″ink″。如果用户碰触下图48展示的右键范围4806,功能模块4905导致功能模块4906直到4910被运行。功能模块4906先前运行任何的在手写识别窗口中录入″ink″上的手写识别。功能模块4908对软件输入屏面缓冲和操作系统提供识别的输出,而且功能模块4910清除识别窗口。如果用户按压那在附图48中展示的删除按钮4804。功能模块4912和4914清除识别窗口中的任何″ink。″
应该领会到,识别按钮4806的使用允许用户教导系统认识先前手写识别的″ink″以及开始要辨认出的新单词的写作。
附图50表示按键区5000,该按钮区也能从功能菜单被选择。
具有字符识别,手写识别和键盘输入方法快速有效,由于部分的语音识别软件输入屏面经常极端有利,因为它在不及一秒内使用户在这些不同的模式之间来回地切换,依靠这种方法这在当前的时间是方便的。而且它允许所有这些模式的输出被用于编辑软件输入屏面缓冲的本文。
如附图51所示,在软件输入屏面缓冲的一个实施方案中,如果用户拖曳过滤器按钮1218,窗口5100被显示,以提供可选择的过滤器录入模式选项给用户。这些包括使用字母-名字的语音识别,AlphaBravo语音识别,字符识别,手写识别,和键盘窗口的选项,作为其它可能方法替代录入过滤拼写。它也使用户能够选择任何一个语音识别模式是否是不连续的或连续的,而且字母名字识别字符识别和手写识别录入是否将在过滤器字符串中被当做那模糊的。这用户界面使用户能够很快地选择那一个适合当前的时间和地方的过滤器录入模式。举例来说,在一个安静的位置,一个人说话不会考虑对人们造成冒犯的地点,连续字母名字识别经常很有用。然而,在一个位置中,哪里有许多噪音,但是用户感觉语音不会是对邻居的冒犯,AlphaBravo识别可能是更适当的。在一个位置,例如一间图书馆中,那里语音可能是对其它沈默的人的冒犯,过滤器录入方法,例如字符识别,手写识别或键盘输入可能是更适当的。
附图52提供一个字符识别能如何很快地被选择到过滤识别的例子。5200展示了修正窗口的部分,在那里用户已经按压过滤器按钮而且拖曳上,引起在附图51中展示的过滤器录入模式菜单5100被显示,并然后选择字符识别选项。当在screenshot5202展示这之时,这引起要在一个允许用户见到整个的修正窗口的位置中展示字符识别录入窗口4608。在screenshot5202,用户写下字符″e″and当他从些字母″e″移开铁笔时,字母会被录入过滤器字符串,引起修正窗口5204被显示在示例中。用户然后同样地录入一个另外的字符″m″进5206所指的字符识别窗口,而且当他释放来他铁笔的书写的时候,字符″m″的识别导致过滤器字符串包括″e″,如同在5208显示的。
附图53以部分screenshot5300开始,在那里,用户已经点选而且从过滤器按键1218上挪开,引起过滤器录入模式菜单的显示,而且已经选择手写选项。这显示一个诸如5302的荧屏,具有一手写录入窗口4800显示在一个不阻塞修正窗口的视野位置。在screenshot5302中用户手写连续草书手写体字母的″embed″,然后按REC按钮,引起那些字符的识别。一旦他已经点选该按钮,显示在第一选项窗口的模糊的过滤器指示器5304指示一个模糊字符串,相关于识别的字符显示在修正窗口5306中。附图54展示用户如何使用一按键区窗口5000录入照字母次序的过滤数据。
附图55举例说明语音识别如何用来收集手写识别。Screenshot5500展示一个手写录入窗口4800为录入本文进到软件输入屏面缓冲窗口1104之内。在这个screenshot中用户刚刚才写完一个单词。数字5502至5510指出五个另外的手写单词。为了要引起之前写出的单词识别,视图中每个单词由触摸下″Rec″按钮开始。数字5512指向手写识别窗口,在那里,用户最后的点选″Rec″按钮以引起最后手写单词″speech″的识别。在附图55的例子中,在手写输入的序列已经被辨认出之后,应用窗口1106的软件输入屏面缓冲窗口1104具有之前5516所指的在screenshot5514中显示的外表。用户拖曳错误识别的单词″snackshower″,这引起修正窗口5518被显示。在例子中,用户点选再-发声按钮1216,并非连续的重复念预期的单词“much…slower”。藉着相关于附图23的稍微地修正版的“get”选项功能操作,引起来自识别发声5520的识别记分结合来自结合了数字5504所指的输入中的手写“Rec”的识别结果,并且5506选择最佳记分的识别候选项,在本例子中是如同数字5522所展示的预期单词。
也应该领会到,用户可以在修正窗口5518中按压新的按钮代替Re-add按钮,在这一情况中,发声5520应该使用语音识别的输出代替5516所展示的被选择的手写输出。
如附图56所指出,假如用户按压过滤器按钮1218代替修正窗口5518的再发声按钮,用户可能用已知单词的语音识别,例如在附图56中展示的发声5600,从而按字母顺序的过滤在附图55的5516中选择的手写识别。
附图57举例展示软件输入屏面语音识别界面的替代实施方案5700,其中有两个分开的顶部水平的按钮5702和5704,各自在不连续的和连续的语音识别之间选择。应该领会到,它是一个设计选择的问题,按钮被提供在语音认识用户界面的顶部水平。然而,与快速地在更迅速和更天然连续的语音识别之间切换的能力相比,更可靠的,虽然更多停顿而且慢的不连续的语音识别是可能是非常令人想要的,而且在一些实施方案中,证明了为了不连续和连续识别安置的分开的顶部水平的按键的选择。
附图58显示了显示选项列表在附图22中展示的程序一个替代实施方案。除了它创造单一的滚动的记分排序的选项列表,而不是附图22的程序产生的两个按字母顺序排序的选项列表。它的不同于被包含在附图22的语言的唯一部分被下面划线标识,除了功能模块2226和2228也已经在附图58中展示的程序版本中删除的事实例外。
附图67至74显示了对被用于各种不同的模式或被揭示的行动电话语音识别编辑器的菜单功能的一个基本的电话号码按键区的各种不同的映射。映射在附图76中的编辑器模式展示了主要的编了号码的电话按键。附图68展示了录入模式菜单的电话按键部分的,在编辑器模式,如果用户按一支按键,录入模式菜单被选择。录入模式菜单用来在系统中各种不同的本文和照字母次序的录入模式之中选择的。附图69显示的功能用于数字的电话按键,能藉由按″2″按键从编辑器模式导致显示修正窗口。附图70显示数字电话按键指令,按″3″按键选择编辑菜单得到附图67中的主要指令。这一菜单用来改变在藉由按电话按键区的导航按键被运行的导航功能。附图71举例说明藉由按″3″按键显示在修正窗口得到的导航选项的略微相似的修正导航菜单。除了变更导航的模式之外,当处于修正窗口的时候,当选项被选择的时候,它也允许用户改变被运行的功能。
附图72举例说明在按键Alpha模式的数字按键映射,其中一个具有字母的电话按键被按压,与之相关,会引起提示显示在移动电话显示屏上,询问用户说出结合按压的按键的结合预期的一组字母的ICA单词。当处于附图68所示的录入模式菜单时,这一模式由双击“3”电话按键被选择。
附图73展示一个基本的按键菜单,从在一组最通常的标点和被用于本文编辑的功能键之中允许用户快速地选择,或藉由按″1″按键见到一个允许比较不普遍使用过标点的选择标志的菜单。基本的按键菜单被藉由按″9″选择在附图67中举例的编辑器模式。附图74举例说明的编辑选项菜单是在藉由在附图67中展示的编辑器中按″0″被选择。这包含菜单允许用户运行与在其他模式或菜单中不可用的编辑器使用有关的基本任务。
在附图67至74中显示的在每一具电话顶端的数字按键映射是一个在行动电话的显示屏顶端展示的标题栏,菜单或指令列表显示在该显示屏。如同附图67、69和72展示的,标题栏中的字母″Cmds″表明显示的选项是部分的指令列表,附图68、70、71、73和74中的标题栏以“MENU”开头。这用来指出在附图67、69和72中展示指令列表之间的区别以及展示在其他附图中的菜单。当指令列表不显示的模式中,指令列表显示的指令是可用的。当在与附图67的指令列表有关的编辑器模式中,或与附图72有关的按键Alpha模式,即使电话按键有在那些附图中展示的功能映射,本文编辑器窗口将会正常地展示。通常,当在附图69中展示的与指令列表有关的修正窗口模式中,修正窗口被显示在移动电话显示屏。在所有的这些模式中,用户能进入指令列表,从而看到当在附图75中被举例的当前的电话按键映射,只通过按菜单按键,如同该附图的数字7500所指的。在附图75中展示的例子中,一个显示荧屏7502展示在菜单按钮按压前的编辑器模式的一个窗口。当用户按菜单按钮的时候,编辑器指令列表的第一页被如同7504所指的展示,用户然后具有在指令列表中上或下滚动的选项,从而明确不仅是指令与数字电话按键映射,″Talk″和″End″按键同样地显示在荧屏7506,而且导航按键“OK”和“Meny”也显示在屏幕7508和7510中,如果有与当前的模式联合的另外选项当指令列表被录入的时候,他们经由滚动加亮区7512而且使用″OK″按键也能从指令列表被选择。在附图75中展示的例子中,电话指示器7514具有普通电话听筒的形状,指示在每个标题栏的左边对用户指出行动电话现在是在一个电话中。在这种情况,额外的功能允许用户很快地选择将麦克风无声,只记录从电话交谈的用户边的声音和只回放用户边的电话交谈。
附图76至78提供比较详细的编辑器模式的功能的代码描述,对比被只在附图67和75中展示的指令项目表。这一代码被表现为输入循环7602,其中的编辑器回应各种不同的用户输入。
如果用户输入由数字7603指出的的导航指令之一,按压其中一个导航按键或说一个对应的导航指令,在它之下发明的如附图76中的功能被运行。
这些包括一个功能模块7604测试以明确是否编辑器现在是在字/线导航的模式中。这是编辑器中的最普通的导航模式,它可以通过在编辑器按压按键″3″两次从而快速的被选择。第一按压选择在附图70中展示的导航模式菜单,并且第二按压选择来自菜单的字/线导航模式。如果编辑器是在字-线的模式中,功能模块7606至7624被运行。
如果导航的输入是一个字-左边或字-右边的指令,功能模块7606导致功能7608至7617被运行。功能模块7608和7610测试以明确是否延伸的选择是开,而且如果如此,他们移动光标至一个单词左边或右边,分别地,而且把早先的选择延伸到那一个字。如果延伸的选择是不开,功能模块7612导致功能模块7614到7617被运行。功能模块7614和7615测试以明确是否之前的输入是一个单词左/右的不同方向的指令,而不是当前指令或是否当前指令会在文本末尾前或后放置光标。如果其中任何一种这些情况是真实的,光标被放置到左边或右边先前选择的单词之外,而且先前选择的字是任意选择的。如果功能模块7614的测试中的情况是不匹配的,功能7617将会移动光标一个单词到左边或右边离开它的现在位置,而且使该单词移动到当前选择。
功能模块7612至7617准许单词左边和单词右边的导航允许用户不但移动一个单词的光标而且如果需要的话,在每次移动选择当前的单词。它也使用户能够快速地在光标对应一个选择的单词或光标表现在一个先前选择的字之前或之后插入点的之间转变。
如果用户输入是是一条线上或一条线下指令,功能模块7620移动光标到线上或线下离当前的光标位置最近的单词,而且如果延伸的选择是开,功能模块7624延伸当前的选择至新的当前单词。
如数字7626所指出,编辑器也包括响应导航输入的程序设计,当编辑器是在其他导航模式中的时候,导航模式可以从附图70中展示编辑导航菜单中选择。
如果用户选择″OK″或藉由按压按钮或使用声音指令,功能模块7630测试以明确是否编辑器已经被调用录入本文进另外的一个程序设计之内,例如录入本文进网络文件的一个领域或一个对话框,而且如果如此,功能模块7632录入编辑器的当前上下文进入在该程序设计和返回的当前本文录入位置的其他的程序设计之内。如果测试7630不匹配,功能模块7634退出编辑器,为以后的可能的使用保存当前文本和状态。
当在编辑器中,如果用户按压Menu按钮,功能模块7638为编辑器指令调用显示菜单程序,引起为如附图75中展示的编辑器展示的指令列表。如上所述,这允许用户在一秒或二秒内为编辑器模式滚动经过所有的当前指令映射。当在编辑器中,如果用户双点击Menu按键,功能模块7642至7646调用显示菜单为编辑器展示指令列表,将识别词汇设定为编辑器的指令词汇,而且指令语音识别使用最后按压的双点击决定识别的持续时间。
如果用户持续的按压Menu按键,功能模块7650为编辑器录入帮助模式。这将会提供编辑器模式的功能一种快速的解释,而且允许用户探究编辑器的阶层的指令结构,通过按压其按键,以及具有为部分的阶层的指令结构的简短的解释,作为每一个这样的按键被按压的结果。
如果当在编辑器中,用户按Talk按钮,功能模块7654打开依照当前的识别设定的识别,包括词汇表和识别持续模式。Talk按钮将会经常被当作作为开始行动电话实施方案中的语音识别的主要按钮使用。
如果用户选择结束按钮,功能模块7658转到电话模式,例如很快地打或接一个电话。它存储编辑器的现在状态,以便当一个如此电话结束的时候,用户能返回它。
如附图77中显示,如果用户选择在附图68中举例描述的录入模式菜单,功能模块7702导致该菜单显示。同样地将会较细节的在下面被描述,这一菜单允许用户很快地在在口述模式之间选择,有些象在个人数字助手实施方案中的附图11中的按钮1122至1134。在展示的实施方案中,录入模式菜单结合″1″按键,因为″1″按键与谈话按键接近。这允许用户很快地转变口述模式然后继续使用Talk按钮口述。
如果用户选择″choice list″功能7706和7708来被设定修正窗口导航的模式为页/项目导航的模式,这对滚动和选择识别候选项选择最好的。他们然后能为当前的选择调用修正窗口程序,这导致修正窗口略微类似在附图12中展示的行动电话的荧屏显示的修正窗口1200。如果现在没有光标,修正窗口将会与一个空的选择一起调用。如果是这种情形,它能用来选择一个或更多的单词,使用照字母次序的输入,单词完成,及[或]附加的更多的发声。修正窗口程序将会在下面的较细节的被描述。
如果用户选择″filter choises″,例如通过双击″2″按键,功能模块7712至7716将修正窗口导航的模式设定为在一个第一选项或过滤器字符串中作为导航的单词/字符模式。他们对当前的选择调用修正窗口程序并且对双击的第二按压,如果第一按压已经被录入,如同为识别持续目的的语音按键。
在大多数的行动电话中,″2″按键通常直接地位于导航按键下面。这使用户能在编辑器中导航至预期单词或需要修正的单词,并随后单-按压附近的″2″按键,从而看到为选择的具有发声选项的修正窗口,或双击″2″按键并立即开始录入过滤信息以帮助识别器选择正确选择。
如果用户选择在附图70中展示的导航模式菜单,功能模块7720导致它被展示。如同将会在下面被更详细地描述的,这一个功能使用户能够改变藉由按左边和右边和上上下下的导航按钮完成的导航。为了要使这样的切换更容易,使导航的按钮被放在电话最高排按键之内。
如果用户选择不连续的识别输入,功能模块7724打开依照当前的词汇表的不连续的识别,使用按压和点击发声,而且发送持续模式作为当前的识别持续模式设定。这一个按钮被提供使用户能够很快地转变至对不连续的语音识别,每当预期的″1″按钮按压时。如同已经在以前被陈述的,不连续的识别倾向于实质上比连续识别更正确,虽然它更多的停顿。这指令按键的位置已经被选择为靠近Talk按钮和录入模式菜单按钮。因为不连续的识别按键的有效,正常地映射到Talk按钮的识别模式将会是连续的。一个如此设定允许用户藉由在按压Talk按钮和″4″按键之间改变在连续的和不连续识别之间转变。
如果用户藉由切换″5″按键选择选择开始或选择停止,功能模块7728切换被延长的选择开和关,依靠是否那一个模式现在是在开或关。然后功能模块7730测试以明确延伸的选择是否仅仅已经被关掉,如果如此,功能模块7732在当前的光标选择任何的除了一之外的先前选择。在被描述的实施方案中,″5″按键被因为它的接近导航的控制和″2″按键,为延伸的选择指令,因此作为提出修正窗口的按键。
如果用户选择选择所有的指令,例如双击按键″5″,功能模块7736选择当前的文件所有的本文。
如果系统现在没有在播放声音,如果用户选择″6″按键或任何一个现在现行的联合指令,能包括播放开始、播放停止或记录停止,功能模块7740测试以明确是否系统当前是在不播放音频。如果如此,功能模块7742在音频播放模式和音频播放关闭的模式之间切换。如果行动电话当前打一个电话并且播放在附图75中展示的只有对我7513选项是被设置为关闭的模式,功能模块7746从在电话线播放的音频发送至电话对话的其他端,同时至扬声器或耳机或移动电话自身。
如果,当″6″按钮被按压时候,另一方面系统正在记录的声音,功能模块7750关闭记录。
如果用户双点击″6″按键或录入一个记录指令,功能模块775将音频录音打开。然后功能模块7756测试以明确是否系统当前打一个电话,以及是否记录唯一的我设定7511被在附图中显示。如果如此,功能模块7758从来自电话线的另一边和电话麦克风或麦克风插座的输入记录声音。
如果用户双击″7″按键或其它的选择被以大写字母写的菜单指令,功能模块7762显示一个被以大写字母写的菜单,该菜单提供用户在全部后来引起录入本文的所有的小写字母、所有的开头大写、或全部以大写字母写的模式之间选择的选项。它也允许用户选择改变一个或更多的单词的当前选择,到所有的小写字母,全部首字母大写,或全部以大写字母写的形式。
如果用户双击″7″按键或选择大写循环按键,大写循环程序可以被调用一次或更多次以改变当前选择,改为所有首字母大写、所有都大写、或所有都小写的形式。
如果用户按″8″按键或其它的选择单词形式列表,功能模块7770调用如上面附图27所描述的单词形式列表程。
如果用户双点击″8″按键或选择单词类型指令,功能模块字7774显示单词形式菜单。单词键入菜单允许用户选择单词类型限制的如上面附图26描述的相关单词的在一个选择的字之上的过滤器匹配程序。在展示的实施方案中,这一菜单是一个阶层的菜单在附图91中显示其一般的形式,允许用户指定单词结束类型,如果有,包括单词开始类型,单词时态类型,单词部分语音类型和其他的单词类型,如此的如所有格或非所有的形式,单数的或复数的主格形式,单数的或复数的动词形式,拼写或非拼写形式和同音异义字。
如附图78所示,如果用户双击″9″按键或选择基本的按键菜单指令,功能模块7802显示在附图73中展示的基本菜单按键,允许用户选择标点之一的录入为标志或输入能从如本文输入的那一菜单被选择的字符。
如果用户双击″9″按键或者选择New Paragraph指令,功能模块7806录入一个新的段落字符进入编辑器的本文之内。
如果用户选择″*″为按键或跳出指令,功能模块7810到7824被运行。功能模块7810测试以明确是否编辑器已经被调用输入或在另一程序编辑文本,在这种情形,功能模块7812从调用到编辑器返回,伴随为插入该程序而编辑的文本。如果编辑器没有被要求如此的目的,功能模块7820用离开编辑器的选择、存储它的内容及[或]取消跳出提示用户。如果用户选择跳出,功能模块7822和7824跳出至上面描述关于附图63的顶极水平的电话模式。如果用户双击″*″按键或者选择任务列表功能,功能模块7828转到任务列表,同样地,双点击在大部分的行动电话中、操作模式和菜单中起作用。
如果用户按″0″按键或选择编辑选项菜单指令,功能模块7832是被编辑的被简短描述地关于附图74上面的选项菜单。如果用户双击″0″按键或者选择取消指令指令,如果有,功能模块7836取消那最后在编辑器中的指令。
如果用户按″#″按键或者选择那退后一格指令,功能模块7840测试以明确是否有一个当前的选择。如果如此,功能模块7842删除它。如果没有当前的选择而且如果当前的最小导航的单位是一个字符,单词或大纲项目,功能模块7846和7848通过那最小的当前导航单位向后地删除。
附图79和80举例说明由如在上面讨论的附图68中的录入模式菜单提供的选项。
当在这一菜单中,如果用户按压″1″按键或其它的选择大的词汇识别,功能7906至7914被运行。这些将识别词汇表设定为大的词汇表。他们为识别持续目的对待″1″的按压如一个语音按键的按压。如果一个修正窗口展示,他们也测试是否修正窗口被显示。如果如此,他们将识别模式设定为非连续的识别,基于假定以致于在一修正窗口中,用户需要更准确的非连续的识别。他们将任何的新发声或发声或在这一个模式中收到的发声加入上面描述的类型的发声列表,而且他们调用附图22的显示选项的列表程序,从而为任何收到的再发声显示一个新的修正窗口。
因为它是最通常的识别词汇,而且如此用户能容易地藉由从编辑器按″1″按键两次选择它,所以在展示的行动电话实施方案中,″1″按键为录入模式菜单的大词汇已经被选择。第一点击选择录入模式菜单,而且第二点击选择大的词汇识别。
如果当在录入模式中,用户按″2″按键,系统将会被设定成在上面被描述的类型字母-名字识别。如果用户双击该按键,当用户是在一修正窗口中的时候,录入模式菜单每次展示的时候,功能模块7926将识别词汇表设定为字母-名字的词汇表而且指出那识别的输出将被当做一个模糊的过滤器。在优选的实施方案中,用户有能力在与菜单的按键″9″有关的录入优先选择选项之下指出,是否如此的过滤器是被当做模糊长度的过滤器。默认值设定让这样的识别被当作模糊长度的连续的字母-名字的识别过滤器,并且固定的长度的模糊的过滤器回应不连续的字母-名字的识别。
当用户按″3″按键,识别被设定成AlphaBravo模式。如果用户双击″3″按键,识别当做在上面描述的相关于附图72的被设定成按键″Alpha″模式。这一个模式与AlphaBravo模式类似,除了按压数字按键″2″至″9″将会导致用户被提示与按压的按键上的字母有关的ICA字之一,并且识别将会支持从有限的一组ICA单词的识别,如此一致在相对极端的噪音情况之下甚至提供非常可靠的照字母次序的录入。
它用户按压″4″按键,词汇表被改变到数字词汇表。如果用户双点击″4″按键,系统将会藉由录入对应的数字进编辑器本文之内,从而回应按压数字电话按键。
如果用户按″5″按键,识别词汇被限制到一个标点词汇表。
如果用户按″6″按键,识别词汇对连络被限制在上面被描述的联系名字词汇表。
附图86举例说明在某些程度上关于附图72已经在上面被描述的按键Alpha模式。如附图86所指出,当这一记录被录入的时候,导航模式被设定成正常地与照字母次序的录入有关的单词/字符导航模式。然后功能模块8604复盖在它下面被与每个如此的按键一起指出的功能列出的按键。在这一个模式中,按压谈话按键打开有AlphaBravo词汇表的识别,依照当前的识别设定而且回应按键的按压依照当前的识别持续设定。″1″按键继续操作作为录入编辑模式以便用户能按它退出按键Alpha模式。按压数字电话音按键″2″至″9″导致功能模块8618直到8624在一个如此按压期间被运行,相应于电话按键的字母显示ICA单词的一个提示。这导致识别实质上支持那三或四个ICA单词之一的识别,它为按压的期间打开识别,以及它输出相应于识别的ICA单词的字母或进入编辑器的本文之内如果在编辑器模式中,或进入过滤器字符串如果在过滤器编辑模式中。
如果用户按压零按钮,功能模块8628进入一个回应任何电话按键的按压的按键标点模式,藉由显示一个所有标点标志的可滚动列表,该列表以与按键有关的一组字母中的一个开始,并且支持其中一个标点字的识别。
附图87表现和附图86相同的主要阿尔发模式的一个替补实施方案。除了在附图87中被下面划线的代码部分以外。在这一个模式中,如果用户按顶部的按钮,大的词汇表识别将会被打开,但是只有每个识别的单词的开始字母将会是输出,如功能模块8608A所指的。如功能模块8618A和8620A指出的,当用户按与它一起联合的一个电话按键有一组三或四个字母的时候,用户被提示说一个以预期的字母单词,并且识别词汇表实质上被限制到从按键的相关字母之一开始的单词,并且功能模块8624A输出对应于被识别的单词的初始字母。
在本发明的一些实施方案中,一个第三个按键Alpha模式能被用于有限的一组与每个Alpha字母结合的单词,并且在按键的按压期间,识别实质上被限制在对与按键的相关字母结合的一组单词之一的识别。在一些如此的实施方案中,一组五个或更少的单词会与每个如此的字母有关。
附图89和90表现一些在关心的选项菜单的可选的选项,选项藉在按编辑器和修正窗口模式中按压按钮0而被进入。在这一菜单中,如果用户按1按键,他得到如功能模块8902所指出的一个文件选项的菜单。如果用户按2按键,他得到一个编辑选项的菜单,例如通常的在大多数的编辑程序设计中如功能模块8904所指出的那些。如果用户按3按钮,功能模块8906显示相同的录入优先选择菜单,藉由上面描述关于附图68和79中的在录入模式菜单中按压9进入该菜单。
如果编辑选项菜单中用户按″4″按键,一个文本-至-语音或TTS菜单将会展示。在这一菜单中,″4″按键切换TTS播放的打开或关闭。如果这个按键切换TTS打开如果有一个当前的选择,功能模块8916和8918导致TTS读出选择,优选的是它藉着TTS或预先记录字的单词″选择″的读出,如果当TTS被切换的时候没有选择,TTS开始读出在当前的光标位置之上的当前的本文,直到当前的文件结束或用户的TTS除了在文件里面运动光标之外提供输入。当将会在下面被解释的关于附图99,当TTS模式是开的时候,为了要使系统功能性的实质部分能够不需要见到行动电话荧屏就能够被使用,音频提示和文本的TTS回放被提供给用户。
TTS子菜单也包括选项,允许用户播放当前的选择,每当他或她想要这么做如功能模块8924和8926和功能模块8928和8930所指出的,无论机器是处于TTS开或关的模式,允许用户到切换连续播放的开或关。如在编辑选项菜单中顶极-水平的选项在8932所指出,双点击″4″按键切换TTS开或关如同用户按″4″按键,然后等候TTS菜单展示并且然后再一次的按″4″按键。
编辑选项菜单中的″5″按键选择大纲菜单,包括许多功能,让用户在扩展和接触标题和大纲模式中导航。如果用户双击″5″按键,系统在完全地扩展和完全接触编辑器光标所在的当前大纲数据项之间切换。
如果用户选择″6″按键,而且声音菜单展示如一个子菜单,一些选项被显示在附图89和90的结合中的音频菜单项目8938中缩进。这个音频菜单包括由“1”选择的项目,该项目给用户对于音频导航速度最终控制,该控制由“6”按钮在附图84和70中的编辑现在菜单中的按钮提供。如果用户选择″2″按键,他或她将会见到一个允许用户调用单声音的回放设定的子菜,例如音量和加速以及是否识别的单词相关的声音将被播放,及[或]不需要相关识别的单词就记录声音。
附图90以上述在音频菜单下的按键″3″,″4″,″5″,″6″和″7″选择的项目开始,在附图89中以数字8938开始。如果用户按压按键“3”,识别的音频选项对话框9000将被显示,如数字9002至9014所示,给予用户选项以选择实施任何包含在编辑器中的当前选项的语音识别,识别所有当前文件中的音频,决定是否先前识别的音频要被阅读识别,以及设置参数以确定该识别质量,所需时间。如功能模块9012指出,这对话框提供用当前的质量设定以及当前工作的状态认识当前选择的估计,如果一个认识选择的任务现在进行。这一个对话框允许用户在相对大量的音频运行识别,例如背景任务或当一具电话没有为其他的目的使用的时候,包括被插入备用电源时。
如果用户在音频菜单选择″4″按键,用户被提供一个允许他选择删除来自当前的选择的特定的数据的子菜单。这包括允许用户选择删除不与识别的单词一起联合的所有声音,删除与识别的单词一起选择的所有声音,删除所有的声音,或删除来自预期的选择本文。删除来自识别的本文的识别的音频极大的减少与这些本文的储藏有关的内存并且是一件经常有用的事,一旦用户已经决定他不需要本文相关的声音来帮助他/她的决定它的有意的含义。从部分的媒体删除本文但是不删声音经常是有用的,本文已经被来自声音的语音识别产生,但是非常不准确所以几乎没用。
在声音的菜单中,″5″按键允许用户选择是否联合识别声音的本文已经被作记号,在一些实施方案中,例如藉由下面划线使用户知道如果如此的本文回放能用来帮助了解它或将会有从替补识别选项的声学的表现能被产生。按键″6″允许用户选择,是否识别音频是为了识别文本而保存。在许多实施方案中,即使识别音频的录音被关闭,该音频将为一些那最近最识别的单词首字母大写,以便它可用来修正回放的目的。
在音频菜单中,″7″按键选择一个抄写模式对话框。这导致对话框展示,允许用户选择设定被用于一个在下面被描述的94关于附图抄写模式。这是一个设计使用户容易藉由语音识别抄写事先录制的音频的模式。
如果用户按″8″按键,功能模块9036将会被运行,用当前的选择调用一个搜寻对话框,如果有任何的,如同搜寻字符串一样。如同将会在下面被举例描述的,如果需要,语音识别本文编辑器能用来录入不同的搜寻字符串。如果用户双击″8″按键,这将会被解释如一个再一次搜寻指令,该指令将会为先前录入的搜寻字符串搜寻。
如果用户选择编辑选项菜单的″9″按键,词汇表菜单展示,允许用户决定哪一单词在当前的词汇表中,在不同的词汇表之间选择,和把单词加入一个给定的词汇表。当在编辑选项菜单中,如果用户按压或双击″0″按钮,一个取消指令功能模块将会被运行。两倍的点击进入来自编辑选项菜单之内的取消指令功能模块,同样地,双点击″0″进入来自编辑器或修正窗口的取消指令功能模块。在编辑选项菜单中,连续敲击按键的操作如同重做按钮。
附图94举例说明TTS播放规则。这些是统治TTS操作的规则,当TTS已经通过在上面被描述附图89中的功能模块的8908到8932被选择。
当在TTS菜单中,如功已经通过“1”按键的操作打开TTS按键模式,如上面功能模块1909所指出,功能模块9404导致功能模块9406到9414被运行。这些功能模块使用户能够不需要看见他们就能够安全地选择电话按键,例如当用户正在驾驶一辆汽车或以别的方式忙着的时候。优选的是,对用于任何模式电话操作,这一模式对语音识别编辑器的操作没有限制。当任何的电话按键被按压的时候,功能模块9408测试以明确是否相同的按键已经在TTS按键时间内被按压,这是短时段,例如四分之一或三分之一秒。为这一测试的目的,从该按键的最后一次被释放到被再次按压的时间被测量。如果相同的按键没有在短时段内被按压,功能模块9410和9412将会导致对一个本文的发声,或在一些实施方案中记录音频的回放,说出按键的数字和其当前指令名字名字。只要用户持续按压按键,回应的声音就会继续。如果按键具有与其双点击相关的指令,它也将会被读出,如果用户继续足够久的按按键。如果功能模块9408测试发现的时间因为相同的按键的最后释放到按压比行动电话软件回应按压的功能模块9414的TTS的按键计时更少,包括任何的双点击,就如同TTS按键模式没有打开。
因此,可以看到,TTS按键模式允许用户通过碰触找到行动电话的按键,按压它来决定是否它是预期的按键,如果如此,很快地再按一次或更多次直到找到按键的预期功能。由于按压按键的由功能模块9410和9412回应的并不会导致除了它的相关功能模块的之外的任何回应,这一个模式允许用户不需要引起任何的不想要的结果就寻找预期的按键。
在一些行动电话实施方案中,行动电话按键被设计为他们仅被碰触而不推动声音反馈如同他们就是按键以及现在功能模块将会被通过,类似由功能模块9412提供的。这能被提供,举例来说,通过传导性的材料做的电话按键的材料,或通过有与那些按键分离的电话的其他部分产生电压,如果经过用户的身体传到到一个按键,就能被与按键有关的电路发现。这样的系统会提供一个甚至比较快速的方法给用户通过碰触寻找一支预期的按键,因为由于它用户可以收到反馈,例如哪个是他正在碰触的按键,通过在预期按键附近扫描在按键区上的一根手指。它也会允许用户快速地为需要的指令名字扫描,通过在连续的按键上同样地扫描他的手指,直到预期的指令被发现。
当TTS是开的时候,如果系统识别或收到指令输入,功能模块9416和9418引起TTS或记录的声音的回放以读出识别的指令名。优选的是,这样的指令的确认声音有一个相关的声音质量,例如不同音调或不同的相关声音的不同的形式,区别来自说出识别的本文的的指令单词的叙述。
当TTS是开的时候,当本文发声语被辨认出的时候,功能模块9420至9424能告诉发声的结束,和它的识别的完成,然后使用TTS说单词,该单词已经被识别发声的第一选项。
如功能模块9426直到9430所指出,TTS响应于在类似方式下过滤发声的识别。
当在TTS模式中,如果用户移动光标选择一个新的单词或字符的时候,功能模块9432到9438使用TTS说新选择的单词或字符。如果光标的这一运动是到一个新的单词或字符位置延伸一个已经开始的选择,在说出新的光标位置之后,功能模块9436和9438以指出它不是识别的文本的部分方式将会说”选择”那个单词,然后说当前选择的单词。如果用户移动光标是一个非选择光标,例如在上面被描述的关于附图76的功能模块7614和7615,附图94中的功能模块9440和9442使用TTS说光标位置旁边的两个单词。
当在TTS模式中,如果一个新的修正窗口展示,功能模块模块9444和9446使用TTS说修正窗口的第一选择,消除当前的过滤器,如果有过滤器,指出它的哪部分是非模糊的和它的哪部分是模糊的,然后使用TTS说现在显示的选项列表的部分每个候选项。因为速度的目的,它最好使用不同声调或声音来指示哪部分过滤器是绝对的或模糊的。
如果用户滚动修正窗口的一个项目,回应每个这样的滚动,功能模块模块9448和9450用TTS说现在加亮的选择和它的选择数字。如果用户滚动一修正窗口的页,功能模块模块9452和9454用TTS说新显示的选择和指出现在加亮的选项。
当在修正模式中,如果用户录入一个菜单,功能模块模块9456和9458使用TTS或者自由地记录音频从而说当前菜单的名字和在菜单中所有的选项以及他们的相关数,指出当前的选择位置。优选的是,完成所用音频指示用户所说单词是菜单选项。
如果用户向上或向下滚动一个菜单的一个项目,功能模块模块9460和9462使用TTS或预先记录的声音说被加亮的选项,然后,在简短的中止之后,说在现在显示的菜单页上的任何选择。
附图95举例说明被用于TTS的程序设计一些方面。如果TTS的要产生的一个单词是在语音识别程序设计的按照发音地拼写的单词词汇表中,功能模块9502导致功能模块9504至9512运行。功能模块9504测试以明确是否单词有以语音的不同部分相关的多样的语言拼写,以及是否使用TTS被设定的单词具有指示其当前部分语音的语言的上下文关系。如果两者的些情况被碰到,功能模块9506个使用语音识别程序设计的语音部分指出代码选择语音拼写,该语音拼写结合当前单词的在TTS产生中指示代码作为语音拼写的可能在部分语音中发现的部分语音。如果,另一方面,只有一个语音拼写结合了单词或没有充分的语音上下文来辨别为了单词的最可能部分,功能模块9510为单词或它的最通常的语言拼写选择单一语言的拼写。一旦一个语言的拼写已经为由功能模块9506或功能模块9510产生的单词被选择,功能模块9512使用为单词选择的语音拼写,作为被用于TTS产生的语音拼写。如果,如同在9514被指出的,被TTS产生的单词没有一个语音拼写,为了单词的TTS产生,功能模块9514和9516使用发音猜测软件,该软件被语音识别器使用,用来将语音拼写分配给名字名字和新录入的单词。
附图96描述能抄写模式的操作,该抄写模式可以由抄写模式对话框选择,该对话框在编辑选项菜单的音频菜单选项中是激活的,如上述附图90中结合数字“7”在附图89和90中展示的编辑选项菜单的音频菜单下。
当进入抄写模式的时候,功能模块9602通常地将导航模式换成一个回应左边和右边的导航按键输入的音频记录和向前和向后1秒回应向上或向下导航输入和导航向前的或向后的五秒的导航模式。这些是能在抄写模式对话框中改变的默认值。在这一模式的时候,如果用户按在编辑器中是按键″6″的播放按键,功能模块9606直到9614被运行。功能模块9607和9608切换播放的开和关。如果切换将播放打开,功能模块9610导致功能模块9612被运行。如果如此,如果已经没有声音的导航,自从最后一次声音被播放,功能模块9614开始回放最后的播放结尾前的一段设定的时间。这被运行,以便如果用户正在实施抄写,在最后的一个结束些微之前,每个连续的回放将会开始,如此用户将会能够认识只有部分地在之前的回放中被说的单词,而且通过能够查先前的语言上下文关系以便更好的使用户将语音声音翻译为单词。如果用户按播放按键超过指定的时段,例如三分之一秒,功能模块9616导致功能模块9618直到9622被运行。这些功能模块测试以明确是否播放是开的,而且如果因此他们把它关掉。他们也在按压期间打开大的词汇表识别,在或连续的或不连续的模式,依照当前设定。他们然后插入识别文本进入编辑器,在音频被被转录的最后的部分发生的位置。如果用户双点击播放按钮,功能模块9624和9626提示用户录音在抄写模式是不可用的,并且在增加的选项菜单下的音频菜单的转录模式被关掉。
应该看到,它的抄写模式准许用户交替播放部分先前记录的音频和然后转录它通过语音识别的使用通过只交替点击和持续的按压播放按键,该按键是数字″6″电话按键。用户自由的使用编辑器的另一个功能从而改正在转录程序期间在识别方面已经被犯的任何错误,然后通过再一次按″6″按键播放下一个片段被转录的声音从而回到它。当然,应该了解用户将会经常不想要实施字母抄写在音频之外。举例来说,用户可能重放电话的部分并且只抄写比较值得注目的部分一个摘要。
附图97举例说明编辑使用许多在上面描述的编辑器模式的特征程序设计的对话框的操作,使用户能够录入本文和其他的数据进一个在行动电话荧屏中展示的对话框之内。
当一个对话框首先被录入的时候,功能模块9702显示一编辑器窗口表现对话框的第一部分。如果对话框太大而无法一次在一个荧屏上展示,它将会在一可滚动的窗口中展示。如功能模块9704所指出,除了被功能模块9704至9726指出的之外,对话框同样地回应所有的上面描述的关于附图76至78的输入编辑器模式在。如在9707和9708所指出的,如果在一个对话框中用户导航输入的时候,光标运动的回应是在一个模式,该模式中,应该在编辑器中,除了它可以通常移动至一个控制,其中用户可提供输入。因此,如果用户移动一个单词的左边或右边,光标会向左或右边移动到下一个对话框控制,移动向上或向下一行如果必需的找一个如此控制。如果用户移动向上或向下一行,光标会移到当前的光标位置最近上一行或下一行。为了要使用户能够读不可能包含任何的控制的本文的延伸部分,正常地一个光标将不移动超过页即使在那距离里面没有控制。
如功能模块9700至9716所指出,如果光标已经被移到一个领域和用户提供任何一个会输入本文进编辑器之内的类型输入,功能模块9712为该领域显示一单独的编辑器窗口,如果有的话,这在那一个领域中显示当前本文。如果领域具有与它联合任何的词汇表限制,功能模块9714和9716限制编辑器的识别在那一个词汇表之内。举例来说,如果领域被限制说名字,识别在那一个领域中会有这么个限制。只要领域-编辑的窗口显示,功能模块9718将会指示所有的编辑器指令在它里面运行编辑。用户能藉由选择OK退出该领域-编辑窗口,这将会引起那时在窗口中的当前文本被录入对话框窗口的领域。
如果在对话框中的光标被移到选项的列表并且用户选择一个本文输入指令,功能模块9722显示修正窗口,在列表对话框中显示一个当前值,如第一选择,以及其他的提供在列表框中的选项作为其他可用的选项展示在滚动选项列表中。在这个特别的选项列表,可滚动的选项不但是可藉由选择一个联合的数字进入,而且可藉着使用限制于那些选项的一个词汇表的语音识别进入。
如果光标在一个检查框或一个收音机按钮中并且用户选择任何的编辑器本文输入指令,功能模块9724和9726改变检查框或收音机按钮的状态,藉由切换检查框或收音机按钮是否是选择的。
附图98举例说明一个帮助程序9800,该程序是行动电话实施方案在上面被附图19描述的帮助模式的类似的。当行动电话是在一个给定的状态或操作的模式中的时候,这一个帮助模式被调用的时候,功能模块9802显示一可滚动的为了状态的帮助菜单,该状态包括状态和可选的帮助选项列表的描述以及所有的状态的指令。附图99为在上面被描述关于附图67和76至78的编辑器模式显示一个这样的帮助菜单。附图100为在上面被描述的关于附图68和附图79至80的录入模式菜单举例说明一个如此帮助菜单,如同在附图99至100中显示的,每一个这些帮助菜单包括一个帮助选项选择,能经由可滚动的加亮区和帮助按键的操作被选择,将会允许用户很快地跳到帮助菜单和另一个的各种不同部分帮助相关的功能模块。每个帮助菜单也包括一个简短的陈述,9904,关于当前在行动电话的状态。每个帮助菜单也藉着电话按键包括可进入的可滚动又可选择的菜单9906列出所有的选项。它也包括一个允许用户存取其他的帮助功能模块的功能模块9908,包括描述该如何使用帮助功能模块和在一些情形关于可用的在当前的模式中的荧屏不同部分的功能模块的帮助。
如附图101所示,如果用户在编辑器模式中的作出在菜单按键上的持续的按压,如10100所指示的,为编辑器模式将会进入帮助模式,导致行动电话显示荧屏10102。这显示可选择的帮助选项,选项9902,而且显示如附图99所示的另一个模式9900的操作简短描述的开始。如果用户按行动电话的右箭头按键,该按钮作为页右按钮运行,因为,在帮助模式中,导航的模式是页/线导航模式如在荧屏1102中展示的″<P^L″字符所指,显示将会滚动下一页如荧屏10104所指出的。如果用户再一次按页权利按键,荧屏将再一次会滚动下一页,导致荧屏显示如10106所示。在这一个例子中,仅通过双点击页右按键,用户已经能够阅读附图99中的数字99展示的编辑器模式9904的功能模块的摘要。
如screen shot10108所示,如果用户再一次按页右按键导致荧屏滚动下一页,与编辑器模式有关的指令列表的开始可以被看到。如果有需要的话,用户能使用导航按键滚动整个长度的帮助菜单。在展示的例子中,当用户找到与录入模式菜单有关的按键的数字的时候,如10110所示,他按压该按键以引起帮助模式显示与录入模式菜单相关的帮助菜单,如荧屏10112所示。
应该领会到,每当用户是在一个帮助菜单中,他能立刻选择在附图99中展示的“selected by key”行9910之下被列出的指令。因此,为了按压与列出的指令相关的按键并看到其功能,不需要用户向下滚动指令被列在其中的部分的帮助菜单。事实上,一用户认为他了解与按键有关的功能模块,可只使菜单按键被维持的按压然后键入预期的按键,从而见到它的功能模块一种简短解释和一连串的可用的指令在它之下。
在附图99至100中展示的″select by OK″行9912之下列出指令,这些指令必须通过将加亮区滚动到菜单中的指令行并通过使用OK指令选择。因为在9912行下面列出的指令与被用于帮助菜单本身的操作按键有关。这类似于被列出在附图75中的荧屏7506中的编辑器模式的指令列表中的指令,也是唯一的可通过指令列表中的OK指令的选择选出的。
在附图101的例子中,假设用户知道录入优先选择菜单能被藉由在录入模式菜单按压按键″9″选择,而且按压该按键的同时他进入录入模式菜单的帮助,如10114所示。如10116举例展示的,这为录入优先选择菜单引起帮助菜单被显示。
在例子中,用户按压按键″1″跟着按压。按键″1″为口述默认选项简短地调用帮助菜单,并且escape按键在该位置返回录入优先选择菜单以及与录入优先选择菜单结合的菜单,如荧屏10118所示。如此的跟着选择escape按键,只藉由按压部分的指令和列表跟着一个escape的指令的数字,允许用户快速地导航到帮助菜单的预期的部分指令列表。
在例子中,用户如10120所示按压页右按键从而滚动指令列表的下一页如荧屏1122所示。在例子中,它被假定用户选择与″5″有关按键的选项,藉由按压该按键,如10124所示,从而获得按压连续的点击不连续的至发声选项的描述。这为该选项引起一个帮助菜单的显示,如荧屏10126所示。在例子中,用户滚动下来另外二个荧屏来阅读这选项的功能模块简短描述,并然后按escape按键,如10128所示,为如荧屏所10130显示的录入优先选择菜单返回帮助菜单。
如附图102所示,在例子中,当用户返回为录入优先选择菜单的帮助的时候,他或她选择″4″按键,如数字10200所示,引起了为During Press和Click的发声和选项的帮助菜单,如荧屏10202所示。用户然后滚动下来另外二个荧屏从而为这一个模式阅读足够说明来了解它的功能然后,如10204所示,为录入优选选择菜单跳出退回到帮助,如荧屏10206所示。用户然后再一次按压escape回到帮助菜单,从那里,录入优先选择菜单已经被调用,录入模式菜单的帮助如荧屏10210所显示。用户然后再一次按压escape回到帮助菜单,从那里,录入优先选择菜单的帮助已经被取消,编辑器模式的帮助如荧屏10214所显示。
在例子中,假定用户按页右按键六次从而滚动下来到底部的部分,9908,在附图99中显示对于编辑器模式的帮助菜单。如果用户需要他能使用一个放置指令更快速的进入帮助菜单的这部分的选项。一旦在帮助菜单的″other help″部分之中,用户当做显示按压向下一行按钮,如10220所示,从而选择编辑器荧屏选项10224,如荧屏10222所示。此时,用户选择OK按钮为编辑器荧屏本身引起帮助显示,如荧屏10228所示。在这一个荧屏展示的模式中,主要的电话按键成员指示器10230用来标识部分的编辑器荧屏。如果用户按压其中一个这些相关的电话号码,荧屏的对应部分的描述将会展示。在附图102的例子中,用户按″4″按键,引起一个编辑器帮助荧屏10234被显示,这描述导航模式指示器的功能″<W^L″展示于编辑器的顶端荧屏的帮助荧屏10228。
在例子中,用户按escape按键三次,如10236所示。第一个的这些escape从荧屏10234回到到荧屏10228,给用户选项来选择其它的所描述的荧屏的数字选项的解释。在例子中,用户对这些其它的选项并不感兴趣,而且因此第一个escape的按压跟着另两个快速的按压,这两个快速按压中的第一个escape为编辑器模式回到帮助菜单,并且其中的第二个escape回到编辑器模式本身。
在附图101和102中可以看到,帮助菜单的阶层操作使用户能够快速地探究在行动电话上的指令结构。能被用于寻找一个运行预期的功能模块的指令,或只学习线性次序的指令结构。
附图103至104描述一个例子,用户在编辑器模式中连续口述一些语音,然后使用编辑器的界面修改产生的本文输出。
在附图103中的序列以用户作出持续按压对话按钮开始,如10300所示,这期间,他说出发声10302。这造成该发声的识别,在例子中,引起在编辑器的本文窗口10305中展示在荧屏10304中展示的本文。数字10306指向的光标位置位于这个识别的本文的末尾,是在连续的口述末尾的一个非选择光标。
假定系统已经被设定在一个模式,该模式将会引起使用连续的大词汇表语音识别的发声被识别。这被在荧屏10304中展示的编辑器窗口的标题栏中的字符″_LV″10306指出。
在例子中,用户按压按键″3″进入附加的导航菜单,在附图70和84中举例所示。然后按″1″按钮选择在那些图中展示的发声选项。这使光标相应于为最近的发声的所识别文本的第一个单词,如10308在荧屏10310中所示。下一个,用户双击″7″按键选择被以大写字母写的周期功能模块,如附图77所示。这引起所选单词被以大写字母显示,如10312所示。
然后,用户按压右按钮,它在当前的单词/行导航模式中,被导航模式指示器10314指出,作为一个单词右按钮运行。这导致光标移到下一个单词至右边,10316。然后用户按压″5″按键将编辑器设定为一个延伸的选择模式,如附图77中的功能模块7728至7732所示。然后用户再一次按压单词右,导致光标移到单词10318和延伸的选择10320以包括本文″got it″。
然后,用户按″2″按键选择附图77的选项列表指令,引起一要为选择10320为第一选择显示修正窗口10322,第一按字母顺序地排序的选项列表显示在10324。在该选项列表中,每个选择与一个能用来选择它的相关电话按键数字一起显示。
在例子中,一般假定预期的选择不在第一选择列表中显示,因此,用户按字母顺序地按压右按键三次来滚动下来到第二字母排序的选项列表的第三荧屏,在10328显示,在其中,预期的单词″product″被定位。
如附图77的功能模块7706所指出,当用户通过选项列表的单一按压进入修正窗口的时候,修正窗口的导航被设置为页/项目的导航的模式,如同在荧屏10332中展示的导航模式指示器10326指出。
在例子中,用户按″6″按键选择预期的选项,这导致它在光标选择的位置被插入编辑器的本文窗口之内,导致编辑器本文窗口出现如10330所示的显示。
然后,用户按单词右按键三次把光标放在位置10332。在这情况,识别的单词是″results″,而且一个预期的单词是单数形式的该单词″result″因为这一个理由,用户按单词形式列表按钮,这引起单词形式列表修正窗口10334被展示,这有那需要如它的显示选择之一的替代形式。用户数据藉由按它的相关电话按键选择预期的选项,导致编辑器的本文窗口显示如10336所示。
如附图104所示,用户然后按压行向下按钮移动光标向下到位置1400。用户然后按″5″按键开始一个延伸的选择而且按单词按键来移动光标右的一个单词到位置10402,引起当前选择10404向右延伸一个单词。
接下来,用户双击″2″按键选择过滤器选择选项,如附图77中的功能模块7712至7716在上面被描述的。按键″2″的第二点击是延伸的点击,如向下的箭头10406。在这一延伸的按压的时候,用户连续发声字母字符串,″p,a,i,n,s,t,″这是预期的单词″painstaking″的起始字母。
在例子中,假定修正窗口是在连续的字母中名字识别模式,如字符的″_abc″在修正的标题栏10412中所指出的。
在例子中,作为过滤器输入的发声10408的识别导致修正窗口10412显示一系列选项,这些选项具有已经被过滤器对模糊过滤的长度,相应于来自字母名字名字的连续读出的字符串识别的识别结果。修正窗口有第一选择,10414,开始于与模糊的过滤器数据项有关的字符序列之一。相应于一序列的结合模糊过滤器的字符的第一选项部分被模糊过滤器指示器10416指出。过滤器光标,10418,位于在第一选择的这部分的末尾之后。
此时,用户按单词权利按键,由于附图81的功能模块8124和8126的操作,导致一个过滤器光标被移动到并且选择当前的单词第一个字符,10420。附图81的功能模块8151和8162引起过滤器字符选项窗口10422被显示。既然预期的字符是″p″,用户按压按键″7″选择它,导致那个字符被作为过滤器字符串的非模糊字符,而且引起一新的修正窗口10424展示作为改变过滤器的结果的显示。
然后,用户按字符向下按钮四次,由于附图81中功能模块8150的操作,导致过滤器光标的选择在第一选择中被向右移动四个字符,这在例子中是字母″f″,10426。因为这是第一选择的部分,仍然相应于如模糊的过滤器标记器10428所指出的过滤器强度的模糊部分,附图81的调用过滤字符选项8152将会导致另外的一字符选择窗口被显示。
在那例子中,那预期的字符,字母″s,″是在那选项列表中联合按键″5″,并且用户按压该按键引起正确的字符,10430,被插入当前的过滤器强度和所有的那字符,在它清楚地被确认之前,如数字10432所指出。
在这次,正确的选项结合按键″6″展示,并且用户按压该电话按键以引起预期的单词被插入编辑器的本文窗口之内,如10434所示。
然后,在例子中,用户按压行向下和单右按键来移动光标选择向下一行和向右,从而选择本文″period″,如10436所示。用户然后按压″8″,或单词形式列表按键,引起单词形式列表修正窗口10438被显示。预期的输出,时期标志器,结合电话按键″4″。用户按压该按键而且引起预期的输出被插入编辑器窗口的本文之内,如10440所示。
附图105举例说明用户能如何水平地藉着在上面被描述的附图81的功能模块8132和8135的操作滚动选项列表。。
附图106举例说明按键Alpha识别模式能如何用来录入照字母次序的输入进编辑器的本文窗口之内。荧屏10600显示一编辑器本文窗口,其中光标10602被展示。在这一个例子中,用户按压″1″按键打开录入模式菜单,如附图79和68所示,导致荧屏10604。这一个模式中,一旦用户双击″3″按键选择在上面被描述的按键Alpha识别模式,如附图79的功能模块7938所示。这导致系统被设置到按键Alpha模式,如附图86所示,而且编辑器窗口显示在附图106中展示的指示10606。
在例子中,用户延伸的按压电话按键,如10608所示,引起提示窗口,10610,显示与在已经被按压的电话按键上的每一字母有关的ICA单词。在回应中,用户发声″charley″,10612。这导致对应的字母″c″在光标的前位置被录入本文窗口,而且导致本文窗口有在荧屏10614中展示的外表。
在例子中,假设用户按压对话按键同时连续的发声二个ICA单词,″alpha″和″bravo″,如10616所示。这引起与这二个ICA单词有关的字母″a″和″b″在如荧屏10618所指出的光标被录入本文窗口的。例子中,接下来,用户按8按键,被指示说三个与该按键有关的ICA单词,而且发声该单词″uniform″导致字母″u″被插入编辑器的本文窗口之内,如10620所示。
附图7提供例证,同样的按键Alpha识别模式用来录入照字母次序的过滤输入。表明按键Alpha模式能被录入,当在修正窗口中藉由按压″1″按键跟着双点″3″按键同样地它能来自本文编辑器,如附图106所示。
图106和109展示用户如何能使用在上面被描述的声音识别本文编辑器的界面在行动电话实施方案中说话并且录入而且改正本文而且在行动电话实施方案中发电子邮件。
在附图108中,如果他在主菜单时通过双击″4″按键选择电子邮件选项,荧屏10800展示电子邮件选项荧屏,如附图66所举例描述的。
在展示的例子中,假设用户想要产生一个新的电子邮件讯息而且如此选择″1″选项。这引起一个新的电子邮件讯息窗口,10802,与位于该一窗口的第一个可编辑的位置的光标一起显示。这是与讯息的收件人有关的电子邮件讯息的部分第一个字符。在例子中,用户将Talk按钮按压并且读出名字″Dan Roth″,如10804所示。
在例子中,这引起些微不正确的名字,″Stan Roth″,被插入字母息的收件人之内,如10806所示。用户藉由按″2″按键选择一选项的列表对于选择回应,如10806所示。在例子中,预期的名字显示在选项的列表并且用户按压″5″按键选择它,引起预期的名字被插入收件人行,如10808所示。
然后,用户按压向下行按钮两次从而对移动光标向下至目标行开始位置,如荧屏10810所示。当发声″行动电话语音界面″的同时用户然后按Talk按钮,10812。在例子中,这些微错误辨认出如″卖电话语音界面″,而且这一个本文在目标线光标位置被插入引起电子邮件编辑窗口显示如10814所示。在回应中,用户按压行左按钮并且单词左按钮来定位光标选择在位置10816。用户然后按压″8″按键引起一单词形式列表修正窗口显示,10818。在例子中,预期的输出与″4″按键有关,用户选择该按键而且引起预期的输出被放在光标位置之内,如荧屏10820所示。
然后,用户按线向下的按钮两次从最初的地方如荧屏10822所显示的电子邮件讯息的主题部分放置光标。一经这被做,当不断地发声的时候,用户按Talk按钮″新的Elvis界面正在真的很好任务″。这引起略微错误的识别行,″他知道,如小精灵的接口正在真的很好地任务″,在光标如荧屏所指出的位置被插入10824。
在回应中,用户按压向上行按键一次以及单词左按键两次把光标放在被附图199的荧屏10900显示的位置。用户然后按″5″按键开始一个延伸的选择而且按单词左按键两次把光标放在位置10902并且引起要延长的选择,如10904所示。此时,用户双击″2″按键以进入修正窗口,10906,对于当前的选择而且在该按压期间,不断地说字符″t,h,e,space,n″。这引起一新的修正窗口,10908,与相应于不断地被录入字母的非模糊的过滤器10910一起显示命名字符序列。
接下来,录入按压单词右按键,移动过滤器光标到下一个单词的第一个字符右,如10912所示。用户然后按″1″按键进入录入模式菜单而且按″3″按键选择选择AlphaBravo,或ICA单词,输入词汇表。在″3″按键的按压的持续期间时,用户连续的发声,″echo,lima,victor,india,sierra″10914。这被识别为探测器序列″ELVIS″,以之前的过滤器光标位置开始,被插入修正窗口的第一选择窗口,10916。该例子显示,它是假定AlphaBravo识别是当做非模糊的因为它的可靠度,引起录入的字符和在第一选项窗口的所有在其之前的字符被看作非模糊确认的,通过非模糊确认指示,如荧屏10916中的10916所示。
因为它是预期的输出,所以在例子中,用户按″OK″按键选择当前的第一选择。
附图110举例说明再-发声语能用来帮助获得预期的识别输出。如荧屏10906和附图109指出的状态,修正窗口以相同的状态开始。但是在附图110的例子中,用户藉由按压″1″按键两次回应荧屏,一次进入录入菜单模式,和第二次选择大的词汇表识别。如功能模块7908至7914在附图79中指出,如果当一修正窗口展示的时候,大的词汇表识别在录入模式菜单中被选择,系统翻译出用户想要运行一再发声语的指示,也就是说,把为预期的输出的新发声加入发声使用的列表帮助选择预期的输出。当使用不连续的语音时候,在例子中,用户继续″1″按键的第二按压说三个单词″the″,″new″,″Elvis″相应于预期的输出。在上面的例子中,假设由新发声列表录入提供的另外不连续的发声信息导致系统正确地认识三个单词中前的二个。在一般假定的例子中三个单词的第三个不在当前的词汇表中,这将会需要用户用过滤输入拼出第三个单词,如附图109的发声10914所完成的。
附图110举例说明编辑器功能模块如何用来为进入在一个行动电话的软件部分的网络浏览器上的一个预期的网页目的录入一个网址文本字符串。
浏览器选项荧屏,11100,显示荧屏以展示如果用户选择主菜单中与按键″7″有关的网络浏览器选项,如附图66所示。在例子中,它被假定用户需要录入预期的网站网址而且藉由按压按键″1″选择有关网址窗口选项。这导致荧屏11102显示一个简短的提示教用户。在Talk按钮的持续按压期间,用户藉由使用连续的字母名字拼出预期的网址的名字作出回应。在展示的实施方案中,网址编辑器总是在修正模式以便发声的识别11103引起一修正窗口11104被显示。用户然后使用已经在上面被描述的过滤器字符串编辑,从而改正对如荧屏11106所示的预期的拼写本来错误识别的网址类型,这一次他选择第一选择,导致系统进入预期的网站。
附图112至114举例说明编辑器界面如何被用于导航以及录入本文进网页的领域。
当它最初进入一个新的网站时候,荧屏11200举例说明行动电话的网络浏览器的外表。一个网址领域,11201,在网页的顶端之前被展示,11204,帮助用户识别当前的网页。这一个位置能随时向后地被滚动如果用户想要见到现在显示的网页网址。当网页首先被进入的时候,他们是在一个文件/页导航的模式中,在其中,移动左边的和右边的按键像大多数的网络浏览器上的页前和页后控制。在这情况,”文件”那个单词被″页″替换,因为”页”那个单词被用于其他的导航模式以查阅一个充满媒体的行动电话荧屏。如果用户按向上的或向下的按键,网页的显示将会是滚动的充满显示页(或荧屏)。
附图116举例说明当编辑如附图115所示的类型的一个对话框的时候,行动电话实施方案展示如何允许一特别形式的修正窗口被当作一个列表框使用。
附图116的例子开始于发现对话框处于如附图15的荧屏11504所示状态中。从这个状态,用户按向下行按键两次从而把光标放在″In″列表框,这定义了在哪个部分的行动电话数据中,搜索被引导以回应将发生的找到对话框。当用户按压光标在这一窗口的Talk按钮时,列表框修正窗口11512被显示,这显示作为当前第一选项的列表窗口中的当前选择,并提供了一个滚动列表的其他列表框选项,每一个其他选项与相关电话按键数字被显示。用户可以滚动这个列表并通过电话键或使用加亮的选择来选择预期选项。在例子中,用户持续按压谈话按键并且用发声说出预期的列表框赋值,11514。在列表框修正窗口中,现行的词汇表实质上被限制列出数值。具有如此有限制的词汇表正确的识别非常有可能,如同在例子中指出的,预期的列表价值是第一选择。用户藉由按OK按键回应,这引起预期的列表赋值被放在对话框中列表框中,如11518所示。
附图117举例说明在用户和行动电话界面之间的一系列的交互作用,显示一些功能模块当打电话的时候,界面允许用户运行那些功能。
在附图117中的荧屏6400时相同的顶极-水平电话模式荧屏,如附图64所示。如果当它展示用户选择的最后一个导航按钮,被映射是名字拨号指令,系统将会进入名字拨号模式,其基本功能如附图119中展示的代码所示。从图中可以看到,这一个模式允许用户藉由加入他们选择来自一本连络列表的名字,而且如果有错误的识别,通过字母顺序的过滤来修正,通过选择来自类似于前述的修正窗口中的潜在可滚动的选择列表。
当行动电话进入名字拨号模式,一个初始的指示荧屏,11700,展示如附图117所指出的。在例子中,用户读出一个名字,11702,在谈话按键的按压期间。在名字拨号中,如此的发声用自动地被限制到名字词汇表的词汇表识别出,而且产生的识别引起一修正窗口显示,11704。在例子中,第一选择是正确的,因此用户选择″OK″按键,导致电话开始对与用户的联系人列表内名字另一方相关的电话号码的调用。
当电话被连接的时候,一个荧屏,11706,被展示具有有一样的持续通话指示器,7414,如附图75所示。在荧屏的底部,如数字11708所指出的,指示在持续通话期间与每个导航按键有关的功能。在例子中,用户选择向下的按钮,与在上面被描述的相同记录功能相关,如附图64所示。在回应中,一编辑器窗口,11710,为和一个自动地产生的标题项目的记录大纲11712被展示,在记录中被产生,概略说明当前的通话,标识该另一方对谁它被做及其开始和其最终结束时间。光标11714,被放置在通话标题之下的一个新的项目。
在例子中,用户说出连续的发声,11714,在Talk按钮的按压期间因为识别的文本相应于光标位置被插入记录标题的发声,如荧11716所示。然后用户双点击″6″按键开始记录,这导致音频曲线图表现的声音被放在对编辑器窗口的记录之内在光标的现在位置。如11718所示,来自该行动电话操作者正在说话的部分的音频的图形被下面划线使它变成更容易让用户掌握和谁通过话,通话多久,以及,如果需要,可以较好的搜寻部分的被记录的音频中一个或其他的至另一方的通话的说过的话。
在附图117的例子中,用户下一个双点击在星按键来选择任务列表。这显示一个荧屏,11720,列表在行动电话当前打开的任务。在例子中,用户选择与电话按键″4″有关的任务,另外的一个记录编辑器窗口正在显示记录大纲的一个不同的位置。在回应中,电话按键显示表示一个荧屏11722,概略说明的记录那部分。
在例子中,用户按向上按键三次移动光标到位置11724然后按″6″按键开始播放与当前光标音频图形相关的声音,通过荧屏11726和11728之间的光标的运动所指示的。
除非播放只有对我选项7513是开的,如上关于附图75描述,荧屏11728的声音回放将会被播放到当前通话的两者边,使行动电话的用户共享在行动电话通话期间与另一方的音频记录。
附图118举例说明当一编辑窗口正在记录声音的时候,如在附图117的底部中央附近的荧屏11717中展示的,用户在一个音频的录音期间能打开语音识别引起在那部分期间被记录下的音频也运行语音识别。在在荧屏11717中展示的录音期间展示的例子中,用户按压Talk按钮而且说出发声11800。这引起与那发声语有关的本文,11802,被插入编辑器窗口11806。在识别的时间之后只记录音频的图形。通常地这会被用于方法,在其中用户在像发声11800这样的被识别的发声期间试图清楚地说,然后会更自由的更放松的在部分的只记录音频的交谈或口述的期间。通常,音频与语音的识别一起被记录,以致用户后来可以回放,听并修正任何口述,如口述11802,该口述在记录期间被错误的识别。
附图119举例说明系统如何使用户能够选择部分的音频,如11900所示,通过结合延伸的选择按键和播放或导航,然后选择识别的音频对话框,如附图90中的功能模块9000至9014所示。识别出选择的本文在11902。在附图119的例子中,用户已经选择被识别出声音的选项,9026,在附图90中显示,引起识别的本文,11902,被下面划线,指出它具有与其联合的可播放的音频。
附图120举例说明用户如何选择已经联合记录的音频的识别的文本的部分12000,然后藉由选择选项9024选择具有从其相关的识别的音频剥离的文本,如附图90中显示,在编辑器选项菜单下面的一个子菜单中。这只是留下音频12002,和它的对应音频的图形表现,保持在识别的文本先前所在的部分媒体中。
附图121举例说明功能模块9020如何如附图90从在编辑选项菜单的音频菜单之下允许用户剥离识别音频,该识别的音频已经与来自如附图21的12102所指示的文本的识别的文本的部分12100有关。
附图122直到125提供附图126的代码中被描述的数字拨号模式的操作例证。如果用户选择数字拨号模式。例如在主菜单中藉由按电话按键2,如附图65的功能模块6552举例所示,或藉由选择左导航按钮当系统是附图64中展示在荧屏6400的顶极水平的电话模式中的时候,系统将会进入数字拨号在附图126中展示的模式。而且将会显示一个指示荧屏12202,指示用户说一个电话号码。当用户说电话号码的发声时候,如12204所示,该发声语将会被识别。如果系统相当自信,电话号码的识别是正确的,它将会自动拨号识别的电话号码,如12206所示。如果系统对电话号码的识别不是那么自信,它将会显示一修正窗口12208。如果修正窗口有如第一选项的预期的数字,如12210所示,用户能只藉由按OK按键选择它,这导致系统当拨号该单词,如12212所示。如果正确的选项是在第一选择列表上,如12214所示,用户能只按与该选项有关的电话按键数字因为系统拨号该数字,如12216所示。
如果正确的数字既不是那第一选项也不是第一选项列表,如荧屏12300所指出的,在附图123的顶端显示,用户能检查看以明确是否预期的数字是在二个选项列表的其中一个荧屏之上,该两个选项列表或通过如12302所示的重复按压下页按键,或通过如12304所示重复按压下项目按键。如果藉由在这些方法滚动选项列表用户见到预期的数字,用户选择它藉由按压它的相关电话按键或藉由移动选项的加亮区到它然后按压OK按键也能选择它。这将会导致系统拨号如荧屏12308所示的数字。应该领会到,因为选项列表的电话号码被数字地排序,用户藉由滚动列表能够快速地找预期的数字。在这些附图中展示的实施方案,数字变化指示器12310被提供以指示最重要数字的数字列,通过该数字,任何选项与列表上该选项之前的选项不同。这使它变成更容易让眼睛扫描预期的电话号码。
附图124举例说明数字拨号模式如何允许用户导航到第一选择的一个数字位置而且改正在它里面存在的任何错误。在附图124中,这被藉由说出预期的数字,但是用户藉由按适当的电话按键也被允许修正预期的数字。
如附图125所举例,用户也能够藉由插入错误的数字和替换错误识别的数字编辑错误识别的电话号码。
以上描述的发明有也具有的许多方面,可用于录入和修正语音识别和在不同类型的计算平台上的其它形式的识别,包括所有的在附图3至8中展示的那些。许多被描述的关于附图94的发明特征能被用于用户需要录入及[或]编辑没有必须对那些任务给予密切的视觉注意的本文情形。当走入一个公园的时候,举例来说,这可以允许用户听电子邮件而且口述回应,没有必要接近地在他的行动电话或其他的口述装置看。在特别的环境中,音频的反馈对语音识别和其他的控制功能是有用的,例如电话拨打和电话控制,在一个汽车的赛场中,如附图126中举例所示。
在实施方案中,被附图126中显示的汽车有一部计算机12600被连接到一个蜂窝无线通讯系统12602进入汽车音频系统12604之内。在许多实施方案中,汽车的电子系统将会有短范围无线电无线电收发机,例如蓝牙或其他的短范围无线电收发机12606。这些能用来通讯到一个无线的耳机2608,或用户的行动电话12610,所以当使用他的汽车时候,用户能方便的进入储存在他的普通的行动电话上的信息。
优选的是,行动电话/无线电无线电收发机12602,能被用于不但发送并且收到行动电话的通话而且发送和收到电子邮件,数字文件,例如可以通过以上功能听和编辑的本文文件,和音频网页。
控制许多在上面被描述的功能模块的输入装置关于展示的行动电话实施方案能被一个电话按键区12212存取,优选的是,位于一个位置例如在汽车的方向盘上,将会是用户访问其按键而不需要过度的从驾驶上牵扯他的注意力。事实上,藉由一个按键区类似在附图126中展示的有一个位置,当用相同的手拇指选择按键区按钮的时候,用户能就近见到一只手的食指围绕方向盘的边。在一个如此实施方案中,优选的系统会有TTS按键功能,如附图94中的功能模块9404至9414所示。使用户能够决定他正在按的按键是哪一个,以及按压按键的功能而不必须看按键区。假如会是更甚至比较容易和更迅速使用,在其他的实施方案中,触觉敏感按键区回应仅仅碰触其电话按键伴随着这样的信息也可以被提供以便更轻松和快捷的使用。
附图127和128举例说明大部分上面描述的能力在关于行动电话实施方案能被其他类型的电话被用,例如在附图127中展示的无线电话或在通讯电缆上发现如在附图128指出。
它应该是已了解的,前面的描述和附图只为了解释和举例说明而提供,而且本发明局限于除了在当被附加的权利要求解释的这么有限制的范围。熟悉本领域的技术人员会揭示本发明可以作出修改和变化而不超出本发明的范围。
当前申请的本发明,如广泛的要求的,没被限制使用操作系统,计算机硬件或计算机网络的任何一个类型,以及,因此,本发明的其它实施方案可以使用不一致软件和硬件系统。
此外,应该了解在下面的权利要求中被描述的程序行为,就像事实上的所有程序行为,能被许多不同的程序设计和数据结构运行,使用实质上不同的组织和序列。因为程序设计是一种极端有柔性的技术,所以一旦被那些熟悉本领域的技术人员了解的一个任何复杂的给定主意,能以一个事实上无限数字方式展示。因此,权利要求没意谓对精确的功能模块及[或]在附图中被描述的功能模块序列的限制。这特别地是真实的,因为被描述在本文中上方的代码已经高度地被单一化让它更有效率沟通,不需要负担不必要的细节,他或她,本领域普通技术人员就知道如何实现本发明。在如此单一化目的,所描述的代码的结构与实现发明的时候真实的代码非常不同,不同于本领域普通技术人员实施本发明时会使用的真实代码的结构。此外,许多被说明书展示实施在软件中程序设计行为可能在其他的实施方案的硬件中被运行。
以上在许多发明的实施方案中被讨论,展示的本发明的各种不同方面一起发生,也可以分开的在本发明的其他的那些方面的实施方案中发生。
应该领会,本发明延伸到方法,装置系统,和可用电算机处理的形式记录的程序设计,被提交的在本申请描述的本发明的所有特征和方面包括其说明书、附图和其最初的权利要求。
权利要求
1.一种语音识别的方法,其中包括提供允许用户在产生第一和第二用户输入之间选择的用户界面;通过在至少识别这种部份地取决于先前识别的单词所创造的语言模型上下文关系的识别的第一个单词的随先前的语言上下文关系变化的模式中完成关于一种或多种发声的大词汇表识别响应第一用户输入的生成;以及通过在至少识别那种与任何先前识别的单词所创造的语言模型上下文关系无关的识别的第一个单词的与先前的语言上下文关系无关的模式中完成关于一种或多种发声的大词汇表识别响应第二用户输入的生成。
2.根据权利要求1的方法,其中用户界面包括第一按钮扣和第二按钮;第一用户输入是通过按压第一按钮产生的;而第二用户输入是通过按压第二按钮产生的。
3.根据权利要求1的方法,其中与先前的语言上下文关系无关的模式在选择即使有也不多对发声识别的第二个和相继的单词的时候使用由发声的第一个和任何相继识别的单词所创造的语言模型上下文关系。
4.根据权利要求1的方法,进一步包括把用与先前的语言上下文关系有关和无关的模式识别的单词输出作为文本输入提供给另一个程序。
5.根据权利要求4的方法,其中所述的方法是用MicrosoftWindows CE中的软件输入屏面完成的。
6.一种语音识别的方法,其中包括提供允许用户在产生第一和第二用户输入之间选择的用户界面;通过在连续的语音识别模式中识别一种或多种发声作为给定的词汇表中的一个或多个单词响应第一用户输入的生成;以及通过在不连续的语音识别模式中识别一种或多种发声作为同一给定的词汇表中的一个或多个单词响应第二用户输入的生成。
7.根据权利要求6的方法,其中给定的词汇表是大的词汇表。
8.根据权利要求6的方法,其中给定的词汇表是照字母次序输入的词汇表。
9.根据权利要求6的方法,其中所述的用户界面允许用户离开第一和第二输入的选择独立地选择产生第三和第四输入;以及所述的方法进一步包括通过选择第一词汇表或第二词汇表作为所述的给定的词汇表分别响应所述的第三和第四输入。
10.根据权利要求9的方法,其中所述的第一和第二词汇表是单词的大词汇表和按字母顺序输入的词汇表。
11.根据权利要求9的方法,其中所述的第一和第二词汇表是两个不同的按字母顺序输入的词汇表。
12.根据权利要求6的方法,其中所提供的用户界面包括第一按钮和第二按钮;第一用户输入是通过按压第一按钮产生的;而第二用户输入是通过按压第二按钮产生的。
13.根据权利要求12的方法,其中按压第一和第二按钮使它们各自的识别模式实质上依据在检测到发声的下一个末端之前按压这样的按钮的时间识别;其中不连续的识别实质上局限于对与所述的发声相匹配的单一单词的一个或多个候选项的识别,而连续识别模式没有这样的限制。
14.根据权利要求6的方法,其中在不连续的识别模式中用来表达单词的声学模型不同于在连续识别模式中用来表达相同的单词的声学模型。
15.一种语音识别的方法,其中包括提供允许用户选择产生第一和第二用户输入的用户界面;通过在第一个按字母顺序进入的词汇表中识别一种或多种发声作为一个或多个单词响应第一用户输入的生成;以及通过在第二个按字母顺序进入的词汇表中识别一种或多种发声作为一个或多个单词响应第一用户输入的生成。
16.根据权利要求15的方法,其中第一个按字母顺序进入的词汇表包括字母表中每个字母的名字,而第二个按字母顺序进入的词汇表不包括;而且第二个按字母顺序进入的词汇表包括以字母表的每个字母为起点的一个或多个单词,而第一个按字母顺序进入的词汇表不包括。
17.根据权利要求15的方法,其中所述的用户界面提供用来产生所述的第一和第二输入的分开的按钮。
18.根据权利要求17的方法,其中触摸每个所述的按钮开启按与按钮相关联的按字母顺序录入模式的识别。
19.根据权利要求15的方法,其中所述的用户界面准许-用户选择就给定单词的识别而言单词的选择局限于其拼写与用户输入的一个或多个字符的序列相匹配的单词的过滤模式;-用户用所述的第一或第二按字母顺序进入的模式通过声音识别输入所述的一个或多个过滤字符;以及所述的第一和第二输入选择这样的过滤字符识别究竟是使用所述的第一个按字母顺序录入模式还是使用所述的第二个按字母顺序录入模式完成的。
20.一种语音识别的方法,其中包括提供允许用户选择产生第一、第二和第三用户输入的用户界面;通过识别一种或多种发声作为第一个通用大词汇表中的一个或多个单词响应第一用户输入的生成;通过识别一种或多种发声作为在第二个按字母顺序进入的词汇表中的一个或多个单词响应第二用户输入的生成;通过识别一种或多种发声作为表达非拼写文本输入的第三个词汇表中的一个或多个单词响应第三用户输入的生成;以及连续地接收从三个词汇表之中任一词汇表的识别收到的输出并且把那个输出放进公用文本。
21.根据权利要求20的方法,其中第三个词汇表是数字词汇表。
22.根据权利要求20的方法,其中第三个词汇表是标点词汇表。
23.根据权利要求20的方法,其中用户界面提供不同的按钮用于选择第一、第二和第三输入。
24.根据权利要求23的方法,其中按压与所述的三个词汇表之一相关联的按钮开启使用那个词汇表的识别。
25.一种完成单词识别的方法,其中包括接收包含表达一个或多个单词的序列的非文本用户输入的单词输入信号;在输入信号之上完成单词识别以产生最佳记分识别候选项的选项选项列表,每个都由被识别器发现有比较高的概率与输入信号相对应的一个或多个单词和/或数字的序列组成;产生代表最佳记分识别候选项的选项选项列表的用户可察觉的输出,其中候选项是依照与列表中的每个候选项相关联的一个或多个单词对应的字符序列的字符排序在所述的选项选项列表中排序的;提供用户界面使用户能够从选项选项列表选择按字符排序的识别候选项之一;通过把选定的候选项作为与单词输入信号相对应的一个或多个单词和/或数字进行处理响应从选项选项列表识别候选项之一的用户选择。
26.根据权利要求25的方法,其中单词识别选择最佳记分识别候选项;以及在所述的用户可察觉的输出中最佳记分候选项被放在与对应于与最佳记分候选项相关联的一个或多个单词的字符序列在字符排序列表中依照所述的字符排序将落在哪里无关的位置。
27.根据权利要求25的方法,其中单词输入信号是口语单词发声的表达;以及单词识别是语音识别。
28.根据权利要求25的方法,其中用户可察觉的输出包括在可视显示屏上展示所述的最佳记分识别候选项的字符排序列表。
29.根据权利要求28的方法,其中所述的选项选项列表包括比在显示屏上同时安装的多的识别候选项;而且选项选项列表是可滚动的,所以用户能选择相对于显示屏移动列表,以便看到列表上比在显示屏上同时安装的多的识别候选项。
30.根据权利要求28的方法,其中字符排序列表是按字母顺序排序的列表;而且列表中个别识别候选项的显示包括一个或多个按字母顺序拼写的单词的序列。
31.根据权利要求30的方法,其中所述的选项选项列表包括比在显示屏上同时安装的多的识别候选项;而且选项选项列表是可滚动的,所以用户能选择相对于显示屏移动列表,以便看到列表上比在显示屏上同时安装的多的识别候选项。
32.根据权利要求31的方法,其中所述的选项选项列表必须将子列表按字母顺序排序;第一子列表包括同时安装在显示屏上的最高记分的选项选项候选项;而第二子列表包括其它的最佳记分选项选项候选项。
33.根据权利要求32的方法,其中第二子列表有比同时安装一个显示屏多的候选项。
34.根据权利要求30方法,进一步包括提供允许用户在所述的显示最佳记分识别候选项的字符排序列表之后选择一个或多个字母指示的过滤序列的用户界面;而且通过在所述的显示屏上产生和展示新的按字母顺序排列的识别候选项选项选项列表响应所述的过滤序列的选择,其中新的选项选项列表局限于其一个或多个字符的序列以所述的过滤序列为起点的候选项;而且提供使用户能够从新的选项选项列表中选择按字母顺序排列的识别候选项之一的用户界面;通过把选定的候选项作为与单词输入信号相对应的一个或多个单词和/或数字进行处理响应用户对新的选项选项列表中的识别候选项之一的选择。
35.根据权利要求34的方法,其中所述的通过产生和展示新的按字母顺序排列的选项选项列表响应所述的过滤序列的选择包括检测识别候选项的数目是否在预期数目以下;当检测结果表明识别候选项的数目在预期数字以下的时候,从词汇表列表中选择包括在所述的新的按字母顺序排列的选项选项列表之中以过滤序列为起点的一个或多个附加候选项。
36.根据权利要求35的方法,其中所述的新的按字母顺序排列的选项选项列表包括比在显示屏上同时安装的多的识别候选项;而且选项选项列表是可滚动的,所以用户能选择相对于显示屏移动列表,以便看到列表上比在显示屏上同时安装的多的识别候选项。
37.根据权利要求34的方法,其中该方法是在有电话按键区的电话上完成的;允许用户输入所述的字母指示输入的用户界面允许用户通过按压所述的电话按键区中的一个或多个按键开始这样的输入,其中按压电话按键盘中给定的按键指出在与预期的识别候选项相关联的一个或多个字符的序列中对应的字母是一组与给定的按键相关联的多样的字母之一;而且新的候选项列表局限于其一个或多个单词的序列以与字母指示输入的序列相对应的最初的字母序列为起点的候选项,其中最初的字母序列的每个字母都对应于那组在所述的字母指示输入的序列中用对应的字母指示输入指出字母之一。
38.根据权利要求37的方法,其中所述的新的选项选项列表包括比在显示屏上同时安装的多的识别候选项;而且选项选项列表是可滚动的,所以用户能选择相对于显示屏移动列表,以便看到列表上比在显示屏上同时安装的多的识别候选项。
39.根据权利要求34的方法,其中允许用户选择一个或多个字母指示的序列的用户界面允许用户从包含在显示在选项选项列表之中的选定的一个识别候选项之内的一串按字母顺序的字符的起点开始选择预期数目的字符;而且所述的用户界面通过使用选定的一个或多个字符作为所述的一个或多个字母指示序列的全部或一部份响应这样的选择。
40.根据权利要求30的方法,进一步包括提供允许用户指出在显示的按字母顺序排列的选项选项(列表)上在列出的候选项之间或在列出的候选项和列表的起点或终点之间的位置的选择的用户界面;以及通过重新显示局限于有分别在两个候选项之间或在候选项和字母表的起点或终点之间的拼法的识别候选项的新的按字母顺序排列的选项选项列表响应这样的选择。
41.根据权利要求28的方法,其中输入信号表示一个或多个连续数字的发声;而选项选项列表是作为数字显示的识别候选项的按数字排序的列表。
42.根据权利要求30的方法,其中所述的输入信号表示电话号码的发声;所述的单词识别是语音识别;而所述的响应识别候选项的用户选择引起针对选定的识别候选项显示的电话号码将被自动拨号。
43.根据权利要求28的方法,其中输入信号表示来自联系信息的一个或多个名字的发声;而选项选项列表表示来自联系信息的众多按字母顺序排序的最佳记分名字。
44.根据权利要求43的方法,其中所述的选项选项列表包括比在显示屏上同时安装的多的识别候选项;而且选项选项列表是可滚动的,所以用户能选择相对于显示屏移动列表,以便看到列表上比在显示屏上同时安装的多的识别候选项。
45.一种完成单词识别的方法,其中包括接收包含表示一个或多个单词的序列的非文本用户输入的单词信号输入;在输入信号之上完成单词识别以产生最佳记分识别候选项的选项选项列表,每个都由被识别器发现有比较高的概率与输入信号相对应的一个或多个单词和/或数字的序列组成;在用户可滚动的显示屏中展示选项选项列表,其中选项选项列表有比在显示屏上同时安装的多的识别候选项,所以只有选项选项列表的子部分被同时显示;通过相对于显示屏分别地上下移动选项选项列表选择向上或向下滚动选项选项列表响应用户输入,以便改变在显示屏上显示的选项选项列表部分。
46.根据权利要求45的方法,其中单词输入信号是口语单词的发声的表达,而单词识别是语音识别。
47.根据权利要求45的方法,其中所述的用户输入选择向上或向下滚动选项选项列表包括多重候选项的滚动输入;而且所述的响应用户输入包括通过在多重识别候选项附近相对于显示屏上下移动选项选项列表响应每个多重候选项滚动输入。
48.根据权利要求45的方法,其中所述方法是在移动电话上完成的;而所述显示屏是移动电话的显示屏。
49.根据权利要求48的方法,其中选项选项列表在移动电话显示屏上的显示包括显示与同时显示在显示屏上的那部分选项选项列表中的每个识别候选项有关联的不同的数字;提供使用户能够通过按压在所述的移动电话上与预期的识别候选项相对应的已数字的电话按键从选项选项列表中选择一个识别候选项的用户界面;以及通过把选定的候选项作为与单词输入信号对应的一个或多个单词和/或数字进行处理响应用户从选项选项列表对识别候选项之一的选择。
50.根据权利要求45的方法,其中每个识别候选项都有一个字符串与它相关联;而且在可滚动的选项选项列表中的识别候选项是按它们各自的字符串出现的字符顺序排序的。
51.根据权利要求45的方法,其中在可滚动的选项选项列表中的识别候选项是按它们对单词信号的识别记分排序的。
52.根据权利要求45的方法,进一步包括通过相对于显示屏分别地左右移动选项选项列表响应选择向左或向右滚动选项选项列表的用户输入,以便改变选项选项列表中显示在显示屏上的个别选项选项部分。
53.一种完成单词识别的方法,其中包括接收包含表示一个或多个单词的序列的非文本用户输入的单词输入信号;接收一个或多个过滤器输入信号的序列,每个都包含表示一个或多个字符的序列的非文本用户输入;通过产生表示一个或多个可能的字符序列的过滤器响应一个或多个过滤器输入信号,每个都有被发现有可能与过滤器输入信号相对应的一个或多个字符;产生以用过滤器表示的字符序列之一为起点的识别候选项的列表,当以用过滤器表示的字符序列之一为起点的一个或多个这样的单词识别候选项有在某个最低水平以上的识别概率的时候包括来自输入信号的单词识别的一个或多个候选项;产生表现下述内容的用户可察觉的输出所述的最佳记分识别候选项的列表;和用所述的过滤器表示的与最佳记分识别候选项的列表之一的最初的字符相对应的字符序列;使用户能够从所述的列表选择识别候选项之一和/或从所述的过滤器中选择一个字符;通过把选定的候选项作为与单词输入信号相对应的一个或多个单词进行处理响应来自选项选项列表的识别候选项之一的选择;通过显示在用过滤器表示的可能的字符序列中与选定的字符到用户可察觉的过滤器的位置相对应的其它字符的选项选项列表响应过滤器字符的选择;使用户能够在字符选项选项列表中选择字符之一;借助下述方法响应在字符选项选项列表中的字符选择使过滤器表示的可能的字符序列仅限于在选定的字符位置中有选中的字符的那些;和使用受选中的字符限制的过滤器重复所述的识别候选项列表的生成。
54.根据权利要求53的方法,其中限制过滤器表示的可能的字符序列包括使这样的字符序列仅限于有即使有也不多在用户可察觉的过滤器中出现在选定的字符之前的那些。
55.根据权利要求53的方法,其中所述的识别候选项列表的生成使识别候选项仅限于仅仅以过滤器表示的单一字符序列为起点的那些;而且表示所述的候选项列表的用户可察觉的输出包括作为用户可察觉的过滤器的单一字符序列。
56.根据权利要求53的方法,其中所述的识别候选项列表的生成使识别候选项仅限于以过滤器表示的众多字符序列之中任何一个为起点的那些。
57.根据权利要求53的方法,其中过滤器输入信号对应于按压一个或多个电话按键的序列,其中每个被按压的电话按键都有一组相关联的字母;而响应过滤器输入信号产生表示一个或多个字符序列的过滤器,其中每个这样的序列在每个这样的字符与那组与对应的按键相关联的字母之一相对应的情况下对于每个这样的按键都有一个字符。
58.根据权利要求53的方法,其中过滤器输入信号对应于一种或多种发声的序列每个一个或多个字母指示的序列;而且响应过滤器输入信号包括在一种或多种发声的序列之上完成语音识别以产生表示与从所述的发声辨认出的字符相对应的一个或多个字符序列的过滤器。
59.一种完成单词识别的方法,其中包括接收包含表示一个或多个单词的序列的非文本用户输入的单词输入信号;在输入信号之上完成单词识别以产生最佳记分识别候选项的选项选项列表,每个都由被识别器发现有比较高的概率与输入信号相对应的一个或多个单词和/或数字的序列组成;在用户可滚动的显示屏上显示选项选项列表;通过相对于显示屏分别左右移动选项选项列表选择向左或向右滚动选项选项列表响应用户输入,以便改变显示在显示屏上的选项选项列表的个别选项选项部分。
60.根据权利要求59的方法,其中所述的方法是在移动电话上实践的,而选择水平滚动的用户输入是按压移动电话上的按钮或按键。
61.一种完成单词识别的方法,其中包括接收表示一个或多个单词的单词输入信号;在信号之上完成单词识别以产生与单词输入信号相对应的一个或多个最佳记分单词;提供使用户能够从每个都有与它相关联的不同类型的转换的众多单词转换指令之中选择的用户界面;响应用户的单词转换之一的选择通过使用与选定的指令相关联的转换把当前选定的单词转换成用字母a到z的不同序列拼写的对应的但不同的单词。
62.根据权利要求61的方法,其中至少单词指令转换之一把当前选定的单词转换成不同的语法形式。
63.根据权利要求62的方法,其中至少单词转换指令之一把当前选定的单词转换成不同的时态。
64.根据权利要求62的方法,其中至少单词转换指令之一把当前选定的单词转换成复数或单数形式。
65.根据权利要求62的方法,其中至少单词转换指令之一把当前选定的单词转换成所有格或非所有格形式。
66.根据权利要求61的方法,其中至少单词转换指令之一把当前选定的单词转换成选定单词的同音异义词。
67.根据权利要求61的方法,其中至少单词转换指令之一通过把它的结尾改变成一组通用词尾之一转换当前选定的单词。
68.根据权利要求61的方法,其中单词识别产生最佳记分识别候选项的选项选项列表,每个都由被识别器发现有比较高的概率与单词信号相对应的一个或多个单词组成;而且用户界面以用户可察觉的形式输出选项选项列表中的识别候选项;而且用户界面使用户能够选择在选项选项列表上从识别候选项输出之一挑选、选择有在选定的入选者上完成的一条选定的转换指令和有作为识别程序的输出产生的最终经过转换的单词。
69.根据权利要求61的方法,其中单词识别是在电话上完成的语音识别;而且用户界面使用户能够通过按压电话按键选择一条选定的转换指令。
70.一种完成单词识别的方法,其中包括接收表示一个或多个单词的单词输入信号;在信号之上完成单词识别以产生与单词输入信号相对应的一个或多个最佳记分单词;提供使用户能够从众多单词转换指令之中选择的用户界面;通过在按字母顺序的表达和非按字母顺序的表达之间转换当前选定的单词响应用户对单词转换之一的选择。
71.根据权利要求71的方法,其中单词识别产生最佳记分识别候选项的选项选项列表,每个都由被识别器发现有比较高的概率与信号相对应的一个或多个单词组成;而且用户界面以用户可察觉的形式输出选项选项列表中的识别候选项;而且用户界面使用户能够在选项选择时从识别候选项输出之一中选择单词、选择有在那个选定的单词上完成的适合在按字母顺序的和非按字母顺序的表达之间变更的转换和有作为识别程序的输出产生的最终经过转换的单词。
72.一种完成单词识别的方法,其中包括接收表示一个或多个单词的单词输入信号;在信号上完成单词识别以产生与单词输入信号相对应的一个或多个最佳记分单词;提供用户界面使用户能够选择在所述的识别产生的单词之上显示转换列表;通过产生与被识别的单词对应的所述的经过转换的单词的选项选项列表响应用户的选择;用户界面使用户能够选择选项选项列表中经过转换的单词之一;而且通过有作为识别程序的输出产生的选定的经过转换的单词响应经过转换的单词的选择。
73.根据权利要求72的方法,其中经过转换的单词的选项选项列表显示在用户可滚动的显示屏上,其中选项选项列表有比在显示屏上同时安装的多的经过转换的单词,所以只有选项选项列表的子部分被同时显示;通过相对于显示屏分别地向上或向下移动选项选项列表选择上下滚动选项选项列表响应用户输入,以便改变在显示屏上显示的选项选项列表部分。
74.根据权利要求72的方法,其中用户界面借助识别程序把单词输出放进文本;而且允许用户从文本中的一个或多个单词之中选择要对它产生转换选项选项列表的单词。
75.根据权利要求72的方法,其中用户界面从单词识别产生最佳记分单词候选项的选项选项列表;而且允许用户从最佳记分选项选项列表中的一个或多个单词之中选择要对它产生转换选项选项列表的单词。
76.根据权利要求72的方法,其中在经过转换的单词列表中的单词包括对它产生转换选项选项列表的单词的即使有也不多的一个或多个同音异义词。
77.根据权利要求72的方法,其中在经过转换的单词列表中的单词包括为它产生转换选项选项列表的单词的即使有也不多的一种或多种不同的表达。
78.根据权利要求72的方法,其中在经过转换的单词列表中的单词包括为它产生转换选项选项列表的单词的即使有也不多的一种或多种不同的语法形式。
79.一种完成单词识别的方法,其中包括通过在收到指令之后开启大词汇表语音识别并且随后在接收来自用户的另一条指令输入开始识别之前自动地关掉大词汇表语音识别并不再使用它来响应来自用户的指令输入开始识别。
80.根据权利要求79的方法,其中关掉语音识别自动地发生在给定的时间周期流逝之后。
81.根据权利要求79的方法,其中关掉语音识别自动地发生在开启语音识别之后检测到发声的第一终点之后。
82.根据权利要求79的方法,其中引起开启语音识别的指令输入是非声学输入。
83.根据权利要求82的方法,其中语音识别响应语音识别所进行的发声检测的下一个终点被关掉和不再使用直到下一个非声学用户输入启动识别为止。
84.根据权利要求83的方法,其中语音识别是连续的语音识别。
85.根据权利要求83的方法,其中语音识别是不连续的语音识别。
86.根据权利要求83的方法,进一步包括输出在结束发声检测之前作为发声的最佳选择辨认出的一个或多个单词的用户可察觉的表达;提供用户界面允许用户响应发声的识别提供改正最佳选择输出中的错误的修正输入;在输出就发声辨认出的最佳选择之后通过确认最佳选择是正确的和对以接收开始识别指令为起点的新的发声再一次重复所述的方法在收到用于所述的最佳选择的任何修正输入之前响应收到的开始识别指令输入。
87.根据权利要求86的方法,进一步包括通过把作为用来计算用于后面的语音识别的语言模型记分方式的当前上下文关系的一部份的一个或多个辨认出的单词包括在内响应发声的这种确认。
88.根据权利要求86的方法,进一步包括通过使用一个或多个辨认出的单词作为用来改变语言模型的数据响应发声的这种确认。
89.根据权利要求86的方法,进一步包括通过标注来自在更新一种或多种用于给定的辨认出的单词的识别的声学模型中使用的发声的声学数据响应对应于给定的辨认出的单词的发声的这种确认。
90.根据权利要求83的方法,进一步包括允许用户在收到非声学输入之后检测到的发声的下一个终点之后识别被关掉的第一模式和在发声检测的下一个终点之后识别不被关掉的第二模式之间选择。
91.根据权利要求90的方法,其中,在所述的第二模式中,识别响应比在交谈中两次发声之间正常的时间流逝长的时间流逝被自动关掉。
92.根据权利要求83的方法,其中所述方法是用在手持式计算机装置上运行的软件完成的;而且非声学输入是按压按钮,包括图形用户界面按钮。
93.根据权利要求92的方法,其中手持式计算机装置是移动电话;而按钮是移动电话按钮。
94.根据权利要求83的方法,其中所述方法是用在作为汽车的一部分的计算机上运行的软件完成的。
95.根据权利要求82的方法,其中开始识别指令输入是按压硬件或软件的按钮;而且识别是在停止按压按钮之后不足1秒的时间内被自动关掉的。
96.根据权利要求82的方法,其中所述的方法提供有众多语音模式选择按钮的用户界面,每个都用来选择可同时供用户选择使用的不同的语音识别模式;引起语音识别关闭的非声学输入是按压所述的按钮之一;所述方法通过在其相关联的模式中开启语音识别和随后自动关掉所述的识别响应按压语音模式按钮。
97.根据权利要求96的方法,其中与所述的按钮之一相关联的语音识别模式是所述的大词汇表识别;与另一个所述的按钮相关联的识别模式是用按字母顺序录入的词汇表完成识别的模式。
98.根据权利要求96的方法,其中与所述的按钮之一相关联的语音识别模式是连续的识别;与另一个所述的按钮相关联的识别模式是不连续的识别。
99.根据权利要求96的方法,其中手持式计算机装置是移动电话;而按钮是移动电话按钮。
100.一种语音识别的方法,其中包括提供用户界面,该用户界面提供响应比如同点击那样的第一持续时间短的持续触摸和比如同按压那样的第二持续时间长的持续触摸的按钮;通过在随着按压时间长度变化的持续时间里使语音识别在声音上完成来响应按压;以及通过在与点击的长度无关的持续时间里使语音识别在声音上完成来响应点击。
101.根据权利要求100的方法,其中所述的响应点击致使语音识别在实质上从点击的时刻到检测到的发声的下一个终点收到的声音上完成;而所述的响应按压使语音识别在按压期间收到的声音上完成。
102.根据权利要求101的方法,其中响应点击完成的识别是不连续的识别,而响应按压所完成的识别是连续的识别。
103.根据权利要求102的方法,其中用户界面允许用户在两种模式之间选择,其中一种模式是响应点击的识别和响应按压的识别两者都要么是连续的要么是不连续的,而另一种模式是响应点击所完成的识别是不连续的识别,而响应按压所完成的识别是连续的。
104.根据权利要求100的方法,其中所述的响应点击致使语音识别在实质上从点击时刻起至少1分钟的周期里收到的声音上完成;而所述的响应按压致使语音识别在按压期间和此后至多1秒的时间里收到的声音上完成。
105.根据权利要求100的方法,其中用户界面有众多语音模式选择按钮,每个都用来选择不同的可同时供用户选择使用的语音识别模式;用户界面响应每个模式选择按钮持续时间比如同点击那样的第一持续时间短的触摸触摸和这样的按钮持续时间比如同按压那样的第二持续时间长的触摸;所述方法通过导致语音识别在随着按压时间长度变化的持续时间里按与按钮相关的模式在声音上完成;而且通过导致语音识别在与点击的长度无关的持续时间里按与按钮相关的模式在声音上完成响应模式按钮的点击。
106.根据权利要求105的方法,其中与第一个所述的模式按钮相关联的识别模式是用大词汇表完成识别的模式;而与第二个所述的模式按钮相关联的识别模式是用按字母顺序进入的词汇表完成识别的模式。
107.根据权利要求105的方法,其中与所述的模式按钮之一相关联的语音识别模式是连续的识别;而与所述的模式按钮中另一个相关联的识别模式是不连续的识别。
108.根据权利要求105的方法,其中所述方法是在移动电话上实践的;而且有数字的移动电话按钮充当所述的模式按钮。
109.一种起电话作用的计算机装置,其中包括用户可察觉的输出装置;至少包括标准的十二按键电话按键区的一组电话按键;一个或多个微处理器;微处理器可读的存储器;所述的电话能从它那里接收声音的电子表达的话筒或声音输入;用来使在所述的电话中产生的声音的电表达转换成的对应的声音的扬声器或声音输出;发射和接收电路系统;记录在存储器中的程序,其中包括有用来完成包括发出和接收呼叫的电话功能的指令的电话程序;以及包括用来根据从话筒或话筒输入收到的声音的电子表达完成大词汇表语音识别的指令和响应按压一个或多个电话按键控制语音识别操作的指令的语音识别程序。
110.根据权利要求109的计算机装置,其中装置是移动电话。
111.根据权利要求109的计算机装置,其中装置是无绳电话。
112.根据权利要求109的计算机装置,其中装置是通讯电缆电话。
113.根据权利要求109的计算机装置,其中语音识别程序包括下述指令用来通过完成语音识别产生每个都由一个或多个被识别器发现有比较高的概率与给定的发声或部份发声相对应的单词组成的最佳记分语音识别候选项的选项选项列表响应给定的发声的指令;用来产生指出众多选项选项列表候选项并且使分开的电话按键与每个这样的候选项相关联的用户可察觉的输出的指令;以及用来通过选择相关联的候选项作为给定的发声的输出响应按压与选项选项列表候选项相关联的电话按键。
114.根据权利要求113的计算机装置,其中语音识别程序包括使用众多有数字的电话按键作为所述的与选项选项列表候选项相关联的电话按键的指令。
115.根据权利要求114的计算机装置,其中语音识别程序包括用来在一些有数字的电话按键与选项选项列表候选项相关联的同时把其它有数字的电话按键用于其它的语音识别功能的指令。
116.根据权利要求113的计算机装置,其中语音识别程序包括下述指令用来通过选择相关联的选项选项列表候选项在响应按压一组电话按键中每个按键的第一模式中操作的指令;以及用来在响应按压同一组电话按键之中每个按键作为字母识别输入的第二模式中操作的指令。
117.根据权利要求116的计算机装置,其中语音识别程序包括把所述的字母识别用于选项选项列表的按字母顺序过滤的指令。
118.根据权利要求109的计算机装置,其中语音识别程序包括下述指令用来响应给定的发声的识别产生与一个或多个被识别的单词的序列相对应的识别输出的指令;用来把识别输出放进先前在文本序列中当前的光标位置包含零或较多的储存在存储器中的单词的序列的文本序列的指令;以及用来响应按压电话按键之中不同的按键在文本序列中分别向前和向后移动光标位置的指令。
119.根据权利要求118的计算机装置,其中用来移动当前的文本位置的指令包括用来响应按压与单词每次移动相关联的两个电话按键(一个与单词向前移动相关联而另一个与单词向后移动相关联)之一把当前的文本位置每次分别向前和向后移动一个完整单词的指令。
120.根据权利要求119的计算机装置,其中用来把当前的文本位置每次向前和向后移动一个完整单词的指令包括下述指令用来在第一种条件下通过选择在先前的光标位置后面或前面的完整单词响应按压分别与单词向前或向后移动相关联的按键的指令;以及用来在第二种条件下通过把非选择光标立刻分别放置在先前的光标位置之后或之前响应按压与单词向前或向后移动相关联的按键的指令;借此同样的两个按键能被用来在文本中每次移动一个单词和/或使光标与整个单词或在单词前面或后面的非选择光标的选择相对应。
121.根据权利要求120的计算机装置,其中所述的第二种条件包括在按压所述的两个单词每次移动按键之一之后接收按压另一个所述的单词每次移动按键作为下一个输入。
122.根据权利要求118的计算机装置,其中用户可察觉的输出装置是显示屏;语音识别程序包括用来在显示屏上横跨连续的数行显示全部或部分文本序列的指令;而且用来移动当前文本位置的指令包括用来响应按压电话按键之中不同的按键把当前文本位置分别向上移动一行或向下移动一行的指令。
123.根据权利要求118的计算机装置,其中用来移动当前文本位置的指令包括用来响应按压电话按键之中不同的按键把当前文本位置分别移动到包括文本序列中的全部或一部分单词的单词序列的起点或终点的指令。
124.根据权利要求118的计算机装置,其中语音识别程序包括下述指令用来通过在当前的文本位置开始可扩充的选择响应按压一个电话按键的指令;以及用来通过把选择分别地向前和向后扩充与这样的按键相关联的数量响应按压分别与向前和向后移动当前的文本位置相关联的电话按键之中不同的按键。
125.根据权利要求118的计算机装置,其中程序包括用来在响应按压电话按键之一那个当前位置已被移动之后在当前的文本位置借助一个或多个单词的文本-至-语音程序产生声音输出的指令。
126.根据权利要求118的计算机装置,其中用户可察觉的输出装置是显示屏;语音识别程序包括用来在响应按压电话按键之一那个当前位置已被移动之后把在当前位置的一个或多个单词显示在显示屏上的指令。
127.根据权利要求109的计算机装置,其中语音识别程序包括用来通过进入通过以用户可察觉的形式提供关于进入帮助模式之前与以后被按压的电话按键相关联的功能的解释响应后来的按压电话按键的帮助模式响应对给定的电话按键之一的选择的指令。
128.根据权利要求127的计算机装置,其中用来响应一个或多个电话按键的按压以控制语音识别的操作的指令定义分层的指令结构,其中用户能借助一个或多个电话按键的序列导航和选择指令;而且用来进入帮助模式的指令包括用来通过以用户可察觉的形式提供关于如果那个按压按键序列在进入帮助模式之前已被输入那么在分层的指令结构中按压按键将在类似的按压按键序列中具有的功能的解释响应在进入所述的帮助模式之后两次以上按压按键的序列中的每次按压按键的指令。
129.根据权利要求109的计算机装置,其中语音识别程序包括用来通过输出指出当前与众多个别电话按键之中每个按键相关联的功能的用户可察觉的列表响应按压第一电话按键的指令。
130.根据权利要求129的计算机装置,其中用户可察觉的输出包括生成说出功能指示列表的声音信号。
131.根据权利要求129的计算机装置,其中电话按键包括所述的第一按键和一组一个或多个导航按键;而且语音识别程序包括用来在文本模式中操作的指令,其中导航按键允许进入经过识别的文本的用户可察觉的导航;其它的电话按键有一组与它们一一对应的用来控制所述文本的进入和编辑的功能;而且按压第一按键是通过进入指令列表模式得到响应的,在该模式中导航按键允许在文本模式中进入与众多电话按键之中每个按键相关联的功能列表的用户可察觉的导航。
132.根据权利要求131的计算机装置,其中指令列表模式的用户可察觉的功能列表包括电话按键数字与列表中的众多功能的联系;而且语音识别程序包括用来通过返回文本模式和选择与它相关联的功能响应在指令列表模式的操作期间按压与所述列表中的某项功能相关联的有数字的电话按键的指令。
133.根据权利要求131的计算机装置,其中语音识别程序包括在指令列表模式中使用的下述指令用来通过相对于用户可察觉的功能列表移动功能选择响应一次或多次按压导航按键的指令;和用来通过返回文本模式和选择与它相关联的功能响应按压选择电话按键。
134.根据权利要求133的计算机装置,其中指令列表包括除了能在能借助所述的导航和选择在指令列表模式中选择附加功能的文本模式中通过按压电话按键选定的那些之外的其它功能。
135.根据权利要求133的计算机装置,其中指令列表列出在文本模式中与导航按键相关联的功能;所述的文本模式导航按键功能不同于在指令列表模式中与导航按键相关联的那些;而且文本模式导航按键功能可以借助所述的导航和选择在指令列表模式中选定。
136.根据权利要求131的计算机装置,其中所述的电话按键包括菜单按键;所述的记录在存储器中的程序包括用来在众多模式之中不同于所述的文本模式的每个模式中通过显示可用电话按键选择但在按压菜单按键之前不能用同样的电话按键选择的功能列表响应按压菜单按键的指令;而且在所述的文本模式中用来选择指令列表模式的所述的第一按键是菜单按键。
137.根据权利要求109计算机装置,其中语音识别程序包括在文本模式中在下述期间操作的指令导航按键允许已识别的文本的用户可察觉的导航期间;众多有数字的电话按键同时作为每个按键选择将不同组的功能映射到众多有数字的电话按键上的不同的按键映射模式的按键映射按键发挥作用期间;借此用户能通过按压有数字的电话按键从众多这样的映射中快速地选择所需要的按键映射,从而能大大增加用户从来自文本模式的数目比较多的指令之中选择指令的速度。
138.根据权利要求137的计算机装置,其中语音识别程序包括用来通过进入导航按键允许在与被按压的映射按键相关联的按键映射模式中指出与每众多有数字电话按键之中每个按键相关联的功能的菜单的用户可察觉的导航的相关联的菜单模式响应按压所述的按键映射按键之一的指令。
139.一种完成大词汇表语音识别的方法,其中包括接收每个信号都指出用户已选中众多按键之中哪个按键的一个或多个按键信号的过滤序列,其中每个按键代表两个或多个字母;接收声音的声学表达;在声学表达之上完成作为声音的声学表达和单词的声学模型之间的匹配函数给单词候选项记分的语音识别;其中单词候选项的记分支持包含与按键信号过滤序列相对应的一个或多个按字母顺序的字符的序列的单词候选项,如果在字符序列中每个后续的字符都对应于用它对应的后续的按键信号表示的字母之一,那么候选单词被看作包含与过滤序列相对应的字符序列。
140.根据权利要求139的方法,进一步包括通过在相关联的发声之上完成语音识别响应在所述的过滤序列中与给定的按键信号相关联的附加的发声模式;以及通过使那组用过滤序列中的按键按压表示的字母仅限于用被识别的字母标识单词标识的字母响应作为字母标识单词与按压按键相关联的发声的识别。
141.根据权利要求140的方法,进一步包括通过以用户可察觉的形式显示一组单词包含一个或多个以被按压的按键表示的每个字母为起点的单词响应按压按键信号;以及支持在显示与所述的显示单词相对应的与被按压的按键相关联的字母标识单词之后进行的发声识别。
142.根据权利要求139的方法,进一步包括提供用户界面,该用户界面以用户可察觉的形式输出在选项选项列表中借助所述的语音识别产生的众多单词候选项;以及允许用户选择输出的候选项之一作为所需要的单词;以及通过选择它作为就识别而言被识别的单词响应用户对输出的候选项之一的选择。
143.根据权利要求139的方法,其中所述的接收过滤序列和所述的完成支持包含与过滤器序列相对应的字符的候选项的语音识别可以响应所述的过滤序列中连续的按压按键信号的接收针对给定的声学表达被重复地完成。
144.根据权利要求139的方法,其中单词候选项的优先记分是通过从先前借助识别程序选定的单词候选项中选择那些包含与过滤序列相对应的一个或多个字符的序列的候选项完成的。
145.根据权利要求139的方法,其中单词候选项的优先记分是通过在包含与收到的过滤序列相对应的一个或多个字符的序列的单词候选项得到支持期间在声学表达之上完成第二次语音识别完成的。
146.根据权利要求139的方法,其中按压按键信号的序列是在完成声学表达的初始识别之前收到的而且单词候选项按字母顺序的音量调节是在初始识别期间完成的。
147.根据权利要求139的方法,其中所述方法是借助在电话上运行的软件完成的,而那些按键是电话按键区中的按键。
148.根据权利要求139的方法,其中电话是移动电话。
149.根据权利要求139的方法,其中单词候选项的优先记分是通过在预期的单词的第二个发声的声学表达之上完成语音识别完成的,其中包含与收到的过滤序列相对应的一个或多个字符的序列的单词候选项是得到支持的。
150.根据权利要求149的方法,其中单词候选项的优先记分是通过针对预期单词的原始发声和二次发声两者给单词候选项记分完成的。
151.根据权利要求139的方法,其中单词候选项的优先记分不仅支持包含与过滤序列相对应的一个或多个按字母顺序的字符的序列的单词候选项,而且支持语言模型记分。
152.根据权利要求151的方法,其中在单词候选项的记分中与这样的过滤序列结合使用的语言模型是取决于上下文关系的语言模型。
153.一种完成大词汇表语音识别的方法,其中包括接收一个或多个按压电话按键信号的按压按键序列,其中每个信号都指出用户已经选择众多按键之中的哪个按键;通过使用在彼此的给定的时间内发生的按压给定的按键的次数选择与给定的按键相关联的多个字母之中的哪个字母作为需要的字母将按压按键序列解码;储存依据所述的按压按键序列解码的一个或多个字母的序列作为按字母顺序的过滤序列;接收声音的声学表达;在声学表达之上完成作为声音的声学表达和单词的声学模型之间的匹配函数给单词候选项记分的语音识别;其中单词候选项的记分支持包含与所述的按字母顺序的过滤序列的字母相对应的一个或多个按字母顺序的字符的序列的单词候选项。
154.一种为了输入一个或多个按字母顺序的字符的序列完成大词汇表语音识别的方法,其中包括按压一个或多个选定的电话按键的序列,每个按键代表两个或多个字母;发射一个或多个字母标识单词的对应序列;在每个字母标识单词的发声之上完成语音识别,其中每个这样的发声的识别支持用与发声相关联的电话按键代表的两个或多个字母标识的字母标识单词的识别;以及把用与每次按压电话按键相关联的字母标识单词标识的一个或多个字母的序列处理作为来自用户的字母输入进行处理。
155.根据权利要求154的方法,其中所述的方法是与大词汇表识别系统结合起来使用的;而且在大词汇表识别系统的词汇表中从给定的字母开始的大部分单词能作为给定字母的字母标识单词使用。
156.根据权利要求154的方法,其中与大部分字母之中每个字母相关联的字母标识单词属于从那个给定的字母开始的有限的一组五个以下字母标识单词;而且字母标识单词的发声的识别支持标识用与发声相关联的电话按键代表的两个或多个字母之一的那组有限的字母标识单词之一的识别。
157.根据权利要求156的方法,进一步包括通过以用户可察觉的形式显示包含一个或多个从用被按压的按键代表的每个字母开始的单词的一组字母标识单词响应按压按键信号;以及支持在显示与所述的显示单词相对应的与被按压的按键相关联的字母标识单词之后进行的发声识别。
158.根据权利要求156的方法,其中所述方法是在有显示屏的电话上完成的;而且字母标识单词的子集的输出是通过在电话的显示屏上显示这样的单词完成的。
159.一种在有电话按键的装置上完成大词汇表语音识别的方法,所述的方法包括在一种或多种发声之上完成大词汇表语音识别以产生对应的包含一个或多个已用所述的语音识别辨认出的单词的输出文本;接收一个或多个按压电话按键信号的序列而且把所述的按压序列解释为与一个或多个按字母顺序的字符的序列相对应;而且把所述的一个或多个按字母顺序的字符的序列输出到所述的输出文本之中。
160.根据权利要求159的方法,其中电话是移动电话。
161.根据权利要求159的方法,其中一个或多个按压按键信号的序列在各个按压按键信号每个都代表两个或多个的字母的意义上被程序自动地处理成有多种解释的;而且除了这样的按压按键之外来自其它来源的信息被用来选择与序列中按压按键相关联的一个或多个字母之中哪个字母将被解释为与每个这样的按压按键相对应。
162.根据权利要求161的方法,其中除了按压按键之外来自其它来源的信息包括语言模型信息。
163.根据权利要求162的方法,其中除了按压按键之外来自其它来源的信息包括取决于上下文关系的语言模型信息。
164.根据权利要求159的方法其中一个或多个按压按键信号的序列在各个按压按键信号每个都代表两个或多个字母的意义上被程序自动地处理成有多种解释的;而且进一步包括输出众多拼写在选项选项列表中以用户可察觉的形式与按压按键信号相对应的单词候选项;允许用户选择输出的候选项之一作为所需要的单词;以及通过选择它作为就识别而言被识别的单词响应用户对输出的候选项之一的选择。
165.根据权利要求159的方法,其中按压按键序列的解释包括通过使用在彼此的给定的时间内发生的按压给定按键的次数选择与给定的按键相关联的多样的字母之中哪个字母作为预期的字母将按压按键序列解码。
166.一种语音识别的方法,其中包括接收一个或多个单词的原始发声;在原始发声之上完成最初的语音识别;产生代表借助识别被选定为最有可能与该发声相对应的一个或多个单词的一个或多个序列的用户可察觉的输出;提供允许用户选择的用户界面以便在与用户可察觉的输出的全部或选定部份对应的一部份原始发声之上完成二次发声识别;以及响应用户的选择以便在全部或一部份原始发声之上通过下述方法完成二次发声识别把收到的与该选择相关联的二次发声处理成原始发声的选定部分的二次发声;和在二次发声之上完成语音识别以便基于一个或多个单词对二次发声和原始发声的选定部分的记分选择看来最有可能与二次发声匹配的一个或多个单词的一个或多个序列。
167.根据权利要求166的方法,其中原始发声的最初识别是借助连续的语音识别;而二次发声是借助不连续的语音识别辨认出来的。
168.根据权利要求167的方法,其中用借助不连续的识别辨认出的二次发声检测到的发声的数目被用来确定可允许在二次发声之后就原始发声而言被辨认出的一个或多个单词的序列中的单词数目。
169.根据权利要求166的方法,其中原始发声和二次发声两者都是借助不连续的语音识别辨认出的。
170.根据权利要求166的方法,其中原始发声和二次发声两者都是借助连续的语音识别辨认出的。
171.根据权利要求166的方法,其中看来最有可能与二次发声和原始发声的选定部分两者匹配的一个或多个单词的序列的选择被用于用来自原始发声的选定部分的数据更新声学模型。
172.根据权利要求166的方法,其中用户界面允许用户选择一种或多种单词过滤输入,每个都指出预期的输出有某种将与二次发声识别结合起来使用的特征;而且把一个或多个序列选为最有可能与二次发声和原始发声两者匹配的程序也使用选定的过滤输入支持选择有选定的特征的任何识别候选项。
173.根据权利要求172的方法,其中用户界面允许用户选择指出预期的输出包含将包含一个或多个指定字母的序列的单词的按字母顺序的过滤输入。
174.一种用来完成大词汇表语音识别的计算机装置,其中包括微处理器可读的存储器;用来提供代表将被识别的发声的电子信号的话筒或声音输入;用来使在所述的电话中产生的声音的电表达转换成对应的声音的扬声器或声音输出;记录在存储器中包括语音识别程序的程序,其中语音识别程序包括用于下述程序的指令用来完成通过产生对应于被识别为与发声对应的一个或多个单词的文本输出响应从话筒或话筒输入收到的一种或多种发声的序列的电子表达的大词汇表语音识别的语音识别程序;以及用来把TTS输出提供给说出借助语音识别就发声识别出的所述的文本中的一个或多个单词的扬声器或声音输出的TTS程序;储存在存储器中供识别与口语发声相对应的单词的所述的语音识别程序和产生与一个或多个单词的序列的语音相对应的声音的TTS程序两者使用的共享语音模型数据。
175.根据权利要求174的计算机装置,其中所述的共享语音模型数据包括字母发声规则。
176.根据权利要求174计算机装置的,其中所述的共享语音模型数据包括就至少几千个词汇表单词之中每个单词而言单词和一种或多种语音拼写之间的映射。
177.根据权利要求176的计算机装置,其中所述的映射包括当它们作为不同的语音部份发生的时候适合某些单词的不同的语音学拼法的指示。
178.根据权利要求177的计算机装置,其中所述的共享语音模型数据包括指出一个或多个单词的哪些语音部份更可能发生在给定的语言上下文关系之中的语言模型信息。
179.根据权利要求174的计算机装置,其中装置是手持式装置。
180.根据权利要求179的计算机装置,其中装置是移动电话。
181.一种用来完成大词汇表语音识别的计算机装置,其中包括微处理器易读的存储器;用来提供表示要识别的发声的电子信号的话筒或声音输入;用来使在所述的电话中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在存储器中包括语音识别程序的程序,其中语音识别程序包括下述指令用来在从话筒或话筒输入收到的发声的电子表达之上完成大词汇表语音识别产生文本输出的指令;用来把TTS输出提供给说出所述的文本输出的一个或多个单词的扬声器或声音输出的指令;用来把作为话音指令的发声识别为指令的指令;用来把TTS或记录下来的声音输出提供给所述的扬声器或声音输出说出被识别指令的名字名字的指令。
182.根据权利要求181的计算机装置,其中装置是手持式装置。
183.根据权利要求182的计算机装置,其中装置是移动电话。
184.一种用来完成大词汇表语音识别的计算机装置,其中包括微处理器易读的存储器;用来提供代表要识别的发声的电子信号的话筒或声音输入;用来使在所述的电话中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在存储器中包括语音识别程序的程序,其中语音识别程序包括用来完成通过如下步骤响应从话筒或话筒输入收到的一个或多个发声的每个序列的电子表达的大词汇表语音识别的指令产生对应于被识别为与发声相对应的一个或多个单词的文本输出;然后把TTS输出提供给所述的扬声器或声音输出说出借助对发声的语音识别辨认出的所述文本的一个或多个单词。
185.根据权利要求184的计算机装置,其中所述的语音识别是不连续的语音识别,而所述的TTS输出说出根据每个发声识别的文本单词。
186.根据权利要求184的计算机装置,其中语音识别是连续的语音识别,而所述的TTS输出说出在发声结束之后根据每个发声识别的一个或多个文本单词。
187.根据权利要求184的计算机装置,其中装置是手持式装置。
188.根据权利要求187的计算机装置,其中装置是移动电话。
189.一种用来完成大词汇表语音识别的计算机装置,其中包括微处理器可读的存储器;用来提供代表要识别的发声的电子信号的话筒或声音输入;用来使在所述的电话中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在存储器中包括语音识别程序的程序,其中包括语音识别程序下述指令用来在从话筒或话筒输入收到的发声的电子表达之上完成大词汇表语音识别产生文本输出的指令;用来通过在所述的文本输出的一个或多个单词中向后和向前移动光标响应文本导航的指令;用来通过把TTS输出提供给所述的扬声器或声音输出说出以所述的移动之后光标的位置为起点或为终点的一个或多个单词响应根据所述的导航指令的每次移动。
190.根据权利要求189的计算机装置,其中所述的程序进一步包括用来通过如下步骤响应选择扩充指令的指令在收到作为选择起点的指令时候记录光标位置;从选择起点开始选择;以及进入选择扩充模式,在该模式中对所述的导航指令之一的响应进一步包括使选择从选择起点扩充到根据所述的导航指令移动光标之后的光标位置。
191.根据权利要求190的计算机装置,其中所述的程序进一步包括用来通过把TTS输出提供给所述的扬声器或声音输出说出当前在选择中的一个或多个单词响应播放选择指令的指令。
192.根据权利要求189的计算机装置,其中所述的说出一个或多个单词开始说出从当前的光标位置开始的所述的文本中的单词而且继续说出它们直到达到比一个单词大的文本单元的终点或直到收到结束这样的回放的用户输入。
193.根据权利要求189的计算机装置,其中装置是手持式装置。
194.根据权利要求193的计算机装置,其中装置是移动电话。
195.一种用来完成大词汇表语音识别的计算机装置,其中包括微处理器可读的存储器;用来提供代表要识别的发声的电子信号的话筒或声音输入;用来使在所述的电话中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在存储器中包括语音识别程序的程序,其中语音识别程序包括下述指令用来在从话筒或话筒输入收到的发出的声音的电子表达之上完成大词汇表语音识别产生每个都由一个或多个借助识别被选定为对所述的发出的声音记分最佳的单词的序列组成的识别候选项的选项选项列表的指令;以及用来把口语输出提供给所述的扬声器或声音输出说出选项选项列表中识别候选项之一的一个或多个单词的指令。
196.根据权利要求195的计算机装置,其中所述的程序包括下述指令用来通过移动当前在选项选项列表中选定的那个识别候选项响应选项选项导航指令的指令;以及用来通过提供口语输出说出在当前选定的识别候选项之中的一个或多个单词响应根据所述的导航指令之一的每次移动。
197.根据权利要求195的计算机装置,其中所述的口语输出说出在所述的列表中众多识别候选项中的单词而且包含与所述的众多指令中每条指令相关联的选项选项输入信号的口语指示;而且所述的程序进一步包括用来通过选择相关联的识别候选项作为适合所述的发出的声音的输出响应所述的选项选项输入信号之一的接收的指令。
198.根据权利要求197的计算机装置,其中所述的装置有电话按键区;而且所述的选项选项输入信号包括电话按键数字;而且所述的响应所述的选项选项输入信号之一的接收包括响应作为选项选项输入信号的按压有数字的电话按键。
199.根据权利要求197的计算机装置,其中所述的口语输出首先说出最佳记分的识别候选项。
200.根据权利要求195的计算机装置,其中所述的程序包括用来通过产生每个都由与所述的过滤输入一致而且已经借助识别被选定为对于所述的发出的声音记分最佳的一个或多个单词的序列组成的识别候选项的经过过滤的选项选项列表和把口语输出提供给所述的扬声器或声音输出说出在经过过滤的选项选项列表中的识别候选项之一的一个或多个单词响应过滤输入的接收的指令。
201.根据权利要求200的计算机装置,其中所述的程序进一步包括用来提供口语输出说出过滤器的当前数值的指令。
202.根据权利要求201的计算机装置,其中过滤输入是字母序列,而口语输出说出过滤器序列中的字母。
203.根据权利要求195的计算机装置,其中口语输出包括一种或多种选择的拼写。
204.根据权利要求195的计算机装置,其中装置是手持式装置。
205.根据权利要求204的计算机装置,其中装置是移动电话。
206.一种单词识别的方法,其中包括接收要识别的一个或多个单词的给定序列的全部或一部份的手写表达;接收一个或多个单词的所述序列的口语表达;完成在口语表达之上的语音识别和手写表达之上的手写识别以及基于识别候选项对手写和口语两种表达的记分选择一个或多个每个都由一个或多个单词的序列组成的最佳记分识别候选项。
207.一种单词识别的方法,其中包括接收要识别的一个或多个单词的给定序列的口语表达;接收由手写或字符图画输入组成的过滤输入;分别使用手写或字符识别定义代表借助所述的识别被选定为最有可能与所述的过滤输入相对应的一个或多个字符序列的过滤器;以及使用所述的过滤器和在所述的口语表达之上完成的语音识别的组合选择一个或多个每个都由无论它们是否与一个或多个与所述的过滤器相关联的字符序列之一相匹配都作为它们对口语表达的匹配接近程度的函数选定的一个或多个单词的序列组成的识别候选项。
208.根据权利要求207的方法,其中所述的过滤输入由手写组成。
209.根据权利要求208的方法,其中所述的过滤器代表众多字符序列;而且所述的选择识别候选项选择众多最佳记分识别候选项,其中不同的最佳记分识别候选项能与用所述的过滤器表示的不同的字符序列相匹配。
210.根据权利要求209的方法,其中所述的用一个过滤器表示的而且被用在所述的选择识别候选项之中的众多字符序列可以有不同字符长度。
211.根据权利要求208的方法,其中所述的过滤器只代表用于过滤的字符序列之一;而且所述的选择识别候选项选择全部与所述的一个字符序列匹配的众多最佳记分识别候选项。
212.根据权利要求207的方法,其中所述的过滤输入由一个或多个分开的字符图画组成。
213.根据权利要求212的方法,其中所述的过滤器代表众多字符序列;而且所述的选择识别候选项选择众多最佳记分识别候选项,其中不同的最佳记分识别候选项能与用所述的过滤器代表的不同的字符序列匹配。
214.根据权利要求212的方法,其中所述的过滤器只代表用于过滤的字符序列之一;而且所述的选择识别候选项选择全部与所述的一个字符序列匹配的众多最佳记分识别候选项。
215.根据权利要求中207方法,进一步包括接收要识别的一个或多个单词的第二序列的口语表达;使用语音识别把一个或多个单词的对应序列输出到文本的连续主体之中;用在所述的文本主体中通过选择被触摸的序列作为要修正的序列触摸一个或多个单词的序列的指位设备响应用户输入;把单词的所述的第二序列的口语表达部分作为所述的给定的单词序列进行处理;然后接收所述的过滤输入;使用所述的手写或字符识别定义所述的过滤器;以及使用所述的过滤器和语音识别的组合选择一个或多个识别候选项。
216.一种单词识别的方法,其中包括接收要识别的一个或多个单词的给定序列的手写表达;接收包括代表一个或多个字母标识单词的序列的一种或多种发声的过滤输入;使用语音识别定义代表借助所述的识别被选定为最有可能与所述的过滤输入相对应的一个或多个字符序列的过滤器;以及使用所述的过滤器和在所述的手写表达之上完成的手写识别的组合选择一个或多个每个都由无论它们是否与一个或多个与所述的过滤器相关联的字符序列之一匹配都作为它们对手写表达的匹配接近程度的函数选定的一个或多个单词的序列组成的识别候选项。
217.根据权利要求216的方法,其中过滤输入是连续口语表达的字母标识单词序列;而语音识别是连续的语音识别。
218.根据权利要求216的方法,其中过滤输入是不连续地口语表达的字母标识单词序列;而语音识别是不连续的语音识别。
219.根据权利要求216的方法,其中所述的过滤器代表众多字符序列;而所述的选择识别候选项选择众多最佳记分识别候选项,其中不同的最佳记分识别候选项能与用所述的过滤器代表的不同的字符序列相匹配。
220.根据权利要求219的方法,其中所述的用一个过滤器代表的而且被用在所述的选择识别候选项之中的众多字符序列可以有不同的字符长度。
221.根据权利要求220的方法,其中过滤输入是连续口语表达的字母名字名字序列;而语音识别是连续的语音识别。
222.根据权利要求216的方法,其中所述的过滤器只代表用于过滤的字符序列之一;而所述的选择识别候选项选择全部与所述的一个字符序列匹配的众多最佳记分识别候选项。
223.根据权利要求216方法,进一步包括提供使用户能够选择究竟是用不连续的识别还是用连续的识别辨认过滤输入的用户界面。
224.根据权利要求216的方法,进一步包括提供使用户能够选择是否在支持字母名字名字的识别或非字母名字名字字母标识单词的识别的模式中识别过滤输入的用户界面。
225.一种单词识别的方法,其中包括接收要识别的一个或多个单词的给定序列的手写表达;在所述的手写表达之上完成手写识别产生每个都包含被选定为有可能与所述的手写表达的一个或多个单词相对应的一个或多个单词的一个或多个最佳记分识别候选项;然后接收要识别的一个或多个单词的给定序列的口语表达;在所述的口语表达之上完成语音识别产生每个都包含被选定为有可能与所述的口语表达的一个或多个单词的相对应一个或多个单词的一个或多个最佳记分识别候选项;使用所述的语音识别最佳记分候选项之一中的信息修正所述的手写表达的先前识别。
226.根据权利要求225的方法,其中所述的使用语音识别信息修正手写识别包括用语音识别产生的最佳记分识别候选项代替用手写识别产生的最佳记分识别候选项。
227.根据权利要求225的方法,其中所述的使用语音识别信息修正手写识别包括把用语音识别产生的识别候选项之一解释为指令并且在修正用手写识别产生的最佳记分识别候选项的时候执行所述的指令。
228.一种用来完成大词汇表语音识别的手持式计算机装置,其中包括一个或多个处理装置;处理装置可读的存储器;用来提供代表声音输入的电子信号的话筒或声音输入;用来使在所述的装置中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在一个或多个存储器装置中的程序,其中包括用来完成通过产生与一个或多个被识别为与发声相对应的单词的文本输出响应从话筒或话筒输入收到的一个或多个发声的序列的声音的电子表达的大词汇表语音识别的语音识别程序;以及用来把所述的声音的电子可读的表达记录在一个或多个所述的存储器装置中的声音记录程序;以及用来回放所述的记录下来的声音表达而且把对应的声音信号提供给所述的扬声器或声音输出的声音回放程序;其中编程的装置有用来使用户能够在收到声音输入的时候在下列三种可能的记录声音输入模式之中的两种模式之间选择的指令响应所述声音输入的语音识别把文本输出在当前的光标位置放进用户可导航的文件而没有所述声音输入的录音的表达的第一模式;把所述声音输入的录音的表达在所述光标处放进所述的用户可导航的文件而没有响应所述声音输入的语音识别的文本的第二模式;以及响应所述声音输入的语音识别把文本输出在当前的光标位置放进用户可导航的文件的第三模式,其中文本输出的单词本身表示声音输入的录音的各个部分,依据它每个这样的单词已经被识别;而且其中声音回放程序包括用来使用户能够在回放模式中的时候通过有位于这样的表达上的光标选择播放借助第二和第三记录模式放在文件中用声音表达代表的录制的声音的指令。
229.根据权利要求228的装置,其中装置的程序进一步包括用来使用户能够选择在第二模式和第一或第三模式之间来回切换的指令,其中每次切换有不足1秒的延迟。
230.根据权利要求228的装置,其中装置的程序进一步包括用来使用户能够选择不需要对应的识别有在选定的声音记录部分上完成的语音识别就被记录的声音部分以便产生对应于选定的声音的文本输出的指令。
231.根据权利要求228的装置,其中装置的程序进一步包括用来使用户能够选择在第三模式中借助语音识别输出的文本的已经记录与它的单词相关联的声音的子部分和有与被删除的选定的文本相关联的录音的指令。
232.根据权利要求228的装置,其中装置的程序进一步包括用来使用户能够选择在第三模式中借助语音识别输出的文本的已经记录与它的单词相关联的声音的子部分和有被删除的选定的文本和用通过在第二模式中记录产生的录音的表达类型代替它在文件中的位置的指令。
233.根据权利要求228的装置,其中借助第二种记录模式放在文件中的声音的表达是在长度方面随着它们表达的录音的各个部分的持续时间变化的声波图形表达。
234.根据权利要求228的计算机装置,其中装置是手持式装置。
235.根据权利要求234的计算机装置,其中装置是移动电话。
236.一种用来完成大词汇表语音识别的手持式计算机装置,其中包括一个或多个处理装置;处理装置可读的存储器;用来提供代表声音输入的电子信号的话筒或声音输入;用来使在所述的装置中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在一个或多个存储器装置中的程序,其中包括用来完成通过产生对应于被识别为与发声相对应的一个或多个单词的文本输出响应从话筒或话筒输入收到的一种或多种发声的序列的声音的电子表达的大词汇表语音识别的语音识别程序;以及用来把所述声音的电子可读的表达记录在一个或多个所述的存储器装置中的声音记录程序;以及用来回放所述的录音表达而且把对应的声音信号提供给所述的扬声器或声音输出的声音回放程序;其中装置的程序进一步包括用来使用户能够选择没有对应的识别就被记录的声音部分和有在选定的声音记录部分上完成的语音识别以便产生与选定的声音相对应的文本输出的指令。
237.一种用来完成大词汇表语音识别的手持式计算机装置,其中包括一个或多个处理装置;处理装置可读的存储器;用来提供代表声音输入的电子信号的话筒或声音输入;用来使在所述的装置中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在一个或多个存储器装置中的程序,其中包括用来完成通过产生被识别为与发声相对应的一个或多个单词相对应的文本输出响应从话筒或话筒输入收到的一种或多种发声的序列的声音的电子表达的大词汇表语音识别的语音识别程序;以及用来把所述声音的电子可读的表达记录在一个或多个所述的存储器装置中的声音记录程序;以及用来回放录制的声音表达而且把对应的声音信号提供给所述的扬声器或声音输出的声音回放程序;其中所述装置的程序进一步包括下述指令用来使用户能够借助所述的语音识别把文本输出的记录部分与先前尚未用声音标注的录音表达部分关联起来的指令;用来使用户能够选择借助所述的语音识别使文本输出被作为文本搜索字符串使用的指令;以及用来完成对与搜索字符串相匹配的记录文本输出的搜索的指令;借此用户能选择通过搜索与它相关联的记录文本寻找一部分录制的声音表达。
238.一种用来完成大词汇表语音识别的计算机装置,其中包括一个或多个处理装置;处理装置可读的存储器;用来提供代表声音输入的电子信号的话筒或声音输入;用来使在所述的装置中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;记录在一个或多个存储器装置中的程序,其中包括用来完成通过产生与被识别为与发声相对应的一个或多个单词相对应的文本输出响应从话筒或话筒输入收到的一种或多种发声序列的声音的电子表达的大词汇表语音识别的语音识别程序;以及用来把所述的声音的电子可读的表达记录在一个或多个所述的存储器装置中的声音记录程序;用来回放所述的录制声音表达而且把对应的声音信号提供给所述的扬声器或声音输出的声音回放程序;以及用来用一个引起每次这样的切换的用户输入在所述的声音回放和所述的语音识别之间来回切换的指令,其中相继的声音回放略微在先前的回放之前开始。
239.根据权利要求238的计算机装置,其中所述的用来在所述的声音回放和所述的语音识别之间来回切换的指令响应同一输入装置的用户选择完成两种这样的切换。
240.一种作为移动电话起作用的计算机装置,其中包括用户可察觉的输出装置;至少包括标准的十二按键电话按键区的一组电话按键;一个或多个处理装置;处理装置可读的存储器;所述的电话能用来接收声音的电子表达的话筒或声音输入;用来使在所述的装置中产生的声音的电表达能够转换成对应的声音的扬声器或声音输出;发射和接收电路系统;记录在存储器中的程序,其中包括有用来完成包括发出和接收呼叫在内的电话功能的指令的电话程序;以及用来完成通过产生与被识别为与发声相对应的一个或多个单词的相对应的文本输出响应从话筒或话筒输入收到的一种或多种发声的序列的声音的电子表达的大词汇表语音识别的语音识别程序;以及用来把所述声音的电子可读的表达记录在所述的一个或多个存储器装置中的声音记录程序;用来回放所述的录制声音表达而且把对应的声音信号提供给所述的扬声器或声音输出的声音回放程序。
241.根据权利要求240的计算机装置,其中所述的播放程序包括下述指令用来使用户能够选择所述的录制声音表达的子部分的指令;以及用来使用户能够选择把所述的声音表达的选定的子部分播放给移动电话呼叫的另一方的指令。
242.根据权利要求240的计算机装置,其中所述的记录程序包括用来使用户能够选择记录移动电话交谈的一方或双方的电子可读的表达的指令。
243.根据权利要求240的计算机装置,其中装置的程序进一步包括用来使用户能够借助所述的语音识别把文本输出的记录部分与先前尚未用声音标注的录制声音表达的各个部分关联起来的指令。
244.根据权利要求243的计算机装置,其中装置的程序进一步包括下述指令用来使用户能够选择使所述语音识别的文本输出被作为文本搜索字符串使用的指令;以及用来完成对符合所述的搜索字符串的记录文本输出的搜索的指令;借此所述的用户能选择通过搜索与它相关联的记录文本寻找录制声音表达的某个部分。
245.根据权利要求240的计算机装置,其中装置的程序进一步包括用来使用户能够选择所述的录制声音表达中先前尚未被识别的子部分和有在所述的选定的子部分之上完成的所述的大词汇表语音识别的指令。
246.根据权利要求245的计算机装置,其中所述的语音识别程序包括用来以不同的质量水平完成语音识别的指令,其中质量较高的识别将花费较多的时间去识别给定的声音长度;而且所述的用来使用户能够选择在录制声音的选定的子部分上完成语音识别的指令包括用来使选定的录制声音能够以所述的较高的质量被识别的指令。
247.根据权利要求245的计算机装置,其中所述的语音识别程序包括下述指令用来使在文本输出中借助语音识别辨认出的个别单词和与所述文本中的每个被识别的单词相关联的录制声音部分之间时间对准的指令;以及用来使用户能够选择一个或多个单词的序列和有与那些被回放的单词相关联的录制声音的指令。
248.根据权利要求240的计算机装置,其中装置的程序进一步包括用来在声音回放和语音识别之间来回切换的指令,其中相继的声音回放略微在先前的回放结束之前开始。
全文摘要
本发明涉及使用可选择的识别模式的语音识别;在大词汇表语音识别方面使用选项列表;使用户能够选择单词转换;以一种或多种指定方式自动关掉识别的语音识别;大词汇表语音识别的电话按键控制;使用电话按键完成字母过滤和拼写的语音识别;使用户能够完成再次发声识别的语音识别;语音识别和文本-至-语音(TTS)的组合;语音识别与手写和/或字符识别的组合;以及大词汇表语音识别与音频的记录和回放的组合。
文档编号G10L15/32GK1864204SQ02829851
公开日2006年11月15日 申请日期2002年9月6日 优先权日2002年9月6日
发明者丹尼尔·L·罗思, 乔丹·R·科亨, 戴维·F·约翰逊, 曼弗雷德·G·格雷伯赫尔, 保罗·A·弗兰佐萨, 爱德华·W·波特 申请人:语音信号技术有限公司, 丹尼尔·L·罗思, 乔丹·R·科亨, 戴维·F·约翰逊, 曼弗雷德·G·格雷伯赫尔, 保罗·A·弗兰佐萨, 爱德华·W·波特
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1