用于移动设备的使用拼写识别的字典查找的制作方法

文档序号:2830101阅读:378来源:国知局
专利名称:用于移动设备的使用拼写识别的字典查找的制作方法
技术领域
本发明总体涉及语音识别系统,并特别涉及用于使用口头输入来 查询电子字典的方法和系统。
背景技术
许多移动设备和桌面应用支持用户查询电子字典。电子字典可以 包括例如提供对词或短语的定义的词库或词典。在其他应用中,双语 或多语言的字典提供将词从一种语言到另 一种语言的翻译。本领域公知用于输入要在字典中查找的单词或短语的多种数据 录入方法。在一些应用中,用户使用键盘或键区键入查询单词。例如,Ectaco公司(纽约,长岛市)提供了大量手持电子字典和翻译机。在 www.ectaco.com/dictionaries/view_info.php3 refid=831&pagelang=23& dict一id-92描述了 一种示例性的产品。其他的应用使用语音识别方法, 其中,用户用读音发出查询单词。例如,Ectaco公司提供支持话音输 入的被称为"UT-103 Universal Translator"的多语言翻译机。可以在 www.universal-translator.net 4戈到关于jt匕产品的其4也细节。一些字典应用^f吏用光学字符识别(OCR)方法用于录入查询。例 如,Wizcom Technologies公司(以色列,耶路撒冷)提供被称为 "Quicktionary,,的翻译机和字典族。Quicktionary产品是使用OCR 方法来扫描并分析打印文本的笔形手持设备。能够在 www.wizcomtech.com 4戈到关于Quicktionary产品的其4也纟田节。^吏用 OCR技术的另 一个例子是由Elgan在2002年6月的HP World杂志(5: 6 ) , " Nothing Lost in Translation " 中所描述的。也可以在 www.interex.org/hpworldnews/hpw206/pub__hpw_featuresl.jsp获4寻jt匕文 章。根据此方法,用户使用数码相机得到所需要的单词的照片。OCR模块产生了包括该单词的字母的字符串,继而,将其用于查询字典。大体说来,数据录入方法容易出错。因此, 一些应用使用用于检 测错误或减少出错的数据录入的可能性的方法。减少错误的可能性的 一种方法是为相同单词使用两个或多个的不同数据录入方法。此方式 有时被称为"多方式"数据录入。例如, 一些语音识别应用使用来自电话键区的字母数字数据录入。此技术由Parthasarathy在 "Experiments in Keypad-Aided Spelling Recognition" ( 2004 IEEE Internal Conference on Acoustics, Speech and Signal Processing (ICASSP 2004),加拿大,魁北克,2004年5月)中描述。作者描述 了在呼叫中心应用中,用来自电话键区的输入扩张语音输入的 一 些方 案。另 一个例子是使用键区录入用于错误检测的航班预定系统,由 Filisko和Seneff在 "Error Detection and Recovery in Spoken Dialogue Systems" ( Proceedings of the Human Language Technology Conference, North American Chapter of the Association for Computation Linguistics Annual Meeting(HLT画NAACL 2004), Workshop on Spoken Language Understanding for Conversational Systems,马萨诸塞州,波士顿,2004 年5月,31-38页)中描述。一些应用使用字母拼写或发音拼写数据录入的模式。上面引用的 Filisko和Seneff的文章也描述了 "Speak and Spell"方法,其中,也 请用户拼写单词作为错误恢复的措施。在美国专利6,321,196中描述 了另一个应用,其中用户使用发音拼写输入目标单词。用发音拼写单 词意味着用普通地理解的单词表示待拼写的单词中的每个字母。例 如,可以通过说"Kilo echo yankee"来发音地拼写单词"key"。发 明人描述了 一种语音识别系统,其中用户说出从给定的词汇表中选择 的单词序列,而无需将该词汇表约束为预先指定的音标。该系统识别 所说出的单词,同这些单词相关联的字母,并继而,安排这些字母来 形成目标单词。在美国专利5,995,928中描述了另 一种基于拼写的应用。发明人描述了 一种语音识别系统,能够基于连续的用户对单词的连续拼写而 识别该单词。该系统基于由用户发出的字母,连续地输出所假设的字 母的更新的字符串。该系统将所假设的字母的每个字符串同单词的词 汇表进行比较,并返回对该字符串的最佳匹配。在一些语音识别应用中,用伴随着自动识别过程的一些可选的结果呈现给用户。例如,美国专利5,027,406描述了在自然语言听写系 统中创建单词模型的方法。在用户口述了一个单词之后,系统显示在 最匹配该被说出的单词的活跃词汇表中的单词的列表。通过键盘或话 音命令,用户可以从该列表中选择正确的单词,或者如果正确的单词 没有在列表中,用户可以选择编辑类似的单词。可选地,用户可以键: 入或说出该单词的首字母。在美国专利申请7>开2002/0064257 Al中描述了另一个用户辅助 方法。发明人描述了一个语音激活的拨号系统,其使用DTMF(双音 多频)录入设备来缩小对基于发音的名字的选择的可能结果。用户输 入名字的DTMF签名,并且通过字典来使用该签名以生成对该单词适 当可能的可能性。请用户来确认所建议的名字是否是所输入的名字。发明内容因此,根据本发明的实施方式,提供了一种使用由用户念出的字 母表的字母来查询电子字典的方法。所述方法包括接受来自所述用户 的语音输入,所述语音输入包括由用户念出拼出查询单词的所拼写字 母的序列。分析所述语音输入来确定所述字母的一个或多个序列,其 近似于所拼写的字母的所述序列。后处理所述字母的所述一个或多个 序列,以便产生近似于所述查询单词的多个所识别的单词。用所述多 个所识别的单词查询所述电子字典,以便检索相应的多个字典条目。 向所述用户呈现结果的列表,其包括所述多个所识别的单词以及所述 相应的多个字典条目。在另一个实施方式中,分析所述语音输入包括向所述语音输入应 用声学模型和语言模型的至少一个。另外地,或可选地,应用所述语言模型包括按照有限状态语法(FSG)表示所述字典的至少一部分。 进一步另外地或可选地,应用所述语言模型包括基于概率语言模型向 所述字母的所述序列指派概率。在另一个实施方式中,后处理所述序列包括定义两个或多个字母集,以及通过替换同所述查询单词的至少一个所述字母属于相同字母 分类的至少一个所述字母,来构建所述字母的序列,以便产生所述多 个所识别的单词。在又一个实施方式中,查询所述字典包括接受用户命令其包括键 入输入和话音命令的至少 一个,以及基于所述用户命令调整所述所识 别的单词之一的至少一个字母。在又一个实施方式中,呈现所述结果的列表包括将似然性评分指 派给在所述列表中的所述所识别的单词,并且基于所述似然性评分来 对所述列表进行排序。另外地或可选地,呈现结果的所述列表包括将 所述列表的至少一部分转换为语音输出,以及向所述用户播放所述语 音输出。进一步另外地或可选地,呈现结果的所述列表包括接受用户 命令其包括键入的输入和话音输入的至少一个,以及响应于所述用户 命令而从头至尾滚动所述列表。在一个实施方式中,接受所述语音输入包括经由同移动设备相关 联的音频接口接收所述语音输入,所述移动设备包括移动电话、便携 式计算机和个人数字助理(PDA)的至少一个,以及呈现所述列表包 括经由所述移动设备的输出而提供所述列表。在另一个实施方式中,接受所述语音输入包括从所述移动设备向 远程服务器发送所述语言,所述远程服务器服务于一个或多个用户, 以及呈现所述结果的列表包括从所述远程服务器向所述移动设备传 送所述结果的列表,用于向所述用户呈现。也提供了用于查询电子字典的装置和计算机软件产品。根据本发明的实施方式,另外还提供了 一种使用由用户念出的字 母表的字母来查询电子字典的系统。所述系统包括包含存储器的远程服务器,所述存储器用于存储所述电子字典。所述系统包括一个或多个拼写处理器,用于从所述用户接受语音 输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母的序 列的所述字母的一个或多个序列;后处理所述字母的所述一个或多个 序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多 个所识别的单词查询存储于所述存储器中的所述电子字典,以便检索 到相应的多个字典条目;以及生成结果的列表,其包括所述多个所识 别的单词和所述相应的多个字典条目。所述系统也包括用户设备,包括客户端处理器,其用于从所述用 户接收所述语音输入,并向所述远程服务器发送所述语音输入,以及 响应于所述语音输入而接收所述结果的列表。所述用户设备包括输出表。、 。 、、 、通过下面对本发明实施方式的详细描述,结合附图,将更充分地 理解本发明,附图包括


图1是根据本发明的实施方式,对一种用于查询电子字典的系统的 示意性图示;图2A是根据本发明的实施方式,示意性地示出了移动设备的框图; 图2B是根据本发明实施方式,示意性地示出了拼写处理器的框图; 图3是根据本发明的另一个实施方式,示意性地示出了一种用于查询电子字典的系统的框图;图4是根据本发明的又一个实施方式,示意性地示出了一种用于查询电子字典的系统的框图;以及图5是才艮据本发明的实施方式,示意性地示出了一种用于查询电子字典的方法的流程图。
具体实施方式
概述本发明的实施方式提供了改进的方法和系统,其允许移动设备的 用户使用拼写识别来查询电子字典。作为如在传统语音识别系统中实 现的对查询单词发出整体读音的替代,用户逐字母地发音拼写查询单 词。在移动设备中的拼写处理器捕获并处理所拼写的单词。根据预定 义模型,产生可能的所识别的单词的列表。将结果的列表呈现给用户, 该列表包括所识别的单词连同对应的字典条目。然后,用户能够在结 果中从头至尾滚动并标识正确单词和字典条目。在与识别整个单词的传统语音识别方法的比较中,拼写识别典型 地实现了较好的识别性能。本发明的实施方式提供了 一种方法和系 统,尤其适合不熟悉所讨论语言的用户,诸如旅行者或外国人。此类 用户可能不知道单词的正确发音,但能够容易地将其拼写出。具有话 语障碍的用户,其单词的发音可能难以理解,也可以从本公开的方法 中获益。另一方面,可靠的逐字母拼写识别并非无关紧要的任务,如同下 面将要解释的,其引入了其他类型的错误机制。本公开的方法通过定 义确定了可选的所识别单词的列表的恰当模型而解决这些错误机制。 典型地,使用基于相同的错误机制和/或所使用的模型的相关性度量标 准,通过相关性,而对该列表排序。在本发明的一些实施方式中,也提供了用于移动设备的用户的快 速而简单的用户界面。这些用户界面将拼写识别同键区功能和/或话音命令结合起来。此多方式功能支持由普通的用户和带有特殊需要的用 户二者的对字典应用的快速而平滑的操作。另外地,所公开的用户界面支持用户查询字典,而无需将他或她 的眼睛离开所书写的文本。对于阅读用布莱叶盲文书写的文本的盲人 用户,用户界面允许查询字典而无需将用户的手指从页面移开。在所公开的实施方式中,使用文本到语音(TTS)生成器将结果 的列表转换为语音,并向用户播放。此实现也特别适合于盲人用户以及适合于在操作该系统的同时驱动或实现需要连续视觉关注的其他 任务的用户。在另一个实施方式中,使用分布式语音识别(DSR)在远程服务 器配置中实现字典查询系统。 系统描述图1是根据本发明的实施方式,对一种用于查询电子字典的系统 的示意性的图示。用户22使用语音24同移动设备26通信,用于查 询电子字典。移动设备可以包括诸如PalmOne PDA产品(见 www.palmone.com)之一的个人数字助理(PDA)。可选地,移动设 备可以包括膝上型计算机、移动电话或具有合适的计算和I/O能力的 其他设备。尽管下面描述的实施方式通过图示的方式涉及移动设备, 也可将本发明的原则应用于诸如台式计算机的非移动计算设备。移动设备典型地包括麦克风27用于接受来自用户的语音,以及 键区28用于接受用户的输入。显示器30向用户呈现文本信息。在一 些实施方式中,移动设备26也包括用于向用户播放合成语音的扬声 器31,其也将在下面解释。电子字典应用可以包括词库或词典,其中查询字典意p未着才全索到 对单词的定义。可选地,字典可以包括双语或多语言字典,在这种情 况下,查询字典意味着对单词从一种语言向另一种语言的翻译进行检 索。另外的字典应用包括专用于特定专业规则的字典以及将短语从一 种语言翻译为另一种语言的短语手册。对本领域技术人员而言其他的 字典应用将变得显而易见,并且,可使用下面描述的方法加以实现。 在本专利申请的上下文中,以及在权利要求书中,术语"字典"适于 任何此类字典应用。术语"字典条目,,指代对单词或短语的定义或翻 :泽,也同特定的应用相关。图2A是根据本发明的实施方式,示意性地示出了移动设备26 的框图。移动设备26包括诸如麦克风27的输入设备,其接受来自用 户的语音输入。语音包括查询单词或短语,由用户逐字母拼写。采样 器32对语音输入采样并产生数字化的语音。拼写处理器34处理数字化的语音,并产生可能的所识别单词的列表。在下面的图5中的描述 中详细地解释了若干可选的识别方法。典型地将拼写处理器实现为软件进程,其运行在移动设备的中央处理单元(CPU)上。拼写处理器查询电子字典36,并检索到对应于 所识别的单词的字典条目,所述电子字典36存储在移动设备的存储 器中。典型地,拼写处理器使用诸如显示器30的输出设备显示结果 的列表。另外地或可选地,输出设备包括文本到语音(TTS)生成器 38,其将结果的列表或其部分转换为语音,并向用户播放。此外,在 下面的图5的说明中给出了对该方法以及相关联的用户界面的详细描 述。图2B是根据本发明的实施方式,示意性地示出了拼写处理器34 的框图。在一些实施方式中,将由处理器34执行的拼写识别进程分 为两个连续的步骤。在处理器34中的语音识别器39接受数字化的语 音。语音识别器将适当的模型应用于数字化语音,以便产生一个或多 个代表可能地被识别的单词的字母序列。向每个字母序列指派一 个概 率值,其指示代表由用户拼写的单词的特定字母序列的概率。在一些 实施方式中,作为识别进程的部分,语音识别器39查询字典36。在 可选的实施方式中,由识别器39使用的模型已经包含了字典的至少 一部分。在拼写处理器36中的后处理器41接受字母序列以及来自识别器 39的相关联的概率。后处理器用所识别的单词查询字典36,并产生 结果的有序列表。该列表包括所识别的单词,以及这些单词的相关联 的字典定义。典型地,在上面图2A中示出的本地配置和下面的图3 和图4中示出的远程服务器配置中,使用在图2B中示出的拼写处理 器34的配置。在一些实施方式中,将语音识别器39和后处理器41 实现为由拼写处理器34管理的两个软件进程。图3是根据本发明的实施方式,示意性地示出了一种用于查询电 子字典36的远程服务器系统的框图。在一些情况中,优选地使用远 程服务器配置实现字典应用。在一些远程服务器配置中,将电子字典置于单一的中央位置。如本领域中所公知的,多个用户能够使用分布式语音识别(DSR) l支术而查询字典。有时,中央化的字典配置是优选地,因为它支持对较大字典的使 用。大的字典,或保有大而详细的条目的字典,可能显著地超出典型 的移动设备的存储器设备容量。此外,在中央化字典数据结构中维护 和更新信息通常比管理分布于多个用户之间的多个字典要容易。在图3中示出的配置包括应用服务器40。将拼写处理器34和字 典36置于服务器40中。尽管图3示出了单一的拼写处理器,服务器 40的典型实现包括同多个移动设备26交互的多个拼写处理器34。典 型地,将多个拼写处理器实现为运行于服务器40的一个或多个CPU 上的并行软件实例或线程。可以使用诸如数据库的适合于多用户访问 的合适的数据结构来实现字典36。在远程服务器配置中,移动设备26包括客户端处理器42,其经 由麦克风27和采样器32(此图中未示出)接受来自用户的语音输入。 处理器42压缩所捕获并数字化的语音,并且典型地,以诸如经压缩 的特征向量的流的压缩形式,将其传送给在服务器40中的拼写处理 器34。根据下面图5中的方法,拼写处理器解压缩该特征相量,处理 该经解压缩的语音,并查询字典36。由在远程服务器配置中的拼写处 理器36执行的处理,类似于在上面的图2A的本地配置中执行的处理。 拼写处理器向在移动设备中的客户端处理器42发送所识别的单词的 列表以及对应的字典条目。客户端处理器使用显示器30和/或TTS生 成器38向用户呈现结果。客户端处理器操纵用户界面,其允许用户 使用键区28和/或话音命令滚动并编辑结果的列表。此外,在下面对 图5的描述中,详细地解释该用户界面。由通信信道链接移动电话26和服务器40。使用该信道向服务器 发送经压缩的语音,向移动设备发送结果的列表,以及交换各种控制 信息。通信信道可以包括任何合适的介质,诸如因特网连接、电话线、 无线数据网络、蜂窝网络或者若干此类介质的组合。图4是根据本发明的又一个实施方式,示意性地示出了一种用于查询电子字典36的远程服务器系统的框图。图4的配置类似于上面 图3的配置,除了在图4的配置中,也在服务器和移动设备之间分离 文本到语音转换功能。这里的服务器40包括TTS生成器38,在此实 施方式中,其接受来自拼写处理器的结果的列表,并将其(或其部分) 转换为经压缩的语音特征向量的流。继而,在通信信道上向移动设备 发送经压缩的语音。在移动设备中的语音解码器解压缩并且解码所接 收的特征向量,并向用户播放经解码的语音。典型地,拼写处理器34和客户端处理器42包括通用目的计算机 处理器,用软件对其编程来实现这里所描述的功能。可以电子形式在 例如网络上将软件下载到计算机,或者可选地,可以在诸如CD-ROM 的有形介质上将其提供给计算机。进一步可选地,拼写处理器可以是 单独的单元,或者可选地,可将其同移动设备26或服务器40的其他 计算功能集成。另外地或可选地,可以使用专用硬件实现拼写处理器 的至少 一些功能。也可将客户端处理器42同移动设备26的其他计算 功能集成。字典查询方法说明图5是根据本发明的实施方式,示意性地示出了一种用于查询电 子字典36的方法的流程图。该方法开始于在单词录入步骤50处,用 户22录入查询单词或短语。为此目的,用户首先启动运行于移动设 备26上的字典应用。继而,用户例如通过点击在4建区28上的4安4丑开 始语音获取过程。用户用读音逐字母地拼写查询单词。在拼写了整个 单词之后,用户例如使用键区28停止语音获取过程。移动设备使用 麦克风27捕获包含所拼写的字母序列的语音。采样器32数字化所捕 获的语音。在另一个实施方式中,用户能够使用预定义的话音命令开 始和停止语音获取过程。(如果如上面在图3和图4中示出的使用远程服务器配置实现所 公开的方法,在语音传送步骤52,客户端处理器42典型地以经压缩 的特征向量的流形式向拼写处理器传送表示经压缩的语音的数据。如 上面的图3和图4中示出的,在此配置中,拼写处理器是服务器40的部分。如果如上面的图2A中示出的在移动设备中本地实现该方法, 则忽略步骤52。)在语音处理步骤54,在拼写处理器34 (图2B)中的语音识别器 39和后处理器41处理经数字化的语音。语音识别器39分析经数字化 的语音,典型地将语音分割为代表查询单词的单独字母的发音成分。 在本领域中有公知的多种方法用于在有限的词汇表里标识表示发音 的声音。语音识别器能够使用任何合适的方法来标识在所捕获的语音 中的所拼写的字母。大部分方法无需用户特定的训练(有时被称作"用 户登记"),因为在所拼写字母的读法中其词汇表较小,而且根据用 户的差别性也较小。然而,在特定情况下,诸如具有话语障碍的用户或具有较重口音 的用户,对经学习的用户特定语音特性的使用可以提高识别的质量。 在一些实施方式中,语音识别器39提取来自数字化语音的额外的信 息,如同下面将要解释的,可将该额外的信息用于识别过程。在一些实施方式中,语音识别器使用合适的用于向每个经标识的 拼写字母指派似然性评分的声学模型。每个似然性评分量化确实由用户重复的特定字母的似然性。语音识别器使用语言模型,其可以整体上或部分地基于正被使用 的字典。使用语言模型,语音识别器响应于所捕获的输入语音而生成 表示可能被识别的单词的 一 个或多个字母序列。在一些实施方式中,语言模型包括表示字典的曲线图,通常将其 称为有限状态语法(FSG)。例如,由Rabiner和Juang在"Fundamentals of Speech Recognition" ( Prentice Hall, 1993年4月,414-416页)中 描述了有限状态语法(有时也被称为有限状态网络)。FSG的节点代 表字母表中的字母。(在典型的实现中,在曲线图中,字母表的每个 字母出现若干次。)节点之间的弧代表在合法单词中的邻接字母。换 句话说,以通过曲线图的轨迹或通路代表字典中的每个单词。在一些实施方式中,仅将字典的部分由FSG来代表。在许多实 际情况中,将基于FSG的模型用于小型到中型的词汇表和字典,典型地多至几千个单词。当使用FSG时,语音识别器典型地将数字化语音的所拼写字母 的序列同通过FSG的不同轨迹做比较。在一些实施方式中,语音识 别器向轨迹指派似然性评分。语音识别器产生字母序列以及相关联的 似然性评分。在其他实施方式中,语言模型包括概率语言模型,其向词汇表中 的不同字母序列指派概率。例如,由Young在"A Review of Large-Vocabulary Continuous-Speech Recognition ,, ( IEEE Signal Processing Magazine, 1996年9月,45-57页)中描述了概率语言模型。 典型地,当字典非常大,难以清楚地表示模型中的每个单词时,使用 概率语言模型。在这些实施方式中,语音识别器39产生一个或多个 同所拼写的字母序列相似的字母序列,其具有根据概率语言模型的相 关联的似然性评分。在又一个实施方式中,语音识别器表示通过按照格形(lattice) 的概率语言模型产生的不同字母序列。格形是包括字母的可能序列的 曲线图,具有根据概率语言模型,为每个序列所指派的相应的似然性 评分。跟随着语音识别过程,如上面所述,语音识别器39向后处理器 41提供一个或多个具有相关联的似然性评分的字母序列。在一个实施方式中,当语音识别器39使用FSG作为语言模型时, 提供给后处理器41的字母序列已经是出现于字典36中的合法单词。在另一个实施方式中,其中,如上所述,语音识别器39使用具 有格形输出的概率语言模型,后处理器41选择在格形中具有最高似 然性评分的字母序列的子集。因为,并非在格形中的所有可能的字母 序列都必然对应于合法的字典单词,后处理器41典型地用所选择的 字母序列查询字典36,并且丟弃在字典中未出现的单词。在又一个实施方式中,其中语音识别器39使用概率语言模型, 语音识别器39仅输出具有最大似然性评分的字母序列(在下面被称 为最高等级序列)。如同下面所解释的,后处理器41通过使用字母分类,基于最高等级序列,构建可选字母序列的列表。可将所拼写的字母基于其发音特性而分类为字母。在语音识别期间,可能将一些被拼写的字母误解为另一个。例如,被拼写的字母/b/、 /c/、 /d/、 /e/、 /g/、 /p/、 /仏/v/和/z/都属于相同字母分类(被称为"e类")。当拼写时,这些字母具有类似的元音读音。在一些情况中, 语音识别器可能不正确地将此类字母的一个误解为另一个。类似地, 语音识别器可能将属于"a类,,(/a/、 /h/、 /j/、 /k/)的字母同属于"i 类"(/i/、 /y/)和"u类"(/u/、 /q/)的字母错误地相互交换。典型地,将一个字母误解为另一个的概率由矩阵代表,将其称为 "混淆矩阵"。将属于不同字母分类的字母相互交换的概率假定为小。 当使用字母分类时,后处理器根据上面描述的字母分类,通过用读音 相类似的字母替换最高等级序列的每个字母,而来构建可选的字母序 列的列表。例如,通过基于混淆矩阵而计算似然性评分,典型地,后 处理器对列表分等级。例如,假设用户已经拼写出了单词"cat",假设由语音识别器 39识别的最佳等级序列是/c/、 /a/和/仏使用上面描述的字母分类,后 处理器构建由[^类}、 (a类)、(e类)](即,所有9x4x9=324个三字 母字符串,其中第一个字母属于e类,第二个字母属于a类,而第三 个字母再次属于e类)定义的可选字母序列的列表。在一些实施方式 中,可选字母序列也可以包括不同数量的字母,或者来自其他字母分 类的字母。例如,也可以将查询单词"cat"识别为"beat"。显然,在上面的例子中产生的可选字母序列中,仅有少数是有意 义的单词(例如"bat" 、 "the" 、 "pad"和原始的"cat")。大多 数是无意义的字符串。也注意到,整个单词的发音可能同查询单词的 发音有非常大的区别。作为一个极端的例子,单词"the"的读音同单 词"cat"的读音有非常大的区别。不过,拼写处理器将这两个单词都 考虑为合法的可选字母序列,因为,所拼写的序列/仏/h/、 /e/的确听 起来同所拼写的序列/c/、 /a/、 /t/相类似。后处理器仅维护(或在最初 的位置产生)对应于有意义的单词的字母序列。后处理器可以通过查询字典36,或通过使用任何合适的语法规则来在有意义和无意义的字母序列之间做出区分,其中所述语法规则是所使用的语言模型的一部 分。为了最小化错误识别的概率,拼写处理器在确定所识别的字母序 列或所识别的单词的哪一个是用户输入的原本查询的单词时,可以请求用户援助。为此目的,在列表准备步骤56,后处理器准备结果的列 表。在一些实施方式中,后处理器根据上面描述的语言模型之一产生 结果的列表。在一些实施方式中,后处理器用适当的降序对结果的列 表进行排序。典型地,如上所述,根据所使用的语言模型而确定特定 被识别的单词的相关的评分。可选地,可将列表按字母表顺序,或使 用任何其他合适的标准排序。(如在上面的图3和图4中所示,如果使用远程服务器配置实现 所公开的方法,在结果传送步骤58中,在服务器40中的拼写处理器 34向客户端处理器42传送结果的列表。如果如上面图2A所示出的, 在移动设备中本地实现该方法,则忽略步骤58。)在呈现步骤60,拼写处理器向用户呈现结果的列表。典型地,将 所识别单词的列表在移动设备的显示器30上显示为文本。用户可以 使用键区28在列表中从头至尾滚动,直到他或她找到想要的查询单 词,以及相对应的字典条目。可选地,仅将在列表中的第一个单词连 同其字典条目 一起显示。如果在结果的列表中的第一个所识别的单词 是不正确的,用户可以向下滚动并选择下一个单词。根据特定的应用, 以及移动设备的键区28和显示器30的能力,可以使用任何其他合适 的呈现方法。此外,用户也可以使用键区在任何时候编辑所显示的所 识别的单词,以便输入想要查询的单词的部分或全部。在另一个实施方式中,使用TTS生成器38将结果的列表转换为 语音,并通过扬声器31向用户播放。用户能够使用键区或者通过发 出话音命令来指出,何时正在播放正确的单词。当选择了正确的单词 后,TTS生成器播放相对应的字典条目。尽管所公开的方法主要解决了在移动设备中的基于拼写的字典查找,在多种另外的应用中,也可以使用相同的方法。例如,在需要 高质量的单词识别的台式或大型计算机应用中也能够使用本公开的 方法。此类应用包括,例如,字典辅助服务和姓名拨号应用。因而,应该理解上述实施方式是通过举例的方式加以引用,并且, 本发明不限于已经在上面特定示出和描述的内容。而是,本发明的范 围包括上述多种特征的组合和子组合二者,而且,在本领域技术人员 读到前述说明书和现有技术中尚未公开的内容时,可以想到其变形以 及调整。
权利要求
1.一种用于使用由用户念出的字母表上的字母来查询电子字典的方法,所述方法包括接受来自所述用户的语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输入以确定近似于所述所拼写的字母序列的所述字母的一个或多个序列。后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询所述电子字典,以便检索相应的多个字典条目;以及向所述用户呈现结果的列表,其包括所述多个所识别的单词以及所述相应的多个字典条目。
2. 根据权利要求1所述的方法,其中分析所述语音输入包括向所述 语音输入应用声学模型和语言模型中的至少 一个模型。
3. 根据权利要求2所述的方法,其中应用所述语言模型包括按照有 限状态语法(FSG)表示所述字典的至少一部分。
4. 根据权利要求2所述的方法,其中应用所述语言模型包括基于概 率语言模型向所述字母的所述序列指派概率。
5. 根据权利要求1到4中任一项所述的方法,其中后处理所述序列 包括定义两个或多个字母分类,所述字母分类包括在所述字母表中具有 类似发音的所述字母的子集,以及通过将所述查询单词的至少一个所述 字母替换为与其同属于相同字母分类的至少一个字母,来构建所述字母 的序列,以1更产生所述多个所识别的单词。
6. 根据权利要求1到5中任一项所述的方法,其中查询所述字典包 括接受用户命令,所述用户命令包括^t入的输入和话音命令中的至少一 个,以及基于所述用户命令调整所述所识别的单词之 一 的至少 一 个字母。
7. 根据权利要求1-6中任一项所述的方法,其中呈现所述结果的列 表包括以下多项之一(i) 向在所述列表上的所述所识别的单词指派似然性评分,以及基 于所述似然性评分对所述列表排序;(ii) 将所述列表的至少一部分转换为语音输出,并且向所述用户 播放所述语音输出;以及(m)包括接受用户命令,所述用户命令包括键入的输入和话音命 令的至少一个,以及响应于所述用户命令,从头至尾滚动所述列表。
8. 根据权利要求1到7中的任一项所述的方法,其中接受所述语音 输入包括经由同移动设备相关联的音频接口接收所述语音输入,所述移 动设备包括移动电话、便携式计算机和个人数字助理(PDA)的至少一表,和/或从所述移动设备向远程服务器发送所述语音输入,所述远程服务器 服务于一个或多个用户,并且其中呈现所述结果的列表包括从所述远程 服务器向所述移动设备传送所述结果的列表,用于向所述用户呈现。
9. 一种用于使用由用户念出的字母表上的字母来查询电子字典的 装置,所述装置包括存储器,其用于存储所述电子字典;拼写处理器,其用于从所述用户接受语音输入,所述语音输入包括 由所述用户念出拼出查询单词的所拼写的字母的序列;分析所述语音输序列;后处理所述字母的所述一个或多个序列,以便产生近似于所述查 询单词的多个所识别的单词;用所述多个所识别的单词查询存储于所述 存储器中的所述电子字典,以便检索到相应的多个字典条目;以及生成 结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条 目;以及输出设备,用于向所述用户呈现由所述拼写处理器生成的所述结果 的列表。
10. 根据权利要求9所述的装置,其中所述拼写处理器包括语音识别器,其用于应用声学模型和语言模型的至少一个,以便分析所述语音输入。
11. 根据权利要求IO所述的装置,其中所述语言模型包括表示所述 字典的至少一部分的有限状态语法(FSG),概率语言模型,并且其中所述语音识别器用于基于所述概率语言模 型向所述所识别的单词指派概率。
12. 根据权利要求9到11中任一项所述的装置,其中所述拼写处理 器用于定义两个或多个字母分类,所述字母分类包括在所述字母表中具 有类似读音的所述字母的子集;以及通过将所述查询单词的至少一个所 述字母替换为与其同属于相同字母分类的至少一个字母,来构建所述字 母的序列,以便产生所述多个所识别的单词;或者所述拼写处理器用于接受用户命令,所述用户命令包括一睫入的输入 和话音命令中的至少一个,以及基于所述用户命令调整所述所识别的单 词之一的至少一个字母;指派似然性评分,以及基于所述似然性评分对所述列表进行排序。
13. 根据权利要求9到12中的任一项所述的装置,其中所述输出设 备包括文本到语音转换器,其用于将所述列表的至少一部分转换为语音 输出,以及向所述用户播放所述语音输出。
14. 根据权利要求9到13中的任一项所述的装置,其中所述拼写处 理器用于经由同移动设备相关联的音频接口接收所述语音输入,所述移 动设备包括移动电话、便携式计算机和个人数字助理(PDA)中的至少 一个,以及用于经由所述移动设备的输出来提供所述结果的列表。
15. —种用于使用由用户念出的字母表上的字母来查询电子字典的 系统,所述系统包括远程服务器,包括存储器,用于存储所述电子字典;以及一个或多个拼写处理器,其用于从所述用户接受语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写的字母的序列;分析一个或多个序列;后处理所述字母的所述一个或多个序列,以便产生近 似于所述查询单词的多个所识别的单词;用所述多个所识别的单词查询 存储于所述存储器中的所述电子字典,以便检索相应的多个字典条目; 以及生成结果的列表,其包括所述多个所识别的单词和所述相应的多个 字典条目;以及用户设备,包括客户端处理器,其用于从所述用户接收所述语音输入,并向所述远 程服务器发送所述语音输入,以及响应于所述语音输入而接收所述结果 的列表;以及输出设备,其用于向所述用户呈现由所述拼写处理器生成的所述结 果的列表。
16. —种用于使用由用户念出的字母表上的字母来查询电子字典的 软件产品,所述产品包括在其中存储了程序指令的计算机可读介质,当 由计算机读取时,所述计算机指令引起所述计算机接受来自所述用户 的语音输入,所述语音输入包括由所述用户念出拼出查询单词的所拼写 的字母的序列;分析所述语音输入,以便确定近似于所述所拼写的字母 的序列的所述字母的一个或多个序列;后处理所述字母的所述一个或多 个序列,以便产生近似于所述查询单词的多个所识别的单词;用所述多 个所识别的单词查询所述电子字典,以侵^全索相应的多个字典条目;生 成结果的列表,其包括所述多个所识别的单词和所述相应的多个字典条 目;并且输' 呈现。
全文摘要
一种用于使用由用户念出的字母表上的字母来查询电子字典的方法,所述方法包括接受来自用户的语音输入。所述语音输入包括由用户念出所拼写的字母序列,该字母序列拼写查询单词。分析所述语音输入来确定所述字母的一个或多个序列,其近似于所述所拼写的字母序列。后处理所述字母的所述一个或多个序列,以便产生近似于所述查询单词的多个所识别的单词。用所述多个所识别的单词查询电子字典,以便检索到相应的多个字典条目。向所述用户呈现结果的列表其包括所述多个所识别的单词和所述相应的多个字典条目。
文档编号G10L15/00GK101218625SQ200680024551
公开日2008年7月9日 申请日期2006年5月12日 优先权日2005年7月7日
发明者O·阿朱莱, R·胡里, Z·西范 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1