将单词集转换成相应的粒子集的方法

文档序号:6605462阅读:415来源:国知局
专利名称:将单词集转换成相应的粒子集的方法
技术领域
本发明总体涉及信息检索,具体而言,涉及检索由粒子表示的条目。
背景技术
本发明要求Ramarkrishnan等于2008年2月15日提交的名称为“Method for Indexing for Retrieving Documents Using Particles” 的美国专利申请 12/036,681 的 优先权。信息检索(information retrieval, IR)系统通常包括大的条目列表,这些条目诸 如地理兴趣点(POI)或者音乐专辑的名称。通过索引来访问这个列表。对该索引的输入是 由用户提供的查询。响应于该查询,IR系统检索最匹配该查询的结果列表。该结果列表可 以根据各种要素按等级排序。列表、索引、查询和结果列表通常用单词来表示。输入列表、 查询和结果列表可以是文本或口语。口语查询通常用于用户无法使用键盘(例如,正在开车)或者用户接口包括麦克 风的环境中。当要检索的条目是音频条目(诸如,广播或电视节目)时,使用口语文档检索。 在那种环境中,使用自动语音识别器(ASR)将语音转换成单词。ASR使用两种基本的数据结构单词的发音字典和单词的语言模型。通常,IR系统 将单词在语音学上表示为音素,例如,将RESTAURAN表示为“R EH S T RAAN T”。音素是指 特定语言中的基本声音单位。音素可包括重音标记、音节边界以及表示该单词如何发音的 其它符号。语言模型描述了词序的概率,并且由ASR用来对正确单词假设的搜索进行约束。 语言模型可以是η元语法(n-gram)。如果η元语法是二元语法(bigram),则二元语法列出 诸如P (“BELL,,“TAC0”)的概率,其是单词“BELL”紧接在单词“TAC0”之后的概率。语 言模型还可以是有限状态的语法,其中,语法中的状态表示可以在各个状态出现的单词,并 且状态之间的跳转表示从一个状态转到另一个状态的概率。基于单词的IR存在两个主要问题。第一,用于IR的重要单词通常是频度低的标识符单词。例如,在条目POI "MJ' S RESTAURANT”中,重要的标识符单词是“MJ’ S”。经常的情况是,这些标识符单词是来自其 它语言的专有名词。例如,条目“AASHIANI RESTAURANT”中的单词“AASHIANI”来自北印度 语。这些标识符单词出现的另一种方法是通过组合,如“GREENHOUSE”。修改单词的词根也 会增加词汇表的大小。通常,频度低但重要的标识符单词数量巨大。此外,重要的标识符单词经常被发错音或者不能由语言模型很好地表示。通常无 法得到对η元语法的精确统计。因此对重要的频度低的单词的识别概率较低,并且单词序 列经常不正确。这导致IR系统的召回(recall)性能较差。第二,基于单词的IR系统的计算负荷随着列表和索引的尺寸而增加,并且对于实 时检索来说系统的性能变得不能接受。

发明内容
本发明的实施方式提供了一种在由粒子表示的信息检索(IR)数据库中进行条目 检索的方法。唯一粒子的数量远少于唯一单词的数量,例如是十分之一。这提高了自动语 音识别(ASR)系统的性能,使得识别时间减少多达50%。令人吃惊的是,尽管与单词数量相 比,粒子的数量大大减少,但吞吐量同样增加,且由召回率测量的IR系统的性能提高了多 达2%。


图1是根据本发明的实施方式的信息检索系统的框图2A是以单词书写的感兴趣条目的索引表;
图2B是根据索引的单词的发音字典的表;
图3是根据本发明的实施方式的从单词到粒子的映射的示例的表;
图4是根据本发明的实施方式的以粒子书写的感兴趣条目的索引的示例的表
图5是粒子的发音字典的表;
图6和图9-10是粒子生成处理操作的阶段的示意图7-8是将单词映射到粒子的方法的伪码;以及
图11是用于从输入索引来构造输出粒子索引的方法的流程图。
具体实施例方式如图1所示,本发明的实施方式提供了一种从信息检索(IR)系统100的数据库中 检索条目的方法。该方法的步骤工作在已有技术中已知的处理器中。该处理器包括存储器 和I/O接口。RI系统包括用单词表示的条目列表101。从基于单词的列表101,我们生成(110) 用粒子表示的条目列表102。基于单词的列表101中的条目与基于粒子的列表102中的条 目之间的对应关系可以是一对一,或者当存在单词的另选的发音时,是一对多。粒子在语音识别领域是公知的。这里定义的“粒子”表示串接的音素序列。粒子 串表示单词的音素序列,参见如下文献Whittaker et al.,“Particle-based language modeling", International Conference on Speechand Language Processing(ICSLP), 2000。迄今为止,粒子仅用于在自动语音识别器(ASR)系统中识别单词。相反,本发明利 用粒子来执行信息检索(IR)。我们对列表102应用索引器120以产生基于粒子的索引121。为了检索条目,从用 户104获得基于粒子的查询103。查询103可以源自文本中的单词或者利用ASR的语音。查询103用于查找根据基于粒子的列表102构造的索引121。响应于查询103,输 出130是基于单词的列表101中与基于粒子的列表102中的最佳匹配条目相对应的条目的 结果列表105。为了生成基于粒子的列表102,在预处理步骤中,我们在列表101中维持唯一单词 的集合149。我们将基于单词的集合149转换150成唯一粒子的集合151。在获得了基于 粒子的集合151之后,我们可以将列表101中的条目的单词翻译成相应的基于粒子的条目以生成110基于粒子的列表102。图2A示出了基于单词的条目列表101的细节。这些条目是地理兴趣点,各个ID 201唯一地标识了条目202。图2B示出了单词211和相应的音素212。一些单词可以有另选的发音,例如, HOUSE”。图3示出了单词301以及相应的粒子302。如果基于单词的列表中的条目有多种发音,则针对所有的单词形成成为粒子的所 有可能分割的笛卡尔乘积,并且在基于粒子的列表中进行枚举。例如,如果AASHIANI能被 分割成粒子 “AA_SH_IY AA_N_IY” 或者 “AA_SH Y_AE_N_IH”,并且 RESTAURANT 可被分割成 “R_E_S_T_R_AA_N_T”或者“R_E_S_T_ER_R_AA_N_T”,则在基于粒子的索引中枚举出所有可 能的分割
R_E_S_T_R_AA_N_T, R E S T ER R AA N Τ,
AA_SH_IY AA_N_IY AA_SH_IY AA_N_IYAA_SH Y_AE_N_IH R_E_S_T_R_AA_N_T,和AA_SH Y_AE_N_IH R_E_S_T_ER_R_AA_N_T。 图4示出了基于粒子的列表102的详细情况,该列表包括各个条目402的唯一 ID 401。 502。型。
图5示出了 ASR可以使用的发音字典,该发音字典包括粒子501和相应的音素 我们的语言模型包括粒子,例如包含关于粒子η元语法的统计的η元语法语言模
方法
从基于单词的列表101生成基于粒子的列表102的方法遵从以下思想 由上至下的策略本方法起始于集合149中的唯一单词并且将单词分割成粒子; 基于频度的分段该方法对单词在列表101中的频度进行计数。将更频繁出现的 单词保持原样,而将频度低的单词分割成更频繁出现的粒子;以及压缩维持粒子151的集合,本发明偏向生成更小的集合151以使得不同粒子的总 数远小于不同单词的总数。我们实现了大约10倍的尺寸减小,这将IR检索的吞吐量提高了大约50%,同时召 回性能增大了 2%。图6示出了本方法使用的用于将单词149转换150成粒子151的表600。最初,列 表101中各个唯一的单词被视为一个粒子。例如,单词“AWR G L AE S”被视为粒子“AW_ R_G_L_AE_S”。因为它们是从列表101中的单词直接获得的,所以我们将它们称为“初始粒子”。针对各个初始粒子601利用行600对表进行初始化。在该示例中,该表包括3个 初始粒子AW_R_G_L_AE_S、AW_R以及G_L_AE_S。本方法试图将各个原始粒子分割成更小的粒子。表包括用来追踪初始粒子以及添加到该表中的粒子的数据结构。此外,该表包含 指示了初始粒子如何被分割成更小的粒子的数据结构。“原始单词? ”列602表示单词是否在列表101中。“粒子? ”列603表示单词是否被分割成粒子。“分割位置”列604表示进行分割的位置。“频度”列605表示粒子的出现 频度C。“长度”列606表示以音素为单位的粒子的长度1。初始地,从列表101中的相应单词的频度获得频度C。如果初始粒子被分割,则按 照以下方式将原始粒子的频度计数传送给新的粒子。如果表中不存在新的粒子,则将其频 度设置为父粒子的频度。如果表中已经存在新的粒子,则将其频度增加父粒子的频度。利用最小描述长度(minimal description length,MDL)代价609 (其为似然度代 价607与目录生成(inventory)代价608之和)来评估粒子151的当前集合。目录生成代 价608表示粒子集的大小。本方法的目标是选择使总MDL代价减小的将单词分成粒子的一 种分割。例如在集合151包含了希望数量的粒子之后,该方法终止。似然度代价607是集合中的粒子的对数概率ρ之和
权利要求
一种将单词集转换成相应的粒子集的方法,其中,单词和粒子在各个集中是唯一的,该方法包括以下步骤针对各个单词,确定将该单词分割成粒子的所有可能分割;针对各个单词,确定各个可能分割的代价;以及将与最小代价相关联的可能分割的粒子添加到所述粒子集中。
2.根据权利要求1所述的方法,其中,从基于单词的条目列表获得所述单词集,并且该 方法还包括以下步骤利用所述单词集和所述粒子集,由所述基于单词的条目列表生成相应的基于粒子的条 目列表。
3.根据权利要求2所述的方法,该方法还包括以下步骤利用所述粒子集为所述基于粒子的条目列表编制索引,以生成对所述基于粒子的条目 列表的基于粒子的索引。
4.根据权利要求3所述的方法,该方法还包括以下步骤从用户获取查询;利用所述基于粒子的索引访问所述基于粒子的条目列表,以检索与所述查询最匹配的 基于粒子的条目;以及输出相应的基于单词的条目作为给用户的结果列表。
5.根据权利要求1所述的方法,其中,所述查询是文本,并且利用所述粒子集将所述文 本转换成基于粒子的查询。
6.根据权利要求1所述的方法,其中,所述查询是语音,并且利用所述粒子集将所述语 音转换成基于粒子的查询。
7.根据权利要求1所述的方法,其中,所述可能的粒子是针对所述单词的另选的发音。
8.根据权利要求1所述的方法,其中,各个粒子表示串接的音素序列,并且粒子串表示 相应单词的音素序列。
9.根据权利要求1所述的方法,其中,使频度高的单词保持原样,而将频度低的单词分 割成粒子。
10.根据权利要求1所述的方法,其中,所述代价是似然度代价与目录生成代价之和,该似然度代价为
11.根据权利要求1所述的方法,其中,所述可能的分割使用单词的从左至右的线性扫 描,以将该单词分割成左前缀和右前缀。
12.根据权利要求1所述的方法,其中,在所述单词的由发音字典中的附加信息所指示的音节边界处进行所述可能的分割。
13.根据权利要求1所述的方法,其中,所述单词集按照随机的顺序布置,并且按照不 同的随机顺序迭代地重新处理所述单词集直到达到终止条件。
14.根据权利要求1所述的方法,其中,所述代价取决于η元语法复杂度。
15.根据权利要求1所述的方法,其中,所述代价取决于有限状态语法。
16.根据权利要求2所述的方法,其中,从文本构建所述基于单词的条目列表。
17.根据权利要求2所述的方法,其中,从语音构建所述基于单词的条目列表。
18.根据权利要求1所述的方法,其中,所述代价随着所述粒子集的大小而增大,并且 作为所述粒子集中的粒子出现频度的函数而减小。
全文摘要
一种将单词集转换成相应的粒子集的方法,其中,所述单词和所述粒子在各集合中是唯一的。针对各个单词,确定将该单词分割成粒子的所有可能分割,并且确定针对各个分割的代价。将与最小代价相关联的可能分割的粒子添加到所述粒子集中。
文档编号G06F17/30GK101937450SQ201010220209
公开日2011年1月5日 申请日期2010年6月30日 优先权日2009年6月30日
发明者埃万德罗·戈维亚, 托尼·伊扎特 申请人:三菱电机株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1