基于概念对语音文档的跨媒体索引和检索的制作方法

文档序号:5830972阅读:143来源:国知局
专利名称:基于概念对语音文档的跨媒体索引和检索的制作方法
技术领域
本发明一般涉及潜在语义索引技术。本发明尤其涉及索引、搜索、以及检索 语音文档的内容。
背景技术
索引、搜索、以及检索发音文档(包括但不限于录音书籍、音频广播、录音 会话)的内容是个难题。当前的办法典型地或者通过将用户提供的文本查询与文本 元数据相匹配或者通过在按音标转录该查询后进行音标匹配来使得能够经由关键 字匹配的等效技术方案进行搜索和检索。该办法产出很低的查全率,即对于查询而 言可能有许多相关语音文档没有被寻找。代替关键字匹配,我们通过寻找和检索在 概念级别与査询相关的发音文档——即便这些文档并不包含发音的(或文本的)査 询项——来解决此问题。
发明概述
现有技术提供音标索引,其中语音音频文档的音标内容被转录成中间语言并 且文本或声音查询也被转录成该相同的中间语言,如此使得语音片段能与査询进行 匹配。相反,本发明从一种新颖的包括语音文档的音标转录及其文本转录的"双重 文档"计算搜索空间。在此办法中,双重文档是包含两种语符(token)——词和 音素——的"包"。这些双重文档的文集将被用作训练集,其用于如此来计算在其 中音素、词和文档(语音和文本)将由矢量来代表的矢量空间以使得表达相关概念 的那些音素、词和文档在该空间中将是最近的邻居。可利用最近邻居关系来为或者 文本或者语音查询寻找和检索语音文档,或为语音查询寻找和检索文本文档。这将
4被引述为"基于概念的跨媒体信息检索"。不像其他需要从语音翻译成自然语言文 本以基于概念来索引内容的方法,本发明的有吸引力的特征之一在于内容是使用音 标转录在更抽象的概念级别来索引的。此特征降低了索引语音的出错率和成本两 者。
在结合附图阅读以下说明时将能更清楚地理解本发明。 附图简要说明


图1是用于实践本发明的语义索引系统的实施例的示意图。 详细说明
参考图1,示意性地示出包括本发明的索引系统100的实施例。该系统包括摄 入/收集文档102、预处理器/注册文档104、目录文档106、扩充目录(SVD) 108 以及査询引擎/目录110。处理在机器或人将一组文档放入文档集合区域102中时 开始。图书管理员注册这些文档并准备它们以供编目。编目在数据库中为文档创建 元数据的文本和数值两种记录,并且应用计算在其中所有文本连同其项和音素被索 引的矢量空间所需要的所有附加处理。该目录可用新文档通过遵循相同的摄入/收 集-注册-目录顺序来规律地扩充。然而,在目录扩充时文档被索引但不用于计算矢 量空间。而且,最终用户可规律地査询该目录、其矢量及其相关联的元数据以寻找 相关文档。文档注册、编目和査询处理作为网络服务而可用。 一旦这些服务由管理 员启动,它们就对其用户并对彼此可用。例如,注册服务在有新文档要索引时通知 目录服务。图书管理员必须通过使用所提供的图形用户界面(GUI) 114注册文档 来"触发"该过程流。
根据本发明的原始源数据包括文本和语音文档;这些中有一些是由语音文档 及其相对应的文本转录构成的双重文档,而其他的是"单本",即或者是文本或者 是语音文档而没有另一格式的对应表达。提供了用于将这些文档摄入并收集到内容 储存库中的手段。这可能仅仅需要将文档转移到已知集合位置,例如文件目录或 文件夹,在此它们可被注册新文档的过程检测到。
文档注册在内容目录中为文档创建记录,包括诸如文档类型、创建日期和位 置之类的元数据的创建,并将该文档排队待预处理。在该预处理步骤中完成若干事 项。首先,必须将所有语音文档按音标转录(116)成中间表达语言。 一种如此的 自动音标转录器是用于自动音标转录的Nexidia公司语音智能②(SpeechIntelligence )。本发明并不被限定于该特定的音标转录器。其次,使用文档转换 器118 (例如StellentTMO她^/Z产品)将文档从本机格式转换到UTF-8,即进行 基于概念的预处理所要求的文档编码。本发明并不被限定于该特定的文档转换器。 第三,文档被分段(120),即音标转录,并且其相应的文本被语符化如此使得能 够获得对索引项和音素112的计数。第四,使文档入队供编目,在此情形中是编目 文档集合目录。
进一步的处理要求集合在其训练文档与其他仅索引文档之间加以区分。训练 文档用于计算概念矢量空间,而仅索引文档则不然。在后一种情形下,矢量被计算 出(108)并用于扩充该目录。由于本发明支持跨媒体的信息检索,因此文档还应 该按媒体类型——在此情形中是文本或语音——被隔离。
一旦集合中的所有文档都被预处理了,词/音素计数就被存储在集合目录106 中作为文档的元数据的一部分。从这些计数构造非常大的稀疏矩阵,其中为训练集 中的每一项和每一音素创建一行,并为该训练集中的每一文档创建一列。该"项-音素/文档"矩阵中的条目是词和音素计数,即特定的可索引词和可索引音素在文 档中出现的次数。在可以用该矩阵来计算矢量空间之前,必须将其条目归一化。该 要求的原因是一些文档可能比其他的长很多,而一些项或音素可能有在文档或在集 合中比其他的项或音素出现得频繁得多的趋势。因此,有必要减少文档长度和高频 度语符在训练集中的作用。这通过对项-音素/文档矩阵112中的原始语符计数应用 恰适的加权来达成。
如以上述及的,本发明使用以奇异值分解(或即SVD)著称的统计技术108 来从由训练文档集构造出的项-音素/文档矩阵112计算矢量空间。所产生的结果是 较低维的数值空间,其中概念上相关的项-音素和文档矢量是最近的邻居。就是这 种特性允许为查询找到项或文档——即便这些文档并不拥有这些査询项中的任一 个;这些文档不必包含该査询,它们仅需要是计算出的矢量空间中与査询矢量最近 的邻居。
一旦己为训练文档集计算出矢量空间,就必须为新文档计算矢量,并且随后 将这些矢量添加到该空间中。此操作仅仅要求将这些新文档放入也为图书管理员所 知的团队集合区域中。 一旦在这里了,图书管理员就可以如对训练集那样通过注册 它们来将它们入队供处理。类似于训练文档,为每一文档在内容目录中创建包括词 或音素计数的记录;然而不同于训练文档,这些文档并不用于计算矢量空间。出于 调入目的,文档可仅包含词或仅包含音素,而不必包含这两者。其矢量表达将用其词矢量或音素矢量来计算。通过对每一文档包含的词和音素进行项或音素矢量求 和——其中每一项或音素矢量由其各自的词或音素计数来加权——来为该文档创 建矢量。 一旦这些新文档的矢量被"调入"到矢量空间中,这些文档就与已在那里 的文档一起可以用搜索。
文档查询使得必须搜索内容目录以寻找相关元数据,包括搜索计算出的矢量 空间以寻找类似于或"接近于"为一组一个或更多个査询项或音素计算出的矢量的 矢量。査询引擎110穷尽地计算该査询矢量与空间中的所有其他矢量之间的余弦 值,并且以列表来返回具有最高余弦值的那些项-音素和/或文档。很像文档矢量的 是,查询矢量仅仅是其包含的词或音素的矢量之和,其每一个由它们在该査询中出 现的频度(这对于大多数自组织查询而言仅为一次)来加权。査询可由词或由音
素构成。其矢量用从计算出的LSI矢量空间推导出的或者这些词矢量或者音素矢量 的加权和来计算。LSI是潜在语义索引。应注意,査询矢量也可从文档的全部或部 分诸如在"相关性反馈"中的部分来计算。在将相关文档作为査询提交给査询引擎 以寻找"更多像这样的文档"的场合就是这种情形。再次,这些可以是或者语音或 者文本文档。最终用户可选择命中列表上的项以用于从内容储存库中检索,因为该 列表还传达与内容描述性元数据一起存储在目录中的访问描述性元数据,例如文档 的URL。
以上所描述的算法和建模能够在诸如计算设备之类的指令执行系统、装置、 或设备上执行。这些算法自身可包含在计算机可读介质上,计算机可读介质可以是 能够包含、存储、传递、传播、或传送程序供由诸如计算机之类的指令执行系统、 装置、或设备使用或联合其使用的任何装置。
虽然已描述和图解了索引、搜索以及检索语音文档的方法和系统,但对于本 领域技术人员显而易见的是,变形和修改是可能的而不会脱离本发明的广泛教示和 原理,本发明应单单由所附权利要求书的范围来限定。
权利要求
1. 一种跨媒体索引、注册和检索语音文档的方法,包括以下步骤注册训练文档集;预处理每一训练文档;从所述训练文档的元数据构造项-音素/文档矩阵,其中为所述训练文档中的项和每一音素创建行,并为每一训练文档创建列;归一化所述项-音素/文档矩阵中的条目;通过从所述项-音素/文档矩阵计算来从所述训练文档计算概念矢量空间;为新文档计算矢量并将所述矢量添加到所述矢量空间;搜索所述计算出的矢量空间以寻找接近为查询项或音素计算出的矢量的矢量;以及提供具有最高值的那些语音和/或文本文档的列表。
2. 如权利要求1所述的方法,其特征在于,所述预处理包括为每一训练文档 创建记录,包括为每一训练文档创建元数据。
3. 如权利要求1所述的方法,其特征在于,所述预处理包括将每一语音文档 按音标转录成中间表达语言;将每一文档从本机格式转换成UTF-8格式;将每一 文档分段;以及将每一文档入队供编目。
4. 如权利要求3所述的方法,其特征在于,所述分段包括语符化每一音标转 录和经转换的文本如此使得能获得对索引项和音素的计数。
5. 如权利要求1所述的方法,其特征在于,所述计算概念矢量空间包括使用 奇异值分解技术。
6. 如权利要求1所述的方法,其特征在于,所述为新文档计算矢量并将其矢 量添加到所述矢量空间包括为每一文档通过对所述文档包含的词和音素进行项或 音素矢量求和——其中每一项或音素矢量由其各自的词或音素计数来加权——来 创建。
7. 如权利要求l所述的方法,其特征在于,所述搜索计算出的矢量空间以寻 找接近为査询项或音素计算出的矢量的矢量包括计算査询矢量与所述空间中的所 有其他矢量之间的余弦值,并且以列表返回具有最高余弦值的文本和/或语音文档。
8. —种用于跨媒体索引、注册和检索语音文档的系统,包括以下步骤 文档集合装置,用于注册训练文档集、准备所述训练文档集供编目、以及索引所述训练文档集,包括文档项和音素;预处理器,用于预处理每一训练文档以及通过从所述训练文档集计算矢量来 从所述训练文档计算形成概念矢量空间的矢量;从所述训练文档的元数据构造的项-音素/文档矩阵,其中为所述训练文档中的 每一项和每一音素创建行,并为每一训练文档创建列,并且所述项-音素/文档矩阵 中的条目被归一化;奇异值分解装置,用于从所述项-音素/文档矩阵计算矢量空间;所述预处理器还预处理每一新文档并从所述新文档计算矢量并且将所述矢量 添加到所述矢量空间;以及査询引擎,用于搜索所述计算出的矢量空间以寻找接近为一个或更多个査询 项或音素计算出的矢量的矢量;以及提供具有最高值的那些文本和/或语音文档的 列表。
9. 如权利要求8所述的系统,其特征在于,所述预处理器为每一训练文档创 建记录,包括为每一训练文档创建元数据。
10. 如权利要求8所述的系统,其特征在于,所述预处理器将每一语音文档按 音标转录成中间表达语言;将每一文档从本机格式转换成UTF-8格式;将每一文 档分段;以及将每一文档队列供编目。
11. 如权利要求IO所述的系统,其特征在于,所述预处理器通过语符化每一 音标转录和经转换的文本如此使得能获得对索引项和音素的计数来将每一文档分 段。
12. 如权利要求8所述的系统,其特征在于,所述预处理器进一步为每一文档 通过对所述文档包含的词或音素进行项或音素矢量求和——其中每一项或音素矢 量由其各自的词或音素计数来加权——来为新文档计算矢量并将所述矢量添加到 所述矢量空间。
13. 如权利要求8所述的系统,其特征在于,所述搜索引擎通过计算査询矢量 与计算出的矢量空间中的所有其他矢量之间的余弦值、并且以列表返回具有最高余 弦值的文本和/或语音文档来搜索所述空间以寻找接近为查询项或音素计算出的矢
全文摘要
通过寻找和检索在概念级别与查询项相关的语音文档——即便这些语音文档并不包含发音的(或文本的)查询项——来达成索引、搜索、以及检索语音文档(包括但不限于录音书籍、音频广播、录音会话)的内容。使用基于概念的跨媒体信息检索。从训练文档集构造项-音素/文档矩阵。文档随后被添加到从训练数据构造成的矩阵中。使用奇异值分解来从该项-音素/文档矩阵计算矢量空间。结果是较低维的数值空间,其中项-音素和文档矢量在概念上作为最近邻居来相关。查询引擎计算该查询矢量与该空间中的所有其他矢量之间的余弦值,并且返回具有最高余弦值的那些项-音素和/或文档的列表。
文档编号G01L21/00GK101512521SQ200780020395
公开日2009年8月19日 申请日期2007年6月1日 优先权日2006年6月2日
发明者C·A·伯赫恩斯, D·伊甘, D·巴苏 申请人:特尔科迪亚技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1