索引和搜索带有文本元数据的语音的制作方法

文档序号：6569565阅读：194来源：国知局

专利名称：索引和搜索带有文本元数据的语音的制作方法
索引和搜索带有文本元数据的语音扭旦NT豕下面的讨论仅用于提供一般的背景技术信息而非用于帮助确定要求保护主题的范围。现在存在正在产生、交换和存储的大量各种类型数据。这是因为现在可用的计算能力与连接带宽以及相对廉价的数据存储成本所致。因此，对数据进行搜索并找到相关信息的能力随着越来越多数据被保存而显现为关键应用。然而不是所有数据都能被轻易访问。尽管文本数据能被索引且因而相对容易地搜索，但通常未转录的语音数据不是能容易地搜索的形式。手工转录语音在时间与计算资源方面都是昂贵的，并且还引起私密性方面的问题。然而，随着存储变得更廉价，将存储越来越多有用的未转录的语音数据，从而增加了对该数据进行搜索的需求或要求。概述提供本概述以简化形式介绍在下面的详细描述中进一步描述的一些概念。该概述不是要标识要求保护主题的关键特征或本质特征，也不用于帮助确定要求保护主题的范围。另外，在此提供的描述和要求保护主题不应解释为其目标是解决背景技术中讨论的任何缺点。用于搜索具有语音数据和文本元数据的口语文档的索引是通过获得语音数据中词语的出现概率和词语的位置信息并将它与文本元数据中这些词语的至少位置信息组合起来而创建的。可以创建单个索引，因为语音数据和文本元数据是被同样处理的并且仅被视为不同的类别。在一个实施例中，索引包含语音数据和文本元数据(标题、发言人名字、摘要等)的口语文档的方法包括生成与来自语音数据的经识别语音有关的信息。具体地，该信息包括经识别语音中词语的出现概率和词语的位置信息。另外，以与有关经识别语音的信息基本上相同的格式生成文本元数据中词语的至少位置信息。这允许索引容易地被创建，因为有关语音数据的信息和有关文本元数据的信息能以相同的方式来处理。
使用该索引，口语文档可以基于收到的查询来搜索。返回的文档按相关性排列；然而，相关性是按搜索查询项在语音数据和/或文本元数据中的出现来计算的。
附图简述

图1是计算环境的实施例的俯视图。图2是替换计算环境的框图。
图3是构建与搜索口语文档的索引的方法的流程图。图4是用于构建和搜索口语文档的索引的元素的框图。图5是识别网格的示例。
图6示出已经分到各位置中的词语和节点之间的关联。图7是位置专用后验网格的示例。图8是索引的一部分的示例。图9是口语文档的图示。
详细描述
在此描述的一个概念提供一种方法和/或系统，它使用语音和文本内容信息进行文档检索，尤其是用于口语文档检索但并不限于此。
参考图9，如在50处图示的口语文档很少仅包含语音数据52。相反，文本元数据54通常与语音数据52相关联且也形成文档50 —部分。文本元数据 54可包含各种各样的信息，但一般可视为有关或关于相关联语音数据52的文本信息。例如，如所示的，文本元数据54可包含文档50的标题56、发言人的名字58和文档50的摘要或简短描述60以及语音数据52。然而，应当理解，上述内容仅是文本元数据54的示例，并且文本元数据54可以包含其它形式的文本信息，诸如但不限于有关指向语音文件的http链接的锚文本、在给定网页上环绕语音的文本、赞助者信息、事件的位置、日期与时间等等。这样的文本元数据54可以分类为图9所图示的那样或者按需以任何其它方式来分组。如下所述，语音数据52和文本元数据54被相似地处理并且在充许用户査询口语文档50的集合并基于该査询确定该集合中哪些文档有可能相关的框架中使用。为每一文档获得一个指示诸如分数，通过它可查明相关性。具体地，分析可包括获得语音数据52和文本元数据54或其一部分的单独分数，这些分数可组合起来以获得文档分数。
在下述实施例中，语音数据和文本元数据基于为每种类型数据生成位置专用后验网格(Position Specific Posterior Lattice) (PSPL)来相似地处理。通过相同地处理每种类型的数据，之后获得分数是一致且高效的。
通常，位置专用后验网格的使用是一种将关键词语搜索范例从文本文档扩展到口语文档的方法。结合PSPL的框架在给定声学依据的情况下考虑词语序列的后验概率作为对口语内容的固有不确定性建模的一种方法。同时，该技术被设计为携带位置信息以便在评分范例中包括近似程度。
然而，在描述更多方面之前，首先描述可实现下面提供的描述的示例性计算设备或环境是有益的。本描述将包含有关生成语音数据52的PSPL表示的细节以及生成文本元数据54的PSPL表示的描述。还提供用于获得口语文档50 的分数的示例性技术。
示例性计算系统环境
图1例示合适计算系统环境100的第一示例，其上可实现在此描述的概念。此外，计算系统环境100仅是合适计算环境的一个示例，而且并不是要对下面的描述的使用范围或功能提出任何限制。也不应将计算环境100解释为对在示例性操作环境100中例示的任一组件或其组合有任何依赖性或要求。
除了在此提供的示例外，其它周知的计算系统、环境和/或配置可适于与此描述的概念一起使用。这类系统包括但不限于，个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器系统、机顶盒、可编程消费电子产品、网络PC、小型机、大型机、包括任何上述系统或设备的分布式计算环境等等。
在此描述的概念可在由计算机执行的如程序模块的计算机可执行指令的一般上下文中体现。一般而言，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特定的任务或实现特定的抽象数据类型。本领域的技术人员可将在此的描述和/或附图实现为计算机可执行指令，它们可体现为下述任何形式的计算机可读介质。
在此描述概念也可在其中由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实践。在分布式计算环境中，程序模块可位于包括存储器存储设备在内的本地和远程计算机存储介质两者中。
参考图1，示例性系统包括计算机110形式的通用计算设备。计算机110 的组件可包括但不限于，处理单元120、系统存储器130和系统总线121，系统总线121将包括系统存储器在内的各种系统组件耦合到处理单元120。系统总线121可以是任何若干类型的总线结构，包括存储器总线或存储器控制器、外围总线以及使用任何各种总线架构的本地总线。作为示例而非限制，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA (EISA)总线、视频电子标准协会(VESA)本地总线以及外围组件互连(PCI)总线，也称为夹层(Mezzaine)总线。
计算机110 —般包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质两者。作为示例但非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括易失性与非易失性、可移动与不可移动介质，它们以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术来实现。计算机存储介质包括但不限于，RAM、 ROM、 EEPROM、闪存或其它存储器技术，CD-ROM、数字多功能盘(DVD)或其它光盘存储，磁带盒、磁带、磁盘存储或其它磁存储设备，或者任何可用于存储所需信息并且能由计算机100访问的任何其它介质。通信介质一般体现为经调制数据信号如载波或其它传输机制中的计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。术语"经调制的数据信号"指一种信号，其一或多个特性以将信息编码在该信号中的方式被设置或改变。作为示例而非限制，通信介质包括线接介质如线接网络或直接线连接，并且包括无线
介质如声学、RF、红外和其它无线介质。上述任意组合也应包括在计算机可读介质的范围内。系统存储器130包括易失性和/或非易失性存储形式的计算机存储介质，诸如只读存储器(ROM) 131和随机存取存储器(RAM) 132。基本输入/输出系统133 (BIOS)，包含帮助计算机110内的元素之间诸如在启动时传送信息的基本例程，通常存储在ROM 131中。RAM 132 —般包含处理单元120能立即访问和/或当前正在操作的数据和/或程序模块。作为示例而非限制，图1例示操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1例示读写不可移动非易失性磁介质的硬盘驱动器141，读写可移动非易失性磁盘152的磁盘驱动器151以及读写可移动非易失性光盘 156如CD ROM或其它光介质的光盘驱动器155。可在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括，但不限于，磁带盒、闪存卡、数字多功能盘、数字录像频带、固态RAM、固态ROM等等。硬盘驱动器141 一般通过不可移动存储器诸如接口 140连接到系统总线 121，而磁盘驱动器151和光盘驱动器155 —般通过可移动存储器接口诸如接口 150连接到系统总线121。
上面讨论且在图1中例示的驱动器及其相关联的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块或其它数据的存储。在图l 中，例如，硬盘驱动器141例示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序 135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序 145、其它程序模块146和程序数据147在此给出不同数字，以说明至少它们是不同的副本。
用户可通过输入设备如键盘162、话筒163以及定点设备161 (如鼠标、轨迹球或触摸板)来将命令和信息输入到计算机110中。其它输入设备(未示出)可包括操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合到系统总线的用户输入接口 160连接到处理单元120，但可通过其它接口和总线结构如并行端口、游戏端口或通用串行总线(USB)来连接。监示器191或其它类型的显示设备也通过接口诸如视频接口 190连接到系统总线121。除了监示器，计算机还可包括其它外围输出设备诸如扬声器197和打印机196，它们可通过输出外围接口 190来连接。
计算机IIO可使用至一或多个远程计算机诸如远程计算机180的逻辑连接在网络化环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其它公共网络节点，并且一般包括上面相对于计算机110所述的许多或全部元素。图1所示的逻辑连接包括局域网(LAN) 171和广域网(WAN) 173，但也可包括其它网络。这样的连网环境在办公室、企业级计算机网络、内联网和因特网中是常见的。
当在LAN连网环境中使用时，计算机IIO通过网络接口或适配器170连接到LAN 171。当在WAN连网环境中使用时，计算机110—般包括调制解调器172或者在WAN 173如因特网上建立通信的其它装置。调制解调器172，可以是内置或外置的，可通过用户输入接口 160或其它合适的机制连接到系统总线121。在网络化环境中，相对于计算机110描绘的程序模块或其部分可存储在远程存储器存储设备中。作为示例而非限制，图1将远程应用程序185例示为驻留在远程计算机180上。将认识到，所示的网络连接是示例性的，并且可使用在计算机之间建立通信链路的其它手段。
应当注意，在此描述的概念可以在诸如参考图1描述的计算机系统上执行。然而，其它合适系统包括服务器、专用于消息处理的计算机，或者在其中所述概念的不同部分在分布式计算系统的不同部分上执行的分布式系统。
图2是移动设备200的框图，这是另一个示例性计算环境。移动设备200 包括微处理器202、存储器204、输入/输出(I/O)组件206、以及用于与远程计算机或其它移动设备通信的通信接口 208。在一个实施例中，上述组件被耦合以通过合适的总线210彼此通信。
存储器204被实现为非易失性电子存储器如随机存取存储器(RAM)，带有电池后备模块(未示出)，使得存储在存储器204中的信息在关闭移动设备200的总电源时不会丢失。存储器204的一部分较佳地分配为用于程序执行的可寻址存储器，同时存储器204的另一部分较佳地用于存储，诸如模拟盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在操作期间，操作系统212较佳地由处理器202从存储器204执行。操作系统212为移动设备设计，并且实现可由应用程序214通过一组展示的应用程序编程接口和方法来使用的数据库特征。对象存储216中的对象由应用程序214和操作系统212至少部分响应于对所展示的应用程序编程接口和方法的调用来维护。
通信接口 208表示允许移动设备200发送和接收信息的众多设备和技术。这些设备包括例如线接和无线调制解调器、卫星接收器和广播调谐器等等。移动设备200还可直接连接到计算机以与其交换数据。在这些情形中，通信接口 208可以是红外收发器或者串行或并行通信连接，所有这些都能够发送流信息。
输入/输出组件206包括各种输入设备如触摸敏感屏幕、按钮、滚动器以及话筒，并包括各种输出设备，其中包括音频发生器、振动设备和显示器。上面列出的这些设备仅是示例并且不必全部出现在移动设备200上。另外，其它输入/输出设备可附连至移动设备200或者在移动设备200上找到。
形成和使用口语文档的索引
图3和4提供分别用于形成和使用一或多个口语文档50的索引的方法和框图。在图3的步骤300，接收口语文档50。这些口语文档可被存储使得所有这些文档可在同时被处理或者单个文档可被单独接收和处理。在其它实施例中，以流传送方式接收每一口语文档50并且在不必存储口语文档50的情况下进行索引。
通常，每一口语文档50中的语音数据52是以某种方式彼此相关的语音信号的集合。例如，在会议中产生的语音信号或者关联于演讲的语音信号。为形成一些口语文档50，可从多媒体文档的其它内容中提取语音数据52和文本元数据54。例如，语音数据52和文本元数据54可从电影中移除以将它与该电影的视频和/或音乐分数分开。当语音数据52和文本元数据54 (即口语文档50) 是来自诸如多媒体文档的具有其它信息的另一文档时，可存储将该口语文档50 链接到该多媒体文档的映射。这允许在搜索结果中返回指向该多媒体文档的路径。
数据可以非常长，特别是文档50中的语音数据52但并不限于此。在步骤 302，为协助标识较小的相关部分，每一相应类型(例如语音、摘要等)的数据可由段标识符402分成段404。每一类型的数据于是由段的有序列表组成。在一个实施例中，这些段是按自然停顿形成的。例如，语音数据52可以在无声时间段处分段，而文本数据可在段落处分段。用于在语音中标识无声时间段的技术在本领域中是周知的。
在这点上，应当注意，语音数据除了仅被分段之外，也可以基于其内容进
一步被分类。该分类与文本元数据54的类别相似。例如，在演讲中，发言人可以单独分类，其中每一类别又可被分段。例如，可标识主要发言人并且将其与类型标识符"语音A"相关联，而可标识另一发言人并且将其与类型标识符 "语音B"相关联，同时来自听众的提问可被标识并且将其与类型标识符"语音C"相关联。以此方式，文档的相关性可基于主要发言人是否使用查询中的词语来确定，在该情况下可指示比该词语是由听众成员使用时更相关。
在步骤304，文档/分段标签器/分类器406将每一段、类别和文档映射为整数值并且将该映射存储在集合描述符文件408中。步骤304因而关于其本身分类语音数据52 (即语音数据52内的不同类型的语音)；关于其本身分类文本元数据54 (即文本元数据54内的不同类型的文本元数据)；和/或相对于文本元数据54分类语音数据52。在一些实施例中，集合描述符文件408将整数值映射到可找到口语文档的路径名字。对于从多媒体文件生成的口语文档，集合描述符文件408可将整数值映射到其中存储该多媒体文件的路径名字。
语音数据的位置专用后验网格(PSPL)表示的形成由图3的步骤305指示。通常，步骤305生成有关来自语音数据52的经识别语音的信息，该信息包含经识别语音中词语的出现概率和词语的位置信息。在图3的步骤306，将有关语音数据的段404的每一个(即"口语段")提供给语音识别器410，它使用声学模型412和语言模型414来将口语段解码成可能的文本序列。
一般，语音识别器410基于表示口语段中的语音的特征向量序列执行识别。由语音识别器使用的特征向量是通过首先使用模数转换器将模拟语音信号转换成数字值来形成的。在若干实施例中，模数转换器以16kHz且每样本16 比特采样模拟信号，从而创建每秒32千字节的语音数据。将这些数字值提供给帧构建器，在一个实施例中，帧构建器将这些值归组成间隔IO毫秒开始的 25毫秒帧。将由帧构建器创建的数据帧提供给特征提取器，后者从每一帧中提取特征。
特征提取模块的示例包括用于执行线性预测编码(LPC) 、 LPC导出的倒谱、感知线性预测(PLP)、听觉模型特征提取以及美尔频谱倒谱系数(MFCC) 特征提取的模块。注意，本发明不受限于这些特征提取模块并且可使用其它模块。
形成特征向量所需的步骤可全部由语音识别器410执行，或者在生成口语文档50时可执行部分或全部步骤。因而，口语文档50可部分地存储为模拟信号、数字信号、数字信号帧或特征向量。
在识别期间，每一特征向量被应用于声学模型412，后者在给定输入特征向量时提供一组语音单元(phoneticunit)中每一个的概率。词语的声学概率通过组合形成该词语的语音单元的概率来确定。另外，每一词语接收一个语言模型模型分数，它指示词语或词语序列出现在特定语言中的概率。使用由声学模型412和语言模型414提供的分数，语音识别器410能够形成有关识别的网格 416 (即"识别网格")，它包含一个口语段的识别结果。注意，在大多数实施例中，语音识别器416在它构建网格时从识别网格中删减不太可能的词语序列，仅在识别网格中保留前N个识别结果。在其它实施例中，语音识别器410 产生n个最佳识别结果列表，它在给定语音段时提供n个最有可能的词语序列的列表。
注意，尽管上述系统在将口语段提供给语音识别器410之前分段语音数据，但在其它实施例中，口语文档50的语音数据在被提供给语音识别器410 之前未被分段。代之以，语音识别器标识语音中的无声时间段并且在这些点处强制网格在开始语音数据的下一部分的新网格之前网格会聚于单个节点。以此方式，语音识别器410再次为语音数据的不同段产生单独的识别网格。在这些实施例中，语音识别器410将包括用于每一识别网格的文档与段标识符，它产生并将更新集合描述符文件408中的映射。
图5提供由语音识别器410产生的识别网格500的示例。网格500包括状态(也称为节点)502、 504、 506、 508、 510、 512、 514、 516、 518、 520、 522、 524、 526和528，它们分别被标为状态0、 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12和13。
在网格500中状态之间的每一转移与词语、起始符号或结束符号相关联。另外，对于基于多个词语的序列的语言模型(n元模型，其中n大于l)，对一个状态的每一转移包含相同的词语。例如，对状态520的转移530和532都包含词语"very"。由此，有关转移的词语同样能与该转移的结束状态相关联。
给定输入语音信号的情况下，每一转移还具有位于该转移的词语的相关联概率。该概率是声学模型分数、语言模型分数和用于将这些分数组合与修改成单一概率的各种其它参数的函数。具体地，在一个实施例中，将转移ti的概率
存储为如下求值的对数概率
<formula>formula see original document page 14</formula> 公式l
其中logP(ti)是转移ti的对数概率,logPAM(word(ti))是指派给转移ti的词语的声
学模型对数可能性，它是以语音信号的一部分的特征向量与该词语中找到的语
音单元的声学模型之间的对应性为基础的，logPLM(word(ti))是指派给转移ti上的词语的语言模型对数概率，ZMw是常数权重，大于o，它补偿声学模型和语
言模型的可能值范围内的差，logPIP是插入惩罚，它补偿语音识别器选择较短
词语而非较长词语的倾向性，以及FLATw是用于控制后验分布在网格路径上倾斜程度的平整权重。具体地，FLATw帮助防止语音识别器将大部分概率指派给网格中的一或两个路径。
图5的语音识别网格500示出不同的路径长度可以在相同状态处结束。例如，存在到达状态514的两个路径。一个路径包括起始符号和词语"They are in" 而另一路径包括起始符号和词语"There in"。因而，表示词语"in"的状态 514可以当"in"处于识别文本中第二词语位置时和当"in"处于识别文本中第三词语位置时到达，其中词语位置是根据词语序列的起点确定的。另外，单个词语可出现在不同的状态处但在这些状态中处于同一词语位置。例如，在路径"They are in two very"的第五词语位置中，词语"very"在转移532上进入状态520。词语"very"在沿路径"There in two very very"(其中最后的very 在第五词语位置)导向状态522的转移中也处于第五词语位置。
为了从这个识别网格构建索引，构建位置专用后验网格(PSPL)表示420。在PSPL表示中，网格中的每一词语位置形成一个储存斗(bin)。占据一个特定词语位置的所有词语连同占据识别网格中该词语位置的词语的概率被放在用于该词语位置的储存斗中。为了形成PSPL表示，每一状态被分成一组子状态，其中到达该状态的每一词语位置有一个子状态。
图6提供了从图5的识别网格500形成的子状态以及其相关联词语的列表。例如，子状态600和602指示，对于状态6存在两个子状态，一是位置2 处的词语"in"，另一个是词语位置3处的词语"in"。子状态604和606指示词语"very"同时出现在词语位置5处的状态9和10。
针对每一子状态确定基于长度的或词语位置分数。这示于图3的步骤308 并且由图4的位置专用后验网格构造器(PSPL构造器)来执行。
在一个实施例中，每一状态处的基于长度的分数是使用用于对通过网格的
路径评分的标准前向-后向算法的修改来计算的。具体地，词语处于状态n与
词语位置1处的概率可如下计算
<formula>formula see original document page 15</formula> 公式2
其中""m是可如下递归地计算的前向分数
<formula>formula see original document page 15</formula> 公式3
其中q是转移到状态n的状态&的数量，^g^")是使用上面的公式l计算的， —11.0，/ = 0
<formula>formula see original document page 15</formula> 公式4
以及<formula>formula see original document page 15</formula>￡公式5
其中s表示不包含词语的空转移。这种空转移在使用后退语言模型的识别网格中是常见的。在公式2中，""可递归地计算
^ 公式6
其中r是在状态n之后连接到状态n的状态数量，而是与从状态n到状态
Sj的转移相关联的概率。
公式2的归一化值norm(LAT)是在识别网格的结束状态处计算的""的值。注意，由于在语音识别器期间执行删减，归一化是必需的。
在已经为每一状态处的每一所观察到的词语位置确定了基于长度的分数之后，在步骤310对基于长度的分数求和。具体地，用于同一词语位置和用于同一词语的每一分数被一起求和以形成该词语出现在语音段中该词语位置处
的后验概率。该求和表示为
尸(w，/1 Wr) = Z 1 ^r).5(M;,vvoW(")) 公式7
其中求和是在网格中的所有状态n上执行的，其中基于长度的分数大于零。
这些词语及其通过公式7的求和形成的相应概率随后基于其词语位置1被存储，以形成PSPL表示420。
PSPL表示的一个示例示于图7，其中可能的位置示于行700中而在每一位置处出现的词语示于其相应位置之下。例如，词语"They"和"There"出现在由列702指示的词语位置1。词语"very"出现于词语位置4、 5和6，如列704、 706和708所示。注意，PSPL表示提供比网格500与图6的子状态的组合的更紧凑的识别结果表示。其原因是出现在同一词语位置但处于识别网格 500的不同状态的词语被组合到图7的位置专用后验网格中的单一条目中。
在其它实施例中，每一识别网格的PSPL表示是根据n个最佳列表构建的。上述同一技术可用于通过首先从n个最佳列表形成识别网格来构建位置专用后验网格。这可以通过将n个最佳列表中每一条目的第一个词语与一公共起始节点相连系而将n个最佳列表中每一条目的最后一个词语与一公共结束节点相连系来完成。
PSPL网格也可以用于表示文本元数据54。然而，对于文本元数据，没有文档内容不确定性并且因此等效的PSPL网格表示420对于每一位置储存斗仅有一个条目，位置专用概率等于l。因而，对文本元数据54的每一类别的每一段的PSPL表示的创建比上述语音数据的PSPL表示的创建简单得多。
在图3中，在步骤313表示每一类别的每一段的文本元数据PSPL表示的创建。与步骤305相似，一般地，步骤313生成有关文本元数据54的信息，它包括位置信息和概率信息；然而，如上所述，每一实例中的概率为一。然而，在步骤313生成的信息因为其格式(这里以PSPL表示为例)实质上与在步骤 305生成的有关语音数据的信息是同一格式而特别有用。这里"实质上"指由步骤305生成的信息和由步骤313生成的信息可以容易地如下所述地组合以形成单个索引。
在图4中，文本网格构造器405例示为构建相应的网格416，后者进而由PSPL构造器418用于构建相应的PSPL表示420。然而，应当理解，文本网格构造器405可根据文本元数据54中词语的确定性而直接生成PSPL表示。
在步骤314，索引器422基于PSPL表示420构造倒排索引424。在一个实施例中，该倒排索引是通过为识别语法和文本元数据54中每一词语提供条目来形成的单个索引。在每一条目中，为其中出现该条目的词语的位置专用后验网格中的每一位置提供信息。该信息包括关联于PSPL表示的文档、类别和段标识符，其中在网格中放置该词语的位置储存斗以及关联于该词语处于该位置的概率。
图8提供词语w[k]的条目800的一般表示。在图8中，条目800包括子条目的集合，这些子条目包括802、 804、 806、 808、 810、 812和814。每一子
条目包括诸如以下各项的信息文档标识符如文档标识符816，类别类型标识符如类别类型标识符817，段标识符如段标识符818，段中的位置如位置820，以及该词语出现在该段中该位置的概率如概率822。子条目802和804用于同一文档、类别类型和段。子条目806、 808和810用于与子条目802和804相同的文档，但用于不同的类别类型(在此例示为不同的语音类别但可以是文本元数据类别)和其不同的段。子条目812和814用于分开的文档。条目800将包括用于其中出现词语的每一文档、类别、段和位置的子条目。
一旦已经构建了索引，语音数据和文本元数据对于给定搜索査询的相关性就可以确定了。具体地，在步骤316，搜索查询426由搜索单元428接收。搜索单元428访问倒排索引424并且检索文档标识符、类别类型、段标识符、位置以及该查询的每一词语的每一子条目的概率。应当注意，语音识别器的词汇表之外的任何词语都被映射到未知标记UKN，它在任何文档中都不能匹配。未知标记用作占位符，但在计算査询的分数时不提供值。
在步骤318，为从对倒排索引424的搜索返回的每一文档确定一个分数。从搜索返回的文档可以受到限制使得返回的每一文档包括査询的所有词语。可替换地，任何包含査询的至少一个词语的文档可以在该步骤被返回。使用从倒排索引424返回的概率，通过首先计算每一文档的组成的n元分数的集合来计算每一文档的分数。每一组成的n元分数是通过使用下面的公式在査询中n元的所有可能形成上对各个n元分数求和来形成的<formula>formula see original document page 18</formula> 公式8
其中D是文档，K是查询中的词语数量，N是n元中词语的数量，Q是查询，而S加ejc(D，qi…qi+N.,)是开始于查询中的点i的单个n元的分数，对于每一类别类型(type一k)，它按如下计算<formula>formula see original document page 18</formula> 公式9
其中在右手边的内求和是对段中前k-N个词语位置执行的，而外求和是在关联于文档D的每一类别类型的所有段上执行的。在公式9中，P(Wk+,(s一qwlD)是存储在该词语在文档D和段s的位置k+l处的倒排索引中后验概率。
如果对不同的类别类型(^ e卩，…，^h )计算了不止一个组成的n元分数，则使用下面的公式以加权和方式组合单独的组成n元分数
<formula>formula see original document page 18</formula>)
— 公式10
其中WN是关联于特定N元的权重(其中ww的和等于l)并且K是査询中词语的数量。
在许多实施例中，n元的权重随着n元的次序而线性增加。然而，可使用
其它技术来设置n元的权重。
<formula>formula see original document page 18</formula>
不同类别类型、_^_^一_*的集合的全局口语文档分数是类别类型分数
(公式IO)的线性组合
<formula>formula see original document page 18</formula>公式ll
其中该表达式中的权重提供了根据所涉及的类别类型的性质调整全局分数的灵活性。
在步骤320，由搜索单元428标识和评分的文档作为经排列的文档430返回。在许多实施例中，搜索单元428访问集合描述符文件408以将文档标识符转换成文档位置的路径名字。然后返回该路径名字。
返回的文档可通过移除不对最高次序组成n元提供非零分数的文档而被删减。这可以用于保证查询的所有词语在文档中至少按序出现一次。该要求可用于强制引用功能性，它要求对在根据査询标识的文档，査询的所有词语都出现并且是以在查询中的相同顺序出现的。另一种可能性是允许对查询内的词组
加引号，诸如JAPAN "NUCLEAR WEAPONS"(日本"核武器")；输入这样一个查询将仅返回包含JAPAN和NUCLEAR和WEAPONS的文档，并且词语NUCLEAR WEAPONS完全以该顺序彼此相邻地出现。
应当注意，在另一个实施例中，可在将查询应用于索引之前对该查询执行语形学分析。这生成查询项的不同形式的列表，包括词语的其它词尾。例如，査询中的项"weapons"将产生替换词"weapon"，在该替换词语中最后的"s" 被丢弃。语形学上变更项的不同组合随后可用于执行对倒排索引的不同搜索。每一搜索涉及如上形成组成的n元分数。替换搜索串的组成的n元分数的权重比原始的搜索串的组成的n元分数要少得多。因此，包含替换搜索串而非原始搜索串的文档将排在包含原始搜索串的文档之下。
尽管上面参考完整的词语讨论了索引技术，但可使用同一技术来索引包括子词语单元如音子(phone)或三音子的任何语音单元。具体地，代替形成词语的网格，语音识别器形成子词语单元的网格。这些子词语单元以与上面的词语相同的方式使用基于子词语而非词语的序列的语言模型来评分。位置专用后验网格于是将包含各个子词语单元及其相关联的概率。
在收到搜索查询时，査询被分解成子词语单元。然后使用上述评分技术用子词语单元代替词语来排列文档。在一些实施例中，査询中的每一词语可以视
为被包含在引用中以减少所返回的文档数量。
尽管已经以专用于结构特征和/或方法步骤的语言描述了主题，但要理解，在所附权利要求书中定义的主题不受上述这些特定特征或步骤的限制，正如法庭所支持的。相反，上述特定特征和步骤是作为实现所附权利要求的示例形式而被公开的。
权利要求
1. 一种索引包含语音数据(52)和文本元数据(54)的口头文档(50)的方法，所述方法包括生成(305)有关来自语音数据(52)的经识别语音的信息，所述信息包含所述经识别语音中词语的出现概率和所述词语的位置信息；以与所述有关经识别语音的信息实质上相同的格式生成(313)有关文本元数据(54)中词语的至少位置信息的信息；以及基于所述有关经识别语音的信息和所述有关文本元数据的信息构造(314)索引。
2. 如权利要求1所述的方法，其特征在于，还包括，分类(304)语音数据(52)和文本元数据(54)至少之一。
3. 如权利要求2所述的方法，其特征在于，分类(304)包括分类不同类型的语音数据(52)。
4. 如权利要求2所述的方法，其特征在于，分类(304)包括分类不同类型的文本元数据(54)。
5. 如权利要求2所述的方法，其特征在于，构造(314)所述索引包括用类别信息构造(314)所述索引。
6. 如权利要求1所述的方法，其特征在于，生成(305)有关来自语音数据(52)的经识别语音的信息包括生成网格。
7. 如权利要求4所述的方法，其特征在于，生成(313)有关文本元数据 (54)的信息包括生成网格。
8. 如权利要求1所述的方法，其特征在于，生成(305)有关来自语音数据(52)的经识别语音的信息包括基于语音数据(52)的相同部分标识(306) 至少两个替换的语音单元序列；以及其中基于所述有关经识别语音的信息构造(314)索引包括，对于所述至少两个替换语音单元序列中的每一语音单元，将指示所述语音单元在所述两个替换语音单元序列的至少一个之中的位置的信息放在所述索弓I中的一个条目中。
9. 如权利要求1所述的方法，其特征在于，生成(305)有关来自语音数据(52)的经识别语音的信息包括通过对至少两个概率求和来确定所述语音单元出现在所述位置的概率，其中所述每一概率与所述语音单元出现在单独的语音单元序列中相关联。
10. —种具有用于执行下列步骤的计算机可执行指令的计算机可读介质接收(316)搜索查询；在索引中搜索(318)关联于所述搜索査询中一词语的条目，所述索引包括与具有语音数据和文本元数据的口语文档的文档标识符有关的信息；标识不同类型的语音数据以及语音数据相对于文本元数据的至少一个的类别类型标识符；和所述词语的位置，以及所述词语出现在所述位置的概率；使用(318)所述概率相对于彼此排列口语文档；以及基于所述经排列的口语文档返回(320)搜索结果。
11. 如权利要求10所述的计算机可读介质，其特征在于，使用(318)所述概率排列所述口语文档包括，对每一口语文档计算组成的n元分数的集合。
12. 如权利要求11所述的计算机可读介质，其特征在于，每一组成的n元分数是通过在n元的所有可能形成上对各个n元分数求和来形成的。
13. 如权利要求12所述的计算机可读介质，其特征在于，所述组成的n元分数的集合是基于不同类别类型计算的。
14. 如权利要求13所述的计算机可读介质，其特征在于，类别类型的分数是通过将每一相应类别类型的组成的n元分数的每一个求和在一起来计算的。
15. 如权利要求10所述的计算机可读介质，其特征在于，使用(318)所述概率排列口语文档包括，将文档分数计算为所述类别类型分数的组合。
16. 如权利要求15所述的计算机可读介质，其特征在于，对所述类别类型分数加权。
17. —种基于搜索査询来检索口语文档的方法，所述方法包括接收(316)所述搜索査询；搜索(318)包含从所述口语文档中的语音数据生成的词语的位置的概率的索引，所述词语的位置的概率参考语音数据在所述口语文档中的不同类别；基于根据每一类别的所述索引的词语的概率对每一口语文档评分(318);以及基于所述经排列的口语文档返回(320)搜索结果。
18. 如权利要求17所述的方法，其特征在于，对每一口语文档评分(318) 包括，将文档分数计算为语音数据的每一不同类别的分数的加权组合。
19. 如权利要求17所述的方法，其特征在于，所述索引还包括从所述口语文档中的文本元数据生成的词语的位置的概率，所述词语的位置的概率参考文本元数据在所述口语文档中的不同类别。
20. 如权利要求19所述的方法，其特征在于，对每一口语文档评分(318) 包括，将文档分数计算为语音数据的每一不同类别和文本元数据的每一不同类别的分数的加权组合。
全文摘要
通过获得语音数据的词语的出现概率和词语的位置信息并且将它与文本元数据中该词语的至少位置信息组合来创建用于搜索具有语音数据和文本元数据的口语文档的索引。可以创建单个索引，因为语音数据和文本元数据被同样处理并仅被视为不同的类别。
文档编号G06F17/28GK101305360SQ200680041464
公开日2008年11月12日申请日期2006年10月31日优先权日2005年11月8日
发明者A·阿塞罗, C·I·克尔伯, J·S·F·桑彻斯申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.阿塞罗;C.I.克尔伯;J.S.F.桑彻斯
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。