用于分布式语音搜索的方法和装置的制作方法

文档序号:6476839阅读:144来源:国知局
专利名称:用于分布式语音搜索的方法和装置的制作方法
技术领域
本发明涉及移动通信设备,并且具体涉及使用移动通信设备
的语音搜索。
背景技术
诸如蜂窝电话的移动通信设备是被所有语言的人们使用的 非常普遍的通信设备。这些设备的使用已经扩展远远超过了单纯的语 音通信。用户现在能够将移动通信设备用作记录笔记、会议、消息等 的语音记录器。用户也可以用语音来注释设备上的诸如照片、视频和 应用的内容。 .虽然已经扩展了这些能力,但是限制了对在移动通信设备上 存储的音频内容的搜索能力。由于用按钮浏览内容的困难,移动通信 设备用户可以发现能够快速找到语音注释的内容、存储的语音记录的 谈话、笔记和消息是有用的。

发明内容
公开了一种用于使用移动通信设备的语音搜索的方法和装 置。该方法可以包括从移动通信设备的用户接收搜索查询,将搜索查 询中的语音部分转换成语言表征(representation),基于语言表征来生 成搜索音素网格,从所生成的搜索音素网格中提取査询特征,基于所 提取的査询特征生成粗略搜索特征向量,使用所生成的粗略搜索特征 向量来执行粗略搜索并将所生成的粗略搜索特征向量发送至远程语音 搜索处理单元,基于所生成的粗略搜索特征向量从远程语音搜索处理 单元接收网络索引,使用粗略搜索的结果、远程网络索引和所生成的 精细搜索特征向量来执行精细搜索,以及向用户显示精细搜索结果。


为了描述可以获得本发明的以上记载及其他优点和特征的 方式,以上简要描述的发明的更具体的描述将通过参考在附图中图示 的本发明的具体实施例来呈现。可以理解这些附图仅描述本发明的典
型实施例,并且因此不应当被视为限制它的范围,将通过使用附图用 附加的特性和细节来描述和解释本发明,在附图中图1图示了根据本发明可能实施例的通信网络环境的示例 性视图;图2图示了根据本发明可能实施例的示例性移动通信设备 的框图;图3图示了根据本发明可能实施例的语音搜索引擎的示例 性框图;图4图示了根据本发明可能实施例的示例性远程语音搜索 处理单元的框图; '图5是图示根据本发明一个可能实施例的一个可能的语音 搜索处理的示例性流程图;以及图6是图示根据本发明一个可能实施例的一个可能的远程 语音搜索处理的示例性流程图。
具体实施例方式本发明的附加特征和优点将在以下描述中阐明,并部分地将 从描述中显而易见,或者可以通过本发明的实施而获知。本发明的特 征和优点可以通过权利要求中特别指出的装置及组合来实现和获得。 本发明的这些和其它特征从以下描述和权利要求中将变得更加完全显 而易见,或者可以通过如此处阐明的本发明的实践来获知。以下详细讨论本发明的各种实施例。虽然讨论了具体的实 现,但是应当理解这么做仅是为了说明的目的。相关领域技术人员将 认识到,在不脱离本发明的精神和范围的情况下可以使用其它组件和配置。本发明包括多种实施例,诸如方法和装置以及涉及本发明基
本概念的其它实施例。本发明涉及一种可以用于快速检索在移动设备上的语音注 释内容和语音消息的语言独立索引和搜索处理。语音注释或语音消息 可以转换成音素网格,并通过从语音注释或语音消息中自动提取的一 元(unigram)和二元(bigram)特征向量来索引。语音消息或注释被 分段并且每个音频分段可以由其成分是音素网格的一元和二元统计的 调制特征向量来表示。 一元统计可以是音素网格的音素频率计数。二 元统计可以是两个连续音素的频率计数。搜索处理可以包括两个阶段 查找索引和快速返回一组候选语音注释或语音消息的粗略搜索;以及 通过使用动态编程来将查询语音的最佳路径与候选注释或消息的音素 网格进行比较的精细搜索。图1是根据本发明可能实施例的通信网络环境的示例性视 图。通信网络环境IOO可以包括通信网络110、多个移动通信设备120、 远程语音搜索处理单元130、因特网140、以及多个因特网浏览器/搜索 引擎150。本领域技术人员将理解,通信网络环境100可以是移动通信 设备120可以与另一移动通信设备120以及连接到因特网140的设备 通信的任何可能的配置。同样地,通信网络110可以代表可以通过移 动通信设备120访问的任何可能的通信,诸如电话网络、无线网络、 有线电视网络、卫星电视网络、卫星无线电网络等。因特网(网络) 140可以代表内联网,或者能够主管(hosting)包含例如可以被下载和 /或播放的可搜索文本和媒体内容的域的任何其它网络系统。移动通信设备120可以代表具有内部或外部记录和或存储
8音频的能力的任何移动或便携式设备,包括移动电话、蜂窝电话、无
线收音机、便携式计算机、膝上型电脑、MP3播放器、卫星收音机、
及卫星电视。因特网浏览器/搜索引擎150可以代表能够搜索和索引位于 因特网上的内容的任何已知的网络浏览器和/或搜索引擎,诸如Yahoo, Google等。图2图示了根据本发明可能实施例的具有语音搜索引擎280 的示例性移动通信设备120的框图。示例性移动通信设备120可以包 括总线210、处理器220、存储器230、天线240、收发器250、通信接 口 260、输入/输出(I/O)设备270、语音搜索引擎280、以及显示器 290。总线210可以允许在移动通信设备120的组件之间的通信。处理器220可以包括解释和执行指令的至少」个常规处理 器或微处理器。存储器230可以是随机访问存储器(RAM)或存储用 于由处理器220执行的信息和指令的另一类型的动态存储设备。存储 器230也可以包括只读存储器(ROM),它可以包括常规ROM设备 或存储用于处理器220的静态信息和指令的另一类型的静态存储设备。收发器250可以包括一个或多个发送机和接收机。收发器 250可以包括足够的功能以与任何网络或通信站对接,并可以用本领域 技术人员己知的任何方式通过硬件或软件来定义。处理器220可与收 发器250协同操作以支持通信网络110中的操作。输入/输出设备(1/0设备)270可以包括允许用户将信息输 入至移动通信设备120的一个或多个常规输入机构,诸如麦克风、触 摸板、小键盘、键盘、鼠标、笔、光笔、语音识别设备、按钮等。输 出设备可以包括将信息输出给用户的一个或多个常规机构,包括显示 器、打印机、 一个或多个扬声器、诸如存储器、磁盘或光盘及磁盘驱动器等的存储介质,和/或用于以上装置的接口。显示器2卯可以是能
够将信息显示给移动通信设备120的用户的设备。通信接口 260可以包括便于经由通信网络的通信的任何机 构。例如,通信接口 260可以包括调制解调器。替代地,通信接口260 可以包括用于协助收发器250经由无线连接与其它设备和/或系统通信 的其它机构。下面将结合图3和图5更详细地讨论语音搜索引擎280的功移动通信设备120可以通过执行包含在例如像存储器230 这样的计算机可读介质中的指令序列来执行响应于处理器220这样的
功能。这样的指令可以从诸如存储设备的另一计算机可读介质或经由 通信接口 260从分离的设备读入存储器230。 '图3图示了根据本发明可能实施例的具有语音搜索引擎280 的语音搜索系统300的示例性框图。语音搜索引擎280可以包括搜索 ASR 310、搜索音素网格发生器320、粗略搜索特征向量发生器330、 粗略搜索模块340、精细搜索特征向量发生器350、精细搜索模块360、 以及元数据数据库370。为了便于讨论,语音搜索引擎280被显示为直 接耦合到远程语音搜索处理单元130,但是如以上所解释的,这种耦合 可以通过因特网140来发生。例如,元数据数据库370可以包含诸如文本消息、文档、电 子邮件等的文本文件,诸如音频记录、语音邮件、会谈、笔记、消息、 注释等的音频文件,或诸如图片、照片、视频剪辑等的照片/视频文件。为了说明的目的,下面将结合图l-3所示的框图描述图5中 语音搜索引擎280及它的相应处理。
10
图4图示了根据本发明可能实施例的示例性远程语音搜索 处理单元130的框图。示例性远程语音搜索处理单元130可以包括总 线410、处理器420、存储器430、只读存储器(ROM) 440、存储设 备450、输入设备460、输出设备470、通信接口 480、以及网络搜索 处理模块490。总线410可以允许在远程搜索处理单元130的组件之间 的通信。处理器420可以包括解释和执行指令的至少一个常规处理 器或微处理器。存储器430可以是随机访问存储器(RAM)或存储用 于由处理器420执行的信息和指令的另一类型的动态存储设备。存储 器430也可以存储在处理器420执行指令期间使用的临时变量或其它 中间信息。ROM440可以包括常规ROM设备或存储用于处理器420的 静态信息和指令的另一类型的静态存储设备。存储设备450可以包括 例如像磁或光记录介质及它的相应驱动器这'样的任何类型的介质。输入设备460可以包括允许用户将信息输入至远程搜索处 理单元130的一个或多个常规机构,诸如键盘、鼠标、笔、语音识别 设备等。输出设备470可以包括将信息输出给用户的一个或多个常规 机构,包括显示器、打印机、 一个或多个扬声器、或者诸如存储器、 或者磁或光盘及相应磁盘驱动器的介质。通信接口 480可以包括使得远程搜索处理单元130能够经由 网络进行通信的任何类收发器的机构。例如,通信接口 480可以包括 调制解调器,或用于经由局域网(LAN)通信的以太网接口。替代地,通信接口 480可以包括用于经由有线、无线或光连 接与其它设备和/或系统通信的其他机构。在通信网络环境100的一些
实现中,当远程搜索处理完全在远程搜索处理单元130中实现时,通 信接口 480可以不被包括在示例性远程搜索处理单元130中。
远程搜索处理单元130可以通过执行包含在例如像存储器 430、磁盘、或光盘这样的计算机可读介质中的指令序列来执行响应于 处理器420这样的功能。这样的指令可以从像存储设备450这样的另 一计算机可读介质或经由通信接口 480从分离的设备中读入存储器 430。下面将结合图5和6中的流程图进一步分别描述移动通信设 备120/语音搜索引擎280及远程搜索处理单元130/网络搜索处理模块 490的操作和它们相关的处理。图5是图示根据本发明一个可能实施例的如包括语音搜索 引擎280的移动通信设备120所执行的一个可能的语音搜索处理的示 例性流程图。该处理在步骤5100开始并继续到步骤5150,其中语音搜 索引擎280从移动通信设备120的用户接收搜索查询。'下面将结合语 音搜索引擎280的组件来描述该处理。在步骤5200,语音搜索引擎280的搜索ASR 310将在搜索 查询中的语音部分转换成语言表征。ASR310识别结果可以是覆盖移动 通信设备的用户所选择语言的通用语言表征的形式。例如,中国用户 可以选择中文和英文作为用于通信设备的语言。美国用户可以选择英 文和西班牙文作为设备使用的语言。无论如何,用户可以选择至少一 种语言来使用。通用语言表征可以包括音素表征、音节表征、语素表 征、词语表征等。在步骤5250,搜索音素网格发生器320基于语言表征来产 生搜索音素网格。搜索音素网格发生器320产生诸如音素的语言表征 的网格,以代表语音流。网格由一系列连接的节点和边界组成。每个 边界可以表示具有分数的音素,所述分数为假设的概率的对数。每个 边界的两端上的节点表示音素的开始时间和结束时间。多个边界(假设)可以在两个节点之间出现并且从起点到终点的最可能的路径被称 为"最佳路径"。在步骤5300,粗略搜索特征向量发生器330从所产生的搜 索音素网格中提取查询特征。粗略搜索特征向量发生器330从所产生 的音素网格中提取索引条目或"特征"。例如,可以根据它们的概率(正 确性)来提取这些特征。在步骤5350,粗略搜索特征向量发生器330基于所提取的 査询特征来产生粗略搜索特征向量。用这种方式,粗略搜索特征向量 发生器330将每个提取的特征映射到特征出现的所产生的音素网格。在步骤5400,粗略搜索模块340使用粗略搜索特征向量来 执行粗略搜索。对于给定的搜索查询,将一组最高级的候选消息(通 常是最终搜索结果的4到5倍的数量)返回用于'详细的搜索。实际上, 粗略搜索模块340可以通过将消息分类在树结构中来优化处理,使得 用于在搜索查询和目标搜索结果之间进行匹配的计算可以进一步减 少。在步骤5450,语音搜索引擎280使用收发器250将所产生 的粗略搜索特征向量发送给远程语音搜索处理单元130。在步骤5500, 语音搜索引擎280通过收发器250从远程语音搜索处理单元130接收 网络索引。步骤5450和5500可以在步骤540Q之前或之后同时并行执 行,但是通常,应当在步骤5550之前完成。在步骤5550,精细搜索特征向量发生器350产生精细搜索 特征向量,并且精细搜索模块360使用粗略搜索的结果、所接收到的 网络索引以及所产生的精细搜索特征向量来执行精细搜索。例如,精 细搜索模块360在搜索查询最佳路径和候选消息的音素网格之间进行 精确的对比。
为了节省计算的成本,精细搜索模块360可以根据查询消息最佳路径的长度将它们分类为长和短消息。对于长消息,在査询和目标最佳路径之间的匹配可以足够可靠,尽管有高的音素误差率。可以使用编辑距离来测量两个最佳路径之间的相似性。然而,对于短消息,由于高的音素误差率,最佳路径也许不可靠,并且在查询最佳路径和整个目标音素网格之间的完全匹配是必要的。精细搜索模块360可以被配置成产生单个最佳匹配结果或者可能的候选结果的相对受限的列表。在步骤5600,显示器290将精细搜索结果显示给用户。处理转到步骤5500,并结束。替代地,显示器290可以将精细搜索结果显示给用户并等待用户例如响应于提示选择一个特定结果。所选结果可以被语音搜索引擎280使用收发器250发送给远程语音磁索处理单元130,信息可以从因特网140检索。然后,与该用户选择有关的检索信息可以由移动通信设备120接收以在显示器290上查看。在另一个可能的替代中,语音搜索引擎280可以将来自精细搜索结果的最佳候选自动地发送给远程语音搜索处理单元130。然后,语音搜索引擎280从远程语音搜索处理单元130接收特定于最佳候选信息并在显示器290上将该信息显示给用户。图6是图示根据本发明一个可能实施例的一个可能的远程语音搜索处理的示例性流程图。处理在步骤6100开始并转到步骤6200,其中在远程语音搜索处理单元130中的网络搜索处理模块490从移动通信设备120接收产生的粗略搜索特征向量。在步骤6300,网络搜索处理模块490使用一个或多个网络搜索引擎来执行网络搜索。在步骤6400,网络搜索处理模块490从一
14个或多个网络搜索引擎接收被索引的网络搜索结果。在步骤6500,网络搜索处理模块490将被索引的网络搜索 结果及它们的语言表征发送给移动通信设备120。然后,该处理转到步 骤6600并结束。在本发明范围内的实施例也可以包括用于承载或上面存储 有计算机可执行指令或数据结构的计算机可读介质。这样的计算机可 读介质可以是可以由通用或专用计算机访问的任何可用介质。举例而 并非限制,这样的计算机可读介质可以包括RAM、 ROM、 EEPROM、 CD-ROM或其它光盘存储器、磁盘存储器或其它磁存储设备,或可以 用于承载或存储计算机可执行指令或数据结构形式的期望的程序代码 装置的任何其它介质。当信息通过网络或另一通信连接(硬连线、无 线、或其组合)被传送或提供给计算机时,计算机适当地把该连接看 作计算机可读介质。因此,任何'这样的连接适当地被称作计算机可读
介质。以上的组合也应当包括在计算机可读介质的范围内。例如,计算机可执行指令包括使通用计算机、专用计算机、 或专用处理设备执行特定功能或特定组功能的指令和数据。计算机可 执行指令也包括由在单机或网络环境中由计算机执行的程序模块。通 常,程序模块包括执行特殊任务或实现特定抽象数据类型的例程、程 序、对象、组件、以及数据结构等。计算机可执行指令、关联的数据 结构、以及程序模块代表用于执行此处所公开方法的步骤的程序代码 的示例。这样的可执行指令或关联数据结构的特定序列代表用于实现 在这样的步骤中描述的功能的相应动作的示例。尽管以上描述可以包含具体细节,但他们不应当被解释为以 任何方式限制权利要求。所描述的本发明的实施例的其它配置是本发 明范围的一部分。例如,本发明的原理可以适用于每个单独的用户, 其中每个用户可以单独地部署这样的系统。这使得每个用户能够利用本发明的好处,即使大量可能的应用中的任何一个均不需要此处所述
的功能。换句话说,在图2-3中可以有语音搜索引擎280的多个实例, 其中每一个以各种可能的方式来处理内容。它不一定是由所有终端用 户使用的一个系统。因此,应当是权利要求及它们的法定等同物而不 是任何给定的具体示例来唯一地限定本发明。
权利要求
1.一种用于使用移动通信设备的语音搜索的方法,包括从所述移动通信设备的用户接收搜索查询;将在所述搜索查询中的语音部分转换成语言表征;基于所述语言表征产生搜索音素网格;从所产生的搜索音素网格提取查询特征;基于所提取的查询特征产生粗略搜索特征向量;使用所产生的粗略搜索特征向量来执行粗略搜索并将所产生的粗略搜索特征向量发送给远程语音搜索处理单元;基于所产生的粗略搜索特征向量从所述远程语音搜索处理单元接收网络索引;使用所述粗略搜索的所述结果、所述远程网络索引以及所产生的精细搜索特征向量来执行精细搜索;以及将所述精细搜索结果显示给用户。
2. 根据权利要求l所述的方法,其中,所述语言表征是至少一种 语言的词语、语素、音节、以及音素中的至少一个。
3. 根据权利要求l所述的方法,其中,所述粗略搜索特征向量和 所述精细搜索特征向量是使用来自元数据数据库的元数据而产生,该 元数据是音频文件、音频记录、语音邮件、记录的会谈、笔记、消息、 文本消息、以及注释中的至少一个。
4. 根据权利要求l所述的方法,其中,所述网络索引是由至少一 个网络搜索引擎进行的至少一个搜索的所述结果。
5. 根据权利要求l所述的方法,其中,所述粗略搜索结果和所述 网络索引包含基于所述粗略搜索特征向量的多个候选选择。
6. 根据权利要求l所述的方法,其中,所述精细搜索结果包含出自所述粗略搜索结果和所述网络索引中的最佳候选。
7. 根据权利要求6所述的方法,进一步包括.-将所述最佳候选发送到所述远程语音搜索处理单元;以及 从所述远程语音搜索处理单元接收特定于所述最佳候选的信息。
8. 根据权利要求l所述的方法,其中,所述精细搜索结果包含出 自所述粗略搜索结果和所述网络索引中的多个最佳候选,并且将所述 多个候选显示给用户。
9. 根据权利要求8所述的方法,进一步包括 从所述用户接收对所述多个最佳候选中的至少一个的选择; 将所述用户的选择发送给所述远程语音搜索处理单元;以及 从所述远程语音搜索处理单元接收特定于所述最佳候选的信息。'
10. —种移动通信设备,包括语音搜索引擎,所述语音搜索引擎从所述移动通信设备的用户接 收搜索査询,将在所述搜索查询中的语音部分转换成语言表征,基于 所述语言表征产生搜索音素网格,从所产生的搜索音素网格提取查询 特征,基于所提取的査询特征产生粗略搜索特征向量,使用所产生的 粗略搜索特征向量来执行粗略搜索;以及收发器,所述收发器将所产生的粗略搜索特征向量发送给远程语 音搜索处理单元并基于所产生的粗略搜索特征向量从所述远程语音搜 索处理单元接收网络索引,其中所述语音搜索引擎使用所述粗略搜索 的所述结果、所述远程网络索引以及所产生的精细搜索特征向量来执 行精细搜索;以及显示器,所述显示器将所述精细搜索结果显示给用户。
11.根据权利要求IO所述的移动通信设备,其中,所述语言表征是至少一种语言的词语、语素、音节、以及音素中的至少一个。
12. 根据权利要求IO所述的移动通信设备,进一步包括 元数据数据库,所述元数据数据库存储元数据,其中所述粗略搜索特征向量和所述精细搜索特征向量是使用来自元数据数据库的元数 据而产生,该元数据是音频文件、音频记录、语音邮件、记录的会谈、 笔记、消息、文本消息、以及注释中的至少一个。
13. 根据权利要求IO所述的移动通信设备,其中,所述网络索引 是由至少一个网络搜索引擎进行的至少一个搜索的所述结果。
14. 根据权利要求IO所述的移动通信设备,其中,所述粗略搜索结果和所述网络索引包含基于所述粗略搜索特征向量的多个候选选 择。
15. 根据权利要求IO所述的移动通信设备,其中,所述精细搜索 结果包含出自所述粗略搜索结果和所述网络索引中的最佳候选。
16. 根据权利要求15所述的移动通信设备,其中,所述收发器将 所述最佳候选发送到所述远程语音搜索处理单元并从所述远程语音搜 索处理单元接收特定于所述最佳候选的信息。
17. 根据权利要求IO所述的移动通信设备,其中,所述精细搜索 结果包含出自所述粗略搜索结果和所述网络索引中的多个最佳候选, 并且所述显示器将所述多个候选显示给用户。
18. 根据权利要求17所述的移动通信设备,其中,所述语音搜索 引擎从用户接收对所述多个最佳候选中的至少一个的选择,并且所述收发器将所述用户的选择发送给所述远程语音搜索处理单元并从所述 远程语音搜索处理单元接收特定于所述最佳候选的信息。
19.根据权利要求IO所述的移动通信设备,其中,所述移动通信设备是以下中的一个移动电话、蜂窝电话、无线收音机、便携式计 算机、膝上型电脑、MP3播放器、卫星收音机以及卫星电视。
20. —种响应于来自移动通信设备的用户的语音搜索查询而执行 因特网(网络)搜索的方法,包括从移动通信设备接收产生的粗略搜索特征向量;使用至少一个因特网搜索引擎来执行基于所接收到的粗略搜索特 征向量的网络搜索;从所述至少一个因特网搜索引擎接收被索引的网络搜索结果;以及将所述被索引的网络搜索结果和它们的语言表征发送给所述移动 通信设备。
全文摘要
公开了一种用于语音搜索的方法和装置。该方法可以包括从移动通信设备(120)的用户接收搜索查询(5150),将在搜索查询中的语音部分转换成语言表征,基于语言表征产生搜索音素网格(5200),从所产生的搜索音素网格中提取查询特征(5250),基于所提取的查询特征产生粗略搜索特征向量(5300),使用所产生的粗略搜索特征向量来执行粗略搜索(5350),将所产生的粗略搜索特征向量发送到远程语音搜索处理单元(130)(5400),基于所产生的粗略搜索特征向量从远程语音搜索处理单元(130)接收网络索引(5450),使用粗略搜索的结果、远程网络索引以及产生的精细搜索特征向量来执行精细搜索(5600),并将精细搜索结果显示给用户(5650)。
文档编号G06F17/30GK101681365SQ200880011544
公开日2010年3月24日 申请日期2008年3月31日 优先权日2007年4月10日
发明者程燕鸣 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1