语音检索方法及系统的制作方法

文档序号:6506412阅读:131来源:国知局
语音检索方法及系统的制作方法
【专利摘要】本发明涉及语音检索【技术领域】,公开了一种语音检索方法及系统,该方法包括:接收用户输入的检索关键词;对所述检索关键词进行单字切分,得到单字切分分词;根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。利用本发明,可以提高检索结果的有效性和全面性。
【专利说明】语音检索方法及系统【技术领域】
[0001]本发明涉及语音检索【技术领域】,具体涉及一种语音检索方法及系统。
【背景技术】
[0002]语音检索是多媒体检索中的一个分支,主要用于实现对海量语音文档进行快速检索。语音检索接收文本词汇或短语(俗称关键词)的关键词查询输入,并在待检索的语音文档库中确定包含关键词的语音文档及确定所述关键词在语音文档中的位置信息。
[0003]传统语音检索系统需要预先采用语音识别技术对语音文档进行文本识别,然后根据识别结果创建检索索引,在检索阶段,当接收到用户输入的检索关键词时,通过直接检索的方法从所述检索索引中确定包含关键词的语音文档信息,即直接使用用户输入的关键词在所述检索索引上进行关键词匹配搜索。
[0004]传统语音检索系统在检索阶段有以下两类问题无法解决:
[0005](I)分词不一致带来的检索问题
[0006]大词汇量连续语音识别系统基于词的识别结果和用户输入查询项的分词结果可能存在不一致性,这会导致用户查询时输入的查询词可能与识别结果中包含的词不完全相同,从而无法得到该检索结果。比如用户输入查询“大会议程”,分词系统给出分词结果“大会议程”,同时一些语音文件中包含语音内容“大会议程”,但相应语音片段的识别结果为“大会议程”,这样系统就无法检索到该识别结果。
[0007](2)识别结果错误带来的检索问题
[0008]由于现今任何语音识别系统都无法保证百分之百正确的识别率,所以基于包含错误的语音识别结果构建的检 索索引也一定会影响到检索效果。比如用户输入查询为“大会”,一些语音文件包含语音内容“大会”但相应语音片段的识别结果为“开大会”。
[0009]由于以上原因,传统语音检索系统并不能够取得理想的检索效果。

【发明内容】

[0010]本发明实施例提供一种语音检索方法及系统,以解决现有技术中由于语音识别结果等问题导致的检索错误,提高检索结果的有效性和全面性。
[0011]为此,本发明提供如下技术方案:
[0012]一种语音检索方法,包括:
[0013]接收用户输入的检索关键词;
[0014]对所述检索关键词进行单字切分,得到单字切分分词;
[0015]根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;
[0016]根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
[0017]优选地,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构包括:[0018]依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词;
[0019]如果是,则将所述组合作为所述检索关键词的子词;
[0020]将所有子词表示在一个有向图中,得到关键词图结构。
[0021]优选地,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构还包括:
[0022]根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展;和/或
[0023]根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。
[0024]优选地,所述对所述单字切分分词进行前缀扩展包括:
[0025]依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后缀;
[0026]如果是,则将所述特定词作为所述检索关键词的扩展词;
[0027]将所述扩展词添加到所述关键词图结构中。
[0028]优选地,所述对所述单字切分分词进行后缀扩展包括:
[0029]依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的iu缀;
[0030]如果是,则将所述特定词作为所述检索关键词的扩展词;
[0031]将所述扩展词添加到所述关键词图结构中。
[0032]优选地,所述根据预先构建的索引库依次对扩展后的关键词图结构中的每条弧上的词进行检索,得到检索结果包括:
[0033]遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上;
[0034]对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息:其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
[0035]优选地,所述方法还包括:采用离线方式构建所述索引库,所述构建所述索引库包括:
[0036]对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果;
[0037]对所述词图中的每个词构建倒排索引。
[0038]一种语音检索系统,包括:
[0039]接收模块,用于接收用户输入的检索关键词;
[0040]切分模块,用于对所述检索关键词进行单字切分,得到单字切分分词;
[0041]扩展模块,用于根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;
[0042]检索模块,用于根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
[0043]优选地,所述扩展模块包括:
[0044]判断单元,用于依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词;如果是,则将所述组合作为所述检索关键词的子词;
[0045]图结构生成单元,用于将所有子词表示在一个有向图中,得到关键词图结构。
[0046]优选地,所述扩展模块还包括:
[0047]前缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展;和/或
[0048]后缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。
[0049]优选地,所述前缀扩展单元,具体用于依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
[0050]优选地,所述后缀扩展单元,具体用于依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的前缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
[0051]优选地,所述检索模块包括:
[0052]遍历单元,用于遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上;
[0053]更新单元,用于对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息,其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
[0054]优选地,所述系统还包括:
[0055]索引库构建模块,用于采用离线方式构建所述索引库,所述索引库构建模块包括:
[0056]语音识别单元,用于对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果;
[0057]倒排索引构建单元,用于对所述词图中的每个词构建倒排索引。
[0058]本发明实施例提供的语音检索方法及系统,在接收到检索关键词时,利用全切分和前后缀扩展技术,对检索关键词进行相关图结构扩展,根据扩展后的关键词在基于多候选语音识别结果创建的倒排索引上进行检索,大大提高了检索结果的有效性和全面性。
[0059]进一步地,在检索时,采用基于图结构搜索的方式获取检索结果,降低了检索的复杂度,有效地提高了检索效率。
【专利附图】

【附图说明】
[0060]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0061]图1是本发明实施例中构建索引库的流程图;
[0062]图2是本发明实施例中一种倒排索引的示意图;
[0063]图3是本发明实施例语音检索方法的流程图;[0064]图4是本发明实施例中关键词图结构不意图;
[0065]图5是本发明实施例中基于全切分对关键词图结构进行扩展后的示意图;
[0066]图6是本发明实施例中基于全切分及前后缀对关键词图结构进行扩展后的示意图;
[0067]图7是本发明实施例语音检索系统的结构示意图。
【具体实施方式】
[0068]为了使本【技术领域】的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0069]针对传统的语音检索系统由于分词不一致以及语音识别错误导致的检索效果不够理想的问题,本发明提供一种语音检索方法及系统,在接收到检索关键词时,利用全切分和/或前后缀扩展技术,对检索关键词进行相关图结构扩展,根据扩展后的关键词在基于多候选语音识别结果创建的倒排索引上进行检索,大大提高了检索结果的有效性和全面性。
[0070]在本发明实施例中,所述索引库可以采用离线方式构建,如图1所示,是本发明实施例中构建索引库的流程图,包括以下步骤:
[0071]步骤101,对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图。
[0072]语音识别的过程主要包括:对语音数据的分段、提取声学特征、解码等,最终得到语音数据对应的识别结果的词图,即包含文字和时间信息的有向无环图。
[0073]所述词图上的节点描述时间信息,词图上的弧描述词信息,起止节点以及连接它们的弧共同描述了在某个时间段内语音信号可能对应的词信息。词图中的一条完整路径描述了一个有时序信息的词串,即语音信号的文本内容。
[0074]所述词图以有向无环图的方式表示了一段语音的多候选识别结果。在概率框架下,语音识别系统的识别结果含有一定的错误。因此以词图方式表示的多候选识别结果可提高正确结果的覆盖率,并有利于提高检索系统的性能。
[0075]步骤102,对所述词图中的每个词构建倒排索引。
[0076]构建索引库的过程与基于文本的检索系统构建索引库的过程类似,需要对词图中的每一个词(即每一条弧)构建倒排索引。与传统的文本检索系统不同的是,索引项的内容包含的不再是文档信息、词位置等信息,而是语音文件信息、分段信息、时间点信息等,分别记录词所属哪个语音文件、哪个片段以及相对的起始和结束时间。
[0077]如图2所示,是本发明实施例中一种倒排索引的示意图。
[0078]基于上述离线构建的索引库,在进行语音检索时,通过对用户输入的检索关键词进行图结构扩展,在基于多候选语音识别结果创建的倒排索引上进行检索,有效地提高了检索结果的有效性和全面性。
[0079]如图3所示,是本发明实施例语音检索方法的流程图,包括以下步骤:
[0080]步骤301,接收用户输入的检索关键词。
[0081]步骤302,对所述检索关键词进行单字切分,得到单字切分分词。
[0082]步骤303,根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构。[0083]在本发明实施例中,可以基于全切分分词的方式对用户输入的检索关键词进行扩展,即基于预置的词典对用户输入的检索关键词进行各种可能的词切分(即分词)处理。也就是说,考虑各种可能的相邻的两个或多个单字间的组合,如果满足组合之后构成了所述词典中的某一个词,则是一种可能的分词情况,从而可以得到所述检索关键词的所有子词。将所有子词表示在一个有向图中,即可得到基于全切分的关键词扩展图结构。
[0084]全切分可以避免传统语音检索系统中的分词仅给出一个分词结果,从而导致该分词结果在索引库中检索不到结果的情况。
[0085]假设用户输入的检索关键词“大会议程”,则单字切分会得到基于所有单字的分词结果,即“大I会I议I程”。然后,基于该分词结果进行扩展。如果所述词典中除了“大”、“会”、“议”、“程”四个单字词,还有“大会”、“会议”、“议程”三个两字词,则将这些所有可能的单字组合作为所述检索关键词的子词,最终形成由图4表示的有向图。
[0086]可以看到,经过全切分的关键词扩展之后,图中的任意一条完整路径都是一种分词结果。
[0087]对于传统的语音检索系统,如果用户输入检索关键词“大会议程”,则得到的分词结果可能是“大会I议程”。在检索时则会仅针对“大会”和“议程”进行检索,不进行分词扩展。
[0088]假设某语音文件的识别结果文件中包含“大I会议I程”这样的识别结果,则传统的语音检索系统无法检索到该结果从而引起漏检的情况,但这种情况显然是应该避免的。
[0089]在本发明实施例中,通过全切分处理,检索关键词“大会议程”进行扩展后将获得如图4所示的关键词图结构,从而使所有的分词结果都会进入检索系统进行检索。由于经过全切分处理后的关键词图结构中包含“大I会议I程”这样的路径,因此采用全切分的处理方法就仍然可以获得检索结果。
[0090]进一步地,考虑到用户输入的检索关键词虽然不出现在识别结果或者所述检索索引中,但是与识别结果中的一些词有交叠,比如用户输入的检索关键词是“大会议程”,而识别结果中仅有“大会”和“议程安排”。
[0091]针对这种情况,在本发明实施例中,还可进一步对关键词在基于全切分扩展的基础上,对其执行前缀和/或后缀扩展,以获取更完善的扩展关键词图结构。
[0092]在进行前缀扩展时,对用户输入的包含N个字的检索关键词,依次判断其前K个字(I < K < N)是否是词典中某个词的后缀,若是,则将该词作为所述检索关键词的的扩展词,并将其添加到关键词图结构中。
[0093]如图5所示,其中虚线表示的“广大”、“开大会”、“人大会议”分别是针对“大”、“大会”、“大会议”的前缀扩展。
[0094]同样,在进行后缀扩展时,对用户输入的包含N个字的检索关键词,依次判断其后K个字(I < K < N)是否是词典中某个词的前缀,若是,则将该词也作为所述检索关键词的扩展词,并将其添加到关键词图结构中。
[0095]仍以图5所示为例,其中虚线表示的弧“议程安排”、“程序”分别是针对“议程”、
“程”的后缀扩展。
[0096]通过上述前、后缀扩展之后,需要检索的对象在全切分的基础上进一步增加,如图5中的有向图所示。[0097]与图4相比,图5中增加了所有与虚线弧相关的路径。通过上述前、后缀扩展处理,有效地避免了用户输入的检索关键词中前一部分或后一部分没有出现在检索库中,但却作为某词的后缀或前缀出现在检索库中的问题。
[0098]仍以用户输入“大会议程”为例,假如识别结果中仅有“大会”和“议程安排”,那么以此构建索引按照传统的方法无法找到“大会议程”,只有通过对用户输入的检索关键词进行前、后缀扩展才能最终检索到“大会议程”。因此大大增强了检索系统的容错能力,进一步提升了系统的检索性能。
[0099]步骤304,根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
[0100]传统的语音检索方法对单一分词结果即单一词串进行检索。具体地,系统按顺序依次检索每一个词,检索过程中当前的结果称为检索状态,它要与“下一个词”的检索结果合并形成新的检索状态,最后直至所有的词都处理完毕,如果最终的检索状态不为空,即得到了该分词结果对应的检索结果。
[0101]当前检索状态与“下一个词”的检索状态合并的准则是:当前检索状态中的词和“下一个词”处于同一个语音文件的同一片段中,并且当前检索状态包含的最后一个词的结束时间与“下一个词”的开始时间间隔在一定的范围内。
[0102]传统的语音检索方法无法直接应用于本案扩展的关键词图结构检索,在关键词图结构中用户的检索项不再是单一的分词结果,而是由多种可能的分词结果及扩展词串构成的图(如图5所示)。考虑到关键词图结构中的每一条完整路径代表的词串都需要进行检索,总的路径数目相比单一路径时会呈指数级的增长,如果依次进行检索,会明显降低检索效率。
[0103]为此,在本发明实施例中,可以采用基于检索状态传递的检索方法,以提高检索效率。
[0104]关键词图结构中一条弧可能属于多个不同的路径,也即一条弧可能被多个路径共享,相应的经过一条弧的路径数目就是该弧被共享的次数。理论上一条弧所代表的词只需被检索一次即可,如果该弧被不同路径共享那么其检索结果是可以复用的。如图4所示,“大会I议程”和“大会I议程安排”两条路径,前者需要依次检索“大会”、“议程”,后者需要依次检索“大会”、“议程安排”,二者均需检索“大会”,那么对“大会”的检索结果就是可以复用的。
[0105]基于上述特点,本发明实施例中,对所述关键词图结构中的每条弧上的词进行检索的过程如下:
[0106](I)遍历关键词图结构中的每一条弧,对弧上的词进行检索,将检索结果保存在弧上。
[0107]所述检索结果表示了包含该词的文档以及该词在文档中的起止时间信息。以图5中的“大会”这条弧为例,从倒排索引表中读出“大会”的索引项,并将内容保存到弧“大会”中。
[0108](2)更新节点的检索信息:首先将所有节点的检索信息设置为空,然后从左到右依次更新关键词图结构中的节点的检索信息。对每个节点而言,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有结果进行保序归并操作。使用保序归并算法的目的有两个,一是消除冗余信息,另一是加速合并操作。
[0109]以图5为例,首先将所有节点的检索信息设置为空。然后从第一个节点开始检索信息的传递。第一个节点依次处理其出弧一即弧“大会”、弧“大”、弧“广大”、弧“开大会”、弧“人大会议”,将弧“大会”上的检索结果传递到第三个节点上,由于第三个节点现在的检索信息为空,它直接保留了弧“大会”上的检索结果。同理弧“大”将其检索结果传递到第二个节点上。而弧“广大”的终止节点也是第二个节点,因此第二个节点不能直接接收弧“广大”的检索结果,还需要与之前的检索结果进行保序归并。同理弧“开大会”将其检索结果传递给第三个节点时,在第三个节点上也需要做保序归并操作。对于余下的弧和节点以同样原理操作。
[0110](3)返回关键词图结构的终止节点的检索信息。
[0111]以图5为例,第五个节点是关键词图的终止节点,其上的检索信息就是最终的检索结果。
[0112]整个过程可以看作是检索信息不断被传递以及与新的检索信息的过程。该方法使得每条弧上的检索结果都只被处理一次,检索复杂度大大降低,在保证检索效果的前提下可以完全满足效率需求。
[0113]本发明实施例提供的语音检索方法,在接收到检索关键词时,利用全切分和/或前后缀扩展技术,对检索关键词进行相关图结构扩展,根据扩展后的关键词在基于多候选语音识别结果创建的倒排索引上进行检索,大大提高了检索结果的有效性和全面性。
[0114]进一步地,在检索时,采用基于图结构搜索的方式获取检索结果,降低了检索的复杂度,有效地提高了检索效率。
[0115]相应地,本发明实施例还提供一种语音检索系统,如图6所示,是该系统的一种结构示意图。
[0116]在该实施例中,所述系统包括:
[0117]接收模块601,用于接收用户输入的检索关键词;
[0118]切分模块602,用于对所述检索关键词进行单字切分,得到单字切分分词;
[0119]扩展模块603,用于根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构;
[0120]检索模块604,用于根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
[0121]在本发明实施例中,所述索引库可以采用离线方式构建。为此,在本发明实施例的系统中,如图7所示,还可进一步包括:索引库构建模块701,用于采用离线方式构建所述索引库,所述索引库构建模块701包括:语音识别单元和倒排索引构建单元(未图示)。其中:
[0122]所述语音识别单元,用于对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果;
[0123]所述倒排索引构建单元,用于对所述词图中的每个词构建倒排索引。
[0124]在本发明实施例中,所述扩展模块603不仅可以基于全切分方式对关键词进行扩展;而且还可以基于全切分及前、后缀方式对关键词进行扩展。
[0125]为此,所述扩展模块603的一种实施例包括:判断单元和图结构生成单元(未图示)。其中:
[0126]所述判断单元,用于依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词;如果是,则将所述组合作为所述检索关键词的子词;
[0127]所述图结构生成单元,用于将所有子词表示在一个有向图中,得到关键词图结构。
[0128]所述扩展模块的另一实施例不仅包括上述判断单元和图结构生成单元,还进一步包括:前缀扩展单元和/或后缀扩展单元(未图示)。其中:
[0129]所述前缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展。具体地,可以依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
[0130]所述后缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。具体地,可以依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的前缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
[0131]利用本发明实施例的语音检索系统,在进行语音检索时,通过对用户输入的检索关键词进行图结构扩展,在基于多候选语音识别结果创建的倒排索引上进行检索,有效地提高了检索结果的有效性和全面性。
[0132]进一步地,由于关键词图结构中一条弧可能属于多个不同的路径,也即一条弧可以被多个路径共享,因此,在本发明实施例的系统中,检索模块604在进行检索过程中,通过对弧的检索结果的复用,可以有效降低检索的复杂度,提高检索效率。
[0133]为此,所述检索模块604的一种具体实现结构包括:遍历单元和更新单元,其中:
[0134]所述遍历单元,用于遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上;
[0135]所述更新单元,用于对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息,其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
[0136]本发明实施例提供的语音检索系统,在接收到检索关键词时,利用全切分和/或前后缀扩展技术,对检索关键词进行相关图结构扩展,根据扩展后的关键词在基于多候选语音识别结果创建的倒排索引上进行检索,大大提高了检索结果的有效性和全面性。
[0137]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0138]以上对本发明实施例进行了详细介绍,本文中应用了【具体实施方式】对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种语音检索方法,其特征在于,包括: 接收用户输入的检索关键词; 对所述检索关键词进行单字切分,得到单字切分分词; 根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构; 根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构包括: 依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词; 如果是,则将所述组合作为所述检索关键词的子词; 将所有子词表示在一个有向图中,得到关键词图结构。
3.根据权利要求2所述的方法,其特征在于,所述根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构还包括: 根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展;和/或 根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。
4.根据权利要求3所述的方法,其特征在于,所述对所述单字切分分词进行前缀扩展包括: 依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后三双; 如果是,则将所述特定词作为所述检索关键词的扩展词; 将所述扩展词添加到所述关键词图结构中。
5.根据权利要求3所述的方法,其特征在于,所述对所述单字切分分词进行后缀扩展包括: 依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的前三双; 如果是,则将所述特定词作为所述检索关键词的扩展词; 将所述扩展词添加到所述关键词图结构中。
6.根据权利要求1所述的方法,其特征在于,所述根据预先构建的索引库依次对扩展后的关键词图结构中的每条弧上的词进行检索,得到检索结果包括: 遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上; 对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息:其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:采用离线方式构建所述索引库,所述构建所述索引库包括: 对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果; 对所述词图中的每个词构建倒排索引。
8.一种语音检索系统,其特征在于,包括: 接收模块,用于接收用户输入的检索关键词; 切分模块,用于对所述检索关键词进行单字切分,得到单字切分分词; 扩展模块,用于根据所述单字切分分词对所述检索关键词进行扩展,生成关键词图结构; 检索模块,用于根据预先构建的索引库依次对所述关键词图结构中的每条弧上的词进行检索,得到检索结果。
9.根据权利要求8所述的系统,其特征在于,所述扩展模块包括: 判断单元,用于依次判断所述单字切分分词的相邻两个或多个单字的组合是否为预置词典中的词;如果是,则将所述组合作为所述检索关键词的子词; 图结构生成单元,用于将所有子词表示在一个有向图中,得到关键词图结构。
10.根据权利要求9所述的系统,其特征在于,所述扩展模块还包括: 前缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行前缀扩展;和/或 后缀扩展单元,用于根据所述预置词典中的词对所述关键词图结构中的分词进行后缀扩展。
11.根据权利要求10所.述的系统,其特征在于, 所述前缀扩展单元,具体用于依次判断所述检索关键词中的前部分或全部字是否为所述预置词典中特定词的后缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
12.根据权利要求10所述的系统,其特征在于, 所述后缀扩展单元,具体用于依次判断所述检索关键词中的后部分或全部字是否为所述预置词典中特定词的前缀;如果是,则将所述特定词作为所述检索关键词的扩展词;并将所述扩展词添加到所述关键词图结构中。
13.根据权利要求8所述的系统,其特征在于,所述检索模块包括: 遍历单元,用于遍历所述关键词图结构中的每一条弧,根据预先构建的索引库对弧上的词进行检索,将检索结果保存在所述弧上; 更新单元,用于对所述关键词图结构中的节点按照从左至右的顺序依次更新节点的检索信息,其中,对于每个节点,依次处理出弧,将出弧上的检索信息传递到出弧所对应的终止节点上,该终止节点上接收新来的检索结果时,将与原有检索结果进行保序归并操作。
14.根据权利要求8至13任一项所述的系统,其特征在于,所述系统还包括: 索引库构建模块,用于采用离线方式构建所述索引库,所述索引库构建模块包括: 语音识别单元,用于对待检索的语音文档进行语音识别,得到包含文字和时间信息的词图,所述词图以有向无环图的方式表示了一段语音的多个识别结果; 倒排索引构建单元,用于对所述词图中的每个词构建倒排索引。
【文档编号】G06F17/30GK103440253SQ201310315239
【公开日】2013年12月11日 申请日期:2013年7月25日 优先权日:2013年7月25日
【发明者】吴及, 李伟, 贺志阳, 吕萍, 何婷婷 申请人:清华大学, 安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1