索引用于文件检索的文件的方法、装置及计算机可读媒介的制作方法

文档序号:6495278阅读:379来源:国知局
索引用于文件检索的文件的方法、装置及计算机可读媒介的制作方法
【专利摘要】多个实施方式提供了索引用于文件检索的文件的方法。该文件可包括:产生文件向量,文件向量指示多个术语中的每个是否存在于文件中;使用文件向量和语义关系矩阵计算文件语义推断向量,文件语义推断向量用于文件中存在的多个术语中的每个,语义关系矩阵辨别多个术语中不同术语之间的语义关系;以及使用基于文件语义推断向量计算的文件语义背景推断向量,索引文件。多个实施方式提供了对应的装置和计算机可读媒介。
【专利说明】索引用于文件检索的文件的方法、装置及计算机可读媒介
【技术领域】
[0001]本发明涉及索引用于文件检索的文件的方法、装置以及计算机可读媒介。
【背景技术】
[0002]说话是用于人与人和人与机器的相互作用的最方便的方式。在教育、商业和娱乐中应用语音文件检索(SDR)正在快速增长。成功的示例包括多语言口述历史档案访问。
[0003]传统手段聚焦在检索信息并试图满足用户的需求。由于语音的变化,难以直接比较语音查询与数据库中的语音文件。为了构造高效且有效的检索系统,现有技术的语音文件检索(SDR)技术采用从自动语音识别获得的用于索引的转换。向量空间模型和概率模型依赖于一些相似性功能,这些相似性功能假定如果文件包括查询术语的更多次出现,则该文件更有可能与查询相关。[0004]基于文本的信息检索的索引技术已广泛地使用在语音文件检索中。然而,由于不完美的语音识别、未登录词汇、同音字歧义以及词语符号化,传统的基于文本的索引技术的方法并不总是适于语音文件检索。转换错误可致使不期望的语义与语法表达,因此导致不充分的索引。已经提出了多个手段以利用多种索引单元(如词语,子词、音素等)解决这些问题。

【发明内容】

[0005]多个实施方式提供了索引用于文件检索的文件的方法,其包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。
[0006]在一实施方式中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。
[0007]在一实施方式中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。
[0008]在一实施方式中,产生所述语义关系矩阵还包括以下步骤:使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。
[0009]在一实施方式中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。
[0010]在一实施方式中,根据以下表达式应用所述术语加权方案:
d tf(a, ,6/) + 1D
[0011]ak = 二:-X !og(—~—-)

4/UtlJ+.[0012]"</ = Σ# (A.k
[0013]其中ai力所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语(64在文件d中出现的次数;df(ak)是所述术语adK至少出现一次的文件的数目。
[0014]在一实施方式中,根据以下表达式执行所述术语-术语矩阵:
[0015]W=WWr
[0016]其中命为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。
[0017]在一实施方式中,根据以下表达式执行所述术语-术语矩阵的奇异值分解:
[0018]W = UEVr
[0019]其中V力所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为RXR对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表
示矩阵转置。
[0020]在一实施方式中,基于以下表达式减少所述术语-文件矩阵的维数:
【权利要求】
1.索引用于文件检索的文件的方法,包括: 产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中; 使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及 使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。
2.根据权利要求1所述的方法,其中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。
3.根据权利要求2所述的方法,其中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。
4.根据权利要求1至3中任一项所述的方法,还包括通过以下步骤产生所述语义关系矩阵: 使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及, 通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。
5.根据权利要求4所述的方法,其中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。
6.根据权利要求5所述的方法,其中,根据以下表达式应用所述术语加权方案: atjna^^g{ D_)
Hljdj (a,) + I
nd = YjIfia^d)
k 其中ag为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语《I在文件d中出现的次数;df(ak)是所述术语Uk至少出现一次的文件的数目。
7.根据权利要求4至6中任一项所述的方法,其中,根据以下表达式执行所述术语-术语矩阵: W=WWr 其中#为所述术语-术语矩阵;w为所述术语-文件矩阵;以及τ表示矩阵转置。
8.根据权利要求7所述的方法,其中,根据以下表达式执行所述术语-术语矩阵的奇异值分解: W = UXV7 其中I为所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为RXR对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表示矩阵转置。
9.根据权利要求8所述的方法,其中,基于以下表达式减少所述术语-文件矩阵的维数:
10.根据权利要求9所述的方法,其中,根据以下表达式产生所述术语-术语矩阵:
11.根据上述权利要求中任一项所述的方法,还包括: 接收搜索查询;以及, 基于使用所述文件语义背景推断向量和所述搜索查询的比较,检索所述文件。
12.根据权利要求11所述的方法,其中,检索所述文件还包括: 产生搜索查询向量,所述搜索查询向量指示所述多个术语中的每个是否存在于所述搜索查询中; 使用所述搜索查询向量和所述语义关系矩阵,计算搜索查询语义推断向量,所述搜索查询语义推断向量用于所述搜索查询中存在的所述多个术语中的一个或多个; 基于每个搜索查询语义推断向量,计算搜索查询语义背景推断向量;以及基于所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的比较,检索所述文件。
13.根据权利要求12所述的方法,其中,使用所述搜索查询向量和语义关系矩阵计算搜索查询语义推断向量,以用于所述搜索查询中存在的所述多个术语中的每个。
14.根据权利要求13所述的方法,其中,通过将所述搜索查询语义推断向量加起来,计算所述搜索查询语义背景推断向量。
15.根据权利要求12至14中任一项所述的方法,其中,根据以下表达式执行所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的所述比较:
16.根据上述权利要求中任一项所述的方法,其中,每个文件为语音文件。
17.根据上述权利要求中任一项所述的方法,其中,术语为词语。
18.索引用于文件检索的文件的装置,包括: 至少一个处理器; 以及包括计算机程序代码的至少一个存储器, 利用所述至少一个处理器,所述至少一个存储器和所述计算机程序代码配置成致使所述装置至少执行: 产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中; 使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及 使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。
19.索引用于文件检索的文件的计算机可读媒介,所述计算机可读媒介上存储有计算机程序码,当通过计算机执行所述计算机程序代码时,其致使所述计算机至少执行: 产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中; 使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及 使用基于每个文件语义推断 向量计算的文件语义背景推断向量,索引所述文件。
【文档编号】G06F17/30GK103548015SQ201280024604
【公开日】2014年1月29日 申请日期:2012年3月28日 优先权日:2011年3月28日
【发明者】黄建霖, 马斌, 李海州 申请人:新加坡科技研究局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1