文件检索方法及其系统的制作方法

文档序号:6480808阅读:193来源:国知局
专利名称:文件检索方法及其系统的制作方法
技术领域
本发明涉及一种自动检索文件的方法及其系统,尤其涉及一种通过语言模型来对 文件进行检索的方法及其系统。
背景技术
近来,随着检索技术的不断发展,检索准确度越来越高,检索范围也变得越来越 宽。传统上,搜索引擎通过使用用户输入的关键字来计算文件的关键字出现频率,并按照该 频率来输出文件。也就是说,关键字出现频率越高,文件的相关度就越大。同时,由于基于关键字频率将检索的文件显示给用户,因此用户无法得知这些文 件的内容,必须由用户逐个浏览这些文件以寻找需要的文件,因此无法快速获取需要的文 件。此外,使用关键字检索的文件没有根据其内容很好地被分类,不能直观地将文件 之间的相关程度和类别显示给用户,从而给用户带来了很大的不便。

发明内容
本发明的目的在于提供一种文件检索方法,所述方法不需要复杂的处理而通过利 用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地找到需要 的文件,极大地方便了用户。本发明的另一目的在于提供一种文件检索系统,所述系统不需要复杂的系统配置 而通过利用预先训练的语言模型对检索的文件进行分类并输出给用户,从而用户可直观地 找到需要的文件,极大地方便了用户。本发明的一方面在于提供一种文件检索方法,所述方法包括输入至少一个用户 查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先 训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述 复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。所述检索步骤可包括调用网页爬虫程序来读取相关网页,用以检索与所述用户查 询匹配的文件。所述分类步骤可包括将文件的复杂度向量输入到支持向量机SVM分类器以对文 件进行分类。所述文件检索方法,可进一步包括步骤基于分类的文件的相似度和所述分类的 文件所属网站的重要度对所述分类的文件进行排列。所述文件检索方法,可进一步包括步骤选择所述分类的文件之一和相应语言模 型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较;当所述复杂度分数 大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所 述相关语言模型进行再训练。本发明的另一方面提供一种网络信息检索系统,包括输入模块,用以输入至少一个用户查询;检索模块,用以检索与所述用户查询匹配的文件;文件分类模块,用以选择所 述匹配的文件,根据选择的文件调用预先训练的多个语言模型,计算所述选择的文件相对 于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文 件进行分类;输出模块,用以输出检索和分类的文件。所述检索模块可调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹 配的文件。所述文件分类模块可将文件的复杂度向量输入到支持向量机SVM分类器以对文 件进行分类。所述文件检索系统,可进一步包括排列模块,用以基于分类的文件的相似度和所 述分类的文件所属网站的重要度对所述分类的文件进行排列。所述文件检索系统,可进一步包括语言模型更新模块,用以选择所述分类的文件 之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较, 当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于或等 于预定阀值时,对所述相关语言模型进行再训练。


通过下面结合附图进行的详细描述,本发明的上述和其他目的和特点将会变得更 加清楚,其中图1是示出根据本发明示例性实施例的文件检索系统的框图;图2是示出根据本发明示例性实施例的文件检索方法的流程图;图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例;图4是根据本发明示例性实施例的文件检索结果的示例;图5是根据本发明另一示例性实施例的文件检索系统的框图;图6是根据本发明另一示例性实施例的文件检索方法的流程图。
具体实施例方式以下,参照附图来详细说明本发明的实施例。图1是示出根据本发明示例性实施例的文件检索系统的框图。参照图1,根据本发 明示例性实施例的文件检索系统100包括输入模块102、检索模块104、文件分类模块106 和输出模块108。用户通过输入模块102输入用户查询以检索需要的文件。检索模块104检索与所述用户查询匹配的文件。检索模块104可由检索引擎通过 调用网页爬虫(web crawler)来实现文件的检索,并且确定用户查询和文件是否匹配。如 果用户查询和文件匹配,则将该文件作为匹配的文件,如果用户查询和文件不匹配,则忽略 该文件。文件分类模块106选择所述匹配的文件,根据选择的文件调用预先训练的多个语 言模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表 示为文件的复杂度向量,用以对文件进行分类。下面将详细描述文件分类模块106的功能。
文件分类模块106从匹配的文件选择一个文件,并调用与选择的文件相应的一组 语言模型。该语言模型组是用训练语料预先训练的语言模型组(例如,财经类的语言模型、 娱乐类的语言模型或体育类的语言模型等)。然后,文件分类模块106利用以下等式1计算 该文件对相应的一个语言模型的复杂度分数<formula>formula see original document page 5</formula>其中,P(W)为词序列(句子)W = {Wi,i = 1,2,... ,M)的概率,如等式2所示<formula>formula see original document page 5</formula>其中,(Wi_n+1,. . . wj为曾经使用过的词序列。文件分类模块106将对一组语言模型的复杂度分数表示为复杂度向量V = {PPp i =1,2,. . .,N),以将每个文件表示为一个N维复杂度向量。此外,文件分类模块106可使 用支持向量机(SVM)分类器对这些向量进行分类,但本发明不限于此,可使用本领域公知 的任何其他分类器。输出模块108输出通过输入用户查询来检索和分类的文件。图2是示出根据本发明示例性实施例的文件检索方法的流程图。参照图2,在步 骤S201,用户通过输入模块102输入至少一个用户查询。在步骤S202,检索模块104检索 与所述用户查询匹配的文件。具体说来,检索模块104可由检索引擎通过调用网页爬虫来 实现文件的检索,并且确定用户查询和文件是否匹配。如果用户查询和文件匹配,则将该文 件作为匹配的文件,如果用户查询和文件不匹配,则忽略该文件。应注意,本发明不限于此, 可使用现有技术中的任何检索方法对文件进行检索。接着,在步骤S203,文件分类模块106 选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型。这是为了将文件与 多个语言模型联系起来,以随后根据文件的内容对文件进行分类。在步骤S204,文件分类模 块106计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示 为文件的复杂度向量,从而对文件进行分类。由于通过步骤S203和步骤S204分类的文件 是基于其内容来进行分类的,因此能够保证很好的分类准确度。这里,文件分类模块106可 使用支持向量机(SVM)分类器对这些向量进行分类,但本发明不限于此,可使用本领域公 知的任何其他分类器。在步骤S205,输出模块108将经过分类的文件输出给用户。图3是示出根据本发明示例性实施例的文件分类模块执行的分类的示例。如图3 所示,与用户查询“三星Q1 ”匹配的文件经过文件分类模块106分类为4个类型,分别是“参 数”、“评估”、“好的评价”和“不好的评价”。但是本发明不限于此,文件分类模块106可根 据用户的喜好将文件分类为各种不同类型。图4是根据本发明示例性实施例的文件检索结果的示例。如图4所示,基于输入 的用户查询“三星Q1”,经过根据本发明示例性实施例的文件检索方法检索的文件通过输出 模块108输出为5种类型,分别是“产品照片和名称”、“产品参数”、“性能评估”、“来自用户 的好的评价”和“来自用户的不好的评价”。但是本发明不限于此,根据本发明示例性实施 例的文件检索方法可将文件分类为各种不同类型并以各种方式显示这些文件。以下参照图5和图6来描述本发明另一示例性实施例。图5是根据本发明另一示例性实施例的文件检索系统的框图。参照图4,根据本 发明另一示例性实施例的文件检索系统500包括输入模块502、检索模块504、文件分类模块506、输出模块508、排列模块510和语言模型更新模块512。在此,输入模块502、检索模 块504和文件分类模块506的功能与图1中的输入模块102、检索模块104和文件分类模块 106相似,为了避免混淆,在此不再详细阐述。 排列模块510基于分类的文件的相似度和所述分类的文件所属网站的重要度对 所述分类的文件进行排列。具体地,可利用以下等式3计算在经过文件分类模块406分类 的属于同一类别的文件之间的相似度
<formula>formula see original document page 6</formula> 等式 4其中,Sim^, V2)为两个文件的复杂度向量L和V2的相似度。PP为文件对语言 模型的复杂度分数。此外,排列模块510还计算文件的重要度,该重要度取决于作为文件来源的网站 的重要度,即,新浪、搜狐等网站的重要度相对较高。而且,排列单元510基于文件的相似度 和重要度来排列文件。具体地,排列模块510可对计算出的文件的相似度和重要度进行加 权求和。输出模块508可按照计算出的加权求和来输出这些文件。即,可将加权求和较大 的文件优先输出。但是本发明不限于此,还可将这些文件按照加权求和的大小进行等级排 列并输出。语言模型更新模块512,选择所述分类的文件之一和相应语言模型之一来计算复 杂度分数,并将所述复杂度分数与预定阀值进行比较,当所述复杂度分数大于预定阀值时, 训练新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型 进行再训练。图6是根据本发明另一示例性实施例的文件检索方法的流程图。在图6中,步骤 S601至步骤S604与图2中的步骤S201至步骤S204相似,为了避免混淆,在此不再进行详 细描述。在步骤S605,排列模块510基于分类的文件的相似度和所述分类的文件所属网站 的重要度对在步骤S604分类的文件进行排列。然后,在步骤S606,输出模块508将经过分 类和排列的文件提供给用户。在步骤S607,语言模型更新模块512选择所述分类的文件之一和相应语言模型之 一来计算复杂度分数,并将所述复杂度分数与预定阀值进行比较。当所述复杂度分数大于 预定阀值时,训练新的语言模型,并将该新的语言模型提供给文件分类模块506,以便文件 分类模块506随后使用该新的语言模型。当所述复杂度分数小于或等于预定阀值时,对所 述相关语言模型进行再训练。由于根据本发明示例性实施例的文件检索方法和系统基于文件的内容来进行检 索和分类,因此可大大提高检索的文件的准确性和有效性。同时,通过将文件进行分类并按照文件之间的相关度和其所属网站的重要性来输 出文件,可将这些文件直观地提供给用户,从而给用户提供了方便。此外,通过不断地更新语言模型,对语言模型进行再训练,为用户以后的检索提供 了方便。根据本发明示例性实施例的文件检索方法和系统不仅可应用于网页信息检索,还 可应用于文件分类、问题回答、文件汇总等。本发明不限于上述实施例,在不脱离本发明的精神和范围的情况下,可以对本发明进行形式和细节上的各种改变。
权利要求
一种文件检索方法,所述方法包括步骤输入至少一个用户查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据所选择的文件调用预先训练的多个语言模型;计算所选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。
2.如权利要求1所述的方法,其特征在于所述检索步骤为调用网页爬虫程序来读取相关网页,用以检索与所述用户查询匹配的文件。
3.如权利要求1所述的方法,其特征在于所述分类步骤为将文件的复杂度向量输入到支持向量机SVM分类器以对文件进行分类。
4.如权利要求1所述的方法,其特征在于进一步包括步骤基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述分类的文件进 行排列。
5.如权利要求1所述的方法,其特征在于进一步包括步骤选择所述分类的文件之一和相应语言模型之一来计算复杂度分数,并将所述复杂度分 数与预定阀值进行比较;当所述复杂度分数大于预定阀值时,训练新的语言模型,并且当所述复杂度分数小于 或等于预定阀值时,对所述相关语言模型进行再训练。
6.一种网络信息检索系统,包括 输入模块,用以输入至少一个用户查询; 检索模块,用以检索与所述用户查询匹配的文件;文件分类模块,用以选择所述匹配的文件,根据选择的文件调用预先训练的多个语言 模型,计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示 为文件的复杂度向量,以对文件进行分类; 输出模块,用以输出检索和分类的文件。
7.如权利要求6所述的系统,其特征在于检索模块调用网页爬虫程序来读取相关网 页,用以检索与所述用户查询匹配的文件。
8.如权利要求6所述的系统,其特征在于文件分类模块将文件的复杂度向量输入到支 持向量机SVM分类器以对文件进行分类。
9.如权利要求6所述的系统,其特征在于进一步包括排列模块,用以基于分类的文件的相似度和所述分类的文件所属网站的重要度对所述 分类的文件进行排列。
10.如权利要求6所述的系统,其中,还包括语言模型更新模块,用以选择所述分类的文件之一和相应语言模型之一来计算复杂度 分数,并将所述复杂度分数与预定阀值进行比较,当所述复杂度分数大于预定阀值时,训练 新的语言模型,并且当所述复杂度分数小于或等于预定阀值时,对所述相关语言模型进行 再训练。
全文摘要
提供一种文件检索方法及其系统。所述文件检索方法包括输入至少一个用户查询;检索与所述用户查询匹配的文件;选择所述匹配的文件,根据选择的文件调用预先训练的多个语言模型;计算所述选择的文件相对于每个语言模型的复杂度分数,并将所述复杂度分数表示为文件的复杂度向量,用以对文件进行分类;输出经过分类的文件。
文档编号G06F17/30GK101799805SQ20091000731
公开日2010年8月11日 申请日期2009年2月11日 优先权日2009年2月11日
发明者史媛媛, 张华 , 朱璇, 邓菁 申请人:三星电子株式会社;北京三星通信技术研究有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1