一种基于分布式信息检索系统的集合选择方法

文档序号：6578625阅读：207来源：国知局

专利名称：：一种基于分布式信息检索系统的集合选择方法
技术领域：
：本发明涉及计算机信息检索领域，具体涉及分布式信息检索中集合选择方法。
背景技术：
：分布式信息检索是信息检索的一个重要研究方向，研究的主要内容包含"集合选择"、"单数据集合检索"、"结果合并"等几个部分。利用集合选择算法找出最相关的数据集合进行检索，从而实现査询部分文档集合而给出很好的检索结果的效果。集合选择的效果直接决定着最终检索结果的质量。在分布式信息检索领域，集合选择又叫数据库选择或资源选择。在集合选择方面，著名的算法主要有3种(1)C0RI(CollectionRetrievalInferenceNetwork)算法信息库检索推理网络方法，是Callan等人1995年提出，由原有的对文档进行相关性判断的贝叶斯推理网而来，把每个信息库都看成是一篇巨大的文献，信息库等级排列的方法与传统信息检索系统中的文献等级排列的方法相似。(2)gG10SS(GeneralizedGlossaryofServersServer)算法是由GravanoL等人1999年提出，是根据信息库对输入提问式的友好性对信息库进行等级排列，这样做可以估计每个信息库中含有超过某一阈值的文献数量，然后根据文献数量确定信息库的得分，试图解决得到多个匹配源的时候如何选择合适的源，并开发了向量空间搜索版本和布尔变量版本。(3)CW(TheCue-Validity-Variance)算法是由Yuwono和Lee于1997年提出，注意到了Internet的査询特点，在向量空间算法的基础上对算法作了改进。Kirsch;StevenT.和Chang;WilliamI.(2000，USPatent6,018,733)公开了一种基于特殊査询的文档检索的集合选择方法。Kirsch(1999,USPatent5,983,21)公开了一种根据统计文档集合所包含的特定词的多少来自动选择集合。此外，DSouza(2004)和Si(2004)以及MinJieZhang(2006)等提出，基于语言模型的集合选择方法要优于CORI算法。SergeyChernov等(2007)提出一种基于词频统计和假相关语言模型的集合选择算法。Wu和Crestani(2003)提出一种多目标模式的集合选择方法综合考虑了与提问的相关程度、计算时间开销、以及同时在多个资源中获得同一数据的可能机会。张刚(2007)将集合选择问题转化为文档检索问题，尝试了多种文档检索方法来解决集合选择问题
发明内容本发明目的是提供一种检索效率高和效果好的基于分布式信息检索系统的集合选择方法。实现上述发明目的的技术方案是-一种基于分布式信息检索系统的集合选择方法，该方法包括计算需要检索的数据对待选数据库的覆盖程度，根据覆盖程度的大小，确定选择数据库集合的先后顺序。所述计算需要检索的数据对待选择的数据库的覆盖程度进一步包括以下步骤1.通过给包含于待选数据库中的检索数据加权求和的方法(即贪心计算方法)计算待选数据库集合的重要性分值；2.对于同一条检索数据，如果在先前已选的数据库中出现过，在计算后面的数据库重要性分值时，考虑到不同数据库集合之间的覆盖，该条数据再次出现也不再计入后面的数据库分值内。上述步骤l所述的贪心算法进一步为假设有一个提问，检索结合融合排序后的前"个数据(n为自然数)，分别记为W，c/2，...，北...，幽。第&个数据说在某个数据库q中出现时对该数据库重要性的贡献分值为1/《y为正有理数；数据库的重要性分值为其所包含的所有特定的数据的贡献分值之和。对于一个检索提问可供检索的数据库，有包含提问答案的M个数据库，数据库集合C=(C/，C2,...，CM"Ci为第i个可供选择的数据库，/=/,2，...#。n为经过融合排序后的检索结果中，前n个文档。C'为根据相关度大小，所有的被选择上的ffl个数据库的集合，C'—C/',C2',...,Cm'"C/为第j个被选择上的数据库，_/=7,2,...,m，SC/为第j个被选择上的数据库的分值，户/,2,...，附，P为权函数中的常参数，为正有理数，此处实例1中取J3-J。文档k如果出现在数据库G中，在形式上标记为/fCi，其贡献分值记为(^^"，1文档k如果出现在数据库C',中，在形式上标记为/cC';，其贡献分值记为(A:C^')，数据库的重要性分值计算公式为<formula>formulaseeoriginaldocumentpage5</formula>上述方案中，具体包括以下选择步骤(1)计算所有含有以上n个数据中任何一个数据的数据库G的重要性份值，选择分值最大的数据库作为数据库集合选择中首选的数据库并记为CV;(2)除去已经被选择过的数据库，计算剩下的数据库中，所述包含n个数据中任何一个数据的数据库G的重要性份值，在计算中，去除已经选择的数据库中包含的数据;选择重要性份值中最大的一个，记为第2选择数据库C'2;(3)重复以上步骤(2)，直到第m次选择C;当这l到ffl个被选择的数据库已共同补充覆盖所有的n个数据时，结束数据库选择步骤。与现有技术相比，本发明方法具有以下优点1、采用集合覆盖和贪心算法，而非以往的"数字指纹"、"词频统计"、或"语言模型"等信息检索方法，极大地减少了计算机信息检索计算开销；2、考虑了数据库之间实际存在的覆盖问题，优化了分布式集合选择结果，提高了检索的效率和效果；3、根据数据在检索结果融合排序后位置的不同，给以不同的权值用以计算该数据对数据库的贡献分值，提高了分布式信息检索的召回率和査准率。图1为分布式信息检索系统结构图；图2集合选择过程方法流程示意图。具体实施例方式下面结合附图做进一步说明。如图1所示，一种基于分布式信息检索系统包括客户机l，客户机2…一客户机n,信息检索服务器l，信息检索服务器2……信息检索服务器n，客户机群和信息检索服务器群通过网络连接，客户机群提供检索提问数据，信息检索服务器群提供包含提问答案的所有数据库，本发明提供一种基于该系统进行信息检索的集合选择方法。对以下实施例，首先定义相关的符号及其代表的意义-表1表示符号及其意义<table>tableseeoriginaldocumentpage6</column></row><table><table>tableseeoriginaldocumentpage7</column></row><table>文档A如果出现在G中，在形式上标记为kG,其贡献分值记为"《)，文档k如果1出现在C'冲，在形式上标记为/cC'p其贡献分值记为(^^')"计算公式为数据库的重要性分值<formula>formulaseeoriginaldocumentpage7</formula>实施例l如图2所示，假设77=10，即取融合排序后的结果中位于前10位的文档。且每个文档用自己的排序号标识。假设有一可供选择的数据库集合C!中包含了1，2，3,4文档；G中包含了2,3,7,8文档；G中包含了1，5,6，7文档；G中包含了4，5，6，9文档；G中包含了9，IO文档。其它数据库中未包含所要求的检索结果，不作选择对象考虑。第/c个文档对包含其的数据库的贡献分值为(此处假设i3^)选择数据库的过程为首先被选择的数据库为在所有的数据库中，对每个数据库，将包含的特定数据贡献分值求和后找最大值。根据各文档A对数据库的贲统治<formula>formulaseeoriginaldocumentpage7</formula>于是最重要的一个数据库也就是第l个被选择的数据为包含l，2，3，4文档的数据库，记为C/=C,={1，2，3,4}。选择第2个数库除了己被选出的G外，对于剩下的4个数据库中，分别去掉第l次被选择出的数据库中己出现的文档后，再分别进行重要性打分计算。SG，=鹏义{4^^+1/7+1/8，4*1/5+1/6+1/7，JM4*l/5+l/6+l/9，1/9+1/10}={1/5+1/6+1/7}。表示第2次选出的数据库是包含1、5、6、7文档的数据库，记为C/=C3=U,5,6，7}。选择第3个数库除了已被选出的G和G外，对于剩下的3个数据库中，分别去掉第1次和第2次被选择出的数据库中已出现的文档后，再分别进行库重要性打分计算。SC/=腿义U/2+l/3+i^1/8,1/1+1/5+1/6+1/9,1/9+1/10}={1/9+1/10}。表示第3次选出的数据库是包含9、IO文档的数据库，记为G'=C5.=={9，10};选择第4个数库除了已被选出的C,、G和Cs外，对于剩下的2个数据库中，分别去掉第1次、第2次和第3次被选择出的数据库中已出现的文档后，SC/=fflax{1/2+1/3+1/7+1/8，1/4+1/5+1/6+1/9}={1/2+1/3+1/7+1/8}。于是第4个被选择的数据库为包含2,3，7，8文档的数据库，记为C/=G={2,3，7,8}。选择第5个数库除了已被选出的C,、G.G和Cs外，对于剩下的l个数据库中，分别去掉第l次、第2次、第3次和第4次被选择出的数据库中已出现的文档后，再分别进行库重要性打分计算。SC/=鹏^U/W5+l刷/W=0，说明剩下的数据库选择已经没意义，集合选择到此结束。于是被选择出来的数据库共为4个，af4。实施例2假设取前100个文档，同样每个文档用其在检索结果中的排序位置序号作为其标识。假设有60个数据库可供检索，采用随机数方法,使这60个数据库都随机地包含有这100个文档中的某些。从这60个数据库中根据本发明的方法，在某次随机数产生后，选择出24个优化组合的数据库集合，可供检全这100个文档的同时，被选择的数据库之间彼此覆盖达到最小。实验结果再现了被选中的24个数据库是如何相互补充覆盖这100个文档的。如第一个被选出的数据库，也是最重要一个数据库，实验结果显示，此数据库覆盖了第l，第9，第ll，第33，第46,第53，第55，第62，第64，第82，第83，第86,第87，第91，第94和第96个文档。本发明从大量的、分散和异构的信息资源集合中，选择合适的信息资源子集合，以满足用户的提问，能够搜索到适合的信息，保证一定的查全率和查准率的同时减少计算机计算开销，提高检索效率。权利要求1.一种基于分布式信息检索系统的集合选择方法，其特征在于，该方法包括利用集合覆盖，计算需要检索的数据对待选数据库的覆盖程度，根据覆盖程度的大小，确定选择数据库集合的先后顺序。2.根据权利要求l所述的集合选择方法，其特征在于，所述计算需要检索的数据对待选择的数据库的覆盖程度包括下列步骤(1)通过给包含于待选数据库中的检索数据加权求和的方法，计算待选数据库集合的重要性分值；(2)对于同一条检索数据，如果在先前已选的数据库中出现过，在计算后面的数据库重要性分值时，该条数据再次出现不再计入后面的数据库重要性分值内。3.根据权利要求2所述的集合选择方法，其特征在于，上述步骤(1)所述算法进一步为假设有一个提问，检索结合融合排序后的前"个数据(n为自然数)，分别记为W，&，...，A，...，t/";第/c个数据说在某个数据库G中出现时对该数据库重要性的贡献分值为1/《y为正有理数；数据库的重要性分值为其所包含的所有特定的数据的贡献分值之和。4.根据权利要求1所述的集合选择方法，其特征在于，该方法包括以下选择步骤(1)计算所有含有以上"个数据中任何一个数据的数据库C,的重要性份值，选择分值最大的数据库作为数据库集合选择中首选的数据库并记为C';;(2)除去已经被选择过的数据库，计算剩下的数据库中，所述包含"个数据中任何一个数据的数据库G的重要性份值，在计算中，去除已经选择的数据库中包含的数据；选择重要性份值中最大的一个，记为第2选择数据库C'2;(3)重复以上步骤(2)，直到第/n次选择C;，当这l到m个被选择的数据库己共同补充覆盖所有的"个数据时，结束数据库选择步骤。5.根据权利要求4所述的集合选择方法，其特征在于，对于一个检索提问可供检索的数据库，有包含提问答案的il/个数据库，数据库集合C=^/，C2，...，CM入C,为第i个可供选择的数据库，/=7,2,...,M;w为经过融合排序后的检索结果中，前n个文档。C'为根据相关度大小，所有的被选择上的m个数据库的集合，C^C/,...,^,C/为第_/个被选择上的数据库，/=7,2,...，m，SC/为第j个被选择上的数据库的分值，/=/,2，...,w，J3为权函数中的常参数，为正有理数；文档/c出现在数据库G中，在形式上标记为w;.，其贡献分值记为，文档k出现在数据库c:/中，在形式上标记为Ac)'，其贡献分值记为，数据库的重要性分值计算公式为<formula>formulaseeoriginaldocumentpage3</formula>全文摘要本发明涉及一种分布式信息检索中集合选择方法，目的是提供一种检索效率高和效果好的基于分布式信息检索系统的集合选择方法。实现上述发明目的的技术方案是一种基于分布式信息检索系统的集合选择方法，该方法包括计算需要检索的数据对待选数据库的覆盖程度，根据覆盖程度的大小，确定选择数据库集合的先后顺序。本发明方法大大提高了计算机在进行分布式信息检索时系统计算的时间和空间开销，保证了提问结果的查全率和查准率，增强了分布式信息检索的效率和效果。文档编号G06F17/30GK101582085SQ200910146070公开日2009年11月18日申请日期2009年6月5日优先权日2008年9月19日发明者王秀红,鞠时光申请人:江苏大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王秀红;鞠时光
技术所有人：江苏大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。