基于语义小世界模型的文献检索方法

文档序号:6573028阅读:172来源:国知局
专利名称:基于语义小世界模型的文献检索方法
技术领域
本发明属于计算机领域的分布式计算和信息检索,具体涉及一种基于语义小世界模型的文献检索方法,该方法主要利用语义小世界模型解决文献信息共享的对等网络中的高效信息存储和检索问题。
背景技术
对等网络系统由于其可扩展性、容错性、自治性和自组织性等特点,在大规模的信息检索领域越来越受到人们关注。但是在文献信息共享的对等网络中,如何进行有效的信息存储和检索仍然是一个具有很大挑战性的问题。
小世界现象广泛存在于社会网络中,即世界上的每个人之间都可以通过很短的社会关系链联系起来,社会关系链的长度一般不超过六,被称为“六度分离理论”,这种理论存在的原因在于在社会网络中,人们通常都有一些与其兴趣相似的朋友,同时也可能有少数与其兴趣不一定相似但有众多社会联系的朋友,从而人们可以通过很短的“朋友的朋友”社会关系链相互联系。
潜在语义索引是对传统的信息检索中的向量空间模型的扩展,能消除信息检索中广泛存在的影响查全率和查准率的同义词和多义现象,在文献的语义概念空间基础上实现对文献的降维,减少文献信息存储量。
支持向量机是一种机器学习方法,被广泛应用于模式识别、数据分类等领域,能实现对大规模文献高效准确的分类。
目前,对等网络中的信息存储和检索主要基于以下方法集中式索引(如Napster、BitTorrent)、查询泛洪(Gnutella)或随机游走。但以上方法都要求精确的元数据匹配(如文件名或关键字)完成搜索要求,由于无法获得网络中其他节点的语义信息,所以需要盲目的搜索大量的节点以保证信息检索的查全率,从而造成严重的网络负载。通过改进的邻居节点索引信息(如本地索引)引导查询消息能提高查询性能,但是更新索引信息要求非常大的额外开销。基于分布式哈希表的有结构的对等网络(如CAN、Chord)能提供好的可扩展性和有效的搜索性能,但是只能支持关键字/值的查找方式,对于信息检索领域中的全文检索是不合适的,而且维护有结构的对等网络结构的开销非常大。

发明内容
本发明的目的是提供一种基于语义小世界模型的文献检索方法,该方法可以提高检索的查全率和查询速度。
本发明基于语义小世界模型的文献检索方法,包括如下步骤(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中每台参与文献共享的机器称为节点,每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,其中0<p≤0.001;(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的文献类别,且其比例大于50%,则跳入步骤(2.3);否则,跳入步骤(2.5);(2.3)节点进行本地查询,返回查询结果;(2.4)将该查询语句转发给该节点的每个短链接节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点,并跳入步骤(2.6),否则直接跳入步骤(2.6);(2.5)将查询语句转发给该节点的每个物理直接相连的邻居节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点;跳入步骤(2.6);(2.6)查询结束。
针对文献信息共享的对等网络中存在的存储和检索效率问题,本发明结合潜在语义索引和支持向量机以及社会网络中的小世界现象,提供了一种适用于文献信息共享对等网络的存储和检索方法。本发明方法能将文献信息按语义方式组织,利用社会网络中的小世界现象(即社会网络中的人们可以通过很短的路径相识),在减少消息传递和网络负载的前提下,提高检索的查全率和查询速度。采用本发明方法,查询语句可以被路由到最有可能回答该请求的节点,而不是传统的盲目路由,从而提供查询效率;同时,充分利用小世界中的长链接,使查询语句也能被很快的路由到网络中的其他部分,而不是陷在小的网络搜索范围内,从而提高信息检索的重要指标查全率。具体而言,本发明具有以下特点(1)使用潜在语义索引提取文献特征向量可以在尽量保持文献信息特征的情况下,减少信息存储量;(2)利用支持向量机对节点文献信息分类,准确率高,更重要的是节点的文献分类信息可以表达该节点的语义,为后续的搜索提供有效支持;
(3)利用小世界现象,能使查询信息很快的路由到相关的节点,提高查全率,并可减少网络开销。


图1是建立具有语义小世界特征的网络拓扑流程图。
图2是基于语义拓扑结构的文献信息检索流程图。
具体实施例方式
下面结合附图和具体实施方式
对本发明做进一步说明。
本发明包括两个主要步骤,即首先需要建立具有语义小世界特征的网络拓扑;其次,在建立的拓扑结构上进行文献信息检索,下面对以上两个步骤分别描述。
(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数。
(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;分类的标准由具体应用决定,如计算机类的文献共享,则可以选择按照ACM的计算机分类系统分成计算机系统组织(Computer SystemsOrganization)、计算数学(Mathematics of Computing)、信息系统(InformationSystems)等;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值,该阈值的取值范围为
,从而满足小世界现象中的短链接要求;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,该阈值的取值范围为
,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,即节点同超级语义节点连接的可能性为概率p,其中0<p≤0.001,从而满足小世界现象中的长链接要求;在完成上述步骤(1.1)-(1.6)后,对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的与其兴趣不一定相似但一定在某一种文献类别的兴趣比例非常高的长链接,从而形成具有语义小世界特征的网络拓扑。
(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的较高比例部分(该比例选择大于50%),则跳入步骤(2.3);否则,跳入步骤(2.5);(2.3)节点进行本地查询,返回查询结果;(2.4)将该查询语句转发给该节点的每个短链接节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点,并跳入步骤(2.6),否则直接跳入步骤(2.6);(2.5)将查询语句转发给该节点的每个物理直接相连的邻居节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点;跳入步骤(2.6);(2.6)查询结束。
实例(1)建立具有语义小世界特征的网络拓扑结构的具体实施包括以下几个步骤(1.1)利用潜在语义索引提取文献特征向量,具体如下潜在语义索引是对传统的信息检索中的向量空间模型的扩展。在向量空间模型中,文献和查询表示成所有单词在文献集合中的权重信息,查询语句同文献的相似度由两者在向量空间中夹角的余弦表示。如果在有d个文献的集合中有t个相异的单词,则用单词-文献距阵A=(aij)∈Rt×d表示该集合。每列向量aj对应文献j,aij表示单词i在文献j中的权重。通过奇异值分解,距阵A被分解成三个距阵U、∑和V,其中∑是t行d列的对角距阵,其奇异值为σ1≥σ2≥...≥σmin(t,d),保留∑中k个最大的奇异值,距阵A可以由距阵Ak=Uk∑kVk’近似表示;(1.2)支持向量机对训练文献进行有指导的学习,获取支持向量模型,支持向量模型由距阵∑kVk’的d列向量表示;(1.3)对本节点的所有共享文献进行分类,形成分类信息,具体如下节点上的每个文献表示成文献向量p′,利用支持向量模型将向量Uk′p′分类,节点的文献语义被表示为S={N,Pr},其中N表示该节点的文献总数,Pr={Pr1,Pr2,...,Prm}表示每个文献类别的比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值0.5,具体如下对于节点P1和节点P2,其文献语义分别为S1={N1,Pr1}和S2={N2,Pr2},则P1和P2之间的相似度为Sim(P1,P2)=((1+logmin(N1,N2))/(1+logmin(N1,N2)))*(‖Pr1‖·‖Pr2‖),其中‖Pr1‖·‖Pr2‖是向量乘法。
(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;所有节点在超过两个跳的范围内与超级语义节点以0.001的概率直接链接,其中超级语义节点P的度量为U(P)=((1+logN)/(1+log(maxNi)))*maxPri,其中i取对等网络中的所有节点,预定的阈值为0.8,如果U(P)>0.8,则该节点定义为超级语义节点;其他节点与该超级语义节点直接链接的概率为d(u,v)-r,其中d(u,v)表示节点u和节点v之间的最短跳数,r表示该对等网络平均度的1/2。
按照上述过程,对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的与其兴趣不一定相似但一定在某一种文献类别的兴趣比例非常高的长链接,从而形成具有语义小世界特征的网络拓扑。
(2)在建立具有语义小世界特征的网络拓扑基础上,可进行文献信息检索,具体步骤如下(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别,其中查询语句为Q={K,c},K表示查询关键字,c表示查询文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的较高比例部分(该比例大于50%),则进行本地查询,并将查询结果返回;同时,将查询语句Q转发给该节点的每个短链接节点;对于每个长链接节点,如果该长链接节点的最高比例文献类别为c,则将查询语句Q转发给该节点处理;(2.3)如果查询的文献类别不属于发出该查询语句的节点的较高比例部分,则将查询语句Q转发给与该节点的物理直接相连的邻居节点;并对每个长链接节点,如果该长链接节点的最高比例文献类别为c,则将查询语句Q转发给该节点处理;(2.4)查询结束。
根据上述方法,可以将查询语句路由到最有可能回答该请求的节点,而不是传统的盲目路由,从而提供查询效率;同时,充分利用小世界中的长链接,使查询语句也能很快地路由到网络中其他部分,而不是局限在小的网络范围内,从而提高信息检索的查全率。
本方案不仅适用文献信息共享的对等网络,而且可以根据本发明的技术方案进行相应的等同改变或替换,如图像信息共享的对等网络等,而所有这些改变或替换,都应属于本发明所附权利要求的保护范围。
权利要求
1.一种基于语义小世界模型的文献检索方法,包括如下步骤(1)建立全局的具有语义小世界特征的网络拓扑结构,其步骤包括(1.1)利用潜在语义索引方法提取文献特征向量,该文献特征向量包括文献中单词出现的频率以及在所有待提取特征向量的文献集合中出现的次数;(1.2)在上述文献特征向量基础上,支持向量机对训练文献进行有指导的学习,获取支持向量模型;(1.3)对等网络中的每个节点在获得以上向量模型后,对本节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点文献类别的兴趣比例;(1.4)每个节点在两个跳的范围内选择文献类别的兴趣比例相似的节点,选择的标准是相似度超过预定的相似度阈值;(1.5)如果网络中部分节点在某一种文献类别的兴趣比例非常高,超过预定的阈值,则该节点设置成具有可能被其他节点直接链接的超级语义节点;(1.6)所有节点在超过两个跳的范围外与超级语义节点以概率p直接链接,其中0<p≤0.001;(2)在建立具有语义小世界特征的网络拓扑基础上,进行文献信息检索,其步骤包括(2.1)节点发出查询请求,每个查询语句包括查询关键字和查询的文献类别;(2.2)如果查询的文献类别属于发出该查询语句的节点的文献类别,且其比例大于50%,则跳入步骤(2.3);否则,跳入步骤(2.5);(2.3)节点进行本地查询,返回查询结果;(2.4)将该查询语句转发给该节点的每个短链接节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点,并跳入步骤(2.6),否则直接跳入步骤(2.6);(2.5)将查询语句转发给该节点的每个物理直接相连的邻居节点;并对每个长链接节点,如果其最高兴趣比例的文献类别与查询语句的文献类别一致,则转发给该长链接节点;跳入步骤(2.6);(2.6)查询结束。
全文摘要
本发明公开了一种基于语义小世界模型的文献检索方法,先利用潜在语义索引提取文献特征向量,在尽量保留文献特征的前提下降低其维数,减少文献信息存储量;再利用支持向量机对节点的所有共享文献进行分类,形成分类信息,该分类信息标志该节点对文献类别的兴趣比例;最后利用社会网络中的小世界现象,使对等网络中的所有节点都具有直接相连的较少的与其兴趣相似的短链接节点,同时具有极少的在某一种文献类别的兴趣比例非常高的长链接,形成具有语义小世界特征的网络拓扑。本发明特点是查询消息被路由到最有可能回答该请求的节点,提高查询效率;充分利用长链接,使查询语句能很快路由到网络其他部分,提高查全率,减少网络负载。
文档编号G06F17/30GK101017504SQ20071005160
公开日2007年8月15日 申请日期2007年3月2日 优先权日2007年3月2日
发明者金海 , 宁小敏, 袁平鹏, 武浩, 余一娇 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1