一种基于知识学习对等社交网络文档检索方法

文档序号:9687649阅读:400来源:国知局
一种基于知识学习对等社交网络文档检索方法
【技术领域】
[0001] 本发明设及到社交网络技术领域,将本发明提出的知识学习对等社交网络文档检 索方法(IESLP)用于对等社交网络服务的文档检索。
【背景技术】
[0002] 社交网络应用越来越广泛,人们通过社交网络可W实现虚拟社区的社交活动,如 交友、聊天、互助、发布商业广告、进行资源分享和检索等。社交网络有多种类型,有基于客 户机/服务器模式的在线社交网络如化ceBook、人人网等;有基于蜂窝覆盖技术的移动社交 网络,如微信;也有基于P2P技术的对等社交网络。
[0003] P2P技术也称对等互联网技术,对等社交网络中的节点既是服务器也是客户端。在 使用非结构化P2P技术构建的社交网络中,检索文档是一个具有挑战性的课题。目前已有一 些方法可W用于对等社交网络的文档检索,如(1)随机宽度优先捜索技术(RBFS) [V.Kalogeraki,D.Gunopulos,D.Zeinalipour-yazti.A Local Search Mechanism for Peer-to-Peer Networks[C].Proc.Of the 11th ACM Conference on Information and Knowledge Management (CIKM' 02).New 化rk: ACM,2002 : 300-307 . ]。(2)NeuroGrid技术 [Joseph S.NeuroGrid: Semantically routing queries in peer-to-peer networks.Proceedings of the International Workshopon Peer-to-Peer Computing, Pisa, Italy ,2002. ]。(3)ESLP技术[L丄iu,N.Antonopoulos ,S.Mackin,J.Xu,D.Russell, Efficient Resource Discovery in Self-organized Unstructured Peer-t0-Peer Networks,Concurrency and Computation:Practice and Experience,Wiley,Vol 23(2), February 2009 ,pp. 159-183.]等。RBFS方法在进行查询消息处理时,随机选择k个邻居节点 进行查询消息转发,收到消息的邻居节点再随机选择k个邻居转发查询消息,直到TTL耗尽, 运种检索文档的方法效率低、延时长。NeuroGrid技术在网络节点建立知识库,将在查询过 程中学习到的知识存储到知识库中,依知识库中的知识选择推荐节点进行消息转发,转发 节点数介于最小转发度和最大转发度之间。该方法比RBFS有了改进,召回率和网络性能都 有了提高。E化P是一种新颖的对等社交网络捜索技术,它把人们交往过程中的人际关系理 论运用到文档检索中,模拟人的社交行为快速学习知识,自发形成社交圈,提高文档检索的 成功率,该方法在性能方面比化uroGrid有了较大的改进。
[0004] 现有的运些方法虽然可W实现对等社交网络的文档检索,但还存在一些缺陷。 RBFS的转发度是一个固定的常数;NeuroGrid的转发度介于最小转发度和最大转发度之间, 但不能自适应变化;E化P的转发度虽然考虑目标节点与查询关键词的相关性自适应变化, 但没有考虑到目标节点文档数量与查询关键词的关系,并且也没有考虑到最小转发度和最 大转发度的自适应变化。社交网络中用户按兴趣形成社区,运些算法也没有显式的挖掘用 户的兴趣属性,从而通过兴趣向量相似性的比较自我学习,快速聚类成社区。现有的运些对 等社交网络文档检索技术方法在召回率、转发开销、网络性能等方面还有提升的空间。

【发明内容】

[0005] 为了解决上述对等社交网络环境下文档检索召回率较低、网络开销大、性能不高 的缺陷,本发明提出了一种基于知识学习对等社交网络文档检索方法(简称IE化P),网络节 点依据兴趣向量和查询关键词自我学习,自动形成社区聚类,W提高对等社交网络环境下 的文档检索召回率和综合性能。采用IE化P文档检索方法的对等社交网络中的每个节点的 作用是相等的,节点执行文档检索路由算法分两种情形:当该节点查询文档时产生并发送 初始查询消息,并根据网络中其它节点的反馈消息建立或更新兴趣索引和知识索引;当该 节点接收来自其它节点的查询消息时将统计本地与关键词匹配的文档数量,向查询节点发 送反馈消息,并选择自己的邻居节点转发查询消息。实现本发明的技术方案包括如下:
[0006] -种基于知识学习对等社交网络文档检索方法,包括如下步骤:
[0007] 步骤A,节点建立兴趣索引和知识索引,包括:在文档检索过程中,节点从兴趣相同 的目标节点获得兴趣相似的知识存储在本地兴趣索引表中,同时依据查询关键词获得与查 询关键词匹配的知识存储在本地知识索引表中;
[0008] 步骤B,节点通过本地兴趣索引和知识索引获取邻居节点作为推荐节点,并向推荐 节点转发查询消息,包括:节点需要转发其他节点发送过来的查询消息时,查询本地兴趣索 引表和知识索引表获取包含匹配查询关键词文档的邻居节点列表,依据匹配文档数量计算 列表中邻居节点的相关度系数,并结合最小转发度和最大转发度计算自适应转发度,然后 依据列表中邻居节点的自适应转发度选择推荐节点进行查询消息转发。
[0009] 作为优选技术方案,所述步骤A建立兴趣索引和知识索引的过程如下:
[0010] 步骤1),当查询节点和目标节点兴趣相同时,查询节点依据目标节点反馈的兴趣 向量关键词及目标节点包含兴趣向量关键词的文档数量建立或更新本地兴趣索引表;
[0011 ]步骤2),当查询节点和目标节点兴趣不同时,或者查询节点和目标节点兴趣相同 且目标节点兴趣向量关键词列表不包含查询关键词时,查询节点依据目标节点反馈的查询 关键词及目标节点包含查询关键词的文档数量建立或更新本地知识索引表;
[0012]步骤3),目标节点依据查询关键词统计匹配文档数量。
[001引作为优选技术方案,所述步骤帥将邻居节点作为推荐节点的判定方法为:若列表 中邻居节点的自适应转发度数值大于已选推荐节点的数量,则该邻居节点被选为推荐节 点。
[0014] 作为优选技术方案,所述步骤B选择推荐节点进行查询消息转发的过程如下:
[0015] 步骤1)当查询关键词包含在节点的兴趣向量中,则依据查询关键词从兴趣索引表 中选择节点添加到推荐节点列表中,当推荐列表中节点数量不足最大转发度数值,则依据 查询关键词从知识索引表中选择节点添加到推荐节点列表中,当推荐列表中节点数量不足 最小转发度数值,则从邻居列表中随机选择剩余节添加到推荐节点列表中;
[0016] 步骤2)当查询主题关键词不在当前节点的兴趣向量中,则依据查询关键词从知识 索引表中选择节点添加到推荐节点列表中,当推荐列表中节点数量不足最小转发度数值, 则从邻居列表中随机选择剩余节添加到推荐节点列表中;
[0017] 步骤3)当兴趣索引表和知识索引表中均没有符合查询要求的推荐节点时,扩大捜 索范围,增加最小转发度的数值;从当前节点的连接邻居节点中随机选择满足最新最小转 发度要求的节点作为推荐节点,添加到推荐节点列表中;
[0018] 4)依次从推荐节点列表中选择节点转发查询消息,直到推荐节点列表为空。
[0019] 作为优选技术方案,所述步骤B中计算相关度系数,具体为:
[0020] 依据查询关键词从兴趣索引表或知识索引表中获取的第i个节点的相关度系数为
其中i = l,2,…,n,n为依据查询关键词从兴趣索引表或知识索引表获取 的邻居节点的个数,等式右边项的分子mi为第i个节点与查询关键词匹配的文档数量,分母
为依据查询关键词从兴趣索引表或知识索引表获取的节点的匹配文档数量和。
[0021] 作为优选技术方案,所述步骤B中计算自适应转发度的值为:
[002引第 i 个节点的自适应转发度 ki = Round (r (dmax-dmin)) +dmin,其中 i = l,2,…,n,;ri 为第i个节点的相关度系数,cUin为最小转发度,即最少被选择转发查询消息的邻居节点个 数,dmax为最大转发度,即最大被选择转发查询消息的节点个数,λ为指数调节因子,范围在0 ~1之间,Round函数为取整函数。
[0023] 作为优选技术方案,所述最小转发度cUin = 2,最大转发度cUx = 3,指数调节因子λ = 0.7。
[0024] 作为优选技术方案,所述兴趣索引表和所述知识索引表均为结构相同的哈希表结 构,关键词构成哈希表的键,包含匹配查询关键词文档的邻居节点列表构成键的哈希值。
[0025] 作为优选技术方案,所述列表中的元素包括两个域,一个域存储邻居节点信息,另 一个域存储该邻居节点包含对应的关键词匹配的文档数量;所述列表中包含邻居节点信息 的元素按文档数量值从大到小倒序排序,随机选择的节点默认匹配文档数量值为0,排在列 表末尾。与现有技术相比,本发明的有益效果:
[0026] 本发明在对等社交网络节点构造兴趣索引和知识索引,在文档检
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1