一种基于特征优化的元路径挖掘方法与流程

文档序号:21698000发布日期:2020-07-31 22:49阅读:406来源:国知局
一种基于特征优化的元路径挖掘方法与流程

本发明属于社交网络元路径挖掘技术领域,具体涉及一种基于特征优化的元路径挖掘方法。



背景技术:

近年来,facebook、twitter、instagram、微博和微信等在线社交网络极大地改变了人们的交流方式。如今,越来越多的人同时使用多个社交网络。例如,人们在微信上分享他们的个人动态的同时,也会在微博上写下他们的每日见闻。为了满足人们对新服务的需求,出现了具有不同服务和特征的现代社交网络,并试图吸引来自其他社交网络的用户。这些社交网络的一个重要任务是找到可能加入它们的来自其他网络的用户,用于有针对性的推荐。因此,挖掘社交网络中可能出现的新的信息和关系变得至关重要,也逐渐成为新的趋势。当前这种社交网络中的信息和关系的挖掘一般可以分为链接预测和好友推荐等方面,在这些领域中都可以使用到元路径挖掘技术。

近年来,在信息网络中预测链路的形成问题已经获得了广泛研究。现有链接预测的工作主要通过网络结构来预测未来可能存在的链接,然而还有其他类型的信息,例如位置、时间和帖子内容等可以用于链接预测。在信息网络的相关研究基础上,社交网络中的链接预测也被广泛研究,提出了多种方法解决社交网络链接预测问题。adamicla等人在网络中的朋友和邻居一文中最先提出基于邻近关系的方法,在节点间最早定义了共同邻居,并引入了jaccard系数和adamic/adar进行相似度度量,进行社交网络链接预测。在不能进行相似度度量的情况下,可以使用概率的方法。使用概率的方法创建适用网络的概率模型,并且使用概率的模型进行链接预测,或者使用基于监督分类的方法,通过对网络中的每一个链路提取特征向量用来训练分类器达到链接预测的目的。

为了使用社交网络中丰富的信息,探索社交网络中的实体间关系和链路关系,研究者逐渐重点关注并研究元路径挖掘技术。y.sun等人在异质书目网络中合著关系预测一文中提出了名字为pathpredict的元路径挖掘技术,使用基于元路径的方法预测了异质书目网络中的链路存在。与仅由单一类型的节点和链路组成的同质网络元路径不同,在异质网络中的元路径,使用多种类型的链路来关联多种类型的节点,元路径挖掘中除了使用用户和位置表示异质元路径的不同节点类型,用户间的社交链接以及用户和位置之间的位置链接也是异质社交网络中的不同类型的元路径的链接实例。pengz等人在集成与用户偏好的异构信息网络的top-k相关搜索元路径选择一文中,提出使用元路径的方法进行用户搜索以获得用户关系和偏好。p.s.yu等人在异质信息网络中多种类型链接的集体预测一文中,在对异质信息网络中的元路径进行挖掘时,提出了一种基于元路径的方法来预测异质信息网络中的多种类型的链路。y.sun等人在异构信息网络中基于元路径的搜索和挖掘一文中,使用元路径的方法进行信息网络中的链接挖掘。yangy等人在多关系异质网络中的链路预测一文中,在元路径挖掘的基础上提出了一种名称为mrip的概率方法来预测异质网络中的链路。kuo等人在使用异质社交网络上的聚合统计信息进行无监督链接预测一文中,在元路径的基础上设计了一种无监督方法,使用聚合统计数据来通过元路径挖掘来解决异质网络中的链路预测问题。

目前元路径挖掘的相关技术和应用在异质网络的链接预测领域已经获得了部分研究,但是,元路径挖掘应用于社交网络锚链接预测领域的研究比较少,还存在巨大的研究空白。目前明确的锚连接预测问题的方法是wu等人在基于学习普通用户的一致行为的跨社交网络目标节点预测一文中提出的cicf方法。罗梁等人在跨社交网络的实体用户关联技术研究一文中,使用基监督学习的逻辑回归模型分析用户的多种在自然属性和其他实体信息,提出了一种处理跨社交网络的社交关联锚链接预测模型。cicf方法和罗梁等人提出的模型,都是仅涉及跨社交网络的锚链接预测,忽略了一些其他重要因素,例如网络模式上的元路径的组合和元路径特点都将影响锚链接预测。因此,使用元路径的方法对跨社交网络的锚链接预测问题进行研究具有非常的重要的研究价值。目前基于元路径挖掘的跨社交网络的锚链接预测的研究非常少。目前最具有代表性的是sinasajadmanesh等人在异质社交网络锚链接预测一文的研究,该研究提出的crmp方法是基于元路径的跨社交网络的锚链接预测方法。



技术实现要素:

本发明的目的在于提供一种基于特征优化的元路径挖掘方法。

本发明的目的通过如下技术方案来实现:包括以下步骤:

步骤1:输入包含多种类型的节点和关系的社交网络图g;所述的社交网络图g分为源网络s和目标网络t;

步骤2:采用多种元路径遍历社交网络图中的每个顶点和边,计算pc特征的连接元路径特征矩阵和递归元路径特征矩阵;

所述的pc特征的连接元路径特征矩阵为:

其中,ψi表示连接元路径,i表示元路径的种类,i=1,2...c;的计算公式为:

其中,us表示源网络s中的用户;ut表示目标网络t中的用户;ut为遍历计算时所有涉及到的目标网络t中用户的集合;

所述的pc特征的递归元路径特征矩阵为:

其中,φi,j,k表示递归元路径,i,j,k表示多种元路径的组合结果,共有c,r,c种组合;的计算公式为:

步骤3:采用多种元路径遍历社交网络图中的每个顶点和边,计算npc特征的连接元路径特征矩阵和递归元路径特征矩阵;

所述的npc特征的连接元路径特征矩阵为:

其中,的计算公式为:

其中,pc(us1,us2)-1与pc(us1,us2)表示元路径中的相反关系;pc(us1,·)与pc(us2,·)中的运算符·表示节点间的自归一化关系;us1和us2表示源网络s中两个不同实体节点;

所述的npc特征的递归元路径特征矩阵为:

步骤4:采用多种元路径遍历社交网络图中的每个顶点和边,计算rw特征的连接元路径特征矩阵和递归元路径特征矩阵;

所述的rw特征的连接元路径特征矩阵为:

其中,的计算公式为:

所述的rw特征的递归元路径特征矩阵为:

步骤5:采用多种元路径遍历社交网络图中的每个顶点和边,计算srw特征的连接元路径特征矩阵和递归元路径特征矩阵;

所述的srw特征的连接元路径特征矩阵为:

其中,的计算公式为:

srw(us)=ew(us1,us2)+rw(us1,us2)-1

其中,rw(us1,us2)-1表示源网络s中另一个方向的rw;

所述的srw特征的递归元路径特征矩阵为:

步骤6:获取四种特征的复合因子,得到社交网络图的特征矩阵feature;

所述的社交网络图的特征矩阵feature为:

feature=βpca+γnpca+θrwa+μsrwa

其中,β、γ、θ和μ是复合因子,且满足β+γ+θ+μ=1。

本发明还可以包括:

所述的步骤2、步骤3、步骤4和步骤5中采用的元路径有以下九种:

其中,u表示用户;m表示用户的发文动态;t表示时间;l表示位置;c表示用户的发文评论。

本发明的有益效果在于:

本发明针对社交网络中的元路径挖掘,提出了一种基于特征优化的元路径挖掘方法,该方法包含基于多种单一的元路径特征优化和基于多种不同的元路径特征复合优化。在元路径挖掘中使用特征优化算法,可以获得更好的元路径特征使得元路径挖掘效果更佳。

附图说明

图1为社交网络的网络模式图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明针对社交网络中的元路径挖掘,提出了一种基于特征优化的元路径挖掘方法,该方法包含基于多种单一的元路径特征优化和基于多种不同的元路径特征复合优化。在元路径挖掘中使用特征优化算法,可以获得更好的元路径特征使得元路径挖掘效果更佳。

1、社交网络g包含多种类型的节点和关系,g=(v,e),其中v表示网络中的各种节点,v=uivi,i∈{user,loc,time,text,check},i表示不同节点的种类;节点间的链接e包含多种类型,e=ujej,j∈{user,loc,time,text,check},j表示网络中不同关系种类。异质社交网络g的网络结构称之为网络模式sg,sg={ν,ε},ν表示所有点的集合,ε表示边的集合。社交网络的网络模式可以实例化如图1所示。

2、给定网络模式sg中的有向的路径称之为元路径meta-path。网络模式sg中存在序列ν1→ν2…→νk-1→νk和ε1→ε2…→εk-1→εk,其中νi∈ν,εi∈ε。

本发明使用的元路径有以下九种,其中u表示用户,m表示用户的发文动态,t表示时间,l表示位置,c表示用户的发文评论:

·

·

·

·

·

·

·

·

·

3、给定源网络s和目标网络t,满足其中i表示元路径的种类,表示连接关系;表示源网络s中的某条元路径;α表示可能存在的某种链接方式的符号;us表示源网络s中的用户集合;ut表示目标网络t中的全部用户集合;两个网络通过锚定元路径将两个网络连接起来的结构称之为连接元路径。

4、给定源网络s和目标网络t,满足其中,i,j,k表示多种元路径的组合结果,共有c,r,c种组合;表示目标网络t中的某条元路径;在两个网络中通过锚定元路径和连接元路径,将两个网络连接起来并行成闭合循环的网络结构称之为递归元路径。

5、遍历组图中的每个顶点和边,利用公式(1)求解pc特征。

6、遍历组图中的每个顶点和边,利用公式(2)和(3)求解npc特征,其中pc(us1,us2)-1与pc(us1,us2)表示元路径中的相反关系,·运算符表示节点间的自归一化关系。

7、遍历组图中的每个顶点和边,利用公式(4)和(5)求解rw特征,其中us1,us2表示网络模式中两个不同实体节点。

8、遍历组图中的每个顶点和边,利用公式(6)和(7)求解srw特征,其中us1,us2表示网络模式中两个不同实体节点,rw(us1,us2)-1表示网络模式中另一个方向的rw。

srw(us)=rw(us1,us2)+rw(us1,us2)-1(6)

9、利用公式(8)分别计算四种特征的连接元路径特征矩阵,利用公式(9)分别计算四种特征的递归元路径特征矩阵,以pc为例。

10、利用公式(10)、(11)、(12)和(13)分别计算四种特征的锚定矩阵。

11、利用公式(14)计算四种特征复合的锚定矩阵,其中,,β、γ、θ和μ是复合因子且满足和为1。

feature=βpca+γnpca+θrwa+μsrwa(14)

异质社交网络s和t中的实体节点种类有十几种,并且跨社交网络中通过连接元路径、锚定元路径和递归元路径三种元路径可以组成五百余种不同的元路径种类模式。这些元路径的种类模式、用户属性和用户行为都有所不同,在很多情况下某一个单独的元路径特征无法很好地适应网络。本发明的一种基于特征优化的元路径挖掘方法可以很好地解决上述问题。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1