本发明属于社交网络分析技术领域,涉及一种异构社交网络中对位置实体进行锚链接识别的方法,具体涉及一种异构社交网络中基于锚链接用户的位置锚链接识别的方法。
背景技术:
随着计算机和互联网深入到人们的生活中,越来越多的人使用网络进行社交,而单一的网络结构已经无法满足人们的需求,因此异构网络也应运而生。异构社交网络通常包括多个抽象实体,这些实体以及他们之间的关系组成一个庞大的社交网络,如国外的facebook、twitter以及国内的新浪微博、豆瓣等,这些在线社交网络已经在我们的生活中占据了重要位置,改变了我们的生活方式。具体如图1所示。地理位置服务的兴起也使得一些基于位置的社交网络逐渐进入人们的生活,如国外的foursquare、gowalla和国内的街旁等社交平台。而作为传统的社交平台如twitter、youtube等也引入了位置信息,使得用户可以在发布内容时共享位置并根据范围寻找好友等。因此越来越多的研究人员从地理位置方面出发,在进行用户分析时,对用户的移动行为归纳总结与研究。早期的社交网络主要根据虚拟网络中的静态结构以及动态结构进行分析,无法与现实结合。而基于位置的社交网络的出现,能够将虚拟网络的研究与现实空间联系在一起,产生多维度的研究成果。位置作为社交网络的重要特性之一,主要分为绝对位置、相对位置以及语义位置。用户的兴趣爱好以及移动行为模式通过位置信息的研究与分析能够有效的展现出来。
对于位置实体锚链接,近几年研究比较少。zhangjiawei和philips.yu通过分析对齐社交网络中的用户与位置实体,对foursquare和twitter中的用户锚链接与位置锚链接进行了预测。作者提出了以位置为出发点的半监督链接预测方法,该方法将社交网络中用户的潜在关系信息和对应的签到位置信息相结合,进而强化了学习模型,最后通过实验表明位置特征对链接预测性能的提高很显著。现有工作中,研究位置锚链接对位置推荐有很大的贡献。李朔研究了基于位置的社交网络中地点推荐方法,并提出了一个改进的推荐方法,方法中将位置语义与距离等因素作为重要的考量因素。用户通过社交网络的位置服务功能可以获取当前位置信息,以便于好友间位置的获取,同时位置信息在社交网络中的传递,更加方便了用户的位置共享和评论等需求。用户不仅仅可以通过传递位置信息,而且通过位置信息进行用户与用户信息之间的交互。国外的foursquare社交平台是一个基于地理信息的网络平台,人们主要通过分享自己当下所在的地址位置信息进而与好友交流。twitter作为一个社交网络平台也添加了位置共享的功能。国内的新浪微博、百度贴吧等等也都具有地理位置分享的功能。位置信息在社交网络中占有着重要的位置,对用户身份识别、用户推荐以及在刻画用户画像等方面都十分关键。
技术实现要素:
本发明为了提高异构社交网络中位置实体锚链接的识别准确率,提供了一种异构社交网络位置实体锚链接识别方法。
本发明的目的是通过以下技术方案实现的:
一种异构社交网络位置实体锚链接识别方法,包括如下步骤:
步骤一、对两个异构社交网络g1和g2中位置的位置名进行相似度判定,其中:位置名相似度的计算公式如下:
其中,
步骤二、对两个异构社交网络g1和g2中位置的经纬度进行相似度判定,其中:经纬度相似度的计算公式如下:
其中,r表示地球半径,δγ为两个异构社交网络中位置的经度差值,
步骤三、对两个异构社交网络g1和g2中位置的位置相关用户评论进行相似度判定,其中:位置相关用户评论相似度的计算公式如下:
其中,α为两个异构社交网络g1和g2中位置评论词语集合的公共词语,n表示两个网络下位置总数量,nα表示为评论中含有单词α的位置总数量,
步骤四、对两个异构社交网络g1和g2中位置的位置相关用户访问时间进行相似度判定,其中:位置相关用户访问时间相似度的计算公式如下:
其中,tc作为根据用户签到时间位置相似程度符号,
步骤五、利用锚链接用户与位置的关联性,强化位置锚链接的识别,实现两个异构社交网络g1和g2中锚链接用户访问位置关联关系识别,其中:锚链接用户访问位置关联关系的计算公式如下:
其中,
步骤六、从位置属性和锚链接用户位置关联关系两个方面刻画位置实体,构建多组二维矩阵mn、mh、md、mt和n分别表示基于位置名、经纬度、位置相关的用户评论、位置相关的用户访问时间和锚链接用户位置关联关系进行识别产生的结果并计算基于位置属性和锚链接用户位置关联关系的位置相似度,其中:计算基于位置属性和锚链接用户位置关联关系的位置相似度的公式如下:
s1=α′mn+β′mh+γ′md+θ′mt+μ′n;
其中,s1是一个二维矩阵,α′、β′、γ′、θ′和μ′作为调节因子;
步骤七、采用二分图的方式解决通过位置属性和锚链接用户位置关联关系产生的位置与位置之间多对多的问题,并通过km算法实现位置锚链接的最佳匹配。
相比于现有技术,本发明具有如下优点:
本发明提出了一种针对异构社交网络位置实体锚链接lauu(locationanchorlinkidentificationofanchorlinkusersinunsupervisedmode)的识别方法,基于异构社交网络用户锚链接,同时综合考虑位置自身属性以及用户与位置的关系,强化用户与位置的关联关系的作用,建立位置实体锚链接的识别模型。实验结果表明,本发明提出的位置实体锚链接识别方法在识别准确率上较已有方法有了一定程度的提升。
附图说明
图1是一个社交网络示意图。
图2是一个社交网络位置实体特征图。
图3是一个大圆距离示意图。
图4是锚链接用户与位置关联关系示意图。
图5是一个二分图示意图。
图6是本发明方法与已有方法在识别位置锚链接准确率的对比。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种异构社交网络位置实体锚链接识别方法,所述方法包括如下步骤:
1、给定异构社交网络g,g=(v,e),其中节点v包含多种信息节点,v={vnum|num∈z+},num表示节点的种类,当num=2时,节点表示位置l且l∈v2;节点间的链接e包含多种类型,
2、给定两个异构社交网络g1和g2,位置集合分别用
3、给定两个异构社交网络g1和g2,
4、给定两个异构社交网络g1和g2,
5、首先计算在两个异构社交网络中基于位置属性的位置相似度,社交网络位置实体特征如图2。
(1)计算两个异构社交网络中基于位置名的位置相似度,位置名一般由一组单词组成。采用杰卡德相似算法进行度量,如公式(1)所示:
其中,
(2)计算两个异构社交网络中基于经纬度的位置相似度,采用haversine公式,求出不同社交网络中如图3中两个位置之间的距离,结果用符号
其中,
符号r表示地球半径,取平均值6371km,δγ为两个异构社交网络中位置的经度差值。
(3)计算两个异构社交网络中基于位置相关的用户评论的位置相似度,统计出每一个待识别的位置的评论,并采用bm25进行文本相似度对比。对于位置下的评论集合,首先通过分词的方法将所有的评论分解成单词的集合,根据下面的公式得出结果,用符号
其中,
在这里,α为两个网络中位置评论词语集合的公共词语,n表示两个网络下位置总数量,nα表示为评论中含有单词α的位置总数量。
(4)计算两个异构社交网络中基于位置相关的用户访问时间的位置相似度。采用分段的形式将一天分为四个区间,访问位置的时间按照现实生活中人们的行为进行划分,时间格式按照24小时制,分别以3点到9点作为上午、9点到15点作为中午、15点到21点作为下午以及21点到第二天的3点作为深夜。统计出每个位置用户所签到的时间,并根据签到时间进行时间段归纳整理,最终通过用户签到时间对位置锚链接的识别目标模型如公式(7)所示。
其中,tc作为根据用户签到时间位置相似程度符号。
其中,
6、然后计算图4所示的锚链接用户位置关联关系,分别提取锚链接用户u在g1和g2访问过的用户位置集合l1和l2,构建用户与位置关系矩阵
7、在g1和g2中,判断用户u是否访问过位置,并将用户u访问过位置
其中,
8、最终整合位置属性与用户锚链接位置关联关系,异构社交网络位置实体锚链接识别算法lauu如公式(10)所示:
s1=α′mn+β′mh+γ′md+θ′mt+μ′n(10);
其中,s1是一个二维矩阵,矩阵的行和列为两个社交网络中的基于锚链接用户产生的位置,0表示二者不具有位置锚链接,1表示二者具有位置锚链接。其中,α′、β′、γ′、θ′和μ′作为调节因子且满足公式(11):
α′+β′+γ′+θ′+μ′=1(11)。
9、初始化二维矩阵s1,行和列表示两个异构社交网络中基于锚链接用户产生的位置,m1和m2分别表示在两个异构社交网络g1和g2中基于锚链接用户产生的位置数目,初始化调节因子α′、β′、γ′、θ′和μ′均为0.2,根据公式(10)计算基于位置属性和锚链接用户位置关联关系的位置相似值。
10、位置多对多的关系以图5形式展现。采用km算法实现最佳匹配,异构社交网络位置实体锚链接最佳匹配结果用二维矩阵s1′存储。
图6是本发明方法与已有方法在识别位置锚链接准确率的对比,由此图可知本发明方法在识别准确率上较已有方法有了一定程度的提升。