一种基于转发链相似度的用户关注对象推荐计算方法

文档序号:9349937阅读:377来源:国知局
一种基于转发链相似度的用户关注对象推荐计算方法
【技术领域】
[0001] 本发明涉及社交网络分析和推荐系统领域,具体涉及一种基于转发链相似度的用 户关注对象推荐计算方法的研究及实现。
【背景技术】
[0002] 新型社交策展网络中存在用户的关注与被关注关系。针对社交网络的用户关注推 荐算法很多,大都利用用户参与过的内容记录,使用内容、标签等比对手段发现用户的潜在 兴趣以及关注对象。推荐系统中用户隐私的保护一直以来是一个重要问题。如何在尽可能 少使用用户隐私数据的前提下充分挖掘用户的兴趣点,为用户提供用户关注推荐。
[0003] 在社交策展网络中,用户的每一个公开的收藏条目均可以被其他用户进行转发。 转发行为在一定程度上体现了用户对被转内容的喜好程度,同时转发的路径也表现了用户 的信息来源以及信息流向。大量针对社交网络的数据挖掘相关研究针对其中的转发特性而 开展。研究者通过对微博、Twitter上博文转发关系、转发路径以及用户参与频数的分析,来 进行如:话题提取、社区分割、热点预测等方面的工作。针对转发关系的分析研究,主要通过 用户的个人属性,转发微博的标签、关键词,各结点转发量等数据进行分析。通过如1D-IDF、 主题建模等方法对文本数据进行处理,通过图论算法对网络结构进行提取化简,得到所需 的特征。而事实上,就转发路径上看,一个信息的流向也包含了用户的兴趣偏好,并且,不同 转发链路径上重合节点的密度关系到用户对每个结点的感兴趣程度。单个用户的收藏条目 对应的转发关系包含的相关数据从结构、信息流向、重合节点密度上都存在许多值得研究 的特性。如何从收藏条目的转发路径上获取用户潜在的关注对象就成了研究的要点。

【发明内容】

[0004] 本发明主要解决如何利用用户的转发行为以及转发对应的关系数据进行用户的 潜在关注对象挖掘,实现用户关注推荐。
[0005] 为了实现上述问题,本发明提供了一种基于转发链相似度的用户关注对象推荐计 算方法。该方法包括:
[0006] A、根据目标用户的所有收藏条目进行转发数据的采集,根据收藏条目中转发自何 人的数据,获取每一条收藏条目到原始收藏条目的数据。从当前收藏条目开始向父级爬取 数据。根据转发自何处这一数据作为指导,一直追溯到原始收藏条目位置。在追溯过程中 的每一个结点都是原始收藏条目的一个拷贝,而由这些结点构成了一条链状的路径图,称 之为转发链。每个转发链均由一个包含若干收藏条目的集合构成。以每个转发的收藏条目 的创建用户来代表该转发链上的一个结点。
[0007] B、对于目标用户的所有转发链数据构成的集合,取集合中的所有两两转发链组 合,对组合求取转发链相似度值。
[0008] 进一步地,所述步骤B具体包括:
[0009] B1、定义目标用户转发链集合中转发链数据的具体表达式。设?"为当前的收藏条 目,E为转发关系集合,S为原始收藏条目集合。将一条转发链数据以转发链上各个节点收 藏条目的创建用户的编号为标记,以链表的形式表示为R = (Pr P2, P;?,…,PnI〈Pi,Pi+i〉 GE,PlGS}。设R 1,p表示转发链i的第p个结点位置上用户的编号。由于对目标用户的 推荐不需要考虑目标用户自身和目标用户已经关注的用户,所以,在计算时将每一条转发 链数据的最后两个结点P n :和P n去除。
[0010] B2、计算转发链之间转换的最小操作代价。设在转发链结构的链表中存在插入一 个结点、删除一个结点和以另一个结点替换当前结点这三种基本操作,每个操作所要花费 的代价均为1。则长度为k的转发链民通过三种基本操作变为长度为1的转发链R ,所需 的最小操作代价Cost (R1, R,)通过回溯搜索算法计算得到。
[0011] B3、根据上一步的计算结果Costd Rj),计算转发链民和转发链R 的相似度 Sim(RpRj)c3相似度simd Rj)的计算公式如下:
[0012]
[0013] max{k,1}表示求取k和1中的最大值。
[0014] 至此对于目标用户的所有转发链数据集合中任意两个转发链都得到一个相似度 计算值simd Rj)。
[0015] C、根据B步计算的相似度计算值simd Rj)获取候选的推荐对象用户,并计算每 一个候选的推荐对象的权重值。
[0016] 进一步地,所述步骤C具体包括:
[0017] C1、确定候选的推荐对象用户集合。
[0018] C2、根据转发链相似度计算结果给每一条转发链上的候选推荐对象计算权重值。
[0019] C3、加和所有转发链上的权重值计算结果
[0020] 进一步地,所述步骤Cl具体包括:
[0021] C11、设目标用户u的所有转发链集合为Tu= (R1, R2,…,RJ,其中n表示目标用 户所包含的所有收藏条目个数。根据步骤Bl中对转发链数据的定义,转发链民和转发链
S1,,中用户的总数。
[0022] C12、设目标用户转发链集合Tu中所有相似度不为0的转发链中所有重复出现在2 个或2个以上转发链数据中的用户编号定义为候选的推荐对象用户。设D 1S转发链R 所有候选的推荐对象用户的集合,则D1由公式瑪_ 计算,其中n表示目标用户 所包含的所有收藏条目个数,U为求并集符号。
[0023]C14、对目标用户所有转发链上候选的推荐对象用户构成的集合?,则由如下公式 计算:#? ,其中n表示目标用户所包含的所有收藏条目个数,U为求并集符号。
[0024] 所述步骤C2具体包括:
[0025] C21、给所有的存在与其它转发链相似度不为0的转发链1单位的分配权重。
[0026] C22、根据步骤B中所得的转发链相似度计算结果,转发 链R1上第k个候选的推荐对象u 1所得到的分配权重值weight(u D为
用户所包含的所有收藏条目个数,S1, ,表示转发链R1和转发链R ,上的共同用户集合。
[0027] C23、反复执行步骤C22直到所有转发链上所有的候选的推荐对象所得的分配权 重值全部被单独计算完毕。
[0028] 所述步骤C3具体包括:
[0029] C31、设I(AD1)为判定函数,如果U1G D,j函数返回值为1,否则为0。
[0030] C32、根据步骤C2中计算得到的每个转发链上候选推荐对象所得的权重值,进行 求和操作,得到全体候选用户集合?中每个用户的最终权重值:
[0032] 其中,?表示目标用户所有转发链上候选的推荐对象用户构成的集合,U表示等 待计算的候选用户对象,U 1表示当前等待计算的候选对象在第i条转发链上环境下的标记, weight (U1)表示当前等待计算的候选对象在第i条转发链上所得到的分配权重值,n表示 目标用户所包含的所有收藏条目个数。
[0033] 至此,所有候选的推荐对象所得的权重值全部计算完毕。
[0034] D、根据步骤C中计算得到的候选的推荐对象权重值大小,将候选的推荐对象用户 进行降序排序,权重值越大的用户越靠前,也越可能被推荐。
【附图说明】
[0035] 图1为实施例一中步骤B3所有转发链的相似度计算可视化结果图
[0036] 图2为实施例一中推荐产生不意图
[0037] 图3为实施例一中转发链示意图
[0038] 图4为实施例一的推荐结果在实验测试集上与对比算法的查准率、查全率和Fl指 数结果对比图
【具体实施方式】
[0039] 下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
[0040] 本实施例是针对某社交策展网络真实数据进行的,例中的用户为网络中的真实用 户,包含有69个收藏条目以及收藏条目对应的转发链,有214个关注对象。
[0041] A、读入用户的关注对象数据和收藏条目转发链数据。
[0042] B、提取转发链集合上的用户编号,并计算转发链之间的相似度值。
[0043] 所述步骤B具体包括:
[0044] B1、将一条转发链数据以转发链上各个节点收藏条目的创建用户的编号为标记, 以链表的形式表示为1?={口 1,口2,口3,*",口」<^七+1〉££,口 1£5}。设1^,|:)表示转发链1 的第P个结点位置上用户的编号,将每一条转发链数据的最后两个结点Pn JP P n去除。本 实例中目标用户的第一条转发链可以用用户编号表示为{8089456,6589657,889106}。
[0045] B2、根据目标用户的转发链数据,计算转发链之间转换的最小操作代价,在本实 例中,目标用户的第四条的数据表示为{9550825,6308943,6363423,1265655,6589657, 8889106},第五条转发链的数据表示为{9550825,10138913,11219171,286421,305714, 57678,853734,960710,485684889716,889106},根据Bl步骤去除最后两个结点的数据后, 第一条转发链与第四条转发链之间的最小操作代价Cost (R1, R4)的计算结果为4,而第四条 和第五条转发链的最小操作代价Cost (R4, R5)计算结果为8。
[0046] B3、根据上一步的计算结果,计算目标用户的各转发链之间的两两相似度SinKR
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1