融合用户多种交互信息和用户主题信息的用户排名系统的制作方法

文档序号:6628612阅读:264来源:国知局
融合用户多种交互信息和用户主题信息的用户排名系统的制作方法
【专利摘要】本发明涉及一种融合用户多种交互信息和用户主题信息的用户排名系统,包括:一个数据预处理模块,用于过滤没有任何交互信息的用户,并记录用户与用户之间的交互关系信息,建立用户交互关系矩阵;一个用户多种交互关系构建模块,用于融合用户与好友之间的关注或评论信息,以及用户好友的主题相关度信息,构建融合多关系的三阶张量模型;一个用户交互行为强度预测模块,用于预测用户在社交媒介上与外界用户之间的交互关系强度;一个用户综合影响力测算模块,用于估算查询关键词下的用户综合影响力得分,并根据用户综合影响力得分,对用户进行综合排序。该系统检测速度快,准确度高,适用范围广,应用性强。
【专利说明】融合用户多种交互信息和用户主题信息的用户排名系统

【技术领域】
[0001] 本发明涉及社交媒介用户影响力预测【技术领域】,更具体地,涉及一种融合用户多 种交互信息和用户主题信息的用户排名系统,能应用于查询主题下的用户影响力度量和用 户排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。

【背景技术】
[0002] 在现代技术中,有很多方法可用于度量用户的社会影响力。传统的影响力度量方 法采用基于Pagerank的方法,该方法考虑了用户与用户之间的关注与被关注关系,认为被 关注越多的用户的影响力越大。但是,当社交网络上的交互关系较多时,该方法在使用上就 不那么方便了。以Pagerank方法为基础的技术有很多,如:在社交网络上,通过考虑用户内 容的评论数量、内容发起的讨论规模、出链数、入链数以及内容的长度等因素,以Pagerank 算法为基础,建立一个有影响力博主的识别模型。再如:利用用户回复信息中的观点倾向 性,将用户的影响力分为积极、消极和中性,通过用户间的回复关系建立图模型,并用迭代 方式确定出用户的影响力大小。
[0003] 在现代技术中,还存在一些基于矩阵分解的方法来度量用户影响力。如:利用用户 的点击以及用户间的好友关系与内容分享关系构造用户-帖子关系矩阵,并利用概率混合 因素矩阵分解(PHFMF)的方法,实现对用户影响力的挖掘。该方法关注社交网络上,用户发 布内容的质量,如果用户发布内容十分受关注,那么就认为该用户就很受关注。不过,基于 矩阵的方法只是考虑了用户与内容之间的交互关系,却没有考虑到用户与用户之间的交互 关系。
[0004] 在现代技术中,存在一些基于张量分解的影响力预测方法。如:在评论评级环境下 利用评论评级信息来抽取纯粹的知名度信息是很难的,这是因为数据十分稀疏以及用户投 票行为中有许多混杂的因素。因此,通过利用有偏平滑张量的方法,实现了评论评级数据稀 疏情形下的知名度信息的挖掘。再如:利用产品的评论评级信息挖掘产品评论的质量,先由 "评级一评论"交互关系构建评论的评级矩阵,利用矩阵分解技术得到评论质量的估计值, 随后再通过"评级一评论者一产品"交互信息构建关于产品评论评级的三阶张量,并利用张 量分解技术实现对产品评论质量的估计。该方法改进了矩阵分解方法存在的不足,利用了 用户与用户之间的交互关系,以及用户与内容之间的关系。但是,这种张量分解方法只适用 于单一交互关系,对于多种交互关系下的用户影响力挖掘问题还无法解决。因此,迫切需要 一种能融合多种用户交互关系的用户影响力度量方法,并且这种方法还能根据查询主题的 不同而进行不同领域的有影响力用户的挖掘任务。


【发明内容】

[0005] 本发明的目的在于提供一种融合用户多种交互信息和用户主题信息的用户排名 系统,该系统检测速度快,准确度高,适用范围广,应用性强。
[0006] 为实现上述目的,本发明的技术方案是:一种融合用户多种交互信息和用户主题 信息的用户排名系统,包括: 一个数据预处理模块,用于过滤没有任何交互信息的用户,并记录用户与用户之间的 交互关系信息,建立用户交互关系矩阵; 一个用户多种交互关系构建模块,用于融合用户与好友之间的关注或评论信息,以及 用户好友的主题相关度信息,构建融合多关系的三阶张量模型; 一个用户交互行为强度预测模块,用于预测用户在社交媒介上与外界用户之间的交互 关系强度; 一个用户综合影响力测算模块,用于估算查询关键词下的用户综合影响力得分,并根 据用户综合影响力得分,对用户进行综合排序。
[0007] 进一步的,所述用户多种交互关系构建模块,用于融合用户与好友之间的关注或 评论信息,以及用户好友的主题相关度信息,构建融合多关系的三阶张量模型,包括以下步 骤: 步骤al :构建粉丝、评论关系指示矩阵,如果用户i/(i)与用户VC/)之间存在粉丝关系 或者评论关系,则将所述粉丝、评论关系指示矩阵对应位置(i,力的元素设为1,否则设为 〇 ; 步骤a2 :构建粉丝关系矩阵,如果用户i/(i)与用户i/C/)之间存在粉丝关系或者评论 关系,则将所述粉丝关系矩阵对应位置(i,J·)的元素设为VC/)的粉丝数,否则设为〇; 步骤a3 :构建评论关系矩阵,如果用户i/(i)与用户VC/)之间存在粉丝关系或者评论 关系,则将所述评论关系矩阵对应位置(i,力的元素设为VC/)转发的最近η条微博的评 论数,否则设为〇; 步骤a4 :构建主题关系矩阵,如果用户i/(i)与用户VC/)之间存在粉丝关系或者评论 关系,则将所述主题关系矩阵对应位置(i,力的元素设为以i)的主题相关度,否则设为 〇 ; 步骤a5 :构建融合多关系的张量,将步骤a2~a4构建的矩阵层叠在一起,构成用户在三 种不同关系下的交互关系张量; 步骤a6 :将张量中每一层元素都除以该层的最大元素,以统一张量中每一层元素的量 纲。
[0008] 进一步的,所述步骤a4中,主题相关度的计算,包括以下步骤: 步骤a401 :将用户收到的外界评论信息合并成一篇大文档,作为用户评论文档; 步骤a402 :分别统计关键词数、用户数、包含了查询关键词的文档数、查询关键词在每 篇用户评论文档中出现的频数、每个用户评论文档的长度以及所有用户评论文档的平均长 度; 步骤a403 :采用BM25公式计算出每个用户评论文档与查询关键词之间的相关度,即主 题相关度,然后对主题相关度得分进行归一化处理,即将每个用户的主题相关度得分除以 所有用户中最大主题相关度得分。
[0009] 进一步的,所述步骤a403中,BM25公式的计算方法如下: 设0 = {仏,如…,心}为查询主题,0 = {屯?/2,…,心为文档集合,则BM25公 式如下:

【权利要求】
1. 一种融合用户多种交互信息和用户主题信息的用户排名系统,其特征在于,包括: 一个数据预处理模块,用于过滤没有任何交互信息的用户,并记录用户与用户之间的 交互关系信息,建立用户交互关系矩阵; 一个用户多种交互关系构建模块,用于融合用户与好友之间的关注或评论信息,以及 用户好友的主题相关度信息,构建融合多关系的三阶张量模型; 一个用户交互行为强度预测模块,用于预测用户在社交媒介上与外界用户之间的交互 关系强度; 一个用户综合影响力测算模块,用于估算查询关键词下的用户综合影响力得分,并根 据用户综合影响力得分,对用户进行综合排序。
2. 根据权利要求1所述的融合用户多种交互信息和用户主题信息的用户排名系统,其 特征在于,所述用户多种交互关系构建模块,用于融合用户与好友之间的关注或评论信息, 以及用户好友的主题相关度信息,构建融合多关系的三阶张量模型,包括以下步骤: 步骤al:构建粉丝、评论关系指示矩阵,如果用户V(i)与用户VC/)之间存在粉丝关系 或者评论关系,则将所述粉丝、评论关系指示矩阵对应位置(i,J')的元素设为1,否则设为 〇 ; 步骤a2 :构建粉丝关系矩阵,如果用户V(i)与用户^c/)之间存在粉丝关系或者评论 关系,则将所述粉丝关系矩阵对应位置(i,J')的元素设为VC/)的粉丝数,否则设为〇 ; 步骤a3 :构建评论关系矩阵,如果用户V(i)与用户VC/)之间存在粉丝关系或者评论 关系,则将所述评论关系矩阵对应位置(i,J')的元素设为VC/)转发的最近n条微博的评 论数,否则设为〇 ; 步骤a4 :构建主题关系矩阵,如果用户V(i)与用户VC/)之间存在粉丝关系或者评论 关系,则将所述主题关系矩阵对应位置(i,力的元素设为以i)的主题相关度,否则设为 〇 ; 步骤a5 :构建融合多关系的张量,将步骤a2~a4构建的矩阵层叠在一起,构成用户在三 种不同关系下的交互关系张量; 步骤a6 :将张量中每一层元素都除以该层的最大元素,以统一张量中每一层元素的量 纲。
3. 根据权利要求2所述的融合用户多种交互信息和用户主题信息的用户排名系统,其 特征在于,所述步骤a4中,主题相关度的计算,包括以下步骤: 步骤a401 :将用户收到的外界评论信息合并成一篇大文档,作为用户评论文档; 步骤a402 :分别统计关键词数、用户数、包含了查询关键词的文档数、查询关键词在每 篇用户评论文档中出现的频数、每个用户评论文档的长度以及所有用户评论文档的平均长 度; 步骤a403 :采用BM25公式计算出每个用户评论文档与查询关键词之间的相关度,即主 题相关度,然后对主题相关度得分进行归一化处理,即将每个用户的主题相关度得分除以 所有用户中最大主题相关度得分。
4. 根据权利要求3所述的融合用户多种交互信息和用户主题信息的用户排名系统,其 特征在于,所述步骤a403中,BM25公式的计算方法如下: 设0 =W1,如…,心}为查询主题,0 =K,屯…,心为文档集合,则BM25公 式如下:
其中,说沁)表示第J篇文档与查询0之间的相关度得分;10为查询主题中查 询关键词的个数;I川为用于计算的全部文档数;/? (&)为包含了查询关键词&的文档数; 心、6分别为调节因子;/,7为查询关键词&在文档沁中的出现频率;为文档沁的长度; ar#//为所有文档的平均长度。
5. 根据权利要求1所述的融合用户多种交互信息和用户主题信息的用户排名系统,其 特征在于,所述用户交互行为强度预测模块,用于预测用户在社交媒介上与外界用户之间 的交互关系强度,包括以下步骤: 步骤bl:将用户行为表示成尤个公共的潜在行为,所有用户的潜在行为构成一个用户 的潜在特征矩阵J; 步骤b2 :用所述潜在特征矩阵表示交互关系张量,即:Z=WtM7,其中Z为用户的交互关 系张量,W为维度为IXIXI的中心张量; 步骤b3 :将估计用户之间的交互关系强度的问题归结为如下优化问题:
其中
表示张量分解式的平方和误差。
6. 根据权利要求1所述的融合用户多种交互信息和用户主题信息的用户排名系统,其 特征在于,所述用户综合影响力测算模块,用于估算查询关键词下的用户综合影响力得分, 并根据用户综合影响力得分对用户进行综合排序,包括以下步骤: 步骤cl:对于每个用户V(i),求出V(i)所关注的人的粉丝数总和,作为粉丝关系层的 M 用户影响力得分,计算公式为:=I.,即为第i个用户的好友粉丝数总和; M 步骤c2 :对于每个用户V(i),求出V(i)所关注的人的评论数总和,作为评论关系层的 N 用户影响力得分,计算公式为:1仏2 = ,即为第i个用户的好友评论数总和; 户1 步骤c3 :对于每个用户V(i),求出关注V(i)的人的主题相关度总和,作为主题关系层 M 的用户影响力得分,计算公式为:6(3 = ,即为第i个用户的好友主题相关度总和; J=I 步骤c4 :综合考虑用户与查询词的主题相关度得分4),以及各种交互关 系下的用户影响力得分《/;.:、《/i2、,定义用户在查询主题下的用户综合影响力得分为:
步骤c5 :根据用户综合影响力得分,对用户进行降序排列,给出用户的排序列表。
【文档编号】G06F17/30GK104268648SQ201410504179
【公开日】2015年1月7日 申请日期:2014年9月28日 优先权日:2014年9月28日
【发明者】陈国龙, 廖祥文, 唐昌宏 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1