一种社交网络用户动静兴趣挖掘方法

文档序号:10726202阅读:296来源:国知局
一种社交网络用户动静兴趣挖掘方法
【专利摘要】本发明公开了一种社交网络用户动静兴趣挖掘方法,其步骤如下:从社交媒体采集获取用户user的背景信息profile和生成内容content;从用户user的背景信息profile中提取静态兴趣SI={SI1,SI2,…,SIm},每个兴趣点SIi是一个二元组SIi=(kwi,wi),1≤i≤m,其中,kwi为关键词,wi为用户对kwi的喜好权重;从用户user的生成内容content中提取动DI={DI1,DI2,…,DIn},每个兴趣点为一个三元组DIi=(topici,wi,T),1≤i≤n,其中,topici是由多个关键词组成的,wi为用户对topici的喜好权重,T={t1,t2,…,ts},ti(1≤i≤s)为用户讨论topici的各个时间点,即在不同时间点的分布情况。该方法能更合理的描述社交媒体用户的兴趣特征,更适合社交媒体用户的兴趣特征的后续深入分析。
【专利说明】
一种社交网络用户动静兴趣挖掘方法
技术领域
[0001] 本发明涉及一种信息挖掘技术,具体地说,涉及一种社交媒体用户动态和静态兴 趣挖掘方法。
【背景技术】
[0002] 社交网络中的个性化推荐、领域专家的发现、社区划分是当前社会计算的研究热 点,而有效的挖掘出社交媒体用户的兴趣取向,是此类研究的基础工作。而已有的研究没能 区分社交网络用户兴趣的动态和静态特性,使用了统一的用户兴趣表示模型,用户兴趣UI ={Inti,Int2,···,Intm},每个兴趣点是一个二元组Inti = (topiCi,wi),topiCi为话题,通常 由多个关键词组成;Wi为用户对topici的喜好权重。
[0003] 在2 0 11年美国出版的会议论文集:2 0 1 1年可视化信息通信-交互会议 (Proceedings of 2011 Vi sual Information Communi cat ion-International Symposium),题目为:社交网络中基于兴趣的朋友发现和推荐(Sfviz : interest-based friends exploration and recommendation in social networks),作者是:Gou L,You F,Guo J,Wu L,Zhang XL,该文提出了使用用户的社交标签作为用户的兴趣。
[0004] 在2014年德国出版的期刊:Social Network Analysis and Mining,,题目为: Exploration of methodologies to improve job recommender systems on social networks,作者是:Diaby M,Viennet E,Launay T,该文研究社交网络推荐时,考虑的是用 户的背景信息,对不同的社交媒体,选取了不同的背景信息,主要包括工作、教育、简历、标 签、职位等。
[0005] 在2014年中国出版的期刊:软件学报,题目为:微博网络上的重叠社群发现与全局 表示,作者是:胡云,王崇骏,吴骏,谢俊元,李慧,该文基于微博媒体的用户和用户生成的内 容将微博网络表示为用户-话题的模式,没有考虑用户的背景信息。
[0006] 在2016年中国出版的期刊:计算机学报,题目为:微博中特定用户的相似用户发现 方法,作者是:仲兆满,胡云,李存华,刘宗田,该文在计算微博媒体用户的相似度时,考虑了 用户背景和生成内容,但生成内容没有考虑到话题在不同时间点的分布情况。

【发明内容】

[0007] 本发明要解决的技术问题是针对现有技术存在的问题和不足,提供一种新的社交 媒体的用户动静兴趣挖掘方法,该方法可以更全面的挖掘用户的兴趣,更适合于社交媒体 的用户兴趣分析。
[0008] 发明人发现现有技术在社交媒体挖掘用户兴趣时,使用了统一的表示模型,不能 体现社交媒体的动态特性,所以提出了社交媒体中基于背景的用户静态兴趣表示和和挖掘 方法,以及基于内容的用户动态兴趣表示和挖掘方法,能更合理的描述社交媒体用户的兴 趣特征,更适合社交媒体用户的兴趣特征的后续深入分析,比如用户相似度计算、用户推 荐、社区推荐等等。
[0009]本发明所要解决的技术问题是通过以下的技术方案来实现的。本发明是一种社交 网络用户动静兴趣挖掘方法,其特点是,其步骤如下:
[00? 0] A、从社交媒体采集获取用户user的背景信息prof i le和生成内容content;
[0011] B、从用户user的背景信息profile中提取静态兴趣SI HSUL·,…{以,每个兴 趣点Sli是一个二元组SIi = (kwi,wi),Ki<m,其中,kwi为关键词,Wi为用户对kwi的喜好权 重;
[0012] C、从用户user的生成内容content中提取动态兴趣DI^DIhDL·,···,DIn},每个兴 趣点为一个三元组DIi= (topici,wi,T),Ki<n,其中,topici是由多个关键词组成的,wi为 用户对topici的喜好权重,T = {ti,t2,…,ts},ti( Ki彡s)为用户讨论topici的各个时间 点,即在不同时间点的分布情况。
[0013]本发明所述的社交网络用户动静兴趣挖掘方法,进一步优选的技术方案是,步骤A 中所述的从社交媒体采集获取用户user的背景信息prof iile和生成内容content,其具体 步骤如下:
[0014] A1、使用采集工具获取用户user的背景信息profile= {tag,bi,job},其中tag为 用户的标签,tag= {tagi,tag2,···,tage},bi为用户的简介,bi = {bii,bi2,···,bif},job为用 户的职位,j〇b = {jobi,job2,…,jobg};
[0015] A2、使用采集工具获取用户user的在时间范围内容生成的内容content。
[0016] 本发明所述的社交网络用户动静兴趣挖掘方法,进一步优选的技术方案是,步骤B 中所述的从用户user的背景信息profile中提取静态兴趣SI = {SIi,Sl2,···,Sim},其具体步 骤如下:
[0017] B1、把采集到的用户的标签形成一个库,在分词时,将其作为一个整体识别,用户 user的标签记为tag= {tagi,tag2,…,tagc};
[0018] B2、对用户的简介分词,因为内容较短,不进行词频统计,得到用户user的简介词 集为1^ = {13;[1,1312,.",131£};
[0019] B3、对用户的职位分词,因为内容较短,不进行词频统计,得到用户user的职位词 集为j〇b={ jobi,job2,···,jobg}。
[0020] B4、统计tag、bi及job中各个词出现的次数,作为词的权重,权重参考最大值进行 归一化,按照权重降序排列,根据需求选取m个词作为用户的静态兴趣,记为SI = {(kW1,W1), (kW2,W2) , ··· , (kWm,Wm) } 〇
[0021] 本发明所述的社交网络用户动静兴趣挖掘方法,进一步优选的技术方案是,上述 步骤C中所述的从用户user的生成内容content中提取动态兴趣DI = {DIi,Dl2,…,DIn},其 具体步骤如下:
[0022] C1、对用户user的生成内容content中的每一条信息Ci (假设content有X条信息, l#i X)进行分词,从分词结果中选出频率大于一定阈值词作为候选的动态兴趣集合 CDIi;
[0023] C2、对CDL·*相邻的、且满足一定共现阈值(2的词进行合并,得到候选的动态兴趣 集合CDI2;
[0024] C3、计算CDI2中每个候选兴趣的上下文邻接类别来衡量其语用多样性,选取满足 一定的上下文邻接类别阈值ζ3的作为候选的动态兴趣集合cdi3;
[0025] C4、计算CDI3中每个兴趣点的重要度W(topiei)
,其中,T = 彡i$S)为用户讨论topiCi的各个时间点,对兴趣点的权重参考最大值 进行归一化,按照兴趣点权重降序排列,根据需求选取η个兴趣点作为用户的最终动态兴 趣,记为DI = { (t〇pici,Wl,Tl),(t〇piC2,W2,T2),…,(t〇piCm,Wm,Tm) } 〇
[0026] 与现有技术相比,本发明的社交媒体用户动静兴趣挖掘方法,能更合理的描述社 交媒体用户的兴趣特征,更适合社交媒体用户的兴趣特征的后续深入分析。
【附图说明】
[0027] 图1是本发明的社交媒体用户动静兴趣挖掘方法的流程图;
[0028]图2是图1中步骤102所述的从用户user的背景信息profile中提取静态兴趣SI = {SlhSIvJIm}的流程图;
[0029]图3是图1中步骤103所述的从用户user的生成内容content中提取动态兴趣DI = {DIiDL·,…,DIn}的流程图。
【具体实施方式】
[0030] 下面结合附图和【具体实施方式】对本发明的实施过程作进一步详细的描述。
[0031] 参照图1,本发明的社交网络用户动静兴趣挖掘方法,步骤如下:
[0032] 步骤102、从用户user的背景信息prof ile中提取静态兴趣SI = {SI!,SI2,…,SIm}, 每个兴趣点Sli是一个二元组SIi = (kwi,wi),Ki<m,其中,kwi为关键词,Wi为用户对kwi的 喜好权重,参照图2,其具体步骤如下:
[0033]步骤201、用户在社会网络上定义自己的标签时,既可以在标签库中选取,也可以 人工输入。标签可以理解为是有意义的字符串,把采集到的用户标签形成一个库,在分词 时,将其作为一个整体识别,用户user的标签记为tag= {tagi,tag2,…,tage};
[0034]步骤202、对用户的简介分词,因为内容较短,不进行词频统计,得到用户user的简 介词集为1^ = {13;[1,1312,,",131£};
[0035] 步骤203、对用户的职位分词,因为内容较短,不进行词频统计,得到用户user的职 位词集为j〇b={ jobi,job2,…,jobg}。
[0036] 步骤204、统计tag、bi及job中各个词出现的次数,作为词的权重,权重参考最大值 进行归一化,按照权重降序排列,根据需求选取m个词作为用户的静态兴趣,记为SI = {(kwi,Wl) , (kW2,W2) (kWm,Wm)}〇
[0037] 步骤103、从用户user的生成内容content中提取动态兴趣DIiiDIhDIf^DIn}, 参照图3,其具体步骤如下:
[0038] 步骤301、对用户user的生成内容content中的每一条信息Ci (假设content有x条 信息,l#i X)进行分词,从分词结果中选出频率大于一定阈值ζ:的词作为候选的动态兴趣 集合CDh。为提取出现频率不高,但有实际意义的词,该阈值不宜过大;
[0039]步骤302、对CDh*相邻的、且满足一定共现阈值(2的词进行合并,得到候选的动态 兴趣集合CDI2。该过程需经过多次迭代统计,由原先的单个词,逐渐合并得到越来越长的候 选动态兴趣,直到最终没有可合并的串为止;
[0040] 步骤303、计算CDI2中每个候选兴趣的上下文邻接类别来衡量其语用多样性,选取 满足一定的上下文邻接类别阈值ζ 3的作为候选的动态兴趣集合CDI3。邻接类别越大,表明其 使用越灵活,成为有意义串的概率就越大。
[0041] 步骤304、计算CDI3中每个兴趣点的重要度W(topiCi), 丁={^山,"_,以,。(1彡<8)为用户讨论topici的各个时间点,对兴趣点的权重参考最大 值进行归一化,按照兴趣点权重降序排列,根据需求选取η个兴趣点作为用户的最终动态兴 趣,记为DI = { (t〇pici,Wl,Tl),(t〇piC2,W2,T2),…,(t〇piCm,Wm,Tm) }。虽然社交网络包含了 海量用户,其动态兴趣也涉及现实社会生活各个领域,但从统计学角度看,社交网络用户的 动态兴趣符合幂律分布,即少量兴趣吸引了大量用户,而大量兴趣只被少数人关注。因此, 可以提取用户的核心动态兴趣进行相似度计算,一方面可以解决社交网络特征稀疏的问 题,另一方面还可以减少计算的工作量。
[0042] 使用三种不同的社交网络用户兴趣挖掘方法用于相似用户的计算,比较用户动静 兴趣挖掘方法的有效性。三种方法如下:
[0043] (1)方法Ι-SU-profile,基于用户背景挖掘用户的兴趣,使用用户背景中的简介、 标签及职位等信息;
[0044] (2)方法2-SU-content,基于用户生成的内容挖掘用户的兴趣,不考虑用户兴趣的 按时间的动态分布特性;
[0045] (3)方法3-SU-pc,本发明提出的方法,分别从用户背景中挖掘用户的静态兴趣,从 用户生成的内容中挖掘用户的动态兴趣,考虑兴趣按时间的动态分布特性。
[0046]用户ui,U2的静态兴趣相似度计算使用Jaccard方式,如式(1)所示:
[0048]用户m,u2的动态兴趣中的两个兴趣点Inti,Intj的相似度计算如式(6)所示:
[0050] 式(2)既考虑了兴趣点内容的相似度(余弦距离计算方法),又考虑了兴趣点的时 间周期。在计算时间持续度时,并没有限定兴趣点的时间一致性问题,这是因为即使对同一 个兴趣点,不同用户获取信息的时间不同,不同用户的认知能力不同,都可能导致时间的偏 差现象。
[0051] 用户m和U2的动态兴趣中的η个兴趣点的总相似度计算如式(3)所示:
[0053] 对用户的静态兴趣相似度1^13加(111.31,112.31)和动态兴趣相似度1]〇13加(11 1.01, u2.DI)进行整合,得到最终的用户兴趣相似度,如式(4)所示:[0054] UISim(ui,U2)=a*USISim(ui.SI,U2.SI) + (l-a)*UDISim(ui.DI,U2.DI) (4)式(8)中a是静态兴趣和动态兴趣权重的调节系数,0<α$1,当a = 0时,只使用用户的微博内容计算兴趣相似度;当a = l时,只使用用户的背景计算兴趣相似度。本发明中经过实 验确定a = 0.6。[0055] 目前,还没有公开的用于社交网络用户兴趣挖掘、用户兴趣相似度计算的标准数 据集。本发明以新浪微博为例,选取了时尚、企业管理、教育、军事、文化5个领域进行实验数 据的采集、用户兴趣挖掘的分析。
[0056] 在新浪微博搜索框中输入领域关键词进行检索,然后点击"找人"按钮,最多只能 获取前50页用户,每页20个,共计1000个用户。5个领域使用的检索关键词及获取的用户数 如表1所示。
[0057] 表1 5个领域的关键词及获取用户数
[0058]
[0059]对表1获取的6684个用户,进一步采集的信息包括:①对6684个用户进行1层关注、 粉丝的扩展,新浪微博为防止他人获取用户的关注、粉丝进行恶意关注或广告骚扰,对非本 人的关注、粉丝的访问量进行了限制,只能获取前5页内容,每页20个用户,关注和粉丝最多 分别能获取100个用户,实际采集的用户总数为714472个;②采集714472个用户的背景(简 介、标签及职位)、发表的微博(包括原创、转发或评论),由于有些用户发表的微博过多,限 制每个用户微博的发表时间是2014年1月1日-2014年12月31日,共计采集微博4206751条。 [0060]数据集中用户U1的关注集记为Ui. follower,作为标准答案,通过方法su-profile 计算用户间的兴趣相似度选取出的关注集记为Ui·fο 11 ower-su-profile,令lui.follower =|ui.follower-SU-profile I,方法SU-profile选取的关注的准确率计算如式(5):
[0062]其他2种方法计算获取关注准确率的方式类似。
[0063] 5个领域的8个检索关键词,每个随机选取100个用户,共计800个用户,7种方法得 到的平均准确率RUA如表2所示。
[0064] 表2 3种方法得到的平均RUA
[0066] 由表2可见,3种方法得到的平均准确率都不高,主要原因是即使计算出的用户兴 趣相似度较高,但该用户并不一定成为他的关注对象。方法SU-prof ile要好于方法SU-content的效果,说明从用户的背景挖掘用户的静态兴趣比从用户生成的内容中挖掘用户 的动态兴趣更有效。主要原因是:一方面微博中用户产生的文本信息中常常包含大量的口 语、省略语、符号,这些文本的语义信息很难挖掘;另一方面微博上有大量的非活跃用户,发 表微博很少。方法SU-pc得到的效果最为理想,验证了将微博用户的兴趣分为静态兴趣和动 态兴趣,采用不同的策略分别计算的优势所在。
[0067] 本发明所述的方法并不限于【具体实施方式】中所述的实施例,本领域技术人员根据 本发明的技术方案得出的其它的实施方式,同样属于本发明的技术创新范围。
【主权项】
1. 一种社交网络用户动静兴趣挖掘方法,其特征在于,其步骤如下: A、 从社交媒体采集获取用户user的背景信息prof i le和生成内容content; B、 从用户user的背景信息profile中提取静态兴趣SI = {SIi,Sl2,···,SIm},每个兴趣点 Sli是一个二元组化=(kwi,wi),其中,kw功关键词,W功用户对kwi的喜好权重; C、 从用户user的生成内容content中提取动态兴趣DI = {Dll,0?2,···,0Ιη},每个兴趣点 为一个Ξ元组DIi= (topici,wi,T),其中,topici是由多个关键词组成的,wi为用户 对topici的喜好权重,Τ = {ti,t2,···,ts},ti(l《i《s)为用户讨论topici的各个时间点,即 在不同时间点的分布情况。2. 根据权利要求1所述的社交网络用户动静兴趣挖掘方法,其特征在于,上述步骤A的 具体步骤如下: A1、使用采集工具获取用户user的背景信息profile = {tag,bi,job},其中tag为用户 的标签,tag= {tagi,tag2,···,tage},bi为用户的简介,bi = {bii,bi2,…,bif},job为用户的 职位,job = {jobi,jobs,...,jobg}; A2、使用采集工具获取用户user的在时间范围内容生成的内容Content。3. 根据权利要求1所述的所述的社交网络用户动静兴趣挖掘方法,其特征在于,步骤B 的具体步骤如下: B1、把采集到的用户的标签形成一个库,在分词时,将其作为一个整体识别,用户user 的标签记为化邑二{tagi,1:ag2,...,1:age}; B2、对用户的简介分词,因为内容较短,不进行词频统计,得到用户user的简介词集为 bi = {bii,bi2,---,bif}; B3、对用户的职位分词,因为内容较短,不进行词频统计,得到用户user的职位词集为 job={jobi,job2,·..,jobg}; B4、统计tag、bi及job中各个词出现的次数,作为词的权重,权重参考最大值进行归一 化,按照权重降序排列,根据需求选取m个词作为用户的静态兴趣,记为SI = {(kwi,wi), (kW2,W2),…,(kWm'Wm) } 〇4. 根据权利要求1所述的所述的社交网络用户动静兴趣挖掘方法,其特征在于,上述步 骤C中,所述从用户user的生成内容content中提取动态兴趣DI = {Dll,Dl2,···,DIn}的具体 步骤如下: Cl、对用户user的生成内容content中的每一条信息ci(假设content有X条信息,l#i X) 进行分词,从分词结果中选出频率大于一定阔值ζι的词作为候选的动态兴趣集合CDIi; C2、对CDIi中相邻的、且满足一定共现阔值(2的词进行合并,得到候选的动态兴趣集合 CDI2; C3、计算CDI2中每个候选兴趣的上下文邻接类别来衡量其语用多样性,选取满足一定的 上下文邻接类别阔值ζ3的作为候选的动态兴趣集合CDI3; C4、计算CDI3中每个兴趣点的重要度W(topici)其中,T={ti, t2,为用户讨论toptci的各个时间点,对兴趣点的权重参考最大值进行 归一化,按照兴趣点权重降序排列,根据需求选取η个兴趣点作为用户的最终动态兴趣,记 为DI = {(t〇pici,Wl,Tl),(t〇piC2,W2,T2),...,(t〇piCm,Wm,Tm)}。
【文档编号】G06Q50/00GK106097113SQ201610453921
【公开日】2016年11月9日
【申请日】2016年6月21日
【发明人】仲兆满, 管燕
【申请人】仲兆满
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1