一种移动社交网络用户兴趣的建模方法

文档序号：10512246阅读：1317来源：国知局

一种移动社交网络用户兴趣的建模方法
【专利摘要】本发明公开了一种移动社交网络用户兴趣的建模方法，总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法。本发明能够更加准确把握用户兴趣，提高用户体验，实现用户的个性化服务和内容的精准推广。采用的建模表示方法，一方面，该表示方法能直观表示用户的兴趣项目和感兴趣的程度；另一方面，该表示方法的优点是用户兴趣表达的长度是一样的，有利于动态模型的建立和用户相似度的计算，该模型能为内容提供商实施个性化内容推荐提供依据。
【专利说明】
一种移动社交网络用户兴趣的建模方法
技术领域
[0001] 本发明涉及一种移动社交网络用户的兴趣建模方法，属于移动信息技术领域。
【背景技术】
[0002] 随着手机等移动智能终端、无线技术和4G网络的迅猛发展，人们之间越来越多的通过手持移动设备进行相互通信，进而逐步形成了移动社交网络（Mobile Social NetW〇rk，MSN)。许多基于社交网络服务的应用吸引了大量的用户，例如现在的微博、微信等。用户可通过移动社交网络平台浏览各渠道的信息，企业也可以营销产品和发布信息，移动社交网络已经深刻的渗入日常生活和商业活动。
[0003]随着移动社交网络用户规模和信息量的爆炸式增长，一方面，日益增长的信息使得人们难以快速准确的获取真正所需要的内容，另一方面，对内容提供商而言，不加区分的为所有用户推送相同的商品活动信息不仅花费较高，而且容易引起用户反感，带来信息骚扰。因此，对于商家和移动平台而言，基于用户的兴趣推送其喜爱的内容，可以提升用户体验，提高信息的接受程度，增加盈利。基于此，本文的目标即建立移动社交网络用户兴趣模型，从而准确把握用户兴趣，提高用户体验，实现用户的个性化服务和内容的精准推广。

【发明内容】

[0004] 本发明的目的是提供一种能够更加准确把握用户兴趣，提高用户体验，实现用户的个性化服务和内容的精准推广的移动社交网络用户兴趣的建模方法。
[0005] 本发明采用的技术方案为：
[0006] -种移动社交网络用户兴趣的建模方法，其创新点在于：总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法，其具体步骤如下：
[0007] 1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息，具体包括通过用户自身发布的信息，这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签，标签以关键词描述了自己喜好和关注的领域，可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容；
[0008] 2)用户兴趣模型的表示形式：用户兴趣信息的来源文本集表示成文本D，建立用于分词和统计词频的Hash词典，提取特征词，用向量空间法表示用户兴趣构成特征向量，将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分，兴趣项数目不宜庞大，以免在存储时造成维度过高，引发矩阵的高维稀疏问题；
[0009] 3)用户兴趣度权重的计算：兴趣度权重的计算采用改进的TF-IDF算法，该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，改进是基于考虑到移动社交网络的特性，某些事件客观上在短时间内被大量的转发，造成网民的围观，该情形并不属于用户真实的兴趣表露，在权重的算法设计上要给与识别与纠正；
[0010]假设某用户，其在某时间内发布和转发的信息集合为m，则该用户的某兴趣项权重计算公式为：
[0012]其中，Msgj表示用户发表的第j条信息，Countij(Msgj)是该条信息中提到兴趣项i 的次数，兴趣项共有η项;kall是用户关注的好友总数;h是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度；
[0013] 4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容，确定用户的兴趣项及其相关特征相，这关系到兴趣度的大小和兴趣模型的大小，然后建立兴趣项词典和文本数据清理词典，编写和存储计算兴趣项词频和兴趣度权重计算的算法，总体上，数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表；
[0014] 算法伪代码为：
[0015] 输入:信息文本集合(如微博)WB
[0016] 输出：用户的兴趣度向量模型
[0017] (1)F0R j = lT0 m
[0018] (2)SW=Segment(WBj)//分词处理
[0019] (3)END FOR
[0020] (4)T = Statistics(SWS)//抽取和统计得到特征项
[0021] (5)F0R ? = 1Τ0 η
[0022] (6)F0R j = lT0 m
[0023 ] (7) Countij = Stat istics(Ti，WBj)//统计各个微博中包含的特征项的词频
[0024] (8)wij=Weight (Countij，m，kaii，kj)//计算某条微博中包含的兴趣项的权重
[0027] (ll)END FOR
[0028] (12)END FOR
[0029] ...，（Tn，Wn)}//得到用户的兴趣向量模型。
[0030] 本发明的有益效果如下：
[0031] 本发明能够更加准确把握用户兴趣，提高用户体验，实现用户的个性化服务和内容的精准推广。采用的建模表示方法，一方面，该表示方法能直观表示用户的兴趣项目和感兴趣的程度;另一方面，该表示方法的优点是用户兴趣表达的长度是一样的，有利于动态模型的建立和用户相似度的计算，该模型能为内容提供商实施个性化内容推荐提供依据。
【附图说明】
[0032] 下面结合附图和【具体实施方式】对本发明做进一步详细说明。
[0033] 图1为本发明移动社交网络用户兴趣建模的总体流程图。
[0034]图2为本发明移动社交网络用户兴趣建模的数据流程图。
【具体实施方式】
[0035] 如图1、图2所述的一种移动社交网络用户兴趣，总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法，其具体步骤如下：
[0036] 1)兴趣信息的选择和获取：用户的行为体现用户的兴趣，挖掘用户在使用移动社交网络过程中产生的行为和资源，以微博为例，用户发表微博、关注用户、转发和评论微博等行为是挖掘用户兴趣的来源。用户自身发布的微博收集后会很大程度的涉及到自身兴趣领域，是挖掘用户兴趣信息的重要来源；如果用户的个人标签以关键词描述了自己喜好和关注的领域，如旅行、汽车、摄影、美食等，则可直接显性获得用户兴趣;用户关注其他的微博用户，则可浏览到其他用户的微博推送内容，还可以评论与转发。转发是最具社交网络特征的用户行为，正因为用户关注微博文本信息才会转发；
[0037] 2)将用户的兴趣项按照一定的分类或聚类的原则进行区分，兴趣项数目不宜庞大，以免在存储时造成维度过高，引发矩阵的高维稀疏问题。依据现实中用户活动自然产生的主题兴趣群，在此主题群中的用户都属于一个大类兴趣，例如体育，而该大类兴趣下又存在很多的小项目，例如足球、篮球、游泳等；
[0038] 3)用户兴趣模型的建模采用向量空间表示法，思路是将用户的兴趣项和权重表示成向量空间中的向量，用户兴趣信息的来源文本集表示成文本D，建立用于分词和统计词频的他811词典，提取特征词，用户兴趣构成特征向量￥={(1：1，'\￥1)，(^2，'?2)，...，（1： 11，'\￥11)}山是文本集D中的第i个兴趣特征项，Wl是该特征项的权值。一方面，该表示方法能直观表示用户的兴趣项目和感兴趣的程度；另一方面，该表示方法的优点是用户兴趣表达的长度是一样的，有利于动态模型的建立和用户相似度的计算。该模型能为内容提供商实施个性化内容推荐提供依据；
[0039] 4)兴趣模型的存储以及与之相关的算法:兴趣度权重的计算采用改进的TF-IDF算法，该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，改进是基于考虑到移动社交网络的特性，某些事件客观上在短时间内被大量的转发，造成网民的围观，该情形并不属于用户真实的兴趣表露，在权重的算法设计上要给与识别与纠正；
[0040]假设某用户，其在某时间内发布和转发的信息集合为m，则该用户的某兴趣项权重计算公式为
[0042]其中，Msgj表示用户发表的第j条信息，Countij(Msgj)是该条信息中提到兴趣项i 的次数，兴趣项共有η项;kall是用户关注的好友总数也是转发该信息的用户数;兴趣项共有η项。将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度。
[0043] 采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容，确定用户的兴趣项及其相关特征，这关系到兴趣度的大小和兴趣模型的大小，然后建立兴趣项词典和文本数据清理词典，编写和存储计算兴趣项词频和兴趣度权重计算的算法，总体上，数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表等。
[0044] 以上所述是本发明的优选实施方式，不能以此来限定本发明之权利范围。应当指出，对于本技术领域的普通技术人员来说，对本发明的技术方案进行修改或者等同替换，都不脱离本发明的保护范围。
【主权项】
1. 一种移动社交网络用户兴趣的建模方法，其特征在于：总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法，其具体步骤如下： 1) 兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息，具体包括通过用户自身发布的信息，这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签，标签以关键词描述了自己喜好和关注的领域，可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容； 2) 用户兴趣模型的表示形式：用户兴趣信息的来源文本集表示成文本D，建立用于分词和统计词频的Hash词典，提取特征词，用向量空间法表示用户兴趣构成特征向量，将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分，兴趣项数目不宜庞大，以免在存储时造成维度过高，引发矩阵的高维稀疏问题； 3) 用户兴趣度权重的计算：兴趣度权重的计算采用改进的TF-IDF算法，该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度，改进是基于考虑到移动社交网络的特性，某些事件客观上在短时间内被大量的转发，造成网民的围观，该情形并不属于用户真实的兴趣表露，在权重的算法设计上要给与识别与纠正；假设某用户，其在某时间内发布和转发的信息集合为m，则该用户的某兴趣项权重计算公式为：其中，Msgj表示用户发表的第j条信息，Countij(Msgj)是该条信息中提到兴趣项i的次数，兴趣项共有η项;kall是用户关注的好友总数;h是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度； 4) 兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容，确定用户的兴趣项及其相关特征相，这关系到兴趣度的大小和兴趣模型的大小，然后建立兴趣项词典和文本数据清理词典，编写和存储计算兴趣项词频和兴趣度权重计算的算法，总体上，数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表；算法伪代码为：输入:信息文本集合(如微博)WB 输出：用户的兴趣度向量模型 (1)F0R j = l TO m (2 )SW= Segment (??)//分词处理 (3) END FOR (4) T = Stat i s t i c s (SWS) //抽取和统计得到特征项 (5) F0R i = l ΤΟ η (6) F0R j = l TO m (7) Counti j = Stat istics(Ti，WBj)//统计各个微博中包含的特征项的词频 (8) wi j = We ight (Countij，m，kaii，kj) //计算某条微博中包含的兴趣项的权重 m (9) W =Σ"·'ν//得到用户的各兴趣项权重 Μ (10)/归一化处理得到兴趣度 (11) END FOR (12) END FOR 得到用户的兴趣向量模型。
【文档编号】G06F17/30GK105868267SQ201610124887
【公开日】2016年8月17日
【申请日】2016年3月4日
【发明人】季莉, 杨中秋, 蔡彬彬
【申请人】江苏工程职业技术学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：季莉;杨中秋;蔡彬彬;
技术所有人：江苏工程职业技术学院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。