社交网络用户兴趣挖掘方法和系统的制作方法

文档序号:6538627阅读:186来源:国知局
社交网络用户兴趣挖掘方法和系统的制作方法
【专利摘要】本发明公开了一种社交网络用户兴趣挖掘方法,其特征在于,包括:将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后,得到所述社交网络中的各用户组;对于预先设置的每个兴趣类别,选取一个用户组作为与该兴趣类别相对应的兴趣核心组;针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组;对于所述社交网络中的每个用户,根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。应用本发明,可以提高兴趣挖掘的准确度。
【专利说明】社交网络用户兴趣挖掘方法和系统
【技术领域】
[0001]本发明涉及互联网技术,尤其涉及一种社交网络用户兴趣挖掘方法和装置。
【背景技术】
[0002]随着互联网技术的发展,互联网上的海量信息与用户对信息的有效获取能力形成了强烈的反差。为了提高用户查找信息的满意度,在社交网络SNS (Social NetworkService,社交网络服务)中,根据用户的兴趣而有针对性地提供信息的个性化信息服务应运而生,而个性化信息服务的基础是用户兴趣的挖掘。
[0003]实际应用中,在社交网络用户的行为一般是主动进行的,例如,自行定义或选择标签,浏览页面,使用站内产品或第三方APP,发表博文或对其他博文内容的点赞或收藏,关注其他用户并将其关注的对象划分到自行设置的各用户组内等。而上述这些社交网络用户的行为能够在一定程度上反映出用户的兴趣。因此,社交网络中,可以根据用户的这些网络行为来进行用户的兴趣挖掘。
[0004]目前,对于社交网络用户的兴趣挖掘,一般可以采用基于用户博文的兴趣挖掘方法。具体地,由于用户博文具体可以是用户发表的,也可以是用户点赞或收藏的,能够在一定程度上反映出用户的兴趣,因此,可以通过对用户博文进行语义解析,以此提取用户的兴趣。然而,事实上,用户博文的形式复杂,歧义较多,因此,对其进行内容分析难度大,且语义解析量大,导致基于用户博文的兴趣挖掘方法的算法复杂且解析结果的准确度不高;而且,对于一些主动行为较少的浏览型用户,可能会存在没有博文的情况,导致采用现有的这种基于用户博文的兴趣挖掘方法无法挖掘出这些浏览型用户的兴趣。
[0005]现有技术中,还存在基于用户标签的兴趣挖掘方法。具体地,可以根据标签的具体内容,将标签归类到相应的兴趣类别后,再根据用户的自定义标签及其所属的兴趣类别,分析出用户的兴趣。然而,自定义标签是由用户生成或选择的,实际应用中,存在部分标签太泛化导致无法归类到兴趣类别的问题,还存在用户未打标签或随意打标签的情况。因此,若采用基于用户标签的兴趣挖掘方法,仅根据用户的自定义标签来挖掘出用户兴趣,其准确度不高。而且,对于主动行为较少的浏览型用户,可能会出现没有自定义标签的情况,导致采用基于用户标签的兴趣挖掘方法也无法挖掘出这些浏览型用户的兴趣。
[0006]综上所述,现有的社交网络用户兴趣挖掘方法,兴趣挖掘的准确度不高,尤其对于主动行为较少的浏览型用户的兴趣则无法进行挖掘。

【发明内容】

[0007]本发明实施例提供了一种社交网络用户兴趣挖掘方法和系统,用以提高兴趣挖掘的准确度。
[0008]根据本发明的一个方面,提供了一种社交网络用户兴趣挖掘方法,包括:
[0009]将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后,得到所述社交网络中的各用户组;[0010]对于预先设置的每个兴趣类别,选取一个用户组作为与该兴趣类别相对应的兴趣核心组;
[0011]针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组;
[0012]对于所述社交网络中的每个用户,根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。
[0013]较佳地,在所述针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组之后,还包括:
[0014]对于所述社交网络中的每个用户,统计出包含该用户的兴趣广义组的个数,作为该用户的被广义分组次数;
[0015]针对每个兴趣广义组,计算出该兴趣广义组内的所有用户的被广义分组次数之和,作为该兴趣广义组的分组次数和值;
[0016]对于该兴趣广义组内的每个用户,根据该用户的被广义分组次数和该兴趣广义组的分组次数和值,计算出该用户的广义组内权重;以及
[0017]所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果,具体包括:
[0018]选取该用户的广义组内权重最大的兴趣广义组,将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果。
[0019]较佳地,所述针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,具体包括:
[0020]对于所述社交网络中的每个用户,统计出包含该用户的用户组的个数,作为该用户的被分组次数;
[0021]针对所述社交网络中的每个用户组,计算出该用户组内的所有用户的被分组次数之和,作为该用户组的分组次数和值;并对于该用户组内的每个用户,根据该用户的被分组次数和该用户组的分组次数和值,计算出该用户在该用户组内的组内权重;
[0022]针对选取出的每个兴趣核心组,对于除该兴趣核心组之外的其它用户组中的一个用户组,将其作为涉及相似度计算的用户组a、将该兴趣核心组作为涉及相似度计算的用户组b,根据如下公式I计算出用户组a与b之间的相似度X:
[0023]
【权利要求】
1.一种社交网络用户兴趣挖掘方法,其特征在于,包括: 将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后,得到所述社交网络中的各用户组; 对于预先设置的每个兴趣类别,选取一个用户组作为与该兴趣类别相对应的兴趣核心组; 针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组; 对于所述社交网络中的每个用户,根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。
2.如权利要求1所述的方法,其特征在于,在所述针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广义组之后,还包括: 对于所述社交网络中的每个用户,统计出包含该用户的兴趣广义组的个数,作为该用户的被广义分组次数; 针对每个兴趣广义组,计算出该兴趣广义组内的所有用户的被广义分组次数之和,作为该兴趣广义组的分组次数和值; 对于该兴趣广义组内的每个用户,根据该用户的被广义分组次数和该兴趣广义组的分组次数和值,计算出该用户的广义组内权重;以及 所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果,具体包括:` 选取该用户的广义组内权重最大的兴趣广义组,将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果。
3.如权利要求1或2所述的方法,其特征在于,所述针对选取出的每个兴趣核心组,计算其它用户组与该兴趣核心组的相似度,具体包括: 对于所述社交网络中的每个用户,统计出包含该用户的用户组的个数,作为该用户的被分组次数; 针对所述社交网络中的每个用户组,计算出该用户组内的所有用户的被分组次数之和,作为该用户组的分组次数和值;并对于该用户组内的每个用户,根据该用户的被分组次数和该用户组的分组次数和值,计算出该用户在该用户组内的组内权重; 针对选取出的每个兴趣核心组,对于除该兴趣核心组之外的其它用户组中的一个用户组,将其作为涉及相似度计算的用户组a、将该兴趣核心组作为涉及相似度计算的用户组b,根据如下公式I计算出用户组a与b之间的相似度X: η _ x^ZvuWxu'/./⑴
M 其中,Waj为用户组a与用户组b之间的第j个重合用户在用户组a中的组内权重,Wbj.为用户组a与用户组b之间的第j个重合用户在用户组b中的组内权重,η为a与b之间的重合用户的总数,j取值为I~η的自然数; 其中,用户组a与用户组b之间的重合用户指的是用户组a与用户组b共同包含的用户。
4.如权利要求1或2所述的方法,其特征在于,所述选取一个用户组作为与该兴趣类别相对应的兴趣核心组,具体包括: 对于预先设置的每个兴趣类别,将组名与该兴趣类别的名称相同的用户组作为与该兴趣类别相对应的兴趣核心组。
5.如权利要求1或2所述的方法,其特征在于,在所述根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果后,还包括: 将该兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果后,还根据该用户的至少一种网络行为信息,分别确定基于各网络行为信息的兴趣挖掘结果;所述网络行为信息包括:用户自定义的标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、用户的博文; 根据该用户的基于被分组信息的兴趣挖掘结果,以及基于各网络行为信息的兴趣挖掘结果,确定出该用户最终的兴趣类别。
6.如权利要求5所述的方法,其特征在于,所述根据该用户的基于被分组信息的兴趣挖掘结果,以及基于各网络行为信息的兴趣挖掘结果,确定出该用户最终的兴趣类别,具体包括: 将用户的基于被分组信息的兴趣挖掘结果,以及基于各网络行为信息的兴趣挖掘结果,作为该用户所涉及的各兴趣类别后,针对该用户所涉及的每个兴趣类别,统计出该兴趣类别在该用户的兴趣挖掘结果中出现的次数;将统计出的次数与该用户的兴趣挖掘结果总数的比值,确定为该用户的该兴趣类别的兴趣重合率; 针对该用户所涉及的每个兴趣类别,统计出该兴趣类别在该用户所关注的对象的兴趣挖掘结果中所占的比例,作为该兴趣类别的兴趣占比数; 针对该用户所 涉及的每个兴趣类别,根据该兴趣类别的兴趣重合率以及兴趣占比数,对该用户的该兴趣类别进行评分; 选取评分最高的兴趣类别作为该用户最终的兴趣类别。
7.一种社交网络用户兴趣挖掘系统,其特征在于,包括: 用户组确定模块,用于将社交网络中的各用户针对各自关注的对象所划分的用户组进行排重处理后,得到所述社交网络中的各用户组; 核心组选取模块,用于对于预先设置的每个兴趣类别,从所述用户组确定模块得到的各用户组中,选取一个用户组作为与该兴趣类别相对应的兴趣核心组; 广义组确定模块,用于针对由所述核心组选取模块选取出的每个兴趣核心组,计算各用户组与该兴趣核心组的相似度,将相似度高于设定阈值的用户组作为该兴趣核心组下的兴趣广乂组; 第一兴趣挖掘模块,用于对于社交网络中的每个用户,根据包含该用户的兴趣广义组所对应的兴趣类别确定该用户的兴趣挖掘结果。
8.如权利要求7所述的系统,其特征在于,还包括: 广义组内权重计算模块,用于对于每个用户,统计出包含该用户的兴趣广义组的个数,作为该用户的被广义分组次数;针对每个兴趣广义组,计算出该兴趣广义组内的所有用户的被广义分组次数之和,作为该兴趣广义组的分组次数和值;对于该兴趣广义组内的每个用户,根据该用户的被广义分组次数和该兴趣广义组的分组次数和值,计算出该用户的广义组内权重;以及 所述第一兴趣挖掘模块具体用于对于社交网络中的每个用户,选取该用户的广义组内权重最大的兴趣广义组,将选取的兴趣广义组所属的兴趣核心组所对应的兴趣类别作为该用户的兴趣挖掘结果进行输出。
9.如权利要求8所述的系统,其特征在于,还包括: 第二兴趣挖掘模块,用于根据所述社交网络中的用户的至少一种网络行为信息,分别确定基于各网络行为信息的兴趣挖掘结果;所述网络行为信息包括:用户自定义的标签、用户对社交网络的站内产品以及第三方应用的使用频次、用户站外网页浏览的反向链接、用户的博文; 兴趣类别确定模块,用于对于所述社交网络中的用户,将第一兴趣挖掘模块输出的该用户的兴趣挖掘结果作为该用户的基于被分组信息的兴趣挖掘结果,并还根据所述第二兴趣挖掘模块输出的该用户的基于各网络行为信息的兴趣挖掘结果,确定出该用户最终的兴趣类别。
10.如权利要求9所述的系统,其特征在于,所述第二兴趣挖掘模块具体包括以下至少一个单元: 基于标签的兴趣挖掘单元,用于根据所述社交网络中的用户自定义的标签,确定出该用户的基于标签的兴趣挖掘结果; 基于博文的兴趣挖掘单元,用于根据所述社交网络中的用户对站内产品或第三方应用的使用频次,确定出该用户的基于博文的兴趣挖掘结果; 基于产品应用的兴趣挖掘单元,用于根据所述社交网络中的用户对社交网络的站内产品以及第三方应用的使用频次,确定出该用户的基于产品应用的兴趣挖掘结果;` 基于网页浏览的兴趣挖掘单元,用于根据所述社交网络中的用户站外网页浏览的反向链接,确定出该用户的基于网页浏览的兴趣挖掘结果。
【文档编号】G06F17/30GK103870541SQ201410062761
【公开日】2014年6月18日 申请日期:2014年2月24日 优先权日:2014年2月24日
【发明者】何秋菊, 高辉 申请人:微梦创科网络科技(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1