一种基于用户聚类的推荐方法

文档序号:6631147阅读:230来源:国知局
一种基于用户聚类的推荐方法
【专利摘要】本发明提出一种基于用户聚类的推荐方法,为了合理的根据用户兴趣对用户进行有效推荐,根据用户对各主题标签的总浏览频率、浏览时间以及总浏览时间、有效浏览频率以及有效浏览时间,得到兴趣度,形成用户的兴趣特征向量;根据用户的兴趣特征向量,筛选核心用户,构成核心用户集,使用K-means聚类算法对全体用户进行聚类;得到全用户聚类之后,计算出每个用户聚类在每个主题之上的类兴趣向量;比较兴趣值和类兴趣向量,对其进行推荐。本发明所提供的CCVR方法推荐效果要好于其它的推荐方法,具有良好的准确性。
【专利说明】-种基于用户聚类的推荐方法

【技术领域】
[0001]本发明涉及互联网信息【技术领域】,具体涉及一种基于用户聚类的推荐方法。

【背景技术】
[0002] 社交网络随着Internet用户的普及已经逐渐替代传统的信息获取渠道,如报纸, 杂志,电视新闻等,成长为大多数人第一时间接收信息的一种方式。例如国外的f aceb〇〇k, twitter,国内的微博,人人网等。大家通过发消息与状态,发布自己所要表达的信息,通过 转发与分享其他人的消息与状态,去扩散从其他人那里得到的信息。这涉及到结点影响度 的问题,即一个被所有人关注的结点,它所发布的信息能被所有人看到,一个关注所有人的 结点,它能看到所有人发布的信息。当然,个人的精力是有限的,不可能通过自己去寻找,然 后手动的关注所有可能会感兴趣的内容或结点。所以互联网信息服务方需要研究如何去有 效的向用户推荐他们会感兴趣的内容或结点。
[0003] 于洪等人提出的强弱关系概念,诠释了社交网络中的关注形式。人人网,QQ空间 等形式,以双向关注(强关系)的方式来构建起社交网络;微博等形式,以单向关注(弱关 系)的方式构建起自己的关系网。对于互关注关系的推荐,在强关系的社交网络中,通过共 同好友、联系人、通讯录等真实社交信息的方法通常就达到很好的效果,然而正是由于强关 系往往会建立于真实的社会关系,如此一来,相比弱关系便存在很大的局限性,因为如果无 法与某个结点建立关系就不能看到它所发布的动态,这就显得不太合理。有些人喜欢发布 信息,这类结点便成为了网络中消息的发布者,他们发布的显然要比他们订阅的多,有些人 喜欢接受信息,这些人作为订阅者接收信息多于发布信息,所以这样一种不平衡如果建立 于强关系的话就十分的不合理,因此基于弱关系的社交网络形式应运而生,大家各取所需。
[0004] 参考文献:于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通 信学报,2012,33 (Zl):96 ?97 ;Chen J,Geyer W,Dugan C, Muller M,Guy I· Make new friends, but keep the old:Recommending people on social networking sites// Proceedings of the 27th International Conference on Human Factors in Computing Systems. New York,NY,USA,2009:201?210;陈克寒,韩盼盼,吴健.基于用户聚类的异 构社交网络推荐算法[J]·计算机学报,2013,36(2) :350?351;Mislove Alan,Marcon Massimiliano, Gummadi Krishna P, Druschel Peter, Bhattacharjee Bobby. Measurement and analysis of online social networks//Proceedings of the 7th ACM SIGC0MM Conference on Internet Measurement· San Diego, CA,USA,2007:29 ?42 ;刘枚莲,刘同 存,李小龙.基于用户兴趣特征提取的推荐算法研究[J].计算机应用研究,2〇ll,28(5): 1665 ?1666.
[0005] 关于这类推荐问题,有学者也进行了充分的研究。协同过滤推荐算法最早是由 Goldberg等人提出的,但该系统没有充分考虑用户需求,存在一定缺陷。针对这一问题, GroupLens首次提出基于用户评分的自动协同过滤推荐系统。协同过滤推荐算法是应用最 为广泛的推荐算法,由于提出比较早,所以存在不少缺陷,后期又出现了基于内容的推荐算 法,通过比较项目与用户描述文件来为用户提供推荐服务;基于关联规则的推荐算法主要 是根据关联规则模型和用户当前的购买行为为用户提供推荐服务。
[0006] 现有的研究成果表明,研究提供一种合理的推荐方式是十分必要的。
[0007] 参考文献:LI Yu,LI Xue-feng. A hybrid collaborative filtering method for multiple-interests and multiple-content recommendation in e-commerce[J].Expert Systems with Applications,2005,28(l):67 ?77;HUANG Cheng-lung,HUANG Wei-liang. Handing sequential pattern decay:developing a two-stage collaborative recommender system[J]. Electronic Commerce Research and Application,2008,8(3):117 ?129 ;LUIS M,JUAN M,JUAN F. A collaborative recommender system base on probabilistic inference from fuzzy observations[J]. Fuzzy Set and Systems,2008,159 (12):1554 ?1576 ;HUANG Zan,ZENG D,CHEN H C· A comparison of collaborative-filtering recommendation algorithms for e-commerce[J]_IEEE Intelligent Systems,2007,22(5) :68 ?78 ;LIU Duen-ren,SHIH Y Y. Hybrid approaches to product recommendation base on customer lifetime value and purchase preferences[J]_Journal of Systems and Software,2005,77(2):181 ? 191 ;MATEVZ K,T0MAZ P,et al· Optimisation of combined collaborative recommender systems[J].AEU of Electronics and Communications,2007,61(7):433 ?443·


【发明内容】

[0008] 根据上述的一些研究,本发明提供一种基于用户聚类的推荐方法。
[0009]为达到上述目的,本发明采用的技术方案为一种基于用户聚类的推荐方法,包括 以下步骤:
[0010] St印1,输入用户集合υ= {ι^ιν.ι?α}和主题标签集合c= {Sl,s2…Sp},α表示 用户个数,β表示主题标签集合C中主题标签个数;初始化当前处理用户序号i取值为h 转到Step2 ;
[0011] St印2,初始化当前处理标签序号j取值为丨,转到Step3 ;
[0012] St印3,如果用户Ui关注了主题标签七,转到Step4 ;否则令用户对第j个主题标签 感兴趣的程度dj = 0,转到Step9 ;
[0013] Step4,根据用户Ui对主题标签Sj的浏览次数n,确定出用户七对主题标签 Sj的 总浏览频率f = η,转到Step5 ;
[0014] Step5,确定用户Ui对主题标签Sj的第k次浏览时间tj k以及总浏览时间T,k的 取值为1,2,…n,转到SteP6 ; '
[0015] SteP6,确定用户Ui对主题标签Sj的有效浏览频率 ef,转到step7 ;
[0016]确定方式为,若tmin < tlk < tmax,t-和tmax为用户Ui对标签的最小浏览时间和最 浏览时间的预设阈值,则用户Ui对第j个主题标签的第k次浏览是有效的,则用户Ui对 第j个主题标签的η次浏览过程中,所有有效浏览的次数之和为用户化对第j个主题标签 的有效浏览频率;
[0017] St印7,求ef次有效浏览的浏览时间之和,计算出用户Ui对主题标签Sj的有效浏 览时间et,转到Step8 ;
[0018] St印8,根据下式,计算出用户W对主题标签Sj兴趣度d」,转到Step9 ;
[0019]

【权利要求】
1. 一种基于用户聚类的推荐方法,其特征在于,包括以下步骤: 5七6口1,输入用户集合11={111,112*"11 [1}和主题标签集合〇={81,8^80},€[表示用户 个数,P表示主题标签集合C中主题标签个数;初始化当前处理用户序号i取值为1,转到 Step2 ; St印2,初始化当前处理标签序号j取值为1,转到St印3 ; St印3,如果用户Ui关注了主题标签&,转到St印4 ;否则令用户对第j个主题标签感兴 趣的程度dj= 0,转到Step9 ; St印4,根据用户Ui对主题标签Sj的浏览次数n,确定出用户Ui对主题标签Sj的总浏 览频率f=n,转到Step5 ; St印5,确定用户Ui对主题标签&的第k次浏览时间tlk以及总浏览时间T,k的取值 为1,2,…n,转到Step6 ; St印6,确定用户Ui对主题标签Sj的有效浏览频率ef,转到St印7 ; 确定方式为,若tmin彡tj;k彡tmax,tmin和tmax为用户Ui对标签的最小浏览时间和最大 浏览时间的预设阈值,则用户Ui对第j个主题标签的第k次浏览是有效的,则用户Ui对第 j个主题标签的n次浏览过程中,所有有效浏览的次数之和为用户Ui对第j个主题标签的 有效浏览频率; Step7,求ef次有效浏览的浏览时间之和,计算出用户Ui对主题标签Sj的有效浏览时 间et,转到Step8 ; Step8,根据下式,计算出用户Ui对主题标签Sj兴趣度dj,转到Step9 ;
其中,参嬰
,H为用户对所有主题标签的浏览频率之和;PS为预设的系统参数 兴趣时间系数
表示用户对第j个主题标签的平均浏览时间,
表示用户对第j个主题 标签的平均有效浏览时间; Step9,设用户Ui在主题标签集合C中未浏览过的标签集合用Cb表示,浏览过的标签集 合用Ca表示,根据下式,计算Vi;j,令j=j+1,如果j小于等于0则转到Step3,否则转到 SteplO;
SteplO,令i=i+l,如果i小于等于a,转到Step2,否则令i= 1,初始化核心用户数 目Y取值为〇,转到St印11 ; St印11,根据用户Ui的兴趣向量,…\0)中非零元素所占比例得到兴趣密 度值density(Ui),如果兴趣密度值density(Ui)>X,标记Ui为核心用户,转到Stepl2;否 则转到Stepl3 ;其中,A为预设的密度阈值; Stepl2,令Y=Y+1,转到Stepl3; St印13,令i=i+1,如果i小于等于a,转到St印11 ;否则转到St印14 ; Stepl4,当前得到Y个核心用户,开始用K-means算法对全部用户进行聚类,本步骤以Y个核心用户为初始的聚类中心,初始定义变量newj= 0,oldj= -1,转到Stepl5 ; Stepl5,计算fabs(newj-oldj),fabs函数表示计算绝对值,如果fabs(newj-oldj)大 于等于绝对值的相应预设阈值,转到Stepl6,否则转到Stepl9 ; Stepl6,对用户集合U=IudIvucJ中作为聚类中心的用户以外的各剩余用户,分别 计算剩余用户与每个作为聚类中心的用户之间的欧式距离,并分配到距离最近的聚类中心 相应聚类中,转到Stepl7 ; Stepl7,计算每个用户聚类Rh中所有用户兴趣向量的平均值,作为用户聚类Rh新的聚 类中心Zh,转到St印18 ; Stepl8,令oldj=newj,根据准则函数计算新的准则函数值赋值给newj,转到Stepl5 ; St印19,当前得到Y个用户聚类R1,馬…Ry,转到St印20 ; St印20,初始化当前处理类别序号h取值为1,转到St印21 ; Step21,根据下式计算该类别的类兴趣向量Rvh = (RVhl,RVh2, ...,RVhe),转到Step22 ;
其中,IRhI表示用户聚类Rh中的用户个数,心表示用户聚类Rh中的任一用户,用w表 示聚类Rh中用户个数,€取值为1,2……w,表示用户聚类Rh中用户%对第j个主题标 签的兴趣度,RVw表示用户聚类Rh对第j个主题标签的兴趣度,j取值为1,2......^ ; Step22,令h=h+1,如果h小于等于Y,转到Step21,否则转到Step23 ;3七6口23,此时得到¥个类别的类兴趣向量,1^1,1^2*"1^^,令11=1,转到5七6口24 ; St印24,为用户聚类Rh中的每个用户分别推荐主题标签,设用户聚类Rh中的用户义为 用户集合U=Iu1,ivua}中的用户Ui,对于用户Ui的兴趣向量Vi (Vm,Vi>2,…Vi, 0),把它 与用户聚类Rh的类兴趣向量Rvh = (RVhl,RVh2, ...,RVhe)中各兴趣值RVw进行比较,如果 Vu大于等于RVhj,则把主题标签Sj推荐给用户,转到Step25 ; Step25,令h=h+1,如果h小于等于Y,转到Step24,否则转到Step26 ; Step26,对用户集合U=Iu1,iv"ua}中每个用户的自动推荐均已完成,结束。
2.根据权利要求1所述基于用户聚类的推荐方法,其特征在于:Stepl8中,准则函数的 计算公式如下,
其中,w代表用户聚类Rh中用户个数,叫VZJ表示两个特征向量之间的偏差的平方,Vf 为用户聚类Rh中的用户\的兴趣向量,Zh为相应类别的聚类中心。
【文档编号】G06F17/30GK104268290SQ201410565721
【公开日】2015年1月7日 申请日期:2014年10月22日 优先权日:2014年10月22日
【发明者】李鹏, 王娅丹, 金瑜, 刘璟, 刘欣 申请人:武汉科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1