本发明涉及互联网电视节目领域,更具体的说,它涉及用于基于用户群组的推荐系统构建方法。
背景技术:
目前的推荐包括基于内容的推荐、协同过滤推荐(基于用户的协同过滤推荐和基于项目的协同过滤推荐)。基于内容的推荐可以很好的解决冷启动的问题并且兼顾内容本身的属性,向用户推荐其感兴趣的相似内容;协同过滤推荐利用集体智慧的方法向用户推荐产品。但由于用户具有社区性,具有明显地趋同性,目前在广电行业急需进行基于群组的推荐产品,来提高用户的体验。
技术实现要素:
本发明克服了现有技术的不足,提供了一种处理效率高,具有社区性,明显地趋同性的基于用户群组的推荐系统构建方法,从而更符合现在用户的体验的需求。
本发明的技术方案如下:
基于用户群组的推荐系统构建方法,具体包括如下步骤:
101)数据划分步骤:对用户属性特征数据采用kmeans方法进行聚类划分用户所属类别,得到用户所属的类别集合,根据用户的栏目点播详单、栏目表、评分表来划分出用户的栏目点播偏好集,根据用户的点播详单、评分表来划分出用户资产点播偏好集;所述kmeans是通过不断地取离种子点最近均值的方法来获取数据的聚集;
102)组内分类步骤:在步骤101)后,对用户所属的类别集合中的每一个用户,结合用户的栏目点播偏好集,使用决策树对用户所属的类别进行进一步分类;
103)推荐栏目步骤:根据步骤101)对聚类划分用户所属类别和步骤102)分类后用户进一步的分组类别,使用基于用户的协同过滤方法,向用户推荐栏目,所述栏目会兼顾栏目和资产的归属关系,依据步骤102)中的用户的栏目点播偏好集对推荐的资产集进行组内重排。
进一步的,所述步骤101)中kmeans方法具体包括如下步骤:
201)选取聚类质心点步骤:随机选择9个聚类质心点为{ctk1,ctk2,…,ctk9};
202)用户归类步骤:对每一个用户属性特征数据进行判定其应该属于的类,判定公式(a)如下:
其中:=符号是用后面的内容的式子来定义前面的标识,ct(i)代表样本与9个类中最近的那个类,ct(i)是9个类中的一个,ctkj为质心点,所述质心点是对属于同一个类的样本中心点的猜测;
203)重新确定质心点步骤:根据步骤202)对于每一个聚类质心进行重新计算具体公式(b):
其中j标识为所要计算的具体质心点,其中k表示用户数,即样本数;
重新计算后,回到步骤202),直到收敛,即质心不再发生变化而结束。
进一步的,所述步骤102)中决策树的具体步骤如下:
301)获取信息增益的步骤:通过如下公式(c)获得栏目点播偏好集中所有属性划分数据集d所得的信息增益;
其中a为某一属性,设置a有k各不同的值,则使用属性a可将数据集d划分为{s1,s2,…,sk};pi(i=1,2,…,m)表示第i个类别属性在样本中出现的频率;gain(a)表示使用属性a进行划分前后的信息熵的变化,entropy(d)表示按照类标签对训练数据集d进行划分得到的信息熵,entropya(d)表示按照属性a对d进行划分,得到的信息熵;
302)分裂信息和信息增益率步骤:根据步骤301)得到的数据,再使用如下公式计算各个属性的分裂信息公式(d)和信息增益率公式(e);
其中split(a)表示分裂信息,是用来衡量属性a用来分裂数据的广度和均匀程度;gainratio(a)表示信息增益率,gain(a)表示使用属性a进行划分前后的信息熵的变化;
303)选择分裂节点步骤:根据步骤302)选择出信息增益率取值最大的属性作为分裂节点;
304)确定决策树步骤:反复递归调用步骤301)、步骤302)、步骤303),获得不同的分裂节点,最终获得决策树。
进一步的,所述步骤103)的用户的协同过滤方法具体步骤如下:
401)获取相似度步骤:使用余弦相似度方法来获取用户的相似度,具体公式(f):
对于给定的用户u和v,n(u)表示用户u感兴趣的商品集合,n(v)表示用户v感兴趣的商品集合;
402)推荐产品步骤:根据如下公式(g)来获取用户最感兴趣的topn产品,并推送给用户:
其中p(u,i)表示用户u对物品i的感兴趣程度,s(u,k)表示和用户u兴趣最接近的k个用户,n(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的兴趣相似度,rvi表示用户v对物品i的感兴趣程度。
进一步的,所述组内重排,为优先推荐其所属栏目偏好的资产,然后再按照喜好程度进行降序排列。
本发明相比现有技术优点在于:本发明设计合理,推送精准。通过kmeans方法进行聚类,产生了具有社区性,明显地趋同性的分组类别。本发明使用信息增益、分裂信息和信息增益率来提高过得的决策树的合理性,并通过协同过滤推荐来使用户获得更据针对性的节目单。
附图说明
图1为本发明基于用户群组的推荐系统构建方法的处理流程图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体说明。应当理解,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。
如图1所示,基于用户群组的推荐系统构建方法,主要涉及的数据包括用户属性特征集u={u1,u2,…,uk},栏目点播偏好集t={t1,t2,…,tm},用户资产点播偏好集item={it1,it2,…,itp}。用户属性特征集从用户画像表中抽取相关维度,主要包括入网账龄、设备使用年限、用户年龄、信用额度、投诉等级、咨询等级等;栏目点播偏好集主要从用户的栏目点播详单以及栏目表、评分表进行计算后得出;用户资产点播偏好集主要从用户的点播详单、评分表进行计算后得出。
具体处理包括如下步骤:
101)数据划分步骤:对用户属性特征集u={u1,u2,…,uk}采用kmeans方法进行聚类划分用户所属类别,主要分为9组类别,从而得到用户所属的类别集合cluster={ct0,ct1,…,ct8},根据用户的栏目点播详单、栏目表、评分表来划分出用户的栏目点播偏好集,根据用户的点播详单、评分表来划分出用户资产点播偏好集。其中所述kmeans是通过不断地取离种子点最近均值的方法来获取数据的聚集。所述kmeans达到输入:用户属性特征集u={u1,u2,…,uk};就能输出:聚类后的类标集合cluster={ct1,ct2,…,ct9}。所述kmeans方法具体包括如下步骤:
201)选取聚类质心点步骤:随机选择9个聚类质心点为{ctk1,ctk2,…,ctk9};
202)用户归类步骤:对每一个用户属性特征数据进行判定其应该属于的类,判定公式(a)如下:
其中:=符号是用后面的内容的式子来定义前面的标识,ct(i)代表样本与9个类中最近的那个类,ct(i)是9个类中的一个,ctkj为质心点,所述质心点是对属于同一个类的样本中心点的猜测;
203)重新确定质心点步骤:根据步骤202)对于每一个聚类质心进行重新计算具体公式(b):
其中j标识为所要计算的具体质心点,其中k表示用户数,即样本数;回到步骤202),直到收敛即质心不再发生变化而结束,输出聚类后的类标集合cluster={ct1,ct2,…,ct9}。
102)组内分类步骤:在步骤101)后,对用户所属的类别集合即对cti(cti∈cluster)中的每一个用户,结合用户资产点播偏好集,使用决策树对用户所属的类别进行进一步分类,得到classifier={cf0,cf1,…,cf8}。
所述决策树的具体步骤如下:
301)获取信息增益的步骤:通过如下公式(c)获得所有属性划分数据集d所得的信息增益;
其中a为某一属性,设置a有k各不同的值,则使用属性a可将数据集d划分为{s1,s2,…,sk};pi(i=1,2,…,m)表示第i个类别属性在样本中出现的频率;gain(a)表示使用属性a进行划分前后的信息熵的变化,entropy(d)表示按照类标签对训练数据集d进行划分得到的信息熵,entropya(d)表示按照属性a对d进行划分,得到的信息熵;
302)分裂信息和信息增益率步骤:根据步骤301)得到的数据,再使用如下公式计算各个属性的分裂信息公式(d)和信息增益率公式(e);
其中split(a)表示分裂信息,是用来衡量属性a用来分裂数据的广度和均匀程度;gainratio(a)表示信息增益率,gain(a)表示使用属性a进行划分前后的信息熵的变化;
303)选择分裂节点步骤:根据步骤302)选择出信息增益率取值最大的属性作为分裂节点;
304)确定决策树步骤:反复递归调用步骤301)、步骤302)、步骤303),获得不同的分裂节点,最终获得决策树。
103)推荐栏目步骤:根据步骤101)对聚类划分用户所属类别和步骤102)分类后用户进一步的分组类别(cti,cfj)(i=0,1,…,8;j=0,1,…,8),其中cti∈cluster;cfj∈classifier,使用基于用户的协同过滤方法,向用户推荐top10栏目,则最终向每个用户推荐的资产集为cfr={cfr1,cfr2,…,cfr10};所述栏目会兼顾栏目和资产的归属关系,依据步骤102)中的用户资产点播偏好集对推荐的资产集进行组内重排,即为优先推荐其所属栏目偏好的资产,然后再按照喜好程度进行降序排列。
所述用户的协同过滤方法具体步骤如下:
401)获取相似度步骤:使用余弦相似度方法来获取用户的相似度,具体公式(f):
对于给定的用户u和v,n(u)表示用户u感兴趣的商品集合,n(v)表示用户v感兴趣的商品集合;
402)推荐产品步骤:根据如下公式(g)来获取用户最感兴趣的topn产品,并推送给用户:
其中p(u,i)表示用户u对物品i的感兴趣程度,s(u,k)表示和用户u兴趣最接近的k个用户,n(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的兴趣相似度,rvi表示用户v对物品i的感兴趣程度。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。