一种基于自适应多最小支持度的关联规则推荐方法

文档序号:6523959阅读:219来源:国知局
一种基于自适应多最小支持度的关联规则推荐方法
【专利摘要】本发明公开了一种基于自适应多最小支持度的关联规则推荐方法,首先根据商品分类建立商品分类层次树,并根据分类层次树对具体商品进行归类;接下来分别为每个具体商品和具体商品层上一层的类别进行最小支持度阈值设置,阈值设置涉及时间因素、具体商品价格因素以及具体商品品牌因素的影响,在支持度阈值设定基础上,再利用多最小支持度关联规则扩展算法挖掘频繁项集和产生规则;最后采用Top-N推荐方法为每位用户生成推荐。本发明在为用户做个性化推荐时,考虑了多种因素对具体商品和类别的多最小支持度阈值设定的影响,能较好的体现不同物品的特征,同时缓解了推荐系统中数据稀疏性问题和冷启动问题,能更加准确的为用户进行个性化推荐。
【专利说明】一种基于自适应多最小支持度的关联规则推荐方法
【技术领域】
[0001]本发明公开了一种基于自适应多最小支持度的关联规则推荐方法,具体涉及一种给特定用户推荐个性化商品的方法,属于推荐系统【技术领域】。
【背景技术】
[0002]个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。目前主要的个性化推荐方法主要有基于内容的推荐,协同过滤推荐和混合推荐。孙多[I]结合兴趣度和聚类技术对客户的个人兴趣进行评价,提出了基于兴趣度的聚类协同过滤推荐系统,该方法有效缓解了整个用户矩阵数据极端稀疏并且实时性效果不理想的问题。李忠俊等人[2]提出了一种基于对基于内容的推荐系统和协同过滤系统同构化整合的推荐模型,该算法同时拥有协同过滤推荐系统和基于内容推荐系统的优点,并且在一定程度上避免了基于内容或协同过滤的传统推荐系统各自的缺点。陈泽等人[3]结合用户-项目评分矩阵和项目-类别关联矩阵,提出了一种新的混合推荐模型。该模型提出一种新的项目关联度度量方法,并分别以项目关联度和用户项目评分信息为权值构建一个基于用户-项目的加权两层图模型,结合随机游走算法给出了基于加权两层图的推荐算法。
[0003]关联规则是数据挖掘领域的一个重要分支,主要用来挖掘数据集中数据项之间有趣的关联关系,广泛应用于零售业,通过挖掘具有较高概率被消费者同时购买的商品,为商品陈列和促销提供决策依据。施平安等人[4]提出关联规则的时间适用性概念,设置时间段相关的支持度阈值。毛宇星等人[5]通过对分类数据的深入研究,提出了一种高效的多层关联规则挖掘方法。李杰等人[6]提出了适用于个性化推荐的强关联规则的概念,并给出了一种基于矩阵的强关联规则挖掘算法,提高了规则挖掘效率。刘枚莲等人[7]针对用户评分数据稀疏性问题,通过对事务数据库项目空间关联性分析,提出基于双向关联规则项目评分预测的推荐算法,推荐精度和效率明显优于传统的推荐算法。
[0004]但是关联规则挖掘算法的效果容易受支持度设置的影响。统一的最小支持度设置,或仅仅依赖项目出现频率设置项目最小支持度阈值,使得关联规则算法挖掘规则时有很多局限性。支持度阈值设置过低容易导致规则数目指数级增长,设置过高使得算法不能发现更多有意义的规则。本发明针对关联规则算法的支持度设置问题,提出了根据具体商品的信息计算商品自适应支持度的方法,并结合多最小支持度关联规则算法挖掘有意义的规则,从而为用户进行个性化推荐。
[0005]参考文献:
[0006][I],孙多.基于兴趣度的聚类协同过滤推荐系统的设计.安徽大学学报:自然科学版,2007,31 (5):19-22 ;
[0007][2],李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型.计算机科学,2009,36 (12) =142-145 ;
[0008][3],陈泽,王国胤,胡峰.基于加权两层图的混合推荐方法.计算机科学,2012,39(12):171-176 ;
[0009][4],施平安,陈文伟,黄金才.关联规则时间适用性及其发现方法.计算机应用研究,2001 (6):18-20 ;
[0010][5],毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联规则挖掘方法.软件学报,2011,22 (12) =2965-2980 ;
[0011][6],李杰,徐勇,王云峰,朱昭贤.面向个性化推荐的强关联规则挖掘.系统工程理论与实践,2009,29 (8) =144-152 ;
[0012][7],刘枚莲,刘同存,张峰.基于双向关联规则项目评分预测的推荐算法研究.武汉理工大学学报,2011,33 (9) =150-155 ;
[0013][8], Bing Liu著,俞勇,薛贵荣,韩定一译.Web数据挖掘.北京:清华大学出版社,2012:20-27。

【发明内容】

[0014]本发明所要解决的技术问题是:针对传统推荐算法依赖用户评分、推荐结果对数据稀疏问题和冷启动问题敏感问题,以及传统关联规则算法为所有商品设置单一的且仅仅依赖商品出现频率的统一支持度`的问题,提出一种基于自适应多最小支持度的关联规则推荐方法,过程中为每个商品和类别产生自适应的支持度阈值,挖掘出更多有意义的关联规则,对用户做出更加准确的推荐。
[0015]本发明为解决上述技术问题采用以下技术方案:
[0016]一种基于自适应多最小支持度的关联规则推荐方法,包括以下步骤:
[0017]步骤一、根据商品分类信息建立商品分类层次树,并将数据集中商品按照商品分类层次树进行归类;
[0018]步骤二、在每类商品中设置商品最小支持度阈值:
count(Xj,) ( price(X},)\I
[0019]MISxl = --^fx I I ——χ a + ----X(1-Cr)I
k t Otal(Xf) \ pmax JJrrandQCk)
[0020]其中,count (Xk)是t时段内商品Xk的交易量,total (Xi)为是t时段内类别Xi的交易量,且Xk e XijPrice(Xk)为商品Xk的价格,pmax为类别Xi中商品的最高价格,brand (Xk)即为商品Xk的品牌权重,α为商品价格因素对计算商品最小支持度阈值的影响权重,1-α为商品品牌对计算商品最小支持度阈值的影响权重;
[0021]步骤三、以分类层次树中具体商品层的上一层为类别,为每个类别设置类别最小支持度阈值:
[0022]MlSxi = Σχ.^.JuJixjy X 义
[0023]其中,X ‘、Xi^均为商品的类别,XlPf为X ‘的子类别,λ为类别最小支持度阈值的影响参数;[0024]步骤四、根据步骤二和步骤三中得到的商品最小支持度阈值和类别最小支持度阈值,利用多最小支持度关联规则算法分别挖掘商品频繁项集和类别频繁项集,并产生相应的规则,具体如下:
[0025](401)将所有商品按照自身的商品最小支持度阈值MIS进行升序排序,并存储于项目集合M中;
[0026](402)设I = U1, i2,…,im}为所有商品item的集合,事务数据集T = <T1;Τ2,...,Τη>表示网站所有用户历史商品交易记录,其中每个事务Ti是用户一次商品交易记录,Ti是商品的集名I ^/,并且每个事务1\都有一个唯一的标识符TID,m、n为正整数,扫描事务数据集T,计算其中每个商品的实际支持度sup (item);
[0027](403)按存储顺序从项目集合M中找出第一个满足SupQtemi)≥MISQtemi)的项目iteiv将其加入集合L中,对于项目集合M中Uemi之后的每个项目item」,如果sup (item」)≥MIS Qtemi),则将item」加入集合L中;
[0028](404)在集合L中找到满足sup Qtem1)≥MISQtem1)的所有商品Uem1,并将Item1加入频繁I项集F1中,并设定频繁项集的基数k = 2 ;
[0029](405)判断频繁k-Ι项集Flri是否为空,若空则跳转到步骤(408),否则进入步骤
(406);
[0030](406)若参数k = 2,则按存储顺序遍历集合L,对每个items e L,若items满足sup (items)≥MIS (items),对于集合L中items之后的每个itemh,在itemh满足SupUtemh)≥ MIS(Items)且 \sup (Ltemh) — sup (items)\ 幺 φ 时,将候选项集{items,itemj加入候选k项集Ck中,其中,φ为最大支持度差别;
[0031]若k古2,则在频繁k-Ι项集Flri中遍历查找所有只有最后一项元素不同的频繁项集对f\,f2,
[0032]fl = Iitem1, item2, itemk_2, item^J ,
[0033]f2 = Utempitem2, itemk_2, item' k_J ,
[0034]SMISQtenv1) < MIS (item/ ^1)且(itemk_1) — sup (Lteml^1)]幺少,则将候选项集 c = Utem1, item2,…,itemk_2, Uenv1, item' k_J 加入候选 k 项集 Ck 中;
[0035]接着遍历c中每个(k-Ι)大小的子集s,当c [I] e s或者MIS(c[2]) = MIS(c[l])时,如果.s € 则将候选k项集Ck中候选项集c删除,其中,c [I]为候选项集c的第I个元素,c [2]为候选项集c的第2个元素;
[0036](407)遍历事务数据集T,计算候选k项集Ck中每个候选项集c的支持度sup (c),若候选项集c满足sup (c) ^ MIS (c [I]),则将候选项集c加入频繁k项集Fk中,将参数k值加I,并跳转到步骤(405);
[0037](408)将各级频繁项集Fk加入频繁项集集合F中;
[0038](409)由频繁项集集合F产生关联规则,对于k频繁项集集合Fk e F,其中k = 2,3,...,对于每个k频繁项集fk e Fk, fk = Utem1, item2,..., itemk},由k频繁项集fk生成的关联规则过程如下:
[0039]对任一 Uemi e fk,产生的关联规则r形式为Ifk-Uemi — Uemi,此规则的真实置信度conf_of_r计算公式为:
[0040]conf_of_r = sup (fk) /sup (^-1temi),[0041]其中(fk-1tenii)是k频繁项集fk中去除Uemi后剩余的所有item集合;由所有k频繁项集集合Fk生成的关联规则中,若关联规则r的置信度conf_of_r ^ minconf,则将此规则r加入到规则集R中;
[0042]步骤五、利用具体商品的规则为用户进行个性化推荐,具体如下:
[0043]根据用户的历史购物记录匹配商品关联规则,当规则的前项A中的商品都是用户曾经感兴趣过的商品,且后项B中的商品不是用户曾经感兴趣过的商品时,将此规则加入候选规则集合,此规则后项B对应的商品Uemf作为候选推荐商品;
[0044]对每个候选推荐商品itemf,计算分值
【权利要求】
1.一种基于自适应多最小支持度的关联规则推荐方法,其特征在于,包括以下步骤: 步骤一、根据商品分类信息建立商品分类层次树,并将数据集中商品按照商品分类层次树进行归类; 步骤二、在每类商品中设置商品最小支持度阈值:
countfX,,) ( priced)'I MlSxu = -xll--———χα+ --—^ X (1- a)]
k total(XL) y pmax Jbrand(Xk) 其中,Count(Xk)是t时段内商品Xk的交易量,total (Xi)为是t时段内类别Xi的交易量,且Xk e Xi, Price(Xk)为商品Xk的价格,pmax为类别Xi中商品的最高价格,brand(Xk)即为商品Xk的品牌权重,α为商品价格因素对计算商品最小支持度阈值的影响权重,1-α为商品品牌对计算商品最小支持度阈值的影响权重; 步骤三、以分类层次树中具体商品层的上一层为类别,为每个类别设置类别最小支持度阈值:
MlSxi = v counKxi\ X I
χ Σχ;εχ.Count(XJ) 其中,X ‘、Χ、Χ』_均为商品的类别,$和)^_为X ‘的子类别,λ为类别最小支持度阈值的影响参数; 步骤四、根据步骤二和步骤三中得到的商品最小支持度阈值和类别最小支持度阈值,利用多最小支持度关联规则算法分别挖掘商品频繁项集和类别频繁项集,并产生相应的规贝U,具体如下: (401)将所有商品按照自身的商品最小支持度阈值MIS进行升序排序,并存储于项目集合M中; (402)设I= U1, i2,..., im}为所有商品item的集合,事务数据集T = <T1; T2,,Τη>表示网站所有用户历史商品交易记录,其中每个事务Ti是用户一次商品交易记录,Ti是商品的集合,? c /,并且每个事务Ti都有一个唯一的标识符TID,m、η为正整数,扫描事务数据集Τ,计算其中每个商品的实际支持度sup (item); (403)按存储顺序从项目集合M中找出第一个满足SupQtemi)≥MISQtemi)的项目iteiv将其加入集合L中,对于项目集合M中Uemi之后的每个项目item」,如果sup (item」)≥MIS Qtemi),则将item」加入集合L中; (404)在集合L中找到满足supQtem1)≥MISQtem1)的所有商品Uem1,并将Uem1加入频繁I项集F1中,并设定频繁项集的基数k = 2 ; (405)判断频繁k-Ι项集Flri是否为空,若空则跳转到步骤(408),否则进入步骤(406); (406)若参数k= 2,则按存储顺序遍历集合L,对每个items e L,若items满足sup (items)≥MIS (items),对于集合L中items之后的每个itemh,在itemh满足sup (itemh)≥ MIS (items)且 (Ltemh) — sup (items-)| 仝 φ 时,将候选项集{items,itemj加入候选k项集Ck中,其中,炉为最大支持度差别; 若k古2,则在频繁k-Ι项集Flri中遍历查找所有只有最后一项元素不同的频繁项集对fl,f2,
fj = Utem1, item2, itemk_2, item^J ,
2.根据权利要求1所述的基于自适应多最小支持度的关联规则推荐方法,其特征在于:若所述步骤五中用户得到的商品推荐数目不足N个,则利用类别关联规则进行补充推荐。
3.根据权利要求1所述的基于自适应多最小支持度的关联规则推荐方法,其特征在于:所述步骤二中,对每类商品根据时间段t、商品价格、商品品牌,设置具体商品的最小支持度阈值。
4.根据权利要求1所述的基于自适应多最小支持度的关联规则推荐方法,其特征在于:所述步骤四中,利用多最小支持度关联规则算法挖掘商品分类层次树中最底层商品层和该商品层上一层类别层的频繁项集,不涉及商品分类层次树中其他层次的频繁项集。
5.根据权利要求2所述的基于自适应多最小支持度的关联规则推荐方法,其特征在于:利用类别关联规则进行补充推荐时,首先根据用户兴趣匹配类别关联规则,根据匹配到的用户感兴趣的类别,将此类别 中最受其他用户欢迎的商品推荐给该用户。
【文档编号】G06Q30/02GK103700005SQ201310688735
【公开日】2014年4月2日 申请日期:2013年12月17日 优先权日:2013年12月17日
【发明者】马廷淮, 周金娟, 朱节中, 曹杰 申请人:南京信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1