一种基于商品属性熵值的个性化推荐方法

文档序号:6439503阅读:271来源:国知局
专利名称:一种基于商品属性熵值的个性化推荐方法
技术领域
本发明属于推荐算法领域,尤其是推荐算法的个性化推荐领域,用于所有能够产生推荐结果的推荐算法,是一种推荐结果优化技术。
背景技术
个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和商品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。以往常用的简单推荐系统包括推荐评分最高的电影,卖的最好的商品等,这些推荐方法也取得了一些效果,但是已经很难满足当今社会日益提高的个性化服务要求。为了使推荐更符合特定的用户,必须充分挖掘购买记录,用户信息等可用元素,对不同的用户进行个性化的推荐,推荐出最符合目标用户的商品或服务。推荐系统的背景领域包括认知科学,估算理论,信息技术,预测理论等,另外也从管理科学和市场营销学等相关领域借鉴知识。推荐系统作为一个独立的研究领域出现是源于90年代中期对依据评分数据进行推荐的研究。在最常见的推荐系统中,推荐问题就是对用户还没有看过的物品进行评分预测,这种预测一般基于这个用户对其他商品的历史评分以及其他一些信息。有了对商品的预测评分,我们就可以将预测评分较高的商品推荐给用户。推荐系统一般根据推荐方法的不同被分为三类内容推荐,协同过滤推荐和混合推荐。内容推荐的主要思想是根据用户的以往购买过的商品,寻找相似的商品推荐给用户。例如在推荐电影时,系统分析用户打分高的那些电影,找出这些电影的特点,包括演员、 导演、类型、主题等,然后更具分析结果推荐包含用户偏好的特点的电影给用户。内容推荐思想来源于信息科学,借助于信息科学对于文档分析和分类的研究,内容推荐在对包含文字内容的商品(例如网页,新闻等)进行推荐时表现良好。另外,通过问卷调查等显示方法和记录用户浏览购买行为的隐式方法分析出的用户特征很大程度上提高了传统借助信息科学领域方法建立的推荐系统的推荐效果。协同过滤的主要思想是根据用户以往的购买记录,发掘爱好相似的用户,将相似用户购买的商品推荐给目标用户。不同于内容推荐,协同过滤的重点在于相似用户的寻找, 根据目标用户和其他用户的历史评分记录,找出用目标用户相似的用户。基于具有相似历史记录的用户在之后的兴趣也会相似的假设,将目标用户的相似用户购买的或评分高商品推荐给目标用户。例如两个用户对他们共同看过的电影的评分类似,那么他们就很可能具有相似偏好,那么其中一个用户评分高的一部电影也就极有可能另一个用户喜欢的。相似度的计算方法主要包括皮尔逊相似度和空间向量相似度。混合方法结合内容过滤和协同过滤,构建一个统一的模型进行推荐。由于内容过滤和协同过滤都有不足,因此混合方法试图将两种方法融合起来,扬长补短,建立统一的模型进行推荐。融合的方法主要有以下几种1、分别计算,再结合分析。这种方法可以简单的取两种方法的平均,也可以分析内容推荐和协同过滤在这个场景下分别所占的权重,加权得出推荐,还可以根据实际情况选择更适合的推荐方法作为结果。2、将内容过滤的要素结合至协同过滤中,例如使用用户特征而不是用户评分来进行协同过滤。3、将协同过滤的思想应用在内容推荐中,例如使用潜在语义模型来分析用户的特征。4、建立一个统一的模型, 例如结合内容过滤和协同过滤的所有要素建立一个概率模型,通过对历史数据的学习得出概率模型中各个参数的值,然后进行推荐。在目前的推荐系统中,标签逐渐成为一种表现用户特征的重要方式。标签类似于一种关键词标记,最初是为了利于用户查找,对一篇文章标注一个特定的能够反映文章含义而文章内容中又包含的标签能够帮助其他用户查找的这篇文章。标签也可用于帮组用户记录相关的浏览内容,方便以后再次查阅。另一个标签的应用是评论商品或服务,用户可以个性化的对商品或服务打上标签,表达自己的观点。总的来说,标签就是一种帮助用户查找,组织和理解网上商品或服务的机制。它给用户提供了很大的个性化空间,并因此逐渐流行起来。推荐系统的目标之一也是帮助用户高效的浏览大量的商品或服务。因此如果能充分的挖掘标签信息,无疑将提高推荐系统的效果。例如,在传统的电影推荐领域,可利用的信息包括评分和电影,用户的特征信息。在没有标签的情况下,我们要分析用户到底是喜欢电影的那些特征,只能分析那些用户评分高的电影,找出它们的共同点,认为这些共同点是用户喜欢这些电影的理由。但是在有了标签之后,用户很可能把他喜欢一部电影的理由以标签的形式标注在这部电影上,这样的信息比之前的分析结果更可靠。在标签信息充足的情况下,我们完全可以用一个用户的标签来组成用户的偏好特征库,进行之后的分析推荐。而在标签信息相对较少的情况下,我们也可以将其作为辅助信息加入到传统的推荐过程中,以帮助提高推荐效果。然而,因为研究环境下的算法更加偏重效果而较少考虑效率,复杂的推荐算法在电子商务网站上只有简单的实现。这使得推荐算法在应用场景下的效果大打折扣,再加上实验室更加偏重集中化清洗数据、处理数据的方式,忽略了很多真实场景下浏览、购买商品的行为,使得最终的推荐结果难以满足个性化的需要。根据第三届mybuys和e-tailing小组的合作调查的结论,用户在商品页面需要的很可能是相似商品。在具有相似商品的网站上,很多的相似商品是手工产生的或是通用算法产生的,这明显是繁琐的、不准确的,电子商务网站需要一种方法帮助它们自动化生成个性化的相似商品。因为用户在线浏览商品时无法直接接触到商品,电子商务中采用商品属性对商品图片未能覆盖的商品特征进行解释。商品属性设计已经成为电子商务网站中很重要的模块,因此可以从商品属性中挖掘出大量的用户行为信息。同时随着商品属性在内容上的逐渐丰富,进行网上购物的用户可以用更加细分的方式来检索商品,提高了商品检索的精度。 对于推荐而言,商品属性的丰富有助于改进推荐的精度。基于内容的推荐方法根据用户浏览的商品为用户建立用户剖面,充分利用商品的细分属性,为向老用户推荐新商品提供了很可靠的方法。但是由于商品属性的日益增多,基于商品属性的用户剖面变得日益庞大,如果不采用一种方式对原来的简单统计进行改进,最终将导致内容推荐的效率低下。综上所述,基于熵值的个性化商品推荐使用已有算法的推荐结果,根据熵值对推荐结果进行合适的重排,将更符合用户个性化的相似商品推荐到商品页上。

发明内容
本发明要解决的问题是现有的个性化推荐方法偏重效果而忽略了效率,不适于实际应用,需要一种针对电子商务的个性化推荐实现方法。本发明的技术方案为一种基于商品属性熵值的个性化推荐方法,通过脚本获取电子商务网站用户的浏览记录,对其进行剖析,产生推荐结果进行个性化推荐,包括以下步骤1)数据清洗,根据已有用户浏览的商品记录获取用户在不同分类属性上的分布1. 1)在已有用户数据中,根据所需的用户浏览记录的特征,选取提供个性化推荐的用户群体;1. 2)提取所选取的用户群体在电子商务网站上对商品页的浏览记录;1. 3)根据浏览记录,收集商品规格信息,作为下一阶段的属性值,所述规格信息为用于用户鉴别商品,获取用户在不同分类的属性上的分布;2)熵值优化,根据每个分类中的属性的分布情况进行熵值计算并进行权值化2. 1)根据电子商务网站已有的用户、用户浏览记录、商品的属性值,由推荐算法产生通用推荐集合,所述推荐算法为内容过滤或协同过滤,通用推荐集合是一个偏序集,集合包括商品在推荐系统中唯一的标示符,以及根据推荐算法得出的排序结果;2. 2)根据当前用户选择的商品产生推荐候选集使用当前用户正在浏览的商品在电子商务站点中唯一的标示,即电子商务运营者分配给不同产品的产品id或uri,从通用推荐集合检索与商品具有关联性的所有商品,产生推荐候选集,并根据用户正在浏览的商品,对推荐候选集中的商品进行属性值匹配,设共有m个属性分类,属性匹配向量表示为 B = Ib1, b2,b3,. . .,bm},0表示属性不匹配,1表示属性匹配,那么对于推荐候选集中的第k 个商品,其对应的匹配向量可以记做 ;推荐候选集是通用推荐集合的一个子集,通过使用用户当前的个人信息、浏览信息对通用推荐集合中的内容进行选择、排序后产生;2. 3)根据通用推荐集合中的商品,计算全局熵值根据通用推荐集合中的商品, 对不同商品在各个属性分类上出现的比例进行统计,统计的过程是首先构建属性分类表, 然后遍历商品数据库,根据每个商品的属性对应的分类将属性添加到属性分类表中,并对重复的项进行计数,直到遍历结束为止;设一个属性分类中包括η种分类标签,不同分类标
签出现的次数记做{Cl,C2,C3,...,(^},用?1表示每种分类标签出现的比例,Pi =&,根据
每个分类标签的出现比例,属性分类的熵值公式表示为e = -ZiUPilnPi,根据统计结果和属性分类的熵值计算公式得到全局熵值,全局熵值为一个向量,对于m个属性分类,用etm 表示全局熵值向量中的项,全局熵值向量表示为肚={etl,et2,et3,. . .,ej ;2. 4)根据用户、用户浏览记录、商品属性计算用户在每个属性分类上的熵值,用户的熵值计算结果为一个向量,对于m个属性分类,用eim表示用户熵值向量中的项,用户熵值向量表示为Eu = {eul, eu2,eu3,. . .,ej,每个进行个性化推荐的用户都有一个用户熵值向量;
3)对用户个性化推荐,推荐相似商品,根据当前用户所选商品,与推荐候选集中的结果进行匹配,根据匹配结果和分类熵值权重计算商品的相似度,然后根据相似度进行降序排序完成推荐排序过程3. 1)根据当前用户选择的商品,计算当前用户在属性分类上的熵值,使用步骤2. 2)中匹配得到的候选集合商品的属性匹配向量B,再根据2.3)中的全局熵值向量肚和2.4)中的用户熵值向量Eu,计算推荐候选集中每个商品的相似度,再根据相似度对推荐候选集商品进行降序排序,其中,对于推荐候选集中的第k项商品,k= 1,2,3,4, 5. ··,相似度Simk计算公式为如果k彡5,simk = 4X (Et-Eu)+k,如果k > 5,simk = BkX(Et-Eu)-O. 5k,根据商品页的推荐数需求对排序后的推荐候选集的推荐数目进行裁剪,得到最终的推荐集合,进行个性化推荐。步骤1. 3)中,收集商品规格信息作为属性值时,对于文本型属性,直接保存在数据库中;对于数值型属性,进行分类,分类的目的是产生文本型属性,根据电子商务网站的分类规则进行,保存得到的文本型属性;属性值都保存为文本型后,设商品分类集合为 S,S有m个不同的分类,使用Ci表示具体的分类,i = 1,2,3, ...,m,S表示为S = IC1, C2, C3, ... , CJ, Ci是由属于这个分类的标签组成的集合,设T表示具体的属性标签,对于一个含有μ i个标签的分类Ci,表示为Ci = IT1, T2, T3, ... , T1J ;对于一件商品P,P含有至少一个属性标签,不同的属性标签来自于不同的属性分类,P的属性标签集合表示为 ^={TiXl,T2xrTsx3,…,D,其中Li表示来自第i个分类的第Xi个标签,Xi e μ I0用户使用电子商务网站时,常常会浏览一些商品页面,这些页面中包含了用户对商品的主观判断。根据用户浏览过的商品页面,推荐系统可以得到良好的商品属性分类和商品属性。按照商品属性分类对商品属性进行统计,可以得到不同分类上商品属性的分布。 根据分布情况,通过熵值计算,可以帮助用户建立基于属性分类熵值的用户剖面。基于属性分类熵值的用户剖面可以帮助推荐算法找到用户在不同属性分类上的偏好。用户在某类属性上的偏好越稳定,对应的分类熵值越低,转化而得的权值越高。利用权值计算得出的相关商品在应用场景下很可能就是用户认为的相似商品。这种方式与传统的共同浏览和内容推荐不同,利用了用户浏览过程中的信息,根据用户的实际选择产生不同推荐,从而提高商品页面推荐的多样性。因此,利用熵值建立用户剖面表现出用户在偏好上的稳定性,根据稳定性计算权重进行推荐,可以更好地帮助用户在商品页找到相似商品。本发明的基于商品属性熵值的个性化推荐方法,可以应用到电子商务网站商品页面的个性化推荐过程之中。对于一个需要个性化推荐的推荐系统,根据用户之前的浏览记录,本发明可以使推荐系统在商品页面产生具有商品相似性的个性化推荐,在保持推荐命中率的同时,也可以提高推荐的多样性。本发明除了单独运行的算法,也可以在不进行大量更改的前提下,对其它推荐算法产生的结果进行重新排序。这样一方面使得原有推荐算法的效果不受影响,另一方面提高了商品页个性化推荐的多样性。从而使商品页的推荐更为有效,也提供了一定实时推荐的特性。


图1为本发明的流程示意图。图2为本发明的用户剖面示例图。
图3为本发明的多样化实验特征。图4为本发明与网站常用推荐算法的比较。
具体实施例方式本发明提出一种新的分析用户剖面方式,图2是本发明用户剖面示例图,图中展示了一个具有五种属性分类的用户剖面以及对品牌属性标签的统计,每个属性分类的统计最后会转化为对应分类上的熵值,由于全局可以看成广义上的用户,所以全局熵值也可以使用这种方法得出。根据用户在不同分类上的熵值,并结合总体分类上的熵值将用户分类熵值转化为权重。使用权重计算推荐候选集合中的商品与当前用户所见商品的相似程度, 完成对原有推荐序列的重排列,这种方式倾向于将较为冷门的商品推荐给用户,从而为用户提供更加个性化的相似商品推荐。熵值分析原用于判断系统的稳定程度,常用于热力系统和信息系统。如果一个集合中含有白球4个,黑球1个,那么这个由黑白球组成的系统的熵值应该-0. 8*lg0. 8-0. 2*lg0. 2约等于0. 22。熵值越大系统越不稳定,熵值越小系统越稳定。在基于商品属性熵值的个性化推荐中,我们使用熵值分析用户在各个分类条目下的偏好稳定性,如用户是否在颜色、品牌、样式上体现出系统性的稳定性。如果用户看过4个红色的商品,1个白色的商品,颜色分类的熵值就应为0. 22,这表示用户在颜色上具有较强的系统稳定性,在下一次的商品推荐中,我们应该从颜色上挑选最为相似的商品。通过上述熵值分析方法,我们可以根据用户的浏览记录,找到用户看过的不同的商品。根据推荐系统中的商品属性分类和商品属性,记录用户在不同商品属性分类上商品属性的分布。根据分布计算用户在不同商品属性分类上的熵值。在计算用户熵值的过程中,熵值分析方法也需要记录所有商品在商品属性分类上的分布,并计算全局的属性分类熵值,用来修正因在某个分类上商品属性的集中分布导致用户在这个分类上熵值偏低的情况。本发明的技术方案是根据上述熵值计算的原理和过程,将用户熵值和全局熵值转化为用户熵值剖面对应在不同商品属性分类上的权重。匹配用户当前浏览的商品和推荐候选集合中的商品之间相同的属性值,得到匹配结果。根据匹配结果和权重,计算推荐候选集合中的商品与用户当前浏览的商品的相似度。依照熵值计算下的相似度高低对推荐结果进行降序排序。根据目前的经验分析结果,用户熵值剖面能提高推荐的多样性。即使直接使用熵值计算下的相似度可能导致在经验实验中推荐的命中率下降,本技术方案也可以通过修改相似度公式使其在排序上借鉴推荐候选集的序列,从而使命中率得到保持的情况下,提高推荐的多样性。如图1,为本发明的流程示意图,包括以下步骤1)数据清洗阶段1. 1)根据用户浏览记录的个数,比如浏览过10个不同商品,选取提供个性化推荐的用户群体;1.2)根据选取的用户群体,提取这些用户在电子商务网站上对商品页的浏览记录;1. 3)根据商品页的浏览记录,收集商品信息,主要是规格说明信息,作为下一阶段
8的属性值。属性值包括商品的类别、颜色、材质、规格和价位信息等一切有助于用户鉴别商品的规格信息。2)熵值优化阶段2. 1)根据用户、用户浏览记录、商品属性产生通用推荐集合。通用推荐集合是根据推荐算法计算出来的所有推荐结果,通用推荐集合是一个偏序集,集合包括商品在推荐系统中唯一的标示符和根据推荐算法得出的排序结果;2. 2)根据用户选择的商品和2. 1)中的推荐算法产生推荐候选集。推荐候选集是通用推荐集合的一个子集,是根据一定的用户会话信息筛选而得的偏序集,它结合用户当前的信息对通用推荐集合中的内容进行选择;2. 3)根据通用推荐集合中的商品,计算每个分类属性的全局熵值;2. 4)根据用户、用户浏览记录、商品属性计算用户在每个属性分类上的熵值。3)相似商品推荐阶段3. 1)根据用户选择的商品和用户在属性分类上的熵值,对候选集的推荐项进行重新排序和裁剪,得到最终的推荐集合。其中,步骤1. 3)中中提取商品的属性信息,属性信息可以使用户清楚地了解所购买的商品的大致情况。对于文本型属性,如颜色、材质、样式,可以直接保存在数据库中;对于数值型属性,如价格、重量,需要进行分类,分类的结果是要产生文本型属性,通常是根据网站的分类规则产生。比如网站会根据产品价格将商品分为不同的价格层次,分类程序应该接受这个层次规则,创建一个价格类,并为不同的层次分配一个标签;如果没有则按照分位点的方式产生,分位点可以是5分位点或是10分位点,即将数值区间进行5等分或是10等分,跟通用的描述型统计规则相同。属性值都保存为文本型后,设商品分类集合为S, S有m个不同的分类,使用Ci表示具体的分类,i = 1,2,3,...,m,S表示为S = IC1, C2, C3, ... , CJ,Ci是由属于这个分类的标签组成的集合,设T表示具体的属性标签, 对于一个含有μ 个标签的分类Ci,表示为Ci = IT1, T2, T3, ... , Τμ };对于一件商品P,P 可以含有多个属性标签,这些属性标签来自于不同的属性分类,P的属性标签集合表示为
T2xrTsx3,…,D,其中Li表示来自第i个分类的第Xi个标签,Xi e μ i0步骤2. 1)中的通用推荐可以由传统的内容过滤或协同过滤方法来生成,这个过程可能会使用到商品的属性。通用推荐集合是推荐候选集合的超集。步骤2. 2)中需要使用用户正在浏览的商品页,根据当前商品产生推荐候选集合, 这个过程会使用商品在推荐系统中唯一的标示,从通用推荐集合检索与商品具有关联性的所有商品。此外,根据用户正在浏览的商品,优化过程要对推荐候选集合中的商品进行属性值匹配,商品分类集合S有m个不同的分类,一共有m个属性分类,那么属性匹配向量表示为B = Ib1, b2,b3,. . .,bj,0表示属性不匹配,1表示属性匹配,那么对于推荐候选集中的第k个商品,其对应的匹配向量可以记做&。步骤步骤2. 根据通用推荐集合中的商品,对不同商品在各个属性分类上出现的属性值进行统计得到计数集合。统计的过程是首先构建属性分类表;然后遍历商品数据库,根据每个商品的属性对应的分类将属性添加到属性分类表中,并对重复的项进行计数,直到遍历结束为止。假设一个分类集合中包括η种分类标签,不同分类标签出现的次数记做{C1,C2,C3,. . .,cn},假如用Pi表示每种分类标签出现的比例,Pi可以表示为Pi = g,
根据每个分类标签的比例熵值公式可以表示为e = -If=IPi In p;·。根据统计结果和熵值计算公式得到全局熵值。全局熵值应该是一个向量,对于m个属性分类,用etm表示向量中的项,全局熵值向量表示为肚={ Gtl 9 Q12 9 θ 3,... 9 GtmJ ο步骤2. 4)中计算的熵值是根据用户浏览的商品,统计出用户浏览记录在属性分类上的分布,如在颜色属性上看了五个白色、4个黑色,再使用信息论中的熵值计算公式计算而得的。因此熵值是基于属性分类的,比如品牌上的熵是0. 5、颜色上的熵是1. 0等等。 用户的熵值计算结果为一个向量,对于m个属性分类,用eim表示向量中的项,用户熵值向量可以表示为Eu = {eul, eu2,eu3,. . .,ej,每个进行个性化推荐的用户都有一个用户熵值向
Mo步骤3. 1)中需要利用步骤2. 2)中的用户熵值集合,再根据2. 3)中匹配得到的候选集合商品的属性匹配向量集合,计算出候选集合中每个商品的相似度,再根据相似度对候选集商品进行降序排序。其中,对于第k项商品,k= 1,2,3,4,5...,相似度Simk计算公式为如果 k < = 5,simk = BX (Et-Eu) +k,如果 k > 5,simk = BX (Et-Eu) +0. 5k。根据商品页的推荐需求对候选集合进行裁剪,最后得出最终的推荐集合。在经验实验中,我们抽取了浏览记录大于10个不同商品的用户作为用户样本,然后将用户最后浏览的4个不同的商品作为当前浏览(1个)和将要浏览的商品(3个)。通过实验,我们记录了共同浏览方法和基于商品属性熵值的优化方案的命中次数和命中个数, 其中命中次数指的是推荐物命中每个用户将要浏览的网页的次数,命中个数指的是推荐命中所有用户将要浏览的不同商品的个数。图3是商品属性熵值影响推荐效果的实验。在实验中,我们渐进的扩展共同浏览推荐方式的为用户样本产生推荐的个数,对于每个用户,从1到15,对应曲线为“命中个数” 曲线,并记录共同浏览推荐方式的命中个数。然后,根据共同浏览产生的15次推荐,使用本发明基于商品属性熵值的个性化推荐对推荐集合进行优化,并记录对应的命中个数,对应 “e命中个数”曲线。实验结果表明,基于商品属性熵值的个性化推荐方法可以使命中个数始终高于原有的推荐方式,从而提高了原有推荐的多样性。但是只提高多样性可能会损失命中次数,因此在随后的实验中我们设计了一种混合方法,利用原有推荐的命中次数同时结合本发明基于商品属性熵值的个性化推荐方法的多样性,也就是在现有推荐算法的基础上应用本发明,对原有推荐算法的结果基于熵值进行排序推荐。图4是传统方法的共同浏览与进行熵值优化的混合方法的对比实验结果,在这个实验中推荐的个数仍然是渐进增加的。从实验结果可以看出,共同浏览和混合方法的推荐命中个数是非常一致的,与此同时,混合方法推荐的不同商品个数,也就是命中个数明显高于共同浏览,这说明采用混合方法可以使基于商品属性熵值的个性化推荐方法不损失太多命中次数的情况下,提高多样性。图4中标示的数字,都是属于共同浏览方法。对于具有较少老用户的电子商务网站,本方法可以通过将以往用户的在不同商品上体现出的属性分类偏好,以投票的方式选举出与某个商品比较相似的商品,该方法充分使用已有的数据,在已有的分析结果上对结果进行重新排序,不用对原有的系统进行大幅度的调整,就能帮助电子商务网站改进数据挖掘的多样性效果。对于有大量老用户的网站, 本方法可以帮助用户找到更为个性化的商品。在经验分析的实验中,本方法具有保持准确性和提高多样性两种能力。 在使用过程中,本方法通过分析用户在浏览过程中对商品属性分类的稳定性即熵值,发现用户在寻找商品时的相似性偏好,根据用户在一次会话中的选择,发现用户对某类商品的相似性偏好。从用户的角度在电子商务网站中搜寻相似商品,提高了用户体验,节省了用户选择、搜索的时间。
权利要求
1. 一种基于商品属性熵值的个性化推荐方法,其特征是通过脚本获取电子商务网站用户的浏览记录,对其进行剖析,产生推荐结果进行个性化推荐,包括以下步骤1)数据清洗,根据已有用户浏览的商品记录获取用户在不同分类属性上的分布1.1)在已有用户数据中,根据所需的用户浏览记录的特征,选取提供个性化推荐的用户群体;1. 2)提取所选取的用户群体在电子商务网站上对商品页的浏览记录;1.3)根据浏览记录,收集商品规格信息,作为下一阶段的属性值,所述规格信息为用于用户鉴别商品,获取用户在不同分类的属性上的分布;2)熵值优化,根据每个分类中的属性的分布情况进行熵值计算并进行权值化·2.1)根据电子商务网站已有的用户、用户浏览记录、商品的属性值,由推荐算法产生通用推荐集合,所述推荐算法为内容过滤或协同过滤,通用推荐集合是一个偏序集,集合包括商品在推荐系统中唯一的标示符,以及根据推荐算法得出的排序结果;2. 2)根据当前用户选择的商品产生推荐候选集使用当前用户正在浏览的商品在电子商务站点中唯一的标示,即电子商务运营者分配给不同产品的产品id或uri,从通用推荐集合检索与商品具有关联性的所有商品,产生推荐候选集,并根据用户正在浏览的商品, 对推荐候选集中的商品进行属性值匹配,设共有m个属性分类,属性匹配向量表示为B = Ib1, b2,b3,. . .,bj,0表示属性不匹配,1表示属性匹配,那么对于推荐候选集中的第k个商品,其对应的匹配向量可以记做 ;推荐候选集是通用推荐集合的一个子集,通过使用用户当前的个人信息、浏览信息对通用推荐集合中的内容进行选择、排序后产生;2. 3)根据通用推荐集合中的商品,计算全局熵值根据通用推荐集合中的商品,对不同商品在各个属性分类上出现的比例进行统计,统计的过程是首先构建属性分类表,然后遍历商品数据库,根据每个商品的属性对应的分类将属性添加到属性分类表中,并对重复的项进行计数,直到遍历结束为止;设一个属性分类中包括η种分类标签,不同分类标签出现的次数记做Ic1, C2, c3,...,cn},用Pi表示每种分类标签出现的比例,Pi = g,根据每个分类标签的出现比例,属性分类的熵值公式表示为e = -ZiU P,· Inpi,根据统计结果和属性分类的熵值计算公式得到全局熵值,全局熵值为一个向量,对于m个属性分类,用etm表示全局熵值向量中的项,全局熵值向量表示为肚={etl,et2,et3,. . .,ej ; 2.4)根据用户、用户浏览记录、商品属性计算用户在每个属性分类上的熵值,用户的熵值计算结果为一个向量,对于m个属性分类,用eim表示用户熵值向量中的项,用户熵值向量表示为Eu = {eul, eu2,eu3,. . .,ej,每个进行个性化推荐的用户都有一个用户熵值向量;3)对用户个性化推荐,推荐相似商品,根据当前用户所选商品,与推荐候选集中的结果进行匹配,根据匹配结果和分类熵值权重计算商品的相似度,然后根据相似度进行降序排序完成推荐排序过程·3.1)根据当前用户选择的商品,计算当前用户在属性分类上的熵值,使用步骤2. 2)中匹配得到的候选集合商品的属性匹配向量B,再根据2.3)中的全局熵值向量肚和2.4)中的用户熵值向量Eu,计算推荐候选集中每个商品的相似度,再根据相似度对推荐候选集商品进行降序排序,其中,对于推荐候选集中的第k项商品,k= 1,2,3,4,5...,相似度Simk 计算公式为如果 k 彡 5,simk = BkX (Et-Eu) +k,如果 k > 5,simk = BkX (Et-Eu) +0. 5k,根据商品页的推荐数需求对排序后的推荐候选集的推荐数目进行裁剪,得到最终的推荐集合,进行个性化推荐。
2.根据权利要求1所述的一种基于商品属性熵值的个性化推荐方法,其特征是在步骤 1.3)中,收集商品规格信息作为属性值时,对于文本型属性,直接保存在数据库中;对于数值型属性,进行分类,分类的目的是产生文本型属性,根据电子商务网站的分类规则进行, 保存得到的文本型属性;属性值都保存为文本型后,设商品分类集合为S,S有m个不同的分类,使用Ci表示具体的分类,i = 1,2,3,...,m,S表示为S= IC1, C2,C3,...,(;},(;是由属于这个分类的标签组成的集合,设T表示具体的属性标签,对于一个含有μ i个标签的分类Ci,表示为Ci= ITnT^T3,...,Τμ };对于一件商品P,P含有至少一个属性标签,不同的属性标签来自于不同的属性分类,P的属性标签集合表示为P=FiwAw^3,…,Li),其中 7、表示来自第i个分类的第Xi个标签,Xi e μ i0
全文摘要
一种基于商品属性熵值的个性化推荐方法,通过脚本获取电子商务网站用户的浏览记录,对其进行剖析,产生推荐结果进行个性化推荐。本发明基于属性分类熵值的用户剖面可以帮助推荐算法找到用户在不同属性分类上的偏好,利用用户浏览过程中的信息,根据用户的实际选择产生不同推荐,从而提高商品页面推荐的多样性。对于一个需要个性化推荐的推荐系统,本发明在保持推荐命中率的同时,还提高推荐的多样性。本发明方法还可以在不进行大量更改的前提下,对其它推荐算法产生的结果进行重新排序,这样一方面使得原有推荐算法的效果不受影响,另一方面提高了商品页个性化推荐的多样性,从而使商品页的推荐更为有效。
文档编号G06Q30/02GK102411754SQ20111038572
公开日2012年4月11日 申请日期2011年11月29日 优先权日2011年11月29日
发明者何铁科, 刘嘉, 惠成峰, 都兴中, 陈振宇 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1