大数据云熵挖掘的电子商务定制化推荐方法与流程

文档序号:35004639发布日期:2023-08-04 02:44阅读:73来源:国知局
大数据云熵挖掘的电子商务定制化推荐方法与流程

本技术涉及一种网购大数据定制化推荐方法,特别涉及一种大数据云熵挖掘的电子商务定制化推荐方法,属于电子商务平台商品推荐。


背景技术:

1、如今的电子商务网站上,各种商品琳琅满目,人们足不出户就可以买到自己想要的商品,这种方式不仅为消费者节省了大量的时间,而且方便、快捷、高效。因此,随着电商平台的推广和巨大的潜在价值,许多厂商纷纷将自己的商品放到互联网上通过各种方式进行展示和销售,使得电商平台上的商品数量在一定的时间内大幅增加,电商规模也越来越大,加上当前的检索功能以及推荐策略的相关技术较少考虑到消费者的特定化需求,导致用户想要在短时间内搜索到自己想要的商品变得越来越困难,必须花费很多时间浏览大量感兴趣的商品信息才能够找到满意的商品。

2、随着数据挖掘相关技术的不断发展,为用户的定制化商品推荐服务提供了解决方法,通过收集并分析不同用户在互联网上浏览、购买商品的相关数据,挖掘出对商家和消费者都实际有用的信息,从而增加用户搜索商品的效率,为商家增加一定的经济利益,同时也为用户和商家提供了一种新的合作方式,提高了电商的效率,也促进了企业商品的销售。

3、定制化推销是现如今发展很快并且很受欢迎的营销方式,相较于传统的营销模式,特定化的销售方式更具有消费者针对性,对不同的对象,立足于不同的偏好情况与兴趣特征,提供不同的推荐结果,做到对消费者形成一对一的销售模型。而推荐服务功能是电商平台的定制化销售过程中,必不可少的一部分。不同的互联网用户也可以根据自己的习惯、兴趣或爱好在较短的时间内找到适合自己的商品,提高了电子商务平台的使用效率,为使用者节省了大量的时间,用户体验性更好,商家将因此而获益。

4、但是目前,在不同的实现背景下,定制化推荐实现难度较大,仍然面临着诸多难题,现有技术的推荐系统和算法仍然存在着很大的局限性,并不能较好的满足消费者不断增长与变化的需求特征,亟需既可以解决整个电商站点中数据杂乱、庞大、无序糟糕的问题,还能为不同消费者提供符合其偏好特征的商品呈现,具有很好实用性的方法。

5、现有技术电子商务定制化推荐方法主要存在以下几个方面的问题:(1)使用效率较低,当前大多数电商平台并没有建立有效可靠的用户偏好模型,缺少立足于该模型设计出合适的定制化推荐算法;(2)智能化程度较低,现有技术的推荐服务,依赖于消费者的电子商务行为记录。因此,消费者在确认想要购买的商品之前,需要有相关的操作记录,才可以得到推荐系统给出的推荐结果,并不能根据用户的个人信息,先行、快速的推断出用户可能感兴趣的商品,整个系统的智能化程度不高;(3)持续时间不够长,推荐系统基于用户在某个会话中的数据请求操作,较少利用消费者的历史行为记录。

6、随着电商平台的商品数量和种类日益增多,整个电商系统产生的数据信息量也越来越庞大,消费者想要在短时间内,从数量庞大的商品信息中,找到最切合自己意愿的商品变得越来越困难。如果有足够可行的推荐系统作为支撑,提供给消费者一个精确的商品推荐结果集,用户就可以在较短时间内找到所需的商品,从而减少单位时间内的用户访问量,也在一定程度上解决了网络拥塞的问题。现有技术电商推荐面临的问题有以下方面:(1)推荐系统的准确度不够高:现有技术服务功能能够根据使用者的点击或交易记录,训练学习出相似类别的对象,若消费者浏览的商品种类较多,数据量较大时,推荐系统就很难系统地、全面地分析这些数据,并给出精准化的推荐结果。(2)推荐系统的实时性不够好:为保证推荐系统的精确度,现有技术引入新的概念并设计出更复杂的推荐算法,而这又对计算机的处理能力带来了新的挑战,并且电商平台用户数量越来越大,同时为所有用户提供定制化服务必然会降低推荐系统的实时性,并且随时间推移,用户的需求和兴趣也在发生快速变化,给推荐系统带来了巨大挑战。(3)推荐系统的模式和功能单一:现有技术推荐功能的实现策略只是一个能够提供某种推荐功能的单一工具,并不能很好的适应越来越复杂且变化快速的消费情况,在该领域多类别化以及使用者复杂化的大背景下,推荐系统应该有相应的策略,去满足不同背景下的各项需求。(4)可拓展性较差:实际的电子商务平台不仅数据量大,而且时刻会有新的用户和商品加入进来,新用户与新商品不断产生新的联系,如浏览、点击、收藏、比较、购买、评论,导致整个系统中的数据信息时刻处于动态变化中,亟需处理海量数据和探索可扩展的推荐技术。(5)用户隐私保护问题突出:目前的推荐系统对于用户隐私的保护十分有限,并不能满足消费者日益增长的隐私保护需求。推荐系统需要用户的某些信息和历史数据作为支撑,若推荐系统并不能较好的保护消费者的隐私,使消费者缺乏必要的安全感,系统在获取准确的个人信息时,就较为困难,直接影响了推荐系统的推荐质量和准确性。

7、除上述问题和缺陷外,本技术需要解决的问题和关键技术难点还包括:

8、(1)现有技术许多推荐算法都是基于评分矩阵的,且仅在某一特定场景下有较好的推荐效果,很难克服其天生的弊端,对于超大型的电子商务平台,使得用户商品评分矩阵的稀疏性很大,用户也仅对数量极少的商品进行评价,大大影响了相似度计算可靠性,从而降低了推荐系统的准确率,所以矩阵的数据稀疏性成为目前推荐算法必须要解决的问题之一,针对数据稀疏性问题,现有技术缺少优质的相似度计算方法,无法克服传统度量方法的不足,造成推荐结果不准确,面对海量电子商务数据的处理效率很低。

9、(2)目前,超大型电子商务平台的商品种类已经达到了百万级,用户的数量更是高达千万级,但每个用户不可能对每种商品都给予评价值,造成了用户-商品的评分矩阵极为稀疏,使传统相似度计算方法产生较大误差,在传统度量方法中,余弦相似度一般对用户未给出的商品评价赋值为0,但实际情况是用户未给出的评价商品并不都一定是用户偏好程度最低的,有可能是用户并未注意到该商品,也有可能是用户购买以后未及时给出评价值;修正的矢量余弦方式或皮尔逊相关度也存在着类似的问题,极为稀疏的用户-商品评分矩阵导致不同用户都购买过,且及时给出合理评价值的商品非常稀少,用户间的相似度普通偏低,极大影响了目标对象最近邻的准确性,最终导致电子商务定制化推荐速度慢,准确率太低,有时候甚至起到适得其反的作用,给用户带来非常不好的体验。

10、(3)由于现有技术协同过滤方式的推荐算法都是通过收集并分析用户的历史电商行为记录以及商品的某些购买数据,来计算用户或商品间的相似度,进而通过参数调整获得用户或商品的最近邻集,协同过滤方式在训练数据集较为全面且数据量较为充足时,系统有较好的推荐效果,但对于刚加入电商平台的用户或商品来说,各种电子商务记录都非常稀少,现有技术的相似度计算方法很难准确求得目标对象间的相似度,在某些极端情况下,计算相似度甚至成为不可能,不利于准确构建目标对象的最近邻集,严重影响了算法给新用户的推荐结果准确性,也降低了新商品的购买率,而现实情况是,每天都会有大量的用户或商品加入到电子商务网站,冷启动问题时时刻刻都存在,且用户一商品评分矩阵的数量会随着新对象的加入呈指数级增长,导致数据稀疏性问题一直存在,并可能越来越严重。因此,各平台想要提供更好的推荐服务并率先赢得新用户的亲睐,就不得不解决冷启动问题与矩阵的数据稀疏性问题,力求构建更加完善的推荐系统,为情况不同的用户提供更好的推荐服务。


技术实现思路

1、本技术针对现有技术的协同过滤推荐方式存在的不足,创造性的提出两种改进策略:一是提出了基于云熵挖掘与预计评分的推荐算法,克服传统相似度计算方法所存在的缺陷,通过云相似度计算方法提高相似度的准确性,并有效解决了数据稀疏性问题;二是提出了基于邻接集矩阵分解模型的推荐算法,利用用户的注册记录或档案信息获取其邻接集模型,采用加入全局偏置量允许增量更新的奇异值分解方法,并用最优化理论中的随机梯度下降法,求得各参数的最优化解,较好地应对用户冷启动问题,提高了推荐算法的准确性。本技术定制化推荐立足于用户不同的偏好与兴趣,提供了不同且精准的推荐结果,做到对消费者形成一对一的销售模型,大幅提高了电子商务平台的使用效率,为使用者节省了大量的时间,用户体验性更好,商家将因此而获益。

2、为实现以上技术效果,本技术所采用的技术方案如下:

3、大数据云熵挖掘的电子商务定制化推荐方法,融合两种改进策略:采用云熵挖掘方法求各对象的相似度,以获得更加准确的最近邻集;采用基于邻接集矩阵分解模型解决冷启动和数据稀疏性问题;

4、1)建立基于云熵挖掘与预计评分的电商推荐算法:一是改进相似度计算方法,采用用户对商品集的评分值计算信息,在整体层面上粗粒度的考虑对象的相似度,计算归纳出目标对象的整体特征,通过云相似度计算方法提高相似度的准确性,解决数据稀疏性问题;二是基于云熵挖掘模型的预计评分推荐,预测用户对目标商品的评分值,增加不同用户共同购买并评价过的商品数量,在协同过滤算法的基础上改进得到一种改良的定制化推荐算法,基于云熵挖掘计算用户的相似度,构建该用户的最近邻集,获取最近邻集中用户对目标商品的评价值,并加权求得目标用户对该商品的评价预测值,最后将预测值排序,将预测数值最大的若干个商品作为推荐结果的一部分,加入推荐列表中,供用户选择;

5、2)建立基于用户邻接集矩阵分解模型的推荐方法:包括构建邻接集模型和用户邻接集矩阵分解定制化推荐,通过用户注册数据或档案信息,构建用户的最近邻集,采用加入全局偏置量允许增量更新的奇异值分解方法,对用户—商品评分矩阵进行降维,解决矩阵的数据稀疏性问题,并用最优化随机梯度下降法,求得各参数的最优化解,应对用户冷启动问题。

6、优选地,改进的相似度计算方法:通过用户对商品评价值的大小来判断用户对商品的偏好程度,如果电商给用户对某商品的评价级有非常讨厌、讨厌、一般、喜欢、非常喜欢五个级,对应的评价数值为1分、2分、3分、4分、5分,设c1、c2、c3、c4、c5分别表示上述五个级的评价次数,ux表示评价次数的向量;

7、基于逆向云熵逆向挖掘,利用各个用户的评价次数向量,反映不同用户对各个商品评价特征的定性知识,并计算求得用户-商品的评价特征向量,记作f=(ex,en,he),其中ex表示目标用户对所有商品的平均偏好度,en表示用户对商品评价的集中度,he表示en的稳定度;

8、云相似度的度量方式:若fi、fj分别表示云i、j的数字特征向量,且fi=(exi,eni,hei),f=(exj,enj,hej),则向量fi、fj的夹角余弦值即为云i、j的相似度,计算式表示如下:

9、

10、由用户对应的评价特征向量fa、fb、fc、fd,根据云相似度计算式,计算求得用户的相似度矩阵,

11、用户评价特征向量的三个维度分别是该用户对商品的平均偏好度、用户评分的集中度和评价值的离散度,计算该评价特征向量的相似度包含用户评价的各项信息,适用于矩阵的数据稀疏情况,利用用户对商品集的评分值计算信息,计算归纳出目标对象的整体特征,避免相似度计算对目标对象的严格匹配情况。

12、优选地,预测用户对商品的评分:首先采用云相似度求解目标对象的相似度,然后根据用户对相近商品的评价值,预测用户对目标商品的评分值,增加不同用户共同购买并评价过的商品数量,避免矩阵稀疏性所带来的问题;

13、记i为目标对象的评价次数向量,cx表示用户集对该商品x级别的评价次数,将商品评价级分为1至5五个级,基于逆向云熵逆向挖掘,通过目标商品的评价次数向量,求得云熵挖掘的三个数字特征值,构成商品评价的特征向量,记作f=(ex,en,he),其中ex是云熵挖掘的期望值,表示目标用户对所有商品的平均偏好;en是云熵挖掘的熵,表示用户对商品评价的集中度;he是云熵挖掘的超熵,表示en的稳定度,然后根据商品的评价特征向量,基于云相似度计算方法,计算商品的相似度,并预测目标用户尚未评价的商品的评分值,

14、优选地,预测用户对商品的评分的具体步骤如下:

15、第一步:输入用户一商品的评分矩阵rm×n;

16、第二步:由rm×n的评价情况求得各商品的评价次数向量ii(c1、c2、c3、c4、c5),由逆向云熵逆向挖掘,计算得到各商品的评价特征向量fi=(exi,eni,hei),其中i是区间[1,n]的某个整数,表示n个用户或特征的id;

17、第三步:由云相似度计算公式,求得商品i、j的相似度,计算式如下:

18、

19、第四步:找出sim(i,j)值较大的前k个商品,构成目标商品的最近邻集ni={i1,i2,…,ik},其中ni不包含sim(i,j)值为1的商品i本身,且集合ni的元素值随着下标增大而递减;

20、第五步:由ni求得目标用户u对商品i的预计评分值,计算式如下:

21、

22、其中ruj表示用户u对商品j的已有评价值,sim(i,j)为商品i、j的相似度。

23、优选地,生成推荐结果集:采用云相似度计算方法来计算对象的相似度,在协同过滤算法的基础上作改进,并由此提出一种改良的定制化推荐算法:基于云熵挖掘的相似度计算方法计算用户的相似度,构建该用户的最近邻集,获取最近邻集中用户对目标商品的评价值,并加权求得目标用户对该商品的评价预测值,最后将预测值排序,将预测数值最大的若干个商品作为推荐结果的一部分,加入推荐列表中,供用户选择。

24、优选地,基于云熵挖掘与用户预计评分推荐算法的基本流程是:首先收集用户的评分数据,并对该数据进行处理,得到用户一商品评分矩阵r;然后对r中的评价情况进行计算,求得各商品的评分次数向量;再由逆向云求云熵挖掘数字特征的计算方法,求得各商品的评价特征向量;结合云相似度计算方法求得目标商品与其它商品的相似度,排序得到最近邻集;根据最近邻集中近邻商品的评价情况,预测目标商品的评分值,并填充用户—商品评分矩阵;然后根据完整的评分矩阵,计算目标用户的评分情况,并计算得到该用户的评价特征向量;再由特征向量计算用户间的相似度,求得该用户的最近邻集;最后根据最近邻集中近邻用户的评分情况,计算目标用户的预计评分值,并将预测值较高的若干个商品作为推荐结果,呈现给用户,从而完成整个推荐过程。

25、优选地,构建邻接集模型:用户在登录电商平台时,系统根据用户的档案信息,查找并构建其最近邻集,由此对现有技术协同过滤算法进行改进,先给出用户u对商品i预计评分的计算式:

26、

27、其中bui表示用户u的全局偏置量,n(u,k)表示用户u的k个近邻所组成的最近邻集,h(i)表示购买过商品i的所有用户所构成的集合,v表示任一用户,wuv表示用户v对于目标用户u的权重参数,rvi表示近邻用户v对相应商品i的已有评价值。

28、要得到准确的评价预测值,需要求得bui和wuv,并确定目标用户u的最近邻集n(u,k),bui的计算式为:

29、bui=bu+bi+μ  式5

30、其中bu表示用户对象的偏置量,即用户u在其历史评价习惯中与目标商品没有关系的因素值,b表示商品对象的偏置量,即i商品在得到的评价与用户没有关系的因素值,μ表示训练集中某商品对象的所有评价值的平均,用户一商品评分矩阵为rui,rui表示用户u对商品i的实际评价值,表示算法为用户u对商品i提供的评价预测值,u={ul,u2,…,un}表示n个用户组成的用户集,i={i1,i2,…,im}表示m个商品构成的商品集。

31、优选地,wuv与n(u,k)的获取方式:

32、(1)构建最近邻集n(u,k):假定每个用户的特征向量f都是n维,且f的每个元素对应该用户的性别、年龄、职业、学历、收入档案信息,表示为:f=(性别,年龄,职业,学历,收入),然后对用户的各项信息进行数字化表征,性别{男,女}表示为{0,1};年龄区间(0,100]用1表示岁数区间(0,14]以内的用户,2表示年龄在(14,19]以内的用户,3表示年龄在(19,22]以内的用户,4表示年龄在(22,26]以内的用户,按照人数均匀划分年龄区间,由此类推;其他类型的用户信息也按如此的数字表示方式来表示,分别求得各维度的不同取值范围对评分值差异的影响程度,即分析数据集中同一维度的不同取值的用户在平均评分上的绝对差异,并构成评分值的差异矩阵dk(fi,fj),然石根据用户的档案信息求得用户两两间的差异集d,再根据dk中对s的年龄与学历维度中不同的取值范围对评分造成的绝对平均差异值加权求和得到sim(u,v)的值,最后从sim(u,v)值集合中选取k个相似度最大的用户,构成目标用户u的最近邻集n(u,k),相似度计算式如下:

33、

34、其中fi,f′i分别表示用户u、v所对应的特征向量f中同一维度的不同数字化表征值,且属于差异集d,即该维度有差异,如果无差异,则di的值为0,max(r)表示评分上限,n为用户特征向量的维度;

35、(2)计算近邻的wuv值:利用新注册用户的档案信息来计算用户间的相似度,并由此构建目标对象的最近邻集,最后计算近邻用户的评价信息,预测目标用户的评价值;

36、在预测用户的评价值之前,判断用户的基本性质,如果目标用户u有可用的历史行为记录,则利用随机梯度下降法求得参数wuv的值;如果目标用户u为新用户,且没有可用的历史行为记录,则利用(1)中求得的sim(u,v)值作为权重wuv的值;

37、计算过程中,利用已有的用户行为记录,不断调整并求得误差最小时的权重值wuv,先定义目标函数:

38、

39、其中各字母的表示含义均已定义,式中的因子防止训练结果过拟合情况;

40、求式中变量bu、bi,和wuv的偏导数,再由随机梯度下降法迭代求得式7的最小值,通过迭代优化算法求得最佳参数值,如式8所示:

41、bu←bu+α(eui-λbu)

42、bi←bi+α(eui-λbi)

43、

44、其中α为学习速率,eui为评价值预测误差λ为正则化参数,根据平均绝对误差与误差临界值的大小,决定迭代过程的继续或终止。

45、优选地,用户邻接集矩阵分解定制化推荐:

46、采用奇异值分解将用户一商品评分矩阵r分解为两个简易矩阵p、q的乘积,表达式为r=pt*q,并在分解的同时采用全局偏置量使增量迭代更新,在降低算法空间复杂度的同时也抽取维度为f的潜在特征向量作为评分矩阵缺失值的预测;

47、将多维矩阵r分解为pt、q两个简易矩阵的乘积形式,以简化数据的复杂程度,采用矩阵分解的损失函数l(u,i)计算式为:

48、

49、其中rui表示评分矩阵r中用户u对商品i的评价值,pu表示用户集p中目标用户u的特征向量,qi表示商品集q中目标商品i的特征向量,因子λ(|pv||2+||qi||2)用于防止过拟合;

50、通过随机梯度下降法求得l(u,i)的最小值,迭代过程如下:

51、puk←puk+α(eui*qik-λpuk)

52、qik←qik+α(eui*puk-λqik)  式10

53、在训练过程之初,对pu和qi进行初始化,即用随机数值填充pu和qi的f维特征向量,对目标用户u的评价值rui计算然后求得评价预测值与实际值的误差并更新特征向量的每个维度,完成特定次数的迭代更新之后便可求得分解之后的简易矩阵p、q;

54、结合目标对象的全局偏置量得到用户的预计评分值计算式:

55、

56、最小化误差式有如下推导过程:

57、

58、加入防止过拟合因子后公式变为:

59、

60、由随机梯度下降法对wuv、pu、qi、bu和bi参数进行迭代求解,求得各个用户的bu和pu值,各个商品的bi和qi值,以及最近邻集中用户v对于目标用户u的权重值wuv;

61、求解参数固定算法迭代的次数count、正则化参数λ与学习速率α,隐特征向量的维度f与最近邻集中的近邻个数k。

62、与现有技术相比,本技术的创新点和优势在于:

63、(1)本技术针对现有技术的协同过滤推荐方式存在的不足,提出两种改进策略:一是提出了基于云熵挖掘与预计评分的推荐算法,克服传统相似度计算方法所存在的缺陷,通过云相似度计算方法提高相似度的准确性,并有效解决了数据稀疏性问题,通过离线实验验证了该算法的可靠性与优越性,采用云熵挖掘方法求各对象的相似度,获得了更加准确的最近邻集;二是提出了基于邻接集矩阵分解模型的推荐算法,利用用户的注册记录或档案信息获取其邻接集模型,采用加入全局偏置量允许增量更新的奇异值分解方法,并用最优化理论中的随机梯度下降法,求得各参数的最优化解,较好地应对用户冷启动问题,提高了推荐算法的准确性,通过实验数据验证该算法的合理性与高效性,采用基于邻接集矩阵分解模型解决了冷启动和数据稀疏性问题。本技术定制化推荐立足于用户不同的偏好与兴趣,提供了不同且精准的推荐结果,做到对消费者形成一对一的销售模型,大幅提高了电子商务平台的使用效率,为使用者节省了大量的时间,用户体验性更好,商家将因此而获益。

64、(2)本技术创造性的提出了基于云熵挖掘与预计评分的电商推荐算法,一是针对性的改进了相似度计算方法,采用用户对商品集的评分值计算信息,在整体层面上粗粒度的考虑对象的相似度,计算归纳出目标对象的整体特征,通过云相似度计算方法提高相似度的准确性,巧妙的解决数据稀疏性问题;二是基于云熵挖掘模型的预计评分推荐,预测用户对目标商品的评分值,增加了不同用户共同购买并评价过的商品数量,在协同过滤算法的基础上改进得到一种改良的定制化推荐算法,构建该用户的最近邻集,获取最近邻集中用户对目标商品的评价值,并加权求得目标用户对该商品的评价预测值,最后将预测值排序,将预测数值最大的若干个商品作为推荐结果的一部分,加入推荐列表中,供用户选择,提高相似度的准确性,使得用户的特征提炼及计算针对性更强,商品推荐效率更高,针对性更强,更加准确。

65、(3)本技术创造性的提出了基于用户邻接集矩阵分解模型的推荐方法,通过构建邻接集模型和用户邻接集矩阵分解定制化推荐,基于用户注册数据或档案信息,构建用户的最近邻集,基于邻接集模型提高推荐算法大幅提高了新注册用户提供结果的准确性,采用加入全局偏置量允许增量更新的奇异值分解方法,对用户—商品评分矩阵进行降维,解决矩阵的数据稀疏性问题,并用最优化随机梯度下降法,求得各参数的最优化解,有效应对用户冷启动问题,提高推荐结果的质量,最终实现对海量电子商务数据内容的高效管理,解决整个电商站点中数据杂乱、庞大、无序糟糕的问题,还能为不同消费者提供符合其偏好特征的商品精准呈现与推荐,并具有良好的加速比和可拓展性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1