基于逻辑回归的电力积分商品推荐方法及系统与流程

文档序号:18476487发布日期:2019-08-20 21:10阅读:176来源:国知局
基于逻辑回归的电力积分商品推荐方法及系统与流程

本公开涉及个性化推荐领域,尤其涉及基于逻辑回归的电力积分商品推荐方法及系统。



背景技术:

本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。

在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:

近年来,信息技术的高速发展导致互联网用户的数量不断增加,数据量呈指数型爆发增长,人们已经进入了一个信息过载的时代,大数据背景下如何在海量的信息中获取用户想要的信息已经成为一项重要的研究课题,推荐算法作为一项克服信息过载的重要技术已经广泛应用于电子商务领域,经过学术界和工业界长期的研究和应用,已经比较成熟,其产生的经济效益是巨大的。

目前在推荐系统中应用最为广泛的当属协同过滤算法,其中包括基于邻居和模型两类方法,基于邻居的方法核心是计算用户之间或物品之间的相似度从而进行下一步的推荐工作。基于模型的方法核心内容是将用户—物品的关系评估数据转化为不同的模型,例如因式分解、贝叶斯网络等模型,通过这些模型向用户进行相应的推荐。用户兴趣具有时间性,当前主流的推荐系统在给用户进行推荐时通常侧重于考虑用户兴趣偏好,对于用户兴趣变化的考虑则略显不足。不同的用户具有不同的行为习惯,在电子商务领域亦是如此,传统的推荐系统没有考虑用户的行为习惯,全部予以计算和推荐,这在无形之中增加了系统的负担,也使得推荐的目标性不强。



技术实现要素:

为了解决现有技术的不足,本公开提供了基于逻辑回归的电力积分商品推荐方法及系统,通过一种潜在客户预测模型,筛选出可能进行积分兑换的用户,从而使推荐工作更具有目标性,也能够减轻推荐系统的负担,推荐采用协同过滤算法,在传统的协同过滤算法的基础上结合时间因素为目标用户进行推荐。

第一方面,本公开提供了基于逻辑回归的电力积分商品推荐方法;

基于逻辑回归的电力积分商品推荐方法,包括:

对用户进行聚类,获得不同的用户群体;

针对每一类用户获取有积分且曾用积分兑换过商品的正样本用户的最相关特征数据,还获取有积分且未用积分兑换过商品的负样本用户的最相关特征数据;

采用逻辑回归算法,以正样本用户的最相关特征数据、负样本用户的最相关特征数据、以及积分兑换与否标签作为训练集数据,建立潜在客户预测模型;

基于潜在客户预测模型,根据待预测用户的历史积分兑换记录,预测用户进行积分兑换的概率;

对于概率大于设定阈值的用户,视为潜在的积分兑换用户,采用协同过滤算法为潜在的积分兑换用户推荐商品。

第二方面,本公开提供了基于逻辑回归的电力积分商品推荐系统;

基于逻辑回归的电力积分商品推荐系统,包括:

用户分类模块,对用户进行聚类,获得不同的用户群体;

最相关特征获取模块,其被配置为针对每一类用户获取有积分且曾用积分兑换过商品的正样本用户的最相关特征数据,还获取有积分且未用积分兑换过商品的负样本用户的最相关特征数据;

潜在客户预测模型构建模块,其被配置为采用逻辑回归算法,以正样本用户的最相关特征数据、负样本用户的最相关特征数据、以及积分兑换与否标签作为训练集数据,建立潜在客户预测模型;

积分兑换用户预测模块,其被配置为基于潜在客户预测模型,根据待预测用户的历史积分兑换记录,预测用户进行积分兑换的概率;

商品推荐模块,其被配置为对于概率大于设定阈值的用户,视为潜在的积分兑换用户,采用协同过滤算法为潜在的积分兑换用户推荐商品。

第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。

第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。

本发明的有益效果:

1.基于逻辑回归算法建立的潜在客户预测模型,一定程度上解决了潜在积分兑换客户的确定问题,充分利用样本信息,使挖掘的结果也比较可靠,通过对用户进行分层聚类,不仅能够细化用户的分类,同时也能够获得更加精确的用户最相关特征信息,逻辑回归算法的使用能够快速确定用户进行兑换积分的可能性,从而使接下来的推荐工作更具有针对性,潜在客户预测模型重点是用户聚类,核心是逻辑回归预测,在提取用户特征信息时可以不拘一格,根据实际情况充实用户数据从而获得不一样的用户最相关数据。

2.推荐方面采用的是协同过滤算法,根据目标用户已经操作过的商品,通过计算基于时间的用户对商品的偏好从而确定目标用户潜在的偏好物品,根据物品相似度得到推荐列表并返还给用户。

3、整个模型包含两部分:潜在客户预测和协同过滤推荐;潜在客户预测模型优势在于相较于其他模型并不复杂,随着数据量的增加,不会导致计算量呈指数上升,这一点满足系统对时间的要求;推荐部分的优势在于计算商品相似度时并不需要重复计算,只需要在系统商品变更时才会进行计算,同样满足系统实时性要求。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1潜在客户预测模型图;

图2数据库关系图;

图3实验时数据样例图;

图4推荐系统模型图;

图5用户兑换数据比例图;

图6有无相关特征分析的潜在客户预测效果对比;

图7推荐准确率;

图8推荐召回率。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一,本实施例提供了基于逻辑回归的电力积分商品推荐方法;

基于逻辑回归的电力积分商品推荐方法,包括:

s0:对用户进行聚类,获得不同的用户群体;

s1:针对每一类用户获取有积分且曾用积分兑换过商品的正样本用户的最相关特征数据,还获取有积分且未用积分兑换过商品的负样本用户的最相关特征数据;

s2:采用逻辑回归算法,以正样本用户的最相关特征数据、负样本用户的最相关特征数据、以及积分兑换与否标签作为训练集数据,建立潜在客户预测模型;

s3:基于潜在客户预测模型,根据待预测用户的历史积分兑换记录,预测用户进行积分兑换的概率;

s4:对于概率大于设定阈值的用户,视为潜在的积分兑换用户,采用协同过滤算法为潜在的积分兑换用户推荐商品。

作为一个或多个实施例,所述对用户进行聚类,获得不同的用户群体,是指:

基于积分兑换用户的评价指标,对用户采用聚类方式进行分类;

对每一类用户的历史积分兑换记录,采用基于互信息的特征选择方法进行最相关特征选择。

作为一个或多个实施例,所述基于积分兑换用户的评价指标,对用户采用聚类方式进行分类;具体步骤包括:

积分兑换用户的评价指标,包括:积分兑换用户的年积分兑换量和月积分兑换量;

采集积分兑换用户的年积分兑换量和月积分兑换量;

采用模糊c均值算法对年积分兑换用户进行聚类,得到r个簇;

采用模糊c均值算法对月积分兑换用户进行聚类,得到s个簇;

将用户分为r×s个类。

作为一个或多个实施例,所述历史积分兑换记录,包括:用户积分累积余额、用户积分兑换信息、用户积分兑换时间、用户积分兑换次数、用户积分兑换频率和最后一次积分兑换行为发生时间到当前时间的时间间隔。

作为一个或多个实施例,采用基于互信息的特征选择方法进行最相关特征选择,是选取互信息最大的前k个特征作为该类用户最相关特征。

作为一个或多个实施例,采用协同过滤算法为潜在积分兑换用户推荐商品,具体步骤包括:

采集潜在用户的历史商品浏览行为数据,提取历史浏览商品属性、历史购买商品属性和历史购买商品的价格;

计算商城已有商品与用户历史浏览商品的属性的第一相似度;将第一相似度大于设定阈值的商城已有商品存储到第一商品推荐集合中;

计算第一商品推荐集合中的商品与用户历史购买商品的属性的第二相似度;将第二相似度大于设定阈值的第一商品推荐集合中的商品存储到第二商品推荐集合中;

计算第二商品推荐集合中的商品与用户历史购买商品的价格的差值;将差值小于设定阈值的第二商品推荐集合中的商品存储到第三商品推荐集合中;

计算第三商品推荐集合中的商品被用户浏览的时间点与当前时间点的时间差,基于时间差计算用户对第三商品推荐集合中每个商品的偏好程度,时间差越小表示偏好程度越大;

将第三商品推荐集合中的商品,按照偏好程度降序输出。

在计算商品相似度时同样可以根据实际情况进行充实,诸如可以增加信息如用户每月平均积分增长量、用户每月平均兑换次数、兑换时间间隔等等,从而取得更加精确的挖掘效果。模型的扩展性比较强也是本模型的一大优点,具有更好的适应性。

采用欧几里德距离计算物品之间的相似度,自变量是商品的价格和分类,从计算上讲,不需要复杂的计算,提高了算法运行效率,精度方面满足后续推荐工作,推荐结果上考虑到了时间因素对用户兴趣的影响,使推荐的内容更具合理性。

作为一个或多个实施例,历史商品浏览行为数据,包括:用户的基础信息、用户所浏览过的商品的属性、用户所咨询过的商品的属性、用户所收藏过的商品的属性、用户浏览商品的次数和用户购买过的商品价格。

应理解的,用户兑换积分的多维评价指标形式如下:

其中α和β为时序特征向量,分别表示用户的年积分兑换量时间序列数据和月积分兑换量时间序列数据,i表示用户,vd表示用户数据。

最相关特征的选择计算公式如下:

上式中infi表示各个特征,yi表示积分是否兑换。p(x=infi,y=yi)表示infi和yi的同时出现在整个数据集中的概率,通过上式的计算对各个特征进行排序,并选取互信息最大的前k个特征作为该类用户逻辑回归建模的最相关特征信息。

针对不同的用户群体,在潜在客户预测最相关特征信息数据的基础上选取相应的数据组成实验用的数据集,并将处理后的信息按照4:1的比例分为训练集和测试集,用于对模型的训练和测试。

模型训练。采用逻辑回归方法,用户进行积分兑换的概率设为p,则

其中,f=ut*x+wt*y+at*t,u,w,a满足的条件是u=(u1,u2,u3),w=(w1),a=(a1,a2,a3),u,w,a均为参数向量,其中参数个数可以根据群体最相关特征的不同而改变,初始值由人工设置,根据实验的结果进行调整。构造样本出现的似然函函数,并采用梯度上升进行计算获得各个参数的值。

计算商品之间的相似度,具体计算公式如下:

上式表示商品a和商品b的相似度,βi是权重参数,可以根据实际情况以及训练情况进行调整;ai和bi的取值描述见表1。

表1商品部分信息表

在得到商品之间的相似度后,根据表2的时间参数进行计算基于时间的用户对项目的偏好。

表2用户偏好信息

用户兴趣变化规律是短期内用户的兴趣不变,长期内用户的兴趣呈非线性遗忘,因此依据艾宾浩斯遗忘曲线和人的普遍遗忘规律,选用幂函数作为时间函数,根据相关研究采用的函数如下:

f(u,i)=0.318×(t0-tui)-0.125

上式中t0表示当前推荐的时间点,tui表示用户u操作i的时间点,(t0-tui)表示两者之间的天数,f(u,i)表示用户u对i的偏好程度。

通过计算获得k(k的取值根据实际情况而确定)个用户兑换、收藏以及咨询这三类商品中基于时间的用户偏好程度最高的商品作为用户的潜在偏好商品并整理成集合m′,分别获取与集合m′中各个的商品最为相似的商品并整合成推荐列表,推荐列表中商品的个数可以根据实际情况来确定。

本发明实施例提供一种基于逻辑回归的电力积分商城推荐算法。传统的推荐算法目标性不强,在积分商城用户数量巨大时,会导致推荐系统负担过重,耗费大量的财力物力,通过采用逻辑回归算法能够在一定程度上确定目标用户进行积分兑换的可能性,从而有针对性的推荐。对于目标商品的推荐,则采用目前比较成熟的协同过滤算法,在此基础上参考时间信息进行相应的推荐,从而更好适应用户兴趣的变化,提高推荐的效果。

参考图4,图4是本发明在逻辑回归算法的基础上进行推荐的模型图,步骤包含如下:

a.以山东某电力积分商城数据为基础,根据图2所示数据库关系图来查找所需要的用户信息数据,主要分为四个部分:商城会员的基础信息、积分信息、兑换信息和时间信息,并汇总整理得到信息汇总表和商品信息表(内容为商品id、商品类别、商品价格、点击数)。

b.根据用户的年积分兑换量时间序列数据和月积分兑换量时间序列数据对用户进行分层次模糊c均值聚类,初始化聚类数目c=3,模糊程度系数m=2,得到9个用户群体,通过最相关特征分析获得不同用户群体的最相关特征数据,将这些数据作进一步的处理并筛选得到实验用数据集。

c.取用户近两年的记录作为数据集,按照用户群体的不同将数据集分为五个部分,分别包含五个训练集和测试集,其中,五份训练集和测试集中的用户兑换数据所占比例如图5所示。

d.使用训练集对不同用户群体的潜在客户预测模型分别进行训练并获得相应的的参数。在获得相应参数后即可对目标用户进行预测。通过sigmoid函数来计算目标用户进行兑换的可能性,值大于0.5时判定其可能进行兑换,值小于0.5时判定其不会进行兑换,实验时所用的数据集中不同群体用户最相关特征信息有所不同,以其中一类为例,最相关特征信息包括:商城会员年龄、绑定用电客户数、积分支付次数、最后一次兑换至现在的时间间隔、收藏和咨询商品数、积分兑换频度、积分余额,汇总如表3所示,数据样例如图3所示。

表3某用户群体最相关特征信息汇总表

分别采用其中四个维度、六个维度、八个维度的数据进行潜在客户预测模型训练,综合分析各群体的实验结果,表现如下:当维数取值为4时,实验总体准确率处于39%~45%,维数取值为6时,实验总体准确率处于40%~60%,实验维数取值为8时,总体准确率处于55%~78%,由此看见,增加潜在客户预测模型的信息量能够在一定程度上提升推荐的效果。不同用户群体下,有无相关特征分析的潜在客户预测效果对比如图6所示,可以看出,通过相关特征分析建立的潜客挖局模型能够更好的挖掘潜在积分兑换用户。

e.本发明采用基于物品的协同过滤算法。计算物品相似度并整合成物品相似度表,针对已有兑换记录的商城会员,寻得用户偏好的三类商品,分别是收藏商品、兑换商品和咨询商品以及相应的操作时间,通过计算获得基于时间的用户对商品的偏好,选取前k个商品作为用户偏好商品,通过物品相似度表分别获得这k个商品最为相似的商品并汇总成推荐列表(k的取值视情况而定),推荐的总体效果如图7和图8所示。

实施例二:本实施例提供了基于逻辑回归的电力积分商品推荐系统;

基于逻辑回归的电力积分商品推荐系统,包括:

用户分类模块,对用户进行聚类,获得不同的用户群体;

最相关特征获取模块,其被配置为针对每一类用户获取有积分且曾用积分兑换过商品的正样本用户的最相关特征数据,还获取有积分且从未用积分兑换过商品的负样本用户的最相关特征数据;

潜在客户预测模型构建模块,其被配置为采用逻辑回归算法,以正样本用户的最相关特征数据、负样本用户的最相关特征数据、以及积分兑换与否标签作为训练集数据,建立潜在客户预测模型,如图1所示;

积分兑换用户预测模块,其被配置为基于潜在客户预测模型,根据待预测用户的历史积分兑换记录,预测用户进行积分兑换的概率;

商品推荐模块,其被配置为对于概率大于设定阈值的用户,视为潜在的积分兑换用户,采用协同过滤算法为潜在的积分兑换用户推荐商品。

实施例三:本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。

所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(smartphone,如android手机、ios手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解,在本公开中,该处理器可以是中央处理单元cpu,该处理器还算可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1