多支持度的正负序列模式在客户购买行为分析中的应用的制作方法

文档序号:6649157阅读:633来源:国知局
多支持度的正负序列模式在客户购买行为分析中的应用的制作方法
【专利摘要】本发明涉及一种多支持度的正负序列模式在客户购买行为分析中的应用。本发明中提出一个名为E-msNSP的高效算法来挖掘基于多支持度的负序列模式,所述算法的主要思想是首先通过改进MS-GSP算法挖掘得到基于多支持度的正序列模式,然后用和e-NSP相同的方法通过公式来计算负序列侯选模式的支持度,无需再次扫描数据库。所述E-msNSP是第一个没有约束限制的基于多支持度的负序列模式挖掘算法。本发明筛选出某一段时间内,每一类产品中用户购买量比较大的商品,这样客户在购买产品时,利用本发明可以向他推荐一些其它客户购买频率比较大的类似相关产品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
【专利说明】多支持度的正负序列模式在客户购买行为分析中的应用

【技术领域】
[0001] 本发明涉及多支持度的正负序列模式在客户购买行为分析中的应用,属于多支持 度的正负序列模式的应用【技术领域】。

【背景技术】
[0002] 随着计算机和互联网的普及,网络购物时下已经成为一种非常流行的购物方式。 网络购物现在不仅仅是一种时尚,r然成为了生活中不可或缺的一部分,特别是年轻一族 更热衷于网上购物该种新型的购物方式。近年来,网络购物呈爆发式增长,每年都W几何数 级增长,与此同时很多大型的电子商务网站,如Amazon、阿里己己旗下的淘宝和天猫商城、 京东等都积累了大量的客户交易数据。如何充分利用该些数据对客户购买行为进行有效的 分析、组织利用,如何了解到客户尽可能多的爱好和价值取向,W优化网站设计,为客户 提供个性化服务,成为电子商务发展迫切要解决的问题。
[0003] 与传统的经营方式相比,电子商务的商家不能直观的去了解客户,获取的相关的 数据有限(比如用户的注册信息,购买记录等)。通过对大量的客户购买记录进行分析和挖 掘,发现客户的频繁访问序列模式,针对不同的客户属性和网上购物步骤,采用不同的商品 推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可W有效 的增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚 度,W及提高网站的服务质量和经济效益。
[0004] 目前大多数人都是用关联规则分析进行个性化商品推荐,很少有人用序列模式分 析来解决该一问题。关联规则分析所要解决的问题是发现哪些商品是客户喜欢一起购买 的,客户在一次交易中购买某些商品后还会购买哪些商品,它是发现交易的内部规律的过 程,从而使得分析人员能够按照客户的购买兴趣来安排商品的摆放,W增加交易量。而序列 模式分析所要解决的问题是客户在完成一次交易之后,在W后的特定时间内,还会购买什 么商品,是发现交易之间关系规律的过程,使得售货方能够根据当前的商品买卖情况来预 测W后的商品买卖情况,从而能够更好的安排商品的摆放。它的主要目的是研究商品购买 的先后关系,找出其中的规律,即不仅需要知道商品是否被购买,而且需要确定该商品与其 它商品购买的先后顺序,例如,在线定购过商品A的客户,40 %的人会在2个月内定购商品 B。序列模式能够发现数据库中某一段时间内的一个频繁序列,即在该个时间段内哪些商品 会被客户购买的比较多,多或少的标准是由最小支持度来决定的。每个序列是按照交易的 时间排列的一组集合,可W设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序 列模式分析客户购买行为,解决个性化商品推荐问题时,他们仅考虑了已发生的事件,也称 为正序列模式(Positive Sequential 化ttern,PSF〇 挖掘。
[0005] 与传统的正序列模式(Positive Sequential化ttern,PSF〇相比,负序列模式 (Negative Sequential化ttern,NS巧挖掘还考虑了未发生事件,为数据分析提供了新的 角度,能够更深入地分析和理解数据中的潜在含义。例如;a代表面包,b代表咖啡,C代表 茶,d代表糖,<ab-cd〉表示一个客户购买序列模式,该模式说明在某一段时间内,该客户 在购买了商品a、b后,在没有购买商品c的情况下,购买了商品d。人们越来越认识到像该 种负序列模式在深入理解和处理许多商业应用方面,如客户行为分析、治疗服务和疾病之 间的关联方面,它更有一种不可替代的作用。
[0006] 目前用于负序列模式挖掘的算法较少,如,PNSP,NegGSP,e-NSP等等。但是该些 算法,用的仅仅是单最小支持度,单最小支持度意味着所有的项在数据库中拥有相同的发 生频率,即所有的产品都拥有相同的购买频率,可是在现实生活中该个假设显然是不能成 立的,恰恰相反,一些产品购买得非常频繁,而有些产品购买的却非常稀疏。如家用电器和 生活用品该两类产品,肯定是购买家用电器的频率不如生活用品多,如果我们用单一的最 小支持度,家用电器很可能会全被筛选掉,但实际上家用电器也有很多品牌卖的很畅销, 所W单一支持度不符合实际应用。而现有的挖掘方法多使用单一的最小支持度,该样存 在一个问题:如果挖掘的最小支持度定得较高,那么覆盖较少数据但却使有意义的知识将 不能被发现;如果最小支持度定得过低,那么大量的无实际意义的数据将充斥在挖掘过程 中,该将大大降低挖掘的效率。因此,有人提出了一些基于多持度频繁项集挖掘算法,女口 MS-Apriori,化-XMMS和MLMS算法。多支持度允许用户根据挖掘数据各属性的实际发生概 率为数据库中的每个项都定义一个支持度,即为每一款商品设置它自己的最小支持度,不 同的项集根据所包含的数据项情况需要满足不同的最小支持度。但是该些方法中能用于序 列模式的却很少,而且它们只考虑了基于多支持度的正序列模式挖掘,如MS-GSP和MS-PS 算法。该是因为基于多支持度的序列模式挖掘比基于多支持度的频繁项集挖掘要困难的 多。我们所能找到的基于多支持度的负序列模式挖掘的方法只有CPNFSP。但是CPNFSP方 法只识别和负关联规则相似的形式,如(-,為纔,(4 ^ and bi ^潑。CPNFSP要求 该对于关联规则挖掘是很重要的,但是对于序列模式挖掘而言,它有一定的约束性。该是因 为在序列中,项/项集是有顺序的,每个项可W在一个序列的不同元素中发生。一个客户一 次购买的商品构成一个元素,商品为元素中的项,一段时间内购买的商品构成一个序列,该 客户可能在不同的时间段购买同一件产品。所^大多数情况下苗^最^:三。<
[0007] W电子商务平台中的网站用户购买订单数据为挖掘的数据源。
[0008] W 5个客户在2个月内的交易为例,如表1是由客户ID和交易时间为关键字所排 序的事务数据库。一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单 项属性中的字母记录的是商品ID。
[0009] 表1事务数据库
[0010]

【权利要求】
1. 一种多支持度的正负序列模式在客户购买行为分析中的应用,其特征在于,包括步 骤如下: (1) 定义基于多支持度的负序列的最小支持度 MIS(i)表示项i的最小项支持度,i是正项或负项;正元素,即已购买的商品,它的最小 支持度是元素中项i的最小支持度值,对于负元素,即未购买的商品,则用相关的正元素的 信息来计算它的最小支持度 : 对于负元素-(ab),其中a,b代表某种商品,该负元素的最小支持度是: MIS(-{ab))=l~MIS(aZ>) =l-min[MIS(a),MIS(b)]; 基于多支持度的负序列S的最小支持度是序列中元素的最小支持度值,其中S中元素 集包含^1,e2. ? ?er,其中S的最小支持度minsup⑶是: minsup(S) =min[MIS(e^ ,MIS(e2),. . . ,MIS(er)]; 对于一个购买序列S和它的最小支持度minsup(S),如果S只包含正元素,s(S)彡minsup(S),那么S被称为正序列模式;如果S包含负元素,s(S)彡minsup(S),那么 S被称为负序列模式; (2) 利用E-msNSP算法的步骤如下: 首先,用基于多最小支持度的MS-GSP算法来挖掘得到所有的正序列模式,即在某一段 时间内,客户购买量大的商品; 然后,基于所述正序列模式生成相应的负侯选序列; 其次,利用相关的正序列模式的支持度来计算所述负侯选序列的支持度; 再从所述负侯选序列里筛选出符合最小支持度要求的负序列模式,再用适当的筛选方 法将能用于决策的序列模式筛选出来,利用这些筛选后的序列模式对客户的购买行为进行 分析; (3) E-msNSP负侯选序列的生成 对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻 元素为负元素得到的:m= 1,2,…,「k/2l,其中「k/2]为大于k/2的最小整数; (4) 计算负侯选序列的支持度 定义一个负侯选序列 MPS(ns):负序列ns的最大正子序列,即包含负序列中所有的正元素;MPS?a^bc^d>)-<ac>; l-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;l-negMSSns:包含负序列ns的所有1-negMS加子序列的集合;I = {< a]be>, <ac^d>}; p(l-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如: /?(<?]Ac》二 < >,p(<ac^d>) -<acd>; 大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序 列)Gl-negMSSns (含有一个负元素的序列的集合)(1彡i彡n),在序列数据库D中ns的 支持度sup(ns)是:
如果ns只包含一个负元素,那么序列ns的支持度是:sup(ns) =sup(MPS(ns))-sup(p(ns)) (ii) 特别地,对于负序列 sup{Oe}) =jDj-sup{ <e}) (iii) (5)算法伪代码 设计一个数据结构来存储e-msNSP相关数据,所述数据结构存储正侯选序列以及它的 支持度和{sid},包含相应的正侯选序列的sid集合; 所述e-msNSP算法是基于正序列模式来挖掘负序列模式,算法E-msNSP包括步骤如 下: 其中,输入:D:客户购买序列数据库;MIS(i):每款产品的最小项支持度;输出:NSP: 用于分析客户购买行为的序列模式的集合; (I)PSP^MS-GSP();
所述步骤(1)是用基于多最小支持度的MS-GSP算法从序列数据库中挖掘出所有的正 序列模式;所有的正侯选序列以及它的支持度和sid的集合都被存储到哈希表PSCHash,其 中,所述步骤(2)是负侯选序列的哈希码作为关键码; 所述步骤(4)是对于每一个正序列模式,通过刚才所说的"负侯选序列的生成"方法来 生成负侯选序列NSC; 步骤(5)至步骤(20),通过公式(i)-(iii)计算出NSC中的每一个nsc的支持度;步 骤(21)至步骤(23)然后判断出哪些是负序列模式NSP; 步骤(6)至步骤(10),通过公式(ii)和公式(iii)计算出只含有一个负元素的nsc的 支持度,对于包含多于一个负元素的nsc的支持度,通过公式(i)计算出如步骤(9)至步骤
将包含P(I-IiegMSi)的sid集合存储到{pd-negMSi)}集合中,然后计算{p(I-IiegMSi)}的并集,再计算出集合中含有的sid的个数;步骤(21)行计算出nsc的最小 支持度,它是序列中所有元素的MIS值中最小的一个; 如果nsc.support〉=minsup(nsc)那么nsc被加入到NSP中,如步骤(22)至步骤 (23); 返回结果,如步骤(26),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用 这些筛选后的序列模式来分析客户的购买行为。
【文档编号】G06Q30/02GK104504159SQ201510026256
【公开日】2015年4月8日 申请日期:2015年1月19日 优先权日:2015年1月19日
【发明者】董祥军, 徐田田 申请人:齐鲁工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1