一种分析用户交易行为的方法及装置与流程

文档序号:11865648阅读:233来源:国知局
一种分析用户交易行为的方法及装置与流程

本发明实施例涉及用户交易的技术领域,尤其涉及一种分析用户交易行为的方法及装置。



背景技术:

目前,客户购物分析已经越来越受到零售企业的重视。交易购买树分析是关联规则在零售业的一个重要应用,它通过发现顾客购物商品之间的联系,来分析顾客的购买行为并辅助零售企业制定营销策略。通常说的购买树分析指的是通过购买树中显示出来的交易信息来分析顾客的购买行为,顾客在购买商品的过程中通常会一次购买多个商品,从而使得这些商品之间具有很强的关联性。因此,我们可以认为顾客的购买行为是一种整体的行为,即是否购买一件商品会影响到其他商品的购买,从而影响到每个购买树的利润。所以,购买树分析的目标就是找出重要而且有价值的购买树,从零售记录中分析出顾客经常同时购买的商品的组合,从而有利于商品的促销、摆架、物流等。

当前的购买树分析技术主要是基于聚类算法的购买树分析方法。其中,应用最为广泛的就是HAC(hierarchical agglomerative clustering)算法,其主要包括了归类和测距两个过程。凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足,绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上有所不同。将每个对象归为一类,共得到N类,每类仅包含一个对象。类与类之间的距离就是它们所包含的对象之间的距离。找到最接近的两个类并合并成一类,于是总的类数少了一个。重新计算新的类与所有旧类之间的距离。重复前面的步骤,直到最后合并成一个类为止(此类包含了N个对象)。

传统的聚类方法基于客户的地理位置、人口学特征等静态属性信息,聚类结果不一定有相同的购买行为,而且指标数据具有私有性不易获取的特点,导致不能取得良好的聚类效果。随着信息时代的到来,对大量的数据进行分析处理是一个很庞大的工作,这就关系到一个计算效率的问题。目前许多聚类方法处理小规模数据和低维数据时性能比较好,但是当数据规模增大,维度升高时,性能就会急剧下降,比如传统方法处理小规模数据时性能很好,但是随着数据量增多,效率就逐渐下降,而现实生活中的数据大部分又都属于规模比较大、维度比较高的数据集。



技术实现要素:

本发明实施例的目的在于提出一种分析用户交易行为的方法及装置,旨在解决如何提高聚类效果的问题。

为达此目的,本发明实施例采用以下技术方案:

第一方面,一种分析用户交易行为的方法,所述方法包括:

从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;

根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;

对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;

每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。

优选地,所述根据所述交易号对所述交易数据进行分组聚集,包括:

每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;

其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。

优选地,所述从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树,包括:

对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;

依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。

优选地,所述对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树,包括:

对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。

优选地,所述每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,包括:

使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;

将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;

通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。

第二方面,一种分析用户交易行为的装置,所述装置包括:

读取模块,用于从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;

分组模块,用于根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;

建立模块,用于对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树;

聚类模块,用于每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类;

选取模块,用于循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。

优选地,所述分组模块,用于:

每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;

其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。

优选地,所述建立模块,用于:

对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;

依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。

优选地,所述建立模块,还用于:

对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。

优选地,所述聚类模块,用于:

使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;

将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;

通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。

本发明实施例提供一种分析用户交易行为的方法及装置,将用户购买行为数据压缩为购买树数据,购买树数据更利于用户大数据的存储和处理,将数据进行合理的压缩后提高聚类的效果,大大提高实际应用价值;同时,在交易购买树的聚类方法中,使用谱聚类的方法,巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值(向量)的问题,将离散的聚类问题松弛为连续的特征向量,最小的系列特征向量对应着图最优的系列划分方法,剩下的仅是将松弛化的问题再离散化,即将特征向量再划分开,便可以得到相应的类别。通过以上过程得到的聚类结果,不仅规避了传统聚类对用户静态属性的依赖,而且对用户数据进行了合理降维取得良好的用户分组结果。

附图说明

图1是本发明实施例提供一种分析用户交易行为的方法的流程示意图;

图2是本发明实施例提供的一种商品树的结构示意图;

图3是本发明实施例提供的一种交易购买树的结构示意图;

图4是本发明实施例提供的一种分析用户交易行为的装置的功能模块示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。

参考图1,图1是本发明实施例提供的一种分析用户交易行为的方法的流程示意图。

如图1所示,所述分析用户交易行为的方法包括:

步骤101,从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;

步骤102,根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;

优选地,所述根据所述交易号对所述交易数据进行分组聚集,包括:

每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;

其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。

步骤103,对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树。

优选地,所述从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树,包括:

对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;

依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。

具体的,商场中出售的商品都可以根据商品类别构造出商品树,例如,图2为某超市的商品树结构示例图。其中,商品树的“Television&Video”包含两个子类商品属性“4K Ultra HD TVs”和“Smart TVs”。

优选地,所述对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树,包括:

对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。

具体的,使用谱聚类方法后得到交易购买树,如图3为交易购买树示例图。首先构建一个商品树,对于每个顾客来说,分别构建个人商品树,称作购买树。对所有的交易数据根据客户划分成组,对每组数据合并建立该用户的购买树。用户购买树之间的相似度使用相似度矩阵计算,使用谱聚类算法产生聚类结果。所以本文中通过对多个参数进行赋值,观察聚类结果,选取比较好的的聚类结果,最终得到较为理想的效果。

步骤104,每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。

优选地,所述每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类,包括:

使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;

将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;

通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。

本发明实施例提供一种分析用户交易行为的方法,将用户购买行为数据压缩为购买树数据,购买树数据更利于用户大数据的存储和处理,将数据进行合理的压缩后提高聚类的效果,大大提高实际应用价值;同时,在交易购买树的聚类方法中,使用谱聚类的方法,巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值(向量)的问题,将离散的聚类问题松弛为连续的特征向量,最小的系列特征向量对应着图最优的系列划分方法,剩下的仅是将松弛化的问题再离散化,即将特征向量再划分开,便可以得到相应的类别。通过以上过程得到的聚类结果,不仅规避了传统聚类对用户静态属性的依赖,而且对用户数据进行了合理降维取得良好的用户分组结果。

参考图4,图4是本发明实施例提供的一种分析用户交易行为的装置的功能模块示意图。

如图4所示,所述分析用户交易行为的装置包括:

读取模块401,用于从零售企业数据库中读取交易数据,所述交易数据包括交易号、交易时间、商品名称、销售额、以及商品所属父类名称;

分组模块402,用于根据所述交易号对所述交易数据进行分组聚集,所述交易数据是交易记录的全集,所述交易数据的每行为一个商品的交易记录;

建立模块403,用于对所述交易数据根据客户划分成组,对每组数据合并建立每个用户的购买树;从所述交易记录中抽取无重复无遗漏的商品,根据所述商品带有的层次信息建立商品树。

聚类模块404,用于每个用户购买树之间的相似度使用相似矩阵表示,使用谱聚类对拉普拉斯矩阵进行聚类;

选取模块405,用于循环聚类过程,从至少一个聚类结果中选取最好的聚类结果,所述最好的聚类结果为用户分组结果。

优选地,所述分组模块402,用于:

每条交易记录的形式为T=[TID,<i1,i2...,in>]的形式;

其中,T为一次交易,TID为交易号,in为某个商品,<i1,i2...,in>为此次交易中购买的商品集合。

优选地,所述建立模块403,用于:

对所述商品名称和所述商品所属父类名称进行编号,从交易记录集合中抽取无重复无遗漏的商品集合;

依据所述商品携带的从属类别关系,自顶向下建立一个商品树,树中每个节点含有一个键值对,键为商品名称或类别名称,值为对应编号。

优选地,所述建立模块403,还用于:

对所述交易数据按不同的客户划分成组,依次对每组商品建立一颗购买树,所述购买树中的每个节点含有编号值。

优选地,所述聚类模块404,用于:

使用相似度矩阵S(i,j)计算用户购买树i和j之间的相似度,将每一列元素加起来放在对角线上组成N*N相似度矩阵S;

将相似度矩阵S转化成为拉普拉斯矩阵L,求出前k个特征值以及对应的特征向量,排列所述特征值和所述特征向量组成一个N*k的矩阵;

通过拉普拉斯特征映射的降维方式降维,将得到的特征向量进行K-means聚类。

本发明实施例提供一种分析用户交易行为的装置,将用户购买行为数据压缩为购买树数据,购买树数据更利于用户大数据的存储和处理,将数据进行合理的压缩后提高聚类的效果,大大提高实际应用价值;同时,在交易购买树的聚类方法中,使用谱聚类的方法,巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值(向量)的问题,将离散的聚类问题松弛为连续的特征向量,最小的系列特征向量对应着图最优的系列划分方法,剩下的仅是将松弛化的问题再离散化,即将特征向量再划分开,便可以得到相应的类别。通过以上过程得到的聚类结果,不仅规避了传统聚类对用户静态属性的依赖,而且对用户数据进行了合理降维取得良好的用户分组结果。

以上结合具体实施例描述了本发明实施例的技术原理。这些描述只是为了解释本发明实施例的原理,而不能以任何方式解释为对本发明实施例保护范围的限制。基于此处的解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明实施例的其它具体实施方式,这些方式都将落入本发明实施例的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1