一种基于关联规则和双聚类的航空客户数据挖掘方法

文档序号:6508821阅读:228来源:国知局
一种基于关联规则和双聚类的航空客户数据挖掘方法
【专利摘要】本发明公开了一种基于关联规则和双聚类的航空客户数据挖掘方法,包括如下步骤:(1)获取数据:收集航空客户对飞机上产品或服务的评分数据,构造客户-产品或客户-服务矩阵D,其中每行代表一位客户,每列代表一种产品,其中每个元素代表一位客户对一种产品或服务的评分;(2)基于一致演化类型的双聚类模型,结合并行计算技术对客户评分数据进行挖掘,获知在不同产品或服务项目上持相同或相近偏好态度的客户群体,从而实现对客户的细分。本发明能找到所有偏好或习惯相近的客户群,精确地细分客户,提高了客户细分方法的鲁棒性和准确性,降低计算量,从而提高航空客户细分的速度和精度。
【专利说明】一种基于关联规则和双聚类的航空客户数据挖掘方法
【技术领域】
[0001]本发明属于数据挖掘【技术领域】,提供基于关联规则和双聚类的航空客户数据挖掘方法。
【背景技术】
[0002]随着经济全球化,企业面临着越来越激烈的市场竞争。对企业来说,单纯地满足客户需求,强调为所有客户提供同样优质的服务,很可能是事倍功半,得不偿失。从竞争的角度看,一个真正有效的客户价值判断系统应该通过对客户进行细分,使企业能够为不同层次的客户提供不同水平的服务,并因此获得最大的投入产出比。企业根据客户的属性、行为、需求、偏好以及价值等因素对于客户进行分类,可以提供具有针对性的产品和服务。高效的客户关系以扎实的客户细分为基础。客户细分已经成为贯穿于企业的客户获取、客户保持及客户发展等过程的重要基础分析手段。通过客户细分,企业可以更好的识别不同的客户群体,区别对待不同客户,采取不同的客户战略,改善产品与服务,增大销售,提高效率与效果,进而达到最优化配置客户资源、追求最大盈利的目的。目前,客户细分主要应用于传统的旅游业、餐饮业、零售业、传媒业,也包括新兴的网络服务及其它电子商务领域。
[0003]目前常用的客户细分指标主要基于客户的购买行为、营销份额、满意度等。作为重要的细分指标,客户满意度指航空客户通过对一个产品的可感知效果与他的期望价值相比较之后,所形成的愉悦或失望的感觉状态。研究以航空客户满意度为指标的客户细分体现了客户价值判断的精髓:一切关注客户,一切以客户满意为中心。目前,基于客户满意度的客户细分的技术有很多,包括经验分析法、决策树法、神经网络法和聚类方法等。其中,聚类方法是基于客户满意度的客户细分技术的主流方法,且聚类方法与大多数方法(包括经验分析法、决策树法和神经网络法等)相比,它更易于理解。
[0004]聚类分析的基本思路是把性质相近的个体归为一类,性质差异较大的个体归于不同的类,最终达到类内个体具有较高的同质性,类间个体具有较高的异质性。聚类方法根据一群客户某些特征(如购买行为、客户份额等)的相似程度,将客户分为若干组,其中相似的客户构成一组。尤其当特征输入变量数值型时,这种方法效果比较好。聚类方法是一种无监督的方法,不需要使用者具备相应的先验知识。常用的聚类方法有K-means方法和模糊C均值(FCM)方类方法。
[0005]但是使用聚类方法处理高维数据对客户进行细分时会遇到下面几个问题:
[0006](I)高维客户数据集中存在大量与问题无关的属性,使得基于所有维度的客户特征进行聚类的可行性不高。
[0007](2)不同客户对产品或服务的打分标准不同。有的客户打分偏低或偏高。聚类方法较难找到偏好或习惯相近的客户群。
[0008](3)高维数据集中存在着大量的局部信息,这是传统聚类方法难以挖掘出来的客户特征。
[0009](4)大数据分析的计算复杂度高,引起系统性能下降。[0010]聚类方法基于距离或密度来衡量客户相似程度,如欧氏距离、余弦相似度、Pearson相关系数等常见相似度计算方法。如K均值方法,层次聚类等一些传统的聚类方法都是采用基于距离或密度的方法来进行聚类。在聚类普通维数较低的数据时,效果较好,能够聚类出数据间的全局信息,以此对客户分类。但是在聚类高维的客户数据时,由于高维数据的特点,这些聚类方法在聚类效果上很难达到要求。聚类方法都是在行或列上进行聚类,聚类结果都是包含所有行或列的。分析研究众多传统聚类方法发现,使用基于满意度的客户细分聚类方法只能找到在所有评分项目构成的属性空间相距较近的客户群体,而一般无法找到部分偏好或习惯相近的客户群。聚类得到的信息属于全局信息,因此高维数据中的局部信息将不被发现(现有客户细分方法一般采用聚类技术,以欧氏距离衡量客户相似程度。聚类方法在客户数据分析的过程中把全部客户看成是待分类的对象,特征空间由全局决定并且由聚类结果共同占有。这种聚类方法只是全局的聚类,因此使用基于满意度的客户细分聚类方法只能找到在所有评分项目构成的属性空间上相距较近的客户群体,而一般无法找到仅在部分项目上偏好或习惯相近的客户群)。
[0011]双聚类方法能直接避免以上不足之处。双聚类最初是为了发现基因表达数据矩阵中具有生物意义的子模式而提出的新聚类方法。目前双聚类方法不仅可以应用于DNA芯片的分析,还大量应用于金融预测等领域。双聚类并不是在全部行或列上进行聚类,而是在行和列两个维上同时聚类。双聚类的组织没有预先的约束,行或列的信息既可以属于多个聚类,也可以不在任何簇中,因此双聚类这种不受限制的结构使得双聚类的产生拥有了更大的自由度,从而可以使得隐藏在数据矩阵中的各种局部聚类信息得以充分发现。双聚类与聚类在数据处理方法上的区别如图2。
[0012]当前大多数主流的双聚类方法的特点是应用启发式的策略寻找对实际问题有意义的双聚类。传统找双聚类的方法是Cheng anD Church提出的,他们定义了一个度量量叫均方残差(MSE),用来度量(capture)微阵列数据矩阵中子矩阵的表达水平的一致性。CC方法利用贪心的启发式策略来寻找在基因微阵列矩阵中部分基因在部分实验条件下具有一致的表达的子矩阵,即双聚类。传统双聚类方法应用在客户细分上主要有以下问题:
[0013](I)传统方法利用贪心的启发式策略,只能够找到部分有用的双聚类。
[0014](2)传统方法通常需要设定初始的参数,而结果对参数的值极其敏感,导致使用双聚类方法的效果情况不稳定。
[0015](3)不同客户对产品或服务的打分标准不同。利用传统方法找的双聚类一般找不到偏好或习惯相近的客户群。
[0016]本发明为了找到偏好或习惯相近的客户群,在原有客户-产品(或服务)矩阵中找出具有一致演变趋势的双聚类,即在数据矩阵中找到一个子矩阵,如果在某一行中,存在对该子矩阵的一个列的置换,使得每一行的值的序列都是严格递增的,那么这个子矩阵是一致演变趋势的双聚类。图3所示为例。
[0017]为了精确找出所有具有类似爱好和消费习惯的客户组,需要同时在客户和产品(或服务)两个维上聚类,找出演变趋势一致的双聚类。这样的结果包含客户的一个子集,并且涉及产品的一个子集,且同一个双聚类里的客户对其中的产品或服务评分的数值变化趋势相近。
[0018]客户-产品(或服务)矩阵中的双聚类具有以下特点:[0019](I)只有少量的客户参与一个双聚类;
[0020](2) 一个双聚类只包含少量产品(或服务);
[0021](3) 一个客户可能参与多个双聚类,也可能不参与任何双聚类;
[0022](4) 一种产品(或服务)可能被多个双聚类所涉及,也可能完全不被任何双聚类所涉及;
[0023](5)同一个双聚类里的客户对其中的产品或服务评分的数值变化趋势相近。

【发明内容】

[0024]本发明的目的在于克服现有技术存在的上述不足,提供一种基于关联规则和双聚类的航空客户数据挖掘方法。在关联规则和双聚类的基础上,通过并行计算寻找频繁k项集矩阵,从而找出所有具有一致演变趋势的双聚类。本发明在现有技术的基础上,进一步提高了客户细分方法的鲁棒性和准确性,精确地细分客户,找到所有偏好或习惯相近、购买行为相似的客户群,进一步丰富了客户细分的技术方法。具体技术方案如下:
[0025]一种基于关联规则和双聚类的航空客户数据挖掘方法,包括如下步骤:
[0026](I)获取数据:收集航空客户对飞机上产品或服务的评分数据,构造客户-产品或客户-服务矩阵D,矩阵D为m行*n列的实数矩阵;其中每行代表一位客户,每列代表一种产品,其中每个元素代表一位客户对一种产品或服务的评分;
[0027](2)基于一致演化类型的双聚类模型,结合并行计算技术对上述客户的评分数据进行挖掘,获知在不同产品或服务项目上持相同或相近偏好态度的客户群体,从而实现对客户的细分。
[0028]上述方法中,步骤(I)中,收集的数据包括客户对飞机上空乘服务、广播水平、机上餐食、客舱设施、机上娱乐、航班延误等项目的评分数据,其分值大小是范围从10到100的实数。根据这些数据构造客户-产品或客户-服务矩阵矩阵D,矩阵D为m行*n列的实数矩阵。D = GXC.,其中,行的集合G代表航空客户,列的集合C表示机上不同的产品或服务项目。矩阵D中的每个元素Du则代表了某航空客户对相应的机上产品或服务项目的评分。
[0029]步骤(2)中,在关联规则和双聚类的基础上,通过并行计算寻找频繁k项集矩阵来找到所有具有一致演化趋势的双聚类,从而精确地细分客户,获知所有偏好或习惯相近、购买行为相似的客户群,所述k为所找到的双聚类的列数。
[0030]进一步的,步骤(2)包括如下步骤:
[0031](2.1)选定矩阵D的第一行为参考行并对该行全部元素进行由小到大的排序,按照初始的列号顺序做列的置换;再选择任意一对呈单增关系的元素,并针对这两个元素所在的两列,扫描整个数据集中全部行;如果在这两列所在位置上满足单调递增关系的元素足够多,即行数大于所定阈值,则认为这些满足单调递增关系的元素所在的行(包括参考行在内)与该两列一起构成一个频繁2项集矩阵;通过这种方法,找到以参考行中任意两个单增关系为基础,且其它行同样在对应两列位置是单增关系的全部频繁2项集矩阵;
[0032](2.2)在(2.1)的基础上,选择两个含有共同一列的频繁2项集矩阵,并判断其共有的行数是否大于给定阈值;若是,则判定这两个频繁2项集矩阵可以生成一个频繁3项集矩阵,该矩阵的行为两频繁2项集矩阵的共同行,列为两频繁2项集矩阵的并集,即有3列;
[0033](2.3)参照(2.2),在已有所有基于参考行第一行的频繁(k-Ι)项集矩阵的基础上,选择两个含有共同k-Ι列的频繁(k-1)项集矩阵,并判断该两个含有共同k-Ι列的频繁(k-Ι)项集矩阵共有的行数是否大于给定阈值;若是,则判定这两个频繁(k-Ι)矩阵可以生成一个频繁k项集矩阵,该矩阵的行为两频繁(k-Ι)项集矩阵的共同行,列为两频繁(k-1)项集矩阵的并集,即有k列;
[0034](2.4)依次改变参考行为第二行、第三行......第m行,对不同参考行执行与针对参
考行为第一行的上述步骤(2.0- (2.3),找到基于不同参考行的全部频繁k项集矩阵。
[0035]上述基于关联规则和双聚类的航空客户数据挖掘方法中,步骤(2.4)找到的基于不同参考行的全部频繁k项集矩阵,即为具有一致演化趋势的双聚类,每个双聚类都可以表示成矩阵D’ =G’ XC’,行的集合G’代表客户,列的集合C’表示产品或服务项目,矩阵D’表示该双聚类包含客户的一个子集及该子集中的客户涉及的产品的一个子集,且同一个双聚类中的客户对其中的产品或服务评分的数值变化趋势相近;由此获知对若干产品或服务项目上持相同或相近偏好态度的客户群体,实现客户细分的目标。
[0036]与现有技术相比,本发明具有如下优点和技术效果:
[0037]I)现有客户细分技术一般使用聚类方法,在客户细分当中基于全部特征对客户进行相似性度量,难以发现对应于局部特征中某些模式的客户群体。本发明通过一致演化类型的双聚类方法,提高数据挖掘的效率和精确度;能基于局部特征精确地细分客户,找到所有偏好或习惯相近、购买行为相似的客户群,提供有针对性的产品、服务和业务模式。
[0038]2)目前双聚类方法大多是启发式的,不能找到全部双聚类模式,而且对初值极为敏感。本发明通过寻找新定义的频繁项集矩阵,将基于关联规则和双聚类的方法运用到航空客户细分中,在包含客户信息的数据矩阵固定地由上而下搜索双聚类,能找到所有满足最小支持度的双聚类,是精确的方法,且具有鲁棒性。
[0039]3 )目前一般使用串行技术进行客户细分。本发明运用并行计算技术对提出的基于关联规则的双聚类方法实现并行化处理,能显著降低计算时间,提高系统的运行速度,更适用于大数据分析的任务。
【专利附图】

【附图说明】
[0040]图1为本发明实现过程的流程图。
[0041]图2为双聚类和聚类数据处理方法的比较图。
[0042]图3为演变趋势一致的双聚类示例图。
[0043]图4为用双聚类方法细分出的某一类航空客户例图。
[0044]图5为并行方法中实验数据集参数。
[0045]图6为并行方法加速比实验结果。
【具体实施方式】
[0046]以下结合附图和实例对本发明的具体实施作进一步说明。
[0047]系统测试:在一个实际的航空客户对机上项目评分的数据集上实验,以此例说明双聚类方法细分客户的效果以及检验本并行程序的加速性能;实现流程如图1所示。
[0048]( I)首先进行调研,收集客户对相应的机上服务项目的评分数据。实验数据集是一家国内航空公司的客户对机上各种服务项目(service projects)的评分,构造30行,30列的客户-产品(或服务)矩阵D。其中行表示航空客户,列表示机上服务项目,每个元素值则代表了某航空客户对相应的机上服务项目的评分,其分值大小是范围从10到100的实数,实验中阈值Hi0设为15。
[0049](2)然后基于一致演化类型的双聚类模型,结合并行计算技术对客户评分数据进行挖掘,获知在不同产品或服务项目上持相同或相近偏好态度的客户群体,从而实现对客户的细分。
[0050]上述方法中,步骤(2)中所述挖掘过程包括:
[0051](2.1)选定矩阵D的第一行为参考行并对该行全部元素进行由小到大的排序,按照初始的列号顺序做列的置换;再选择任意一对呈单增关系的元素,并针对这两个元素所在的两列,扫描整个数据集中全部行;如果在这两列所在位置上满足单调递增关系的元素足够多,即行数大于所定阈值,则认为这些满足单调递增关系的元素所在的行(包括参考行和前述步骤中满足条件的其他行)与该两列一起构成一个频繁2项集矩阵;通过这种方法,找到以参考行中任意两个单增关系为基础,且其它行同样在对应两列位置是单增关系的全部频繁2项集矩阵;
[0052](2.2)在(2.1)的基础上,选择两个含有共同一列的频繁2项集矩阵,并判断其共有的行数是否大于给定阈值;若是,则判定这两个频繁2项集矩阵可以生成一个频繁3项集矩阵,该矩阵的行为两频繁2项集矩阵的共同行,列为两频繁2项集矩阵的并集,即有3列;
[0053](2.3)参照(2.2),在已有所有基于参考行第一行的频繁(k-Ι)项集矩阵的基础上,选择两个含有共同k-Ι列的频繁(k-1)项集矩阵,并判断该两个含有共同k-Ι列的频繁(k-Ι)项集矩阵共有的行数是否大于给定阈值;若是,则判定这两个频繁(k-Ι)矩阵可以生成一个频繁k项集矩阵,该矩阵的行为两频繁(k-Ι)项集矩阵的共同行,列为两频繁(k-1)项集矩阵的并集,即有k列;
[0054](2.4)依次改变参考行为第二行、第三行......第m行,对不同参考行执行与针对参
考行为第一行的上述步骤(2.0- (2.3),找到基于不同参考行的全部频繁k项集矩阵。
[0055]最终,一共有3809个双聚类(bicluster)被发现。因为篇幅限制,这里只给出一个找到的双聚类。该双聚类可以表示成矩阵D’ =G’ XC’,行的集合G’代表17个客户,列的集合C’表示6个机上服务项目,这6个机上服务项目分别是A (空乘服务)、B (广播水平)、C (机上餐食)、D (客舱设施)、E (机上娱乐)、F (航班延误率)。矩阵D’中的元素为17个客户对6个服务项目的评分。矩阵D’中这些客户对涉及的服务项目的评分的数值变化趋势相近。该双聚类说明在全部30个客户中有17个客户对空乘服务、广播水平、机上餐食、客舱设施、机上娱乐、航班延误率这6个机上服务项目的评价态度是一致的。如图4所示。显然,超过一半的客户认为第二项和第四项服务指标表现最差,而对第一项服务指标评价普遍很高,因此民航公司迫切需要提升广播水平和机上娱乐两个服务项目的水平,以避免客户流失。同样,所找到的3809个非重叠的双聚类也都分别表征了若干客户构成的群体对相应的若干个机上服务项目的评价态度是一致的。
[0056]因此,由实验结果可知,本发明的方法能把航空客户群体分成若干簇(cluster),在各簇中包含的客户对若干机上项目的评价态度是一致的,而航空公司可以根据这些不同的客户簇特征实行相对应的服务策略来提高航空客户对航空公司服务项目的满意度,从而实现促进航空公司发展的目的。因此,本发明提出的方法发现的双聚类对于指导客户细分(customer segmentation)和防止客户流失有着重要的意义。该方法与传统聚类(clustering)方法相比,能够找到局部一致的信息,比传统聚类更加灵活和精细。
[0057]本实例还做了检验并行方法的加速比的实验。实验从客户对若干机上项目的评价数据集中Dl,D2,D3三个不同尺寸大小的客户对若干机上项目的评价数据集,完成了各数据集分别在2,4,6,8核上进行并行计算的加速比实验。实验数据集参数如图5所示。
[0058]并行实验结果如图6所示,由实验结果可知:(I)无论数据集尺寸多大,当核数大于2时,并行程序执行总时间随着核数的增加显著减少;(2)加速比从Dl数据集的2核的
1.55增加到D3数据集的8核的4.13,扩展性非常好。
【权利要求】
1.一种基于关联规则和双聚类的航空客户数据挖掘方法,其特征在于包括如下步骤: (1)获取数据:收集航空客户对飞机上产品或服务的评分数据,构造客户-产品或客户-服务矩阵D,矩阵D为m行*n列的实数矩阵;其中每行代表一位客户,每列代表一种产品,其中每个元素代表一位客户对一种产品或服务的评分; (2)基于一致演化类型的双聚类模型,结合并行计算技术对上述客户的评分数据进行挖掘,获知在不同产品或服务项目上持相同或相近偏好态度的客户群体,从而实现对客户的细分。
2.根据权利要求1所述的基于关联规则和双聚类的航空客户数据挖掘方法,其特征在于步骤(2)中,在关联规则和双聚类的基础上,通过并行计算寻找频繁k项集矩阵来找到所有具有一致演化趋势的双聚类,从而精确地细分客户,获知所有偏好或习惯相近、购买行为相似的客户群,所述k为所找到的双聚类的列数。
3.根据权利要求1所述的基于关联规则和双聚类的航空客户数据挖掘方法,其特征在于步骤(2)进一步包括如下步骤: (2.1)选定矩阵D的第一行为参考行并对该行全部元素进行由小到大的排序,按照初始的列号顺序做列的置换;再选择任意一对呈单增关系的元素,并针对这两个元素所在的两列,扫描整个数据集中全部行;如果在这两列所在位置上满足单调递增关系的元素足够多,即行数大于所定阈值,则认为这些满足单调递增关系的元素所在的行与该两列一起构成一个频繁2项集矩阵;通过这种方法,找到以参考行中任意两个单增关系为基础,且其它行同样在对应两列位置是单增关系的全部频繁2项集矩阵; (2.2)在(2.1)的基础上,选择两个含有共同一列的频繁2项集矩阵,并判断其共有的行数是否大于给定阈值;若是,则判定这两个频繁2项集矩阵可以生成一个频繁3项集矩阵,该矩阵的行为两频繁2项集矩阵的共同行,列为两频繁2项集矩阵的并集,即有3列; (2.3)参照(2.2),在已有所有基于参考行第一行的频繁(k-Ι)项集矩阵的基础上,选择两个含有共同k-Ι列的频繁(k-1)项集矩阵,并判断该两个含有共同k-Ι列的频繁(k-1)项集矩阵共有的行数是否大于给定阈值;若是,则判定这两个频繁(k-1)矩阵可以生成一个频繁k项集矩阵,该矩阵的行为两频繁(k-1)项集矩阵的共同行,列为两频繁(k-1)项集矩阵的并集,即有k列; (2.4)依次改变参考行为第二行、第三行......第m行,对不同参考行执行与针对参考行为第一行的上述步骤(2.0- (2.3),找到基于不同参考行的全部频繁k项集矩阵。
4.根据权利要求3所述的基于关联规则和双聚类的航空客户数据挖掘方法,其特征在于步骤(2.4)找到的基于不同参考行的全部频繁k项集矩阵,即为具有一致演化趋势的双聚类,每个双聚类都可以表示成矩阵D’ =G’ XC’,行的集合G’代表客户,列的集合C’表示产品或服务项目,矩阵D’表示该双聚类包含客户的一个子集及该子集中的客户涉及的产品的一个子集,且同一个双聚类中的客户对其中的产品或服务评分的数值变化趋势相近;由此获知对若干产品或服务项目上持相同或相近偏好态度的客户群体,实现客户细分的目标。
【文档编号】G06F17/30GK103455578SQ201310374289
【公开日】2013年12月18日 申请日期:2013年8月23日 优先权日:2013年8月23日
【发明者】薛云, 李铁臣, 徐惠欣, 蔡倩华, 李美航, 胡晓晖 申请人:华南师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1