基于大数据的数据挖掘方法及装置与流程

文档序号:12470314阅读:207来源:国知局
基于大数据的数据挖掘方法及装置与流程

本发明涉及大数据分析领域,尤其涉及一种基于大数据的数据挖掘方法及装置。



背景技术:

由于保险业的服务性及其产品的特殊性,使得客户对于保险公司来说显得尤为重要,客户就是保险公司的生存之本,随着购买保险的客户越来越多,保险公司中数据库中保存的数据也越来愈多,形成大数据,且大数据中包含大量有效信息,且可以指导保险公司实现诸如价格设定、客户管理等等工作。

然而,目前,并没有一种有效的方式能够从大数据中提取客户模式特征。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种基于大数据的数据挖掘方法及装置,旨在解决现有技术中不存在有效的能够从大数据中提取客户模式特征的方案的技术问题。

为实现上述目的,本发明提供的一种基于大数据的数据挖掘方法,所述方法包括:

获取已购买指定业务的客户的第一订单数据集合;

基于预设的客户分类规则将所述第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合;

根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征。

优选地,所述基于预设的客户分类规则将所述客户的订单数据划分为多个订单集合,包括:

提取所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额;

基于所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额、及预先设置的各参数的权重系数计算所述第一订单数据集合中各客户的权重值;

基于预先设置的权重区间及所述各客户的权重值,将所述第一订单数据集合中各客户的订单数据划分至多个所述第二子订单数据集合中。

优选地,所述获取已购买指定业务的客户的第一订单数据集合的步骤包括:

从数据库中获取已购买指定业务的所有客户的订单数据;

对所述所有客户的订单数据进行数据清洗,得到所述第一订单数据集合。

优选地,所述根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征,包括:

对于任意一个第二子订单数据集合,按照如下方式得到每一个第二子订单数据集合对应的客户模式特征:

从所述第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成所述第二子订单数据集合的第一矩阵;

对所述第二子订单数据集合的第一矩阵进行归一化处理,得到所述第二子订单数据的第二矩阵;

基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征。

优选地,所述基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征,包括:

利用模糊数据挖掘算法中的最大最小算法得到所述第二矩阵的模糊相似矩阵;

利用最大树算法对所述模糊相似矩阵进行聚类分析处理,得到最大树,所述最大树即为所述第二子订单数据集合对应的客户模式特征。

为了解决上述问题,本发明还提供一种基于大数据的数据挖掘装置,所述装置包括:

获取模块,用于获取已购买指定业务的客户的第一订单数据集合;

划分模块,用于基于预设的客户分类规则将所述第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合;

挖掘模块,用于根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征。

优选地,所述划分模块包括:

提取模块,用于提取所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额;

第一计算模块,用于基于所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额、及预先设置的各参数的权重系数计算所述第一订单数据集合中各客户的权重值;

数据划分模块,用于基于预先设置的权重区间及所述各客户的权重值,将所述第一订单数据集合中各客户的订单数据划分至多个所述第二子订单数据集合中。

优选地,所述获取模块包括:

数据获取模块,用于从数据库中获取已购买指定业务的所有客户的订单数据;

清洗模块,用于对所述所有客户的订单数据进行数据清洗,得到所述第一订单数据集合。

优选地,对于任意一个第二子订单数据集合,所述挖掘模块包括:

参数提取模块,用于从所述第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成所述第二子订单数据集合的第一矩阵;

归一化模块,用于对所述第二子订单数据集合的第一矩阵进行归一化处理,得到所述第二子订单数据的第二矩阵;

数据挖掘模块,用于基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征。

优选地,所述数据挖掘模块包括:

第二计算模块,用于利用模糊数据挖掘算法中的最大最小算法得到所述第二矩阵的模糊相似矩阵;

第三计算模块,用于利用最大树算法对所述模糊相似矩阵进行聚类分析处理,得到最大树,所述最大树即为所述第二子订单数据集合对应的客户模式特征。

本发明提供一种基于大数据的数据挖掘方法,该方法包括:获取已购买指定业务的客户的第一订单数据集合,基于预设的客户分类规则将该第一订单数据集合中各科的订单数据划分为多个第二子订单数据集合,并根据预置的模糊数据挖掘算法分别对该多个第二子订单数据集合进行数据挖掘,得到多个第二子订单数据集合分别对应的客户模式特征,通过上述方式,能够有效的实现对大数据的处理,并从大数据中提取基于客户分类规则划分的各第二子订单数据集合分别对应的客户模式特征,能够为保险公司提供制定公司管理及销售策略的参考及便于发展更多的客户。

附图说明

图1为本发明第一实施例中基于大数据的数据挖掘方法的流程示意图;

图2为本发明图1所示第一实施例中步骤102的细化步骤的流程示意图;

图3为本发明图1所示第一实施例中步骤101的细化步骤的流程示意图;

图4为本发明图1所示第一实施例中步骤103的细化步骤的流程示意图;

图5为图4所示实施例中步骤403的细化步骤的流程示意图;

图6为本发明第二实施例中基于大数据的数据挖掘装置的功能模块的示意图;

图7为本发明图6所示第二实施例中划分模块602的细化功能模块的示意图;

图8为本发明图6所示第二实施例中获取模块601的细化功能模块的示意图;

图9为本发明图6所示第二实施例中挖掘模块603的细化功能模块的示意图;

图10为本发明图8所示实施例中数据挖掘模块803的细化功能模块的示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

由于现有技术中没有一种有效的方式能够从大数据中提取客户模式特征,导致保险公司无法基于已购买保险的客户的客户模式特征指定更优的管理策略和销售策略,未发挥大数据的作用。

为了解决上述技术问题,本发明提出一种基于大数据的数据挖掘方法,能够有效的实现对大数据的处理,并从大数据中提取基于客户分类规则划分的各第二子订单数据集合分别对应的客户模式特征,能够为保险公司提供制定公司管理及销售策略的参考及便于发展更多的客户。

请参阅图1,为本发明第一实施例中一种基于大数据的数据挖掘方法,其特征在于,所述方法包括:

步骤101、获取已购买指定业务的客户的第一订单数据集合;

在本发明实施例中,保险公司都设置由其对应的服务器,且在该服务器上设置用于保存客户数据的数据库。

其中,上述基于大数据的数据挖掘方法是由基于大数据的数据挖掘装置(以下简称:数据挖掘装置)实现的,该数据挖掘装置可以定时或者在大数据的数据量达到预置数值时启动上述数据挖掘方法,或者在接收到数据挖掘指令的情况下,启动上述数据挖掘方法。

在本发明实施例中,在需要进行数据挖掘时,数据挖掘装置将获取已购买指定业务的客户的第一订单数据集合。其中,该指定业务可以是保险公司提供的所有业务中的至少一种业务。例如,一家保险公司可以提供以下业务中的一种或多种:人寿保险业务、健康保险业务、意外伤害保险业务、团体保险业务、养老保险业务、少儿教育金保险业务。

在其中,第一订单数据集合中包含已购买该指定业务的客户的订单数据,该订单数据中包含客户的个人信息及业务的购买信息。

其中,客户的个人信息包含客户的账号及密码信息、客户验证的身份证信息、家庭住址、邮箱等信息,其中,业务的购买信息包括:购买业务的订单信息、购买次数、向其他客户推荐成功次数、购买总额等信息。其中,向其他客户推荐成功是指客户将某业务的购买链接发送给其他客户,其他客户基于该购买链接成功购买了该业务。

步骤102、基于预设的客户分类规则将所述第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合;

步骤103、根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征。

在本发明实施例中,数据挖掘装置在得到购买指定业务的客户的第一订单数据集合之后,将就预设的客户分类规则将第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合。

可以理解的是,该预先设置的客户分类规则可以由系统默认设置,也可以由管理人员根据需要进行设置,且该客户分类规则可以是按照地理位置进行划分,或者按照购买的业务的类型进行划分,或者可以基于购买次数、向其他客户推荐成功次数、购买总额等客户参数的综合权重进行划分,需要说明的是,在实际应用中,可根据具体的需要进行划分,此处不做赘述。

其中,在将第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合之后,数据挖掘装置根据预置的模糊数据挖掘算法分别对该多个第二子订单数据集合进行数据挖掘,得到多个第二子订单数据集合分别对应的客户模式特征,使得能够有效的实现数据挖掘。

在本发明实施例中,数据挖掘装置获取已购买指定业务的客户的第一订单数据集合,基于预设的客户分类规则将该第一订单数据集合中各科的订单数据划分为多个第二子订单数据集合,并根据预置的模糊数据挖掘算法分别对该多个第二子订单数据集合进行数据挖掘,得到多个第二子订单数据集合分别对应的客户模式特征,通过上述方式,能够有效的实现对大数据的处理,并从大数据中提取基于客户分类规则划分的各第二子订单数据集合分别对应的客户模式特征,能够为保险公司提供制定公司管理及销售策略的参考及便于发展更多的客户。

为了更好的理解本发明实施例中的技术方案,请参阅图2,为本发明图1所示第一实施例中步骤102的细化步骤的流程示意图,该步骤102为:基于预设的客户分类规则将所述客户的订单数据划分为多个订单集合,该步骤102的细化步骤包括:

步骤201、提取所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额;

步骤202、基于所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额、及预先设置的各参数的权重系数计算所述第一订单数据集合中各客户的权重值;

步骤203、基于预先设置的权重区间及所述各客户的权重值,将所述第一订单数据集合中各客户的订单数据划分至多个所述第二子订单数据集合中。

在本发明实施例中,数据挖掘装置在得到购买指定业务的客户的第一订单数据集合之后,将提取该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额,且将基于该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额及预先设置的各参数的权重系数计算该第一订单数据集合中各客户的权重值。

其中,计算客户的权重值的计算公式如下:

M=a*x1,+b*x2+c*x3

其中,M表示客户的权重值,a表示客户的购买次数,x1表示客户的购买次数的权重系数,b表示向其他客户推荐成功次数,x2表示客户向其他客户推荐成功次数的权重系数,c表示客户的购买总额,x3表示客户的购买总额的权重系数。

通过上述公式,能够有效的计算得到第一订单数据集合中各客户的权重值。

在本发明实施例中,在得到第一订单数据集合中各客户的权重值之后,将基于预先设置的权重区间及第一订单数据集合中各客户的权重值,将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中。具体的:数据挖掘装置将第一订单数据集合中各客户的权重值进行归一化处理,得到各客户归一化后的权重值,上述预先设置的权重区间可以为[0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4),[0.4,0.5),[0.5,0.6),[0.7,0.8),[0.8,0.9),[0.9,1],且可以基于上述权重区间将各个客户划分至对应的第二子订单数据集合中。

在本发明实施例中,数据挖掘装置将提取第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额,且基于该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额及预先设置的各参数的权重系数计算第一订单数据集合中各客户的权重值,且基于预先设置的权重区间及各客户的权重值,将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中,通过上述方式,能够基于实现基于购买次数、向其他客户推荐成功次数及购买总额等参数实现第一订单数据集合中各客户的划分。

基于图1所示第一实施例,请参阅图3,为本发明图1所示第一实施例中步骤101的细化步骤的流程示意图,该步骤101为:获取已购买指定业务的客户的第一订单数据集合,且该步骤101的细化步骤包括:

步骤301、从数据库中获取已购买指定业务的所有客户的订单数据;

步骤302、对所述所有客户的订单数据进行数据清洗,得到所述第一订单数据集合。

在本发明实施例中,客户的订单数据都是存储在数据库中的,该数据库可以是Hadoop数据库,或者其他类型的适合大数据存储的数据库。

在本发明实施例中,数据挖掘装置将从数据库中获取已购买指定业务的所有客户的订单数据,且对该所有客户的订单数据进行数据清洗,以得到第一订单数据集合。其中,通过数据清洗的方式能够去除所有客户的订单数据中的一些无效的订单数据。

基于图1所示的第一实施例,请参阅图4,为本发明图1所示第一实施例中步骤103的细化步骤的流程示意图,该步骤103为:根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征,该步骤103的细化步骤包括:

步骤401、从所述第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成所述第二子订单数据集合的第一矩阵;

步骤402、对所述第二子订单数据集合的第一矩阵进行归一化处理,得到所述第二子订单数据的第二矩阵;

步骤403、基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征。

在本发明实施例中,对于任意一个第二子订单数据集合,数据挖掘装置都将按照步骤401至步骤403描述的内容得到每一个第二子订单数据集合对应的客户模式特征。

在本发明实施例中,数据挖掘装置在将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中之后,对于每一个第二子订单数据集合,数据挖掘装置将从该第二子订单数据结合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成该第二子订单数据集合的第一矩阵,其中,提取的至少一个指定类型的客户参数值可以是购买次数、目前保留情况、续保次数、向他人推荐次数等等。其中,若目前保留情况为是,则该目前保留情况的值为1,若目前保留情况为否,则目前保留情况的值为0。

且在得到上述第二子订单数据集合的第一矩阵之后,将对该第二子订单数据集合的第一矩阵进行归一化处理,得到该第二子订单数据的第二矩阵。具体的:考虑到第一矩阵中的数据都不是[0,1]闭区间的数,所以应该将这些原始数据标准化,从而使得每一个指标值统一于某种共同的数值特性范围。首先将计算第二子订单数据中,每一种类型的参数的平均值,例如,计算第二子订单数据集合中所有客户的购买次数的平均值,计算第二子订单数据集合中所有客户的目前保留情况的平均值,计算第二子订单数据集合中所有客户的续保次数的平均值,及向他人推荐次数的平均值。同时挖掘数据装置还将计算第二子订单数据中,每一种类型的参数的标准差,并基于上述每一种类型的参数的平均值及每一种类型的参数的标准差计算第一矩阵中各数据的标准差,以得到标准化矩阵。且由于此时得到的标准化矩阵仍然不在[0,1]区间内,数据挖掘装置还将采用预先设置的极值标准化算法对该标准化矩阵进行处理,以得到归一化的矩阵,即为上述的第二矩阵。

且在本发明实施例中,数据挖掘装置还将基于预先设置的模糊数据算法对该第二矩阵进行数据挖掘,得到该第二子订单数据集合对应的客户模式特征。

在本发明实施例中,数据挖掘装置从第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成第二子订单数据集合的第一矩阵,并对该第二子订单数据集合的第一矩阵进行归一化处理,得到该第二子订单数据的第二矩阵,且基于预先设置的模糊数据挖掘算法对该第二矩阵进行数据挖掘,得到该第二子订单数据集合对应的客户模式特征,通过上述方式,能够有效的得到第二子订单数据集合对应的客户模式特征。

进一步的,请参阅图5,为本发明图4所示实施例中步骤403的细化步骤的流程示意图,该步骤403为:基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征,且该步骤403的细化步骤包括:

步骤501、利用模糊数据挖掘算法中的最大最小算法得到所述第二矩阵的模糊相似矩阵;

步骤502、利用最大树算法对所述模糊相似矩阵进行聚类分析处理,得到最大树,所述最大树即为所述第二子订单数据集合对应的客户模式特征。

在本发明实施例中,数据挖掘装置将利用模糊数据挖掘算法中的最大最小算法得到第二矩阵的模糊相似矩阵。且利用最大树算法对模糊相似矩阵进行聚类分析处理,得到最大树,该最大树即为第二子订单数据集合对应的客户模式特征。

其中,最大最小算法为模糊数据挖掘算法中的一种,对于第二矩阵中的每一个数据都可以使用最大最小算法进行模糊处理,以得到第二矩阵的模糊相似矩阵,且在得到该模糊相似矩阵之后,采用最大树算法进行聚类分析处理得到最大树,通过采用最大树算法进行聚类分析处理能够构造一个以所有被分类的对象为顶点的图,且当Rij不等于0时(其中Rij为模糊相似矩阵中的一个数据),顶点i和顶点j就可以连成一条边,其方法是先画出顶点集合中的某一个i,然后按Rij从大到小的顺序依次连边,要求不产生回路,直到所有的顶点都被连通为止,这样最得到一颗最大树,树的每一条边都能赋予某一数值,即可得到客户模式特征。

在本发明实施例中,通过上述方式,能够有效的确定第二子订单数据集合对应的客户模式特征。

请参阅图6,为本发明第二实施例中基于大数据的数据挖掘装置的功能模块的示意图,该基于大数据的数据挖掘装置包括:

获取模块601,用于获取已购买指定业务的客户的第一订单数据集合;

在本发明实施例中,在需要进行数据挖掘时,获取模块601将获取已购买指定业务的客户的第一订单数据集合。其中,该指定业务可以是保险公司提供的所有业务中的至少一种业务。例如,一家保险公司可以提供以下业务中的一种或多种:人寿保险业务、健康保险业务、意外伤害保险业务、团体保险业务、养老保险业务、少儿教育金保险业务。

在其中,第一订单数据集合中包含已购买该指定业务的客户的订单数据,该订单数据中包含客户的个人信息及业务的购买信息。

其中,客户的个人信息包含客户的账号及密码信息、客户验证的身份证信息、家庭住址、邮箱等信息,其中,业务的购买信息包括:购买业务的订单信息、购买次数、向其他客户推荐成功次数、购买总额等信息。其中,向其他客户推荐成功是指客户将某业务的购买链接发送给其他客户,其他客户基于该购买链接成功购买了该业务。

划分模块602,用于基于预设的客户分类规则将所述第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合;

挖掘模块603,用于根据预置的模糊数据挖掘算法分别对多个所述第二子订单数据集合进行数据挖掘,得到多个所述第二子订单数据集合分别对应的客户模式特征。

在本发明实施例中,在得到购买指定业务的客户的第一订单数据集合之后,划分模块602将就预设的客户分类规则将第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合。

可以理解的是,该预先设置的客户分类规则可以由系统默认设置,也可以由管理人员根据需要进行设置,且该客户分类规则可以是按照地理位置进行划分,或者按照购买的业务的类型进行划分,或者可以基于购买次数、向其他客户推荐成功次数、购买总额等客户参数的综合权重进行划分,需要说明的是,在实际应用中,可根据具体的需要进行划分,此处不做赘述。

其中,在将第一订单数据集合中各客户的订单数据划分为多个第二子订单数据集合之后,挖掘模块603根据预置的模糊数据挖掘算法分别对该多个第二子订单数据集合进行数据挖掘,得到多个第二子订单数据集合分别对应的客户模式特征,使得能够有效的实现数据挖掘。

在本发明实施例中,数据挖掘装置获取已购买指定业务的客户的第一订单数据集合,基于预设的客户分类规则将该第一订单数据集合中各科的订单数据划分为多个第二子订单数据集合,并根据预置的模糊数据挖掘算法分别对该多个第二子订单数据集合进行数据挖掘,得到多个第二子订单数据集合分别对应的客户模式特征,通过上述方式,能够有效的实现对大数据的处理,并从大数据中提取基于客户分类规则划分的各第二子订单数据集合分别对应的客户模式特征,能够为保险公司提供制定公司管理及销售策略的参考及便于发展更多的客户。

请参阅图7,为本发明图6所示第二实施例中划分模块602的细化功能模块的示意图,所述划分模块602包括:

提取模块701,用于提取所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额;

第一计算模块702,用于基于所述第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额、及预先设置的各参数的权重系数计算所述第一订单数据集合中各客户的权重值;

数据划分模块703,用于基于预先设置的权重区间及所述各客户的权重值,将所述第一订单数据集合中各客户的订单数据划分至多个所述第二子订单数据集合中。

在本发明实施例中,在得到购买指定业务的客户的第一订单数据集合之后,提取模块701将提取该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额,且第一计算模块702将基于该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额及预先设置的各参数的权重系数计算该第一订单数据集合中各客户的权重值。

其中,计算客户的权重值的计算公式如下:

M=a*x1,+b*x2+c*x3

其中,M表示客户的权重值,a表示客户的购买次数,x1表示客户的购买次数的权重系数,b表示向其他客户推荐成功次数,x2表示客户向其他客户推荐成功次数的权重系数,c表示客户的购买总额,x3表示客户的购买总额的权重系数。

通过上述公式,能够有效的计算得到第一订单数据集合中各客户的权重值。

在本发明实施例中,在得到第一订单数据集合中各客户的权重值之后,数据划分模块703将基于预先设置的权重区间及第一订单数据集合中各客户的权重值,将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中。具体的:数据挖掘装置将第一订单数据集合中各客户的权重值进行归一化处理,得到各客户归一化后的权重值,上述预先设置的权重区间可以为[0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4),[0.4,0.5),[0.5,0.6),[0.7,0.8),[0.8,0.9),[0.9,1],且可以基于上述权重区间将各个客户划分至对应的第二子订单数据集合中。

在本发明实施例中,数据挖掘装置将提取第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数及购买总额,且基于该第一订单数据集合中各客户的购买次数、向其他客户推荐成功次数、购买总额及预先设置的各参数的权重系数计算第一订单数据集合中各客户的权重值,且基于预先设置的权重区间及各客户的权重值,将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中,通过上述方式,能够基于实现基于购买次数、向其他客户推荐成功次数及购买总额等参数实现第一订单数据集合中各客户的划分。

请参阅图8,为本发明图6所示第二实施例中获取模块601的细化功能模块的示意图,该获取模块601包括:

数据获取模块801,用于从数据库中获取已购买指定业务的所有客户的订单数据;

清洗模块802,用于对所述所有客户的订单数据进行数据清洗,得到所述第一订单数据集合。

在本发明实施例中,客户的订单数据都是存储在数据库中的,该数据库可以是Hadoop数据库,或者其他类型的适合大数据存储的数据库。

在本发明实施例中,数据获取模块801将从数据库中获取已购买指定业务的所有客户的订单数据,且清洗模块802对该所有客户的订单数据进行数据清洗,以得到第一订单数据集合。其中,通过数据清洗的方式能够去除所有客户的订单数据中的一些无效的订单数据。

请参阅图9,为本发明图6所示第二实施例中挖掘模块603的细化功能模块的示意图,该挖掘模块603包括:

参数提取模块901,用于从所述第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成所述第二子订单数据集合的第一矩阵;

归一化模块902,用于对所述第二子订单数据集合的第一矩阵进行归一化处理,得到所述第二子订单数据的第二矩阵;

数据挖掘模块903,用于基于预先设置的模糊数据挖掘算法对所述第二矩阵进行数据挖掘,得到所述第二子订单数据集合对应的客户模式特征。

在本发明实施例中,数据挖掘装置在将第一订单数据集合中各客户的订单数据划分至多个第二子订单数据集合中之后,对于每一个第二子订单数据集合,参数提取模块901将从该第二子订单数据结合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成该第二子订单数据集合的第一矩阵,其中,提取的至少一个指定类型的客户参数值可以是购买次数、目前保留情况、续保次数、向他人推荐次数等等。其中,若目前保留情况为是,则该目前保留情况的值为1,若目前保留情况为否,则目前保留情况的值为0。

且在得到上述第二子订单数据集合的第一矩阵之后,归一化模块902将对该第二子订单数据集合的第一矩阵进行归一化处理,得到该第二子订单数据的第二矩阵。具体的:考虑到第一矩阵中的数据都不是[0,1]闭区间的数,所以应该将这些原始数据标准化,从而使得每一个指标值统一于某种共同的数值特性范围。首先将计算第二子订单数据中,每一种类型的参数的平均值,例如,计算第二子订单数据集合中所有客户的购买次数的平均值,计算第二子订单数据集合中所有客户的目前保留情况的平均值,计算第二子订单数据集合中所有客户的续保次数的平均值,及向他人推荐次数的平均值。同时挖掘数据装置还将计算第二子订单数据中,每一种类型的参数的标准差,并基于上述每一种类型的参数的平均值及每一种类型的参数的标准差计算第一矩阵中各数据的标准差,以得到标准化矩阵。且由于此时得到的标准化矩阵仍然不在[0,1]区间内,数据挖掘装置还将采用预先设置的极值标准化算法对该标准化矩阵进行处理,以得到归一化的矩阵,即为上述的第二矩阵。

且在本发明实施例中,数据挖掘模块903还将基于预先设置的模糊数据算法对该第二矩阵进行数据挖掘,得到该第二子订单数据集合对应的客户模式特征。

在本发明实施例中,数据挖掘装置从第二子订单数据集合包含的各客户的订单数据中提取至少一个指定类型的客户参数值,构成第二子订单数据集合的第一矩阵,并对该第二子订单数据集合的第一矩阵进行归一化处理,得到该第二子订单数据的第二矩阵,且基于预先设置的模糊数据挖掘算法对该第二矩阵进行数据挖掘,得到该第二子订单数据集合对应的客户模式特征,通过上述方式,能够有效的得到第二子订单数据集合对应的客户模式特征。

请参阅图10,为本发明图8所示实施例中数据挖掘模块803的细化功能模块的示意图,该数据挖掘模块803包括:

第二计算模块1001,用于利用模糊数据挖掘算法中的最大最小算法得到所述第二矩阵的模糊相似矩阵;

第三计算模块1002,用于利用最大树算法对所述模糊相似矩阵进行聚类分析处理,得到最大树,所述最大树即为所述第二子订单数据集合对应的客户模式特征。

在本发明实施例中,第二计算模块1001将利用模糊数据挖掘算法中的最大最小算法得到第二矩阵的模糊相似矩阵。且第三计算模块1002利用最大树算法对模糊相似矩阵进行聚类分析处理,得到最大树,该最大树即为第二子订单数据集合对应的客户模式特征。

其中,最大最小算法为模糊数据挖掘算法中的一种,对于第二矩阵中的每一个数据都可以使用最大最小算法进行模糊处理,以得到第二矩阵的模糊相似矩阵,且在得到该模糊相似矩阵之后,采用最大树算法进行聚类分析处理得到最大树,通过采用最大树算法进行聚类分析处理能够构造一个以所有被分类的对象为顶点的图,且当Rij不等于0时(其中Rij为模糊相似矩阵中的一个数据),顶点i和顶点j就可以连成一条边,其方法是先画出顶点集合中的某一个i,然后按Rij从大到小的顺序依次连边,要求不产生回路,直到所有的顶点都被连通为止,这样最得到一颗最大树,树的每一条边都能赋予某一数值,即可得到客户模式特征。

在本发明实施例中,通过上述方式,能够有效的确定第二子订单数据集合对应的客户模式特征。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1