一种基于网格和密度的动静态数据融合客户分类算法的制作方法

文档序号:15851585发布日期:2018-11-07 10:04阅读:146来源:国知局
一种基于网格和密度的动静态数据融合客户分类算法的制作方法

本发明涉及自然语言处理应用技术领域,具体的说是一种基于网格和密度的动静态数据融合客户分类算法。

背景技术

随着互联网、机器学习以及大数据技术的发展,给实体店和电商带来了各种机遇和挑战,购物方式的多样化,使得客户在企业间的选择成本大幅降低,流动性不断增强,为了更好的发展,不同的商业模式如何确定自己的优势,针对不同类型的客户进行精准定位和服务,将会助力于企业更好发展。消费者作为消费链的最末端,是商品的最终使用者、品牌营销的最终接受者和终端建设的最终体验者,可以说消费者是否满意是决定企业成功的决定性因素。目前存在的问题是只注重消费者的购买信息而忽视了消费者的评价信息,只注意销售额的增长而忽视了消费者的满意度,由于消费者评价和购买信息的脱节,导致难以从消费者角度对其经营形成合理的指引,也无法有效采取措施提高对消费者的服务质量。

随着大数据技术的发展,为了实现客户的多维度精准分类,特性精准定位,需要进行大量的数据挖掘技术研究。当前各种渠道数据来源的规模呈现爆炸式增长,主要包括电商销售结构信息、社交媒体和各种网站上的非结构化数据,以及百度百科和维基百科等百科网站上的半结构化数据,因此如何对不同来源不同类型的数据进行综合融合处理,完成静态和动态数据的综合挖掘成为当前一个重要问题。多元信息预处理,数据挖掘,文本处理等各种技术在信息挖掘过程中扮演非常重要的角色。客户分类和精准定位对企业当前经营和销售策略进行验证;另一方面也可以直接服务于各种上层应用,比如对客户进行精准定位,实现针对性或者个性化的广告推送和营销策略实施,可以对客户进行分类,提取出具有相同特征的用户关注的服务特性,从而实现精准服务,减少营销成本,提高效率和效益。

基于网格的聚类方法采用空间驱动的方法,将对象空间量化成有限数目的单元,这些网格形成了网格结构,所有的聚类结构都在该结构上进行。这种方法的主要优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中的每一维的单元数。

clique算法是基于网格的空间聚类算法,既能够发现任意形状的簇,又可以像基于网格的算法一样处理较大的多维数据。dbscan是一种基于密度的聚类算法,对于带有噪音点的数据起着重要的作用,不需要输入类别数k,可以发现任意形状的聚类簇,同时可以找出异常点,但是只对于稠密数聚集有效。

基于此,针对上述现状中存在的问题,基于海量销售信息数据具有离散化、低聚合、多维度、多格式的特点,本发明提出一种能快速实现客户的精准分类和消费关注点定位、进而制定对应的销售服务策略的基于网格和密度的动静态数据融合客户分类算法。



技术实现要素:

为了解决上述现有技术的问题,本发明提供一种能快速实现客户的精准分类和消费关注点定位、进而制定对应的销售服务策略的基于网格和密度的动静态数据融合客户分类算法。

本发明解决其技术问题所采用的技术方案是:

一种基于网格和密度的动静态数据融合客户分类算法,包括以下步骤:

步骤一、根据客户销售信息、客户基本信息和营销策略信息,在空间建立多维度的多重网格;

步骤二、利用clique算法对数据进行分类降维,大类分割客户信息;

步骤三、对步骤二中获得的每一类客户信息采用dbscan算法,利用中位数据进行数据聚类,将信息分为多个稠密数据集合,并对每一部分找到对应的关键维度;

步骤四、根据步骤三得到的结构化信息,对每一个聚类中心附近的优质客户提取出对应短文本评论,得到评论集;

步骤五、采用中文依存句法规则,对步骤四中得到的评论集进行对应的文本挖掘,进行提取关键词、统计规律以及提取出每一类客户关注的关键服务的操作;

步骤六、在每一类客户聚类中随机选择一定比例的客户代表,根据语义提取出的关键购买因素,利用回归和时序算法对代表客户在时间域上进行拟合,验证提取出的关键购买影响因素;

步骤七、对于未知的客户信息,利用上述步骤得到的模型,进行网格分类,确定类似群的高影响因素,在同维度下进行二层分类,自动提取出客户的销售影响因素,同时采用回归方法对计算销售结果进行预测,确定恰当的销售策略。

进一步地,所述客户销售信息包括时间、销售方式和消费额度,所述客户基本信息包括客户年龄和客户性别,所述营销策略信息包括促销方式。

进一步地,所述步骤一中的客户销售信息、客户基本信息和营销策略信息构成多个离散点,每一个离散点存在于多个网格中。

更进一步地,步骤二中利用clique算法进行分类降维的具体过程为:

a1、计算每一个网格内的密度,每一个离散点在多个网格中所在的单元网格中的密度;

a2、根据步骤a1中得到的密度,确定阈值,低于阈值的该维度网格取消,得到不同维度且在阈值以上的多维网格单元;

a3、根据步骤a2,得到的每个离散客户信息处于高稠密数据网格中。

更进一步地,在处理过程中,所有网格初始状态设置为未处理网格,遍历所有网格,最后删除在该维度上密度低于阈值的网格数据。

进一步地,所述步骤三具体为:

b1、在保留的每个维度的空间网格中,定义初始化核心对象集合初始化聚类簇数k=0,初始化未访问样本集合γ=d,簇划分对于所有的点,通过到质心距离度量方式,找到样本xj的∈-邻域子样本集n∈(xj),如果子样本集样本个数满足|n∈(xj)|大于或等于给定点在∈-邻域内成为核心对象的最小邻域点数minpts,则将样本xj加入核心对象样本集合:ω=ω∪{xj};

b2、在核心对象集合ω中,随机选择一个核心对象o,初始化当前簇核心对象队列ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合ck={o},更新未访问样本集合γ=γ-{o},如果当前簇核心对象队列则当前聚类簇ck生成完毕,更新簇划分c={c1,c2,...,ck},更新核心对象集合ω=ω-ck,在当前簇核心对象队列ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集n∈(o′),令δ=n∈(o′)∩γδ=n∈(o′)∩γ,更新当前簇样本集合ck=ck∪δ,更新未访问样本集合γ=γ-δ,更新ωcur=ωcur∪(n∈(o′)∩ω),最终输出结果为簇划分c={c1,c2,...,ck},得到同一维度下客户的进一步分类。

进一步地,所述步骤五还包括,在采用中文依存句法规则进行自然语言处理后,根据关键词及关键词频率,确定每个网格中每个聚类群的最关注的服务和购买原因,按照频率从大到小,并将结果保存为元组列表。

与现有技术相比,本发明的有益效果是:

本发明针对海量多结构化数据之间信息孤立,无法获取全信息的问题,提取结构化数据信息之间的关联,并结合客户的非结构化信息,通过融合两种分类算法建立降维的客户聚类模型,确定客户类别;对每一类客户的文本分析,计算每种客户类别的频率、每种客户类别特征属性对应的频率和关注度,确定关注点与客户类别间的对称不确定性值,实现了客户类别分类及服务关注点提取,完成了结构化数据和非结构化数据的融合挖掘及对应关系确定,完成客户行为的准确分析和精准定位,从而对客户实现有针对性的商业推荐。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

要实现结构化数据和非结构化数据的信息融合匹配需求,需要完成结构化数据的聚分类和数据挖掘,非结构化短文本数据的信息快速提取,结构化数据和非结构化数据的匹配及信息提取,为了完成这个任务,本发明提出来采用分层的分类方法,结合语义分析进行信息融合和提取,提供了一种基于网格和密度的动静态数据融合客户分类算法,包括以下步骤:

步骤一、根据客户销售信息、客户基本信息和营销策略信息,在空间建立多维度的多重网格;

步骤二、利用clique算法对数据进行分类降维,大类分割客户信息;

步骤三、对步骤二中获得的每一类客户信息采用dbscan算法,利用中位数据进行数据聚类,将信息分为多个稠密数据集合,并对每一部分找到对应的关键维度,其中,对于高密度信息全的数据,进行重点关注;

步骤四、根据步骤三得到的结构化信息,对每一个聚类中心附近的优质客户提取出对应短文本评论,得到评论集;

步骤五、采用中文依存句法规则,对步骤四中得到的评论集进行对应的文本挖掘,进行提取关键词、统计规律以及提取出每一类客户关注的关键服务的操作;

步骤六、在每一类客户聚类中随机选择一定比例的客户代表,根据语义提取出的关键购买因素,利用回归和时序算法对代表客户在时间域上进行拟合,验证提取出的关键购买影响因素;

步骤七、对于未知的客户信息,利用上述步骤得到的模型,进行网格分类,确定类似群的高影响因素,在同维度下进行二层分类,自动提取出客户的销售影响因素,同时采用回归方法对计算销售结果进行预测,确定恰当的销售策略。

具体实施时,所述客户销售信息包括时间、销售方式和消费额度,所述客户基本信息包括客户年龄和客户性别,所述营销策略信息包括促销方式。

具体实施时,所述步骤一中的客户销售信息、客户基本信息和营销策略信息构成多个离散点,每一个离散点存在于多个网格中。

具体实施时,步骤二中利用clique算法进行分类降维的具体过程为:

a1、计算每一个网格内的密度,每一个离散点在多个网格中所在的单元网格中的密度;

a2、根据步骤a1中得到的密度,确定阈值,低于阈值的该维度网格取消,得到不同维度且在阈值以上的多维网格单元;

a3、根据步骤a2,得到的每个离散客户信息处于高稠密数据网格中。

具体实施时,在处理过程中,所有网格初始状态设置为未处理网格,遍历所有网格,最后删除在该维度上密度低于阈值的网格数据。

具体实施时,所述步骤三具体为:

b1、在保留的每个维度的空间网格中,定义初始化核心对象集合初始化聚类簇数k=0,初始化未访问样本集合γ=d,簇划分对于所有的点,通过到质心距离度量方式,找到样本xj的∈-邻域子样本集n∈(xj),如果子样本集样本个数满足|n∈(xj)|大于或等于给定点在∈-邻域内成为核心对象的最小邻域点数minpts,则将样本xj加入核心对象样本集合:ω=ω∪{xj};

b2、在核心对象集合ω中,随机选择一个核心对象o,初始化当前簇核心对象队列ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合ck={o},更新未访问样本集合γ=γ-{o},如果当前簇核心对象队列则当前聚类簇ck生成完毕,更新簇划分c={c1,c2,...,ck},更新核心对象集合ω=ω-ck,在当前簇核心对象队列ωcur中取出一个核心对象o′,通过邻域距离阈值∈找出所有的∈-邻域子样本集n∈(o′),令δ=n∈(o′)∩γδ=n∈(o′)∩γ,更新当前簇样本集合ck=ck∪δ,更新未访问样本集合γ=γ-δ,更新ωcur=ωcur∪(n∈(o′)∩ω),最终输出结果为簇划分c={c1,c2,...,ck},得到同一维度下客户的进一步分类,在进行二次聚类时,丰富了不同特征表述的数量,由一般的10个左右的网格分割,丰富到40个左右的特征质心。

具体实施时,所述步骤五还包括,在采用中文依存句法规则进行自然语言处理后,根据关键词及关键词频率,确定每个网格中每个聚类群的最关注的服务和购买原因,按照频率从大到小,并将结果保存为元组列表,作为优选,可以采取前5个。

本发明的原理为:为了较好的实现在不同维度上的数据聚类,采用了利用空间网格进行降维聚类,实现单个网格上数据的预先聚类,找到稠密数据集,进而在单个网格内实现聚类。

获取的客户销售信息包括客户基本信息、时间轴上销售信数据及促销手段等信息,首先利用空间网格聚类算法对客户销售数据和基本信息进行分类,此处不采用常规的基于用户基本信息进行分析以确定该用户的初级类别方法,而是直接根据多维网格中客户所在位置进行分类,并且根据同一信息在不同网格中的周边相邻点构成的密度进行分类,将不同维度作为多重筛选依据,选取该系数值最大的前10个坐标为候选坐标,实现降维的用户初分类,得到多次降维后的不同维度的稠密用户聚类信息。进而进行单元格内密度聚类,实现用户的多层分类,在此基础上,获取用户的评论信息,对评论短文本切词处理、统计词频、依据特征词的词频构建knn模型,将短文本分成十大类,建立相应的规则提取库。在构造规则库的过程中,考虑正则提取信息和信息间的逻辑判断,同时将两者结合一起,以提高指标获取的精确度。最后,基于数据处理和指标构造,根据每一类用户的对应文本信息,生成用户属性维度,包括基本信息属性、行为属性和价值属性。从不同属性出发,为用户贴标签,设计用户画像,从而提取出不同类型的用户所关注的服务特性,实现针对性的用户销售策略制定。

通过融合两种分类算法建立降维的客户聚类模型,确定客户类别;对每一类客户的文本分析,计算每种客户类别的频率、每种客户类别特征属性对应的频率和关注度,确定关注点与客户类别间的对称不确定性值,实现了客户类别分类及服务关注点提取。

如图1所示,具体的,图中描述的是分类及信息挖掘过程,其中上半图中的流程描述的是分类过程,结构化数据首先输入各维空间,进行空间分割,需要调试各种不同的维度参数;根据密度进行降维。进而,利用距离信息对单个维度空间网格中数据进行二层聚类,分类完毕;再次,利用对应客户群的评论信息,进行分词、关键词的提取,词与词性的组合概率统计制定群所在意的销售影响因素,提取销售策略制定指导规则。下半图描述的是应用过程,此分类模型被提取后,可以利用回归算法对销售策略制定进行预测分析和应用。本次模型的参数主要含以下几点:网格划分参数、网格降维阈值、二层聚类时阈值设置。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1