基于数据挖掘的顾客分类方法与系统与流程

文档序号:13804804阅读:357来源:国知局
基于数据挖掘的顾客分类方法与系统与流程
本发明涉及数据库信息检索和信息决策领域,尤其涉及对数据信息进行挖掘得出不同顾客群体类别的方法与系统。
背景技术
:当今的时代是互联网时代,餐饮企业与餐饮顾客之间的管理模式也发生了本质性的变化,随着产品和服务日益信息化和数字化,餐饮顾客的期望也在迅速变化,餐饮顾客不仅要求能够得到随时随地的服务,也要求能够得到更适合自己、更高质量、更具有个性化以及更高价值的产品或服务,这就要求餐饮企业的餐饮顾客管理模式要进一步升级。由于网络通信技术的迅速发展,各式各样的数据信息已经能够被轻易地获取,餐饮顾客能够根据自己所拥有的信息来选择自己偏爱的产品或服务,这导致了餐饮顾客的消费模式变得更加信息化和复杂化。传统的餐饮顾客分类主要是依靠经验和专业知识,到后来利用“数据库查询”,通过sql语句找出符合某一特性的餐饮顾客,或者通过某些数学工具对数据进行简单的分类,从而达到对餐饮顾客进行分类的效果。由于不断发展的数据库技术和越来越多的数据应用,再加上餐饮企业所使用的crm系统,餐饮企业就积累了越来越多的餐饮客户信息数据量,利用传统的分类技术分析这些海量数据,很难从中找出共同的餐饮顾客特点,而且分类的结果也不够准确。数据挖掘主要是通过处理数量大的、不完整、具有噪声的、模糊的并且随机的现实数据,并从中得到被隐含的、无人所知的但又是有用的信息和知识的过程。在数据挖掘技术中,处理餐饮顾客分类问题的算法有很多种,但因为餐饮顾客分类对算法的要求是求解精度较高,所以目前很多研究都是集中于对各类算法进行改进。数据挖掘技术中,由于被选中的指标属性较多、信息数据量庞大,有可能导致出现数据冗余或计算时间过长等问题。技术实现要素:为了解决现有技术所存在的问题,本发明提供了一种基于数据挖掘的顾客分类方法与系统,能够把隐藏的、无人所知的,却有价值的信息提取出来,提高了顾客分类的效果和质量。本发明基于数据挖掘的顾客分类方法,包括以下步骤:s1、确定目标顾客对象和目标数据;s2、收集数据,并运用数据清洗、数据集成、数据转换、属性约简、主成分分析法对顾客数据进行预处理;s3、采用k-means算法和hopfield神经网络算法相结合,对顾客数据进行挖掘,并得出不同顾客群体的分类结果;s4、对步骤s3的分类结果进行分析和评估,假如分类结果为最优,则将挖掘结果显示,否则返回步骤s3。优选地,步骤s2中,数据清洗为过滤或修改不符合的顾客数据;数据集成为将多文件或多数据库中的异构顾客数据进行合并,然后放在一个一致的数据存储结构中;数据转换为对顾客数据进行平滑处理、合计处理、泛化处理和规格化;属性约简为剔除所有顾客数据属性中的冗余属性,并保持数据的信息量和决策能力不变;主成分分析为将原始数据中具有一定相关性的指标重新组合成一组相互无关的综合指标,将原始的高维数据向低维空间转换。优选地,步骤s2中通过填写缺失的值、光滑噪声数据、识别或删除离群点进行数据清洗。优选地,步骤s2中的属性约简分为特征选择和特征简化,特征选择根据离散空间中的目标函数找出一个最具有代表性的特征子集;特征简化通过保护由原始的高维数据向低维空间代数变换的特征提取,得到一个连续空间问题的最优解。优选地,步骤s2中采用基于rough-pca相结合的属性约简方法,首先把数据集进行数据标准化,再利用pca找出主成分,进一步剔除虚弱的成分,得出简化的数据集,然后再对简化的数据集进行离散化处理,最后再利用rs进行再约简。优选地,步骤s2中的属性约简采用z-score标准化法对顾客数据集做标准化处理。优选地,步骤s3对顾客数据进行挖掘的过程为:首先选择顾客分类变量,确定生成簇的个数,然后确定初始聚类中心,通过k-means算法和hopfield神经网络算法对数据进行挖掘,得出分类结果。本发明基于数据挖掘的顾客分类系统,包括数据收集模块、数据预处理模块和实时分类模块,其中所述数据收集模块用于采集目标顾客数据;所述数据预处理模块运用数据清洗、数据集成、数据转换、属性约简、主成分分析法对顾客数据进行预处理,提取顾客信息;所述实时分类模块采用k-means算法与hopfield神经网络算法相结合的聚类方法,分析提取的顾客信息并显示挖掘结果。优选地,所述数据预处理模块包括:数据清洗模块:用于过滤或修改不符合的顾客数据;数据集成模块:用于将多文件或多数据库中的异构顾客数据进行合并,然后放在一个一致的数据存储结构中;数据转换模块:用于对顾客数据进行平滑处理、合计处理、泛化处理及规格化;属性约简模块:用于剔除所有顾客数据属性中的冗余属性,并保持数据的信息量和决策能力不变;以及主成分分析模块:用于将原始数据中具有一定相关性的指标重新组合成一组相互无关的综合指标,将原始的高维数据向低维空间转换。本发明采用上述技术方案后,提高了顾客分类的效果和质量,能够适应当今大数据时代企业与顾客之间的管理模式,能把隐藏的、无人所知的,却有价值的信息提取出来,能够使企业为顾客提供更有个性化,更高质量的产品或服务,使企业的利益达到最大化;有效地对顾客数据(如餐饮数据)进行较为准确的分类,使相关行业的企业(如餐饮企业)能够及时、准确掌握顾客资源及变化趋势,有效地对顾客资源进行管理,赢得更多顾客,从而达到企业的利益最大化。本发明具有结构简单、劳动强度低、效率高、不易受主观影响等特点。附图说明图1是本发明的分类流程图;图2是数据仓库的结构示意图;图3是主要数据预处理的过程示意图;图4是本发明的基于rough-pca相结合的属性约简方法的流程图;图5是本发明基于数据挖掘的餐饮顾客分类系统的实时分类过程图;图6是采用k-means算法进行分类、聚类的效果图。具体实施方式下面结合附图和具体实施例对本申请作进一步详细说明。以餐饮类顾客为例,如图1所示,本实施例基于数据挖掘,对顾客进行分类的方法包括以下步骤:s1、需求定义,主要是根据餐饮企业的要求去确定目标餐饮顾客对象和目标数据,从而对目标数据进行挖掘。s2、收集数据,并运用数据清洗、数据集成、数据转换、属性约简、主成分分析法对餐饮顾客数据进行预处理。收集所需的目标餐饮顾客信息数据,所收集的数据主要来自数据库、多文件等。数据清洗主要是通过填写缺失的值、光滑噪声数据、识别或删除离群点,并解决不一致性等方式“清理”数据;数据集成是通过数据交换而达到的,主要解决数据的分布性和异构性问题,数据集成的过程往往是根据关键字段将不同的表集成到一个或几个表格,但对于大的项目,则有可能需要集成到单独的数据仓库;数据转换是对餐饮顾客数据进行平滑处理、合计处理、泛化处理、规格化;属性约简一般可以分为两步,特征选择和特征简化,其中特征选择目的在于根据一些离散空间中的目标函数找出一个最具有代表性的特征子集,特征简化目的在于通过保护由原始的高维数据向低维空间代数变换的特征提取,得到一个连续空间问题的最优解;主成分分析是一种无监督管理的线性特征约简,可以用最小的重构误差使原始的高维数据向低维空间转换。主成分分析使用了粗糙集和主成分分析法相结合的方法进行特征选择。其中,数据仓库本身是一个复杂的系统,但就其基本组成来说主要有:数据源、监视器、集成器、数据仓库和客户应用5个部分,其结构如图2所示。而数据清洗、数据集成、数据转换、属性约简的过程如图3所示。如图4所示,本实施例采用基于rough-pca相结合的属性约简方法,首先是把数据集进行数据标准化,再利用pca找出主成分,进一步地剔除虚弱的成分,得出简化的数据集,然后再对简化的数据集进行离散化处理,最后再利用rs进行再约简。s3、采用k-means算法和hopfield神经网络算法相结合,对餐饮顾客数据进行挖掘,并得出不同餐饮顾客群体的分类结果。如图5所示,经过数据预处理过程之后,得到的数据集较为干净,可以采用k-means算法和hopfield神经网络算法对数据进行挖掘。首先选择顾客分类变量,确定生成簇的个数k,然后确定初始聚类中心,通过k-means算法和hopfield神经网络算法对数据进行挖掘,得出分类结果。1、k-means算法:假设我们提取到原始数据的集合为(x1,x2,…,xn),并且每个xi为d维的向量,k-means聚类的目的就是,在给定分类组数k(k≤n)值的条件下,将原始数据分成k类s={s1,s2,…,sk},在数值模型上,即对以下表达式求最小值:2、hopfield神经网络算法:hopfield神经网络算法的突出特点就是其自学习、自适应以及容错能力。由于权值的作用,神经网络在处理噪音等环境下要比决策树具有的鲁棒性更强。1)离散hopfield网络(dhnn):神经元的输出只取1和0,分别表示神经元处于激活和抑制状态。对于二值神经元,它的计算公式如下:其中,xi为外部输入。并且有:2)连续hopfield网络(chnn)拓扑结构和dhnn的结构相同。不同之处在于其函数g不是阶跃函数,而是s形的连续函数。一般取g(u)=1/(1+e^u)。s4、对步骤s3的分类结果进行分析和评估,假如分类结果为最优,则将挖掘结果显示,否则返回步骤s3:即重新选择顾客分类变量,调整细分变量,并重新确定要生成簇的个数k,进一步调整簇的个数,然后确定初始聚类中心,通过k-means算法和hopfield神经网络算法对数据进行挖掘,直到得出的分类结果为最优,显示分类结果,即挖掘结果。例如:已知有20个餐饮顾客的数据样本,每个样本有2个特征,数据分布如表1所示:x10101212367x20011122266x18678978989x26777788899表1采用k-means算法进行分类、聚类的效果如图6所示。本步骤对挖掘结果进行分析与评估,是确认冗余或无关的模式是否存在,若存在就将其剔除。同时,如果用户的需求无法被得出的模式满足,那么整个流程就需要退回到步骤s2和步骤s3,重新收集数据、重新设定参数值、改变数据转换方式或者改变挖掘算法。本实施例中,顾客分类系统包括数据收集模块、数据预处理模块和实时分类模块,其中所述数据收集模块遵循系统性原则、恰当性原则、可测量性原则、可操作性原则,用于采集目标餐饮顾客的信息;所述数据预处理模块运用数据清洗、数据集成、数据转换、属性约简、主成分分析法对顾客数据进行预处理,用于提取具有可用性、实用性、有效性、代表性的顾客信息;所述实时分类模块用于分析提取的顾客信息并显示挖掘结果。实时分类模块采用了k-means算法与hopfield神经网络算法相结合的聚类方法。其中,数据预处理模块包括如下部分:数据清洗模块:用于过滤或修改不符合的餐饮顾客数据;数据集成模块:用于将多文件或多数据库中的异构餐饮顾客数据进行合并,然后放在一个一致的数据存储结构中;数据转换模块:用于对餐饮顾客数据进行平滑处理、合计处理、泛化处理、规格化;属性约简模块:用于剔除所有餐饮顾客数据属性中的冗余属性,并保持数据的信息量和决策能力不变;以及主成分分析模块:用于将原始数据中比较多且具有一定相关性的指标重新组合成一组相对较少的相互无关的综合指标,将原始的高维数据向低维空间转换。主成分分析模块采用的是一种多元统计方法,主要是通过统计学的方法来考察多个变量之间的相关性,并研究如何通过少量的主成分来揭示多个变量间的内部结构,即从原始变量中导出少量主成分,使它们能够尽可能多地反映原来变量的信息,且彼此之间互无关系。属性约简模块采用了z-score标准化法对餐饮顾客数据集做标准化处理。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1