数据挖掘方法、装置及系统与流程

文档序号:11155265阅读:322来源:国知局
数据挖掘方法、装置及系统与制造工艺
本发明涉及大数据领域,特别是一种数据挖掘方法、装置及系统。
背景技术
:在大数据应用领域,往往可以根据用户的各种行为特征将用户群体划分成若干类,以便于针对用户群的特征进行精准式、个性化的服务。聚类是对用户群体进行划分一种方式。聚类是将数据对象分成类的过程,使同一个类中的对象具有很高的相似度,而使不同类中的对象高度相异。相异度通常使用距离来进行度量。聚类分析已广泛应用于各大领域,例如市场研究、数据分析、模式识别等等。但是,聚类操作中针对用户行为特征对用户群体进行划分的效果在很大程度上依赖于基础数据的质量,现有的基于聚类算法的用户群体划分往往不能够很好的反映用户的行为特征,存在聚类不准确的问题,难以利用聚类结果对用户群进行精准式、个性化的服务。技术实现要素:本发明的一个目的在于提高用户群体划分的准确度。根据本发明的一个方面,提出一种数据挖掘方法,包括:获取用户的预定行为数据,预定行为数据包括预定行为的效用数据和预定行为的生成时间;根据每个用户的预定行为数据的生成时间和预定行为数据的数量对用户进行分类,确定目标用户集合;根据预定行为数据生成目标用户集合中每个用户的单用户特征向量;根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合。可选地,预定行为数据还包括预定条件标识和效用抵扣数据,根据预定条件标识识别第一预定行为数据;单用户特征向量包括第一特征向量指标、第二特征向量指标第三特征向量指标、第四特征向量指标、第五特征向量指标和/或第六特征向量指标;根据预定行为数据生成目标用户集合中每个用户的单用户特征向量包括:根据用户的第一预定行为数据的数量与预定行为数据的数量的比值确定用户的第一特征向量指标;确定用户的各个预定行为数据的效用抵扣数据与效用数据的比值,并将比值取均值,确定用户的第二特征向量指标;根据用户的效用抵扣数据之和与效用数据之和的比值确定用户的第三特征向量指标;根据用户的效用抵扣数据之和确定用户的第四特征向量指标;根据用户的第一预定行为数据的数量确定用户的第五特征向量指标;和/或,根据用户的存在第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定用户的第六特征向量指标。可选地,根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合包括:根据每个用户的单用户特征向量确定高密度区域用户;从高密度区域用户中选择作为初始聚类中心的用户,初始聚类中心的数量与预定分级数量相等;根据初始聚类中心,基于K均值算法确定分级用户集合。可选地,在高密度区域用户中选择初始聚类中心包括:根据单用户特征向量在高密度区域用户中选择密度参数最大的用户作为第一初始聚类中心;从高密度区域用户中选取距离第一初始聚类中心最远的用户作为第二初始聚类中心;从高密度区域用户中选取距离第一初始聚类中心和第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心;依次类推直至确定全部初始聚类中心。可选地,排除目标用户集合中的异常用户,异常用户包括用户的效用抵扣数据之和大于预定分位数的用户;根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合包括:根据排除异常用户后的目标用户集合中用户的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合;基于预定策略为异常用户选择分级用户集合,并将异常用户并入分级用户集合中。可选地,还包括:将单用户特征向量中的特征向量指标进行数据标准化处理;根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合包括:根据标准化处理后的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合。通过这样的方法,可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能够排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分的结果进行精准式、个性化的服务。根据本发明的另一个方面,提出一种数据挖掘装置,包括:数据获取模块,用于获取用户的预定行为数据,预定行为数据包括预定行为的效用数据和预定行为的生成时间;用户分类模块,用于根据每个用户的预定行为数据的生成时间和预定行为数据的数量对用户进行分类,确定目标用户集合;特征向量生成模块,用于根据预定行为数据生成目标用户集合中每个用户的单用户特征向量;用户分级模块,用于根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合。可选地,预定行为数据还包括预定条件标识和效用抵扣数据,根据预定条件标识识别第一预定行为数据;单用户特征向量包括第一特征向量指标、第二特征向量指标第三特征向量指标、第四特征向量指标、第五特征向量指标和/或第六特征向量指标;根据预定行为数据生成目标用户集合中每个用户的单用户特征向量包括:根据用户的第一预定行为数据的数量与预定行为数据的数量的比值确定用户的第一特征向量指标;确定用户的各个预定行为数据的效用抵扣数据与效用数据的比值,并将比值取均值,确定用户的第二特征向量指标;根据用户的效用抵扣数据之和与效用数据之和的比值确定用户的第三特征向量指标;根据用户的效用抵扣数据之和确定用户的第四特征向量指标;根据用户的第一预定行为数据的数量确定用户的第五特征向量指标;和/或,根据用户的存在第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定用户的第六特征向量指标。可选地,用户分级模块包括:高密度用户确定单元,用于根据每个用户的单用户特征向量确定高密度区域用户;初始中心确定单元,用于从高密度区域用户中选择作为初始聚类中心的用户,初始聚类中心的数量与预定分级数量相等;聚类单元,用于根据初始聚类中心,基于K均值算法确定分级用户集合。可选地,初始中心确定单元用于:根据单用户特征向量在高密度区域用户中选择密度参数最大的用户作为第一初始聚类中心;从高密度区域用户中选取距离第一初始聚类中心最远的用户作为第二初始聚类中心;从高密度区域用户中选取距离第一初始聚类中心和第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心;依次类推直至确定全部初始聚类中心。可选地,还包括:异常用户排除模块,用于排除目标用户集合中的异常用户,异常用户包括用户的效用抵扣数据之和大于预定分位数的用户;用户分级模块用于:根据排除异常用户后的目标用户集合中用户的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合;基于预定策略为异常用户选择分级用户集合,并将异常用户并入分级用户集合中。可选地,还包括:标准化处理模块,用于将单用户特征向量中的特征向量指标进行数据标准化处理;用户分级模块用于根据标准化处理后的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合。这样的装置可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能够排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分结果进行精准式、个性化的服务。根据本发明的又一个方面,提出一种数据挖掘系统,包括存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上文中提到的任意一种方法。这样的系统可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能够排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分结果进行精准式、个性化的服务。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为本发明的数据挖掘方法的一个实施例的流程图。图2为本发明的数据挖掘方法中用户聚类的一个实施例的流程图。图3为本发明的数据挖掘方法的另一个实施例的流程图。图4为本发明的数据挖掘装置的一个实施例的示意图。图5为本发明的数据挖掘装置中用户分级模块的一个实施例的示意图。图6为本发明的数据挖掘装置的另一个实施例的示意图。图7为本发明的数据挖掘系统的一个实施例的示意图。图8为本发明的数据挖掘系统的另一个实施例的示意图。具体实施方式下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。本发明的数据挖掘方法的一个实施例的流程图如图1所示。在步骤101中,获取用户的预定行为数据,预定行为数据包括预定行为的效用数据和预定行为的生成时间。同一用户可以有多条预定行为数据,包括该预定行为数据的生成时间和效用数据。在一个实施例中,可以获得多用户的预定行为数据。在步骤102中,根据每个用户的预定行为数据的生成时间和预定行为数据的数量对用户进行分类,确定目标用户集合。在一个实施例中,可以按照预定行为数据的生成时间进行分类,也可以按照预定行为数据的生成数量进行分类,或者将两者结合进行更加细致的分类。可以按照需要选择一个或多个分类分别作为目标用户集合。在步骤103中,根据预定行为数据生成目标用户集合中每个用户的单用户特征向量。在一个实施例中,可以根据预定行为数据的数量、预定行为数据的效用数据、生成时间所处的时间区间等确定单用户特征向量。在步骤104中,根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。在一个实施例中,可以选择初始聚类中心,选择的初始聚类中心的数量预定分级数量相同的初始中心点,采用K均值算法进行聚类操作。通过这样的方法,可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能够排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分的结果进行精准式、个性化的服务。在一个实施例中,可以设定预定时间阈值以及预定数量对用户进行分类。若预定行为数据的生成时间均早于预定时间阈值,且预定行为数据的数量大于预定数量阈值时,确定用户为第一类用户;若预定行为数据的生成时间均早于预定时间阈值,且预定行为数据的数量不大于预定数量阈值时,确定用户为第二类用户;若存在预定行为数据的生成时间不早于预定时间阈值,且生成时间不早于预定时间阈值的预定行为数据的数量大于预定数量阈值时,确定用户为第三类用户;若存在预定行为数据的生成时间不早于预定时间阈值,且生成时间不早于预定时间阈值的预定行为数据的数量不大于预定数量阈值时,确定用户为第四类用户。通过这样的方法,能够根据预定行为数据的生成时间和预定行为数据的数量对用户进行分类,选择需要的类别的用户作为目标用户集合,或者可以对每个类别的用户集合分别进行聚类操作,实现每个类别的用户分级,从而能够实现同类别的用户的用户分级,提高用户分级的准确度。在一个实施例中,可以排除较长一段时间内没有预定行为数据产生的用户,由于这类用户长时间没有活动,因此进行用户行为分析和数据挖掘的意义不大,从而能够降低运算量,也能够减少对分级效果的影响,且在数据应用过程中能够减少运营成本。在一个实施例中,预定行为数据还包括预定条件标识和效用抵扣数据。效用抵扣数据可以是由于预定行为满足了预定条件而产生的抵扣效用,如使效用数据比标准效用数据降低的额度等。在一个实施例中,可以通过预定行为数据的预定条件标识判断预定行为是否符合预定条件,可以将符合预定条件的预定行为的预定行为数据称为第一预定行为数据。单用户特征向量可以反映符合预定条件的预定行为所占的比例、产生的影响,从而通过数据挖掘实现对用户行为特点,特别是对预定条件的敏感度的分析。在一个实施例中,可以根据用户的第一预定行为数据的数量与预定行为数据的数量的比值确定用户的第一特征向量指标;在另一个实施例中,可以确定用户的各个预定行为数据的效用抵扣数据与效用数据的比值,并将比值取均值,确定用户的第二特征向量指标;在又一个实施例中,可以根据用户的效用抵扣数据之和与效用数据之和的比值确定用户的第三特征向量指标;在再一个实施例中,可以根据用户的效用抵扣数据之和确定用户的第四特征向量指标;还可以根据用户的第一预定行为数据的数量确定用户的第五特征向量指标;另外,还可以根据用户的存在第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定用户的第六特征向量指标。通过多个特征向量指标构成特征向量,能够准确的刻画出用户对预定条件的敏感度,从而在聚类计算中,能够得到显著的体现用户对于预定条件敏感度差异的用户分级,便于以分级用户为基础开展有针对性的应用,对用户开展有针对性的服务。本发明的数据挖掘方法中用户分级的一个实施例的流程图如图2所示。在步骤201中,根据每个用户的单用户特征向量确定高密度区域用户。在一个实施例中,可以以用户的单用户特征向量点为中心点,确定包括预定数量的其他用户单用户特征向量点的区域的半径,若半径小于预定阈值,则认为用户为高密度区域用户。在一个实施例中,可以以用户的单用户特征向量点为中心点,确定预定半径的区域内其他用户的单用户特征向量点的数量,若该数量达到预定数量,则认为用户为高密度区域用户。在步骤202中,从高密度区域用户中选择作为初始聚类中心的用户,初始聚类中心的数量与预定分级数量相等。例如,若需要将目标用户集合中的用户通过聚类分为五级,则需要在高密度区域中选取5个初始聚类中心。在步骤203中,根据初始聚类中心,基于K均值算法确定分级用户集合。通常来讲,高密度的数据区域会被低密度的数据区域分隔,这些位于低密度区域的数据点通常就称为孤立点。目前已有的聚类算法大都是随机地选取初始聚类中心,这忽视了数据的分布情况,由于K均值算法中初始聚类中心的选取对结果会产生影响,因此随机的选取初始聚类中心会极大地影响最终的聚类效果。通过本发明实施例中的方法,能够保证初始聚类中心为高密度区域用户,避免将一些孤立用户作为初始聚类中心造成用户分级的不准确。在一个实施例中,可以基于用户的单用户特征向量进行运算,在高密度区域用户中选择密度参数最大的数据点作为第一初始聚类中心,并将第一初始聚类中心从高密度区域用户中删除;从高密度区域用户中选取距离第一初始聚类中心最远的用户作为第二初始聚类中心,并将第二初始聚类中心从高密度区域用户中删除;从高密度区域用户中选取距离第一初始聚类中心和第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心,并将第三初始聚类中心从高密度区域用户中删除;依次类推直至确定全部初始聚类中心。通过这样的方法,能够在高密度区域用户中选择彼此距离最远的用户作为初始聚类中心,一方面能够排除选择孤立用户作为初始聚类中心对聚类结果造成影响,另一方面由于彼此距离最远的初始聚类中心点比随机选取的要更具有代表性,通过此方法得到的初始聚类中心也更具有代表性,能够优化聚类效果,得到更有代表性的用户分级结果。在一个实施例中,两点之间的距离可以采用欧氏距离进行计算,具体实现公式如下:其中,x、y为两点标识,(x1,x2……xn)为x的特征向量,x1、x2……xn为x的特征向量指标;(y1,y2……yn)为y的特征向量,y1、y2……yn为y的特征向量指标,n为特征向量的指标数量。一个数据点x与一个数据点集z之间的距离为该数据点与数据集中所有数据点最近的距离,计算公式如下:dist(x,z)=min(dist(x,y)),y∈z其中,y为z中的每一个点。两个数据点集x、y之间的距离为最近的分别位于两个数据点集中的两个数据点之间的距离,计算公式如下:dist(x,y)=min(dist(u,v)),u∈x,v∈y其中,u为x中的每一个点,v为y中的每一个点。通过这样的方法,能够计算出每个数据点的密度参数,然后根据数据点之间距离的计算、数据点与集合之间距离的计算,以及集合之间关系的计算确定初始聚类中心。在k均值算法中,计算每个数据点距离k个初始聚类中心的欧式距离,将数据点和与其距离最近的初始聚类中心点归为一个簇,此时判断是否达到停止聚类的条件即聚类中心不再发生变化,若满足停止条件则退出,否则更新每个簇的聚类中心点,取每个簇内所有点的均值作为新的聚类中心,循环执行上述运算过程,直至聚类中心不再发生变化。通过这样的方法,能够完成聚类操作,获取分级用户集合。在一个实施例中,不同用户的特征指标中往往会出现一些远远偏离正常水平的极端大值和极端小值,通常将这些极端值称为异常值。为了不使这些异常值影响后续聚类的效果,可以在聚类之前对异常值进行识别。在一个实施例中,可以将用户的效用抵扣数据之和大于预定分位数的用户作为异常用户,将异常用户从用于聚类运算的目标用户集合中删除。在根据排除异常用户后的目标用户集合中用户的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合之后,可以为异常用户选择相似的分级用户集合,并将异常用户并入分级用户集合中,如将用户的效用抵扣数据之和大于预定分位数的用户并入对预定条件极为敏感的分级用户集合中;将效用抵扣数据为0的用户并入对预定条件极为不敏感的分级用户集合中。在一个实施例中,可以利用上文中提到的第二特征向量指标a进行异常用户的分级,如表1所示,用户i的第二特征向量指标为ai:ai≥a的均值+a的标准差对预定条件极度敏感a的均值≤ai<a的均值+a的标准差对预定条件高度敏感a的均值-a的标准差≤ai<a的均值对预定条件中度敏感ai<a的均值-a的标准差对预定条件轻度敏感ai=0对预定条件不敏感表1异常用户归类通过这样的方法,一方面能够排除异常用户对聚类计算造成的影响;另一方面也能够将异常用户纳入考虑范围内,而不是进行简单的剔除,从而提高了用户分级结果的覆盖范围,避免对部分用户的漏分析。在一个实施例中,进行聚类算法之前需要对特征向量指标数据进行标准化,以消除不同量纲对聚类结果带来的影响,例如有些特征向量指标是百分比,有些特征向量指标是数量,有些特征向量指标是效用,这些指标之间无法直接进行比较,因此需要转化成可比较、消除量纲影响的标准化特征向量指标数据。在一个实施例中,可以采用标准差标准化的方法对数据进行标准化,标准差标准化是指将特征向量指标数据减去该特征向量指标数据的均值,然后除以其标准差。均值是衡量数据分布的集中程度,计算公式为:均值标准差是衡量数据的离散程度,计算公式为:标准差根据标准差标准化计算公式:得到标准化后的特征向量指标数据,其中,X1…Xi…Xn为特征向量指标数据,i为1到n之间的自然数,n为参与聚类的目标用户集合中用户的数量;Xscalei为将Xi标准化后的特征向量指标数据。通过这样的方法,能够将特征向量指标数据标准化处理后再进行聚类计算,从而消除不同量纲对聚类效果产生的影响,提高用户分级的准确性和可靠性。本发明的数据挖掘方法的另一个实施例的流程图如图3所示。在步骤301中,获取用户的预定行为数据,预定行为数据包括预定行为的效用数据和预定行为的生成时间。同一用户可以有多条预定行为数据,包括该预定行为数据的生成时间和效用数据。在一个实施例中,可以获得多用户的预定行为数据。在步骤302中,根据每个用户的预定行为数据的生成时间和预定行为数据的数量对用户进行分类,确定目标用户集合。在一个实施例中,可以按照预定行为数据的生成时间进行分类,也可以按照预定行为数据的生成数量进行分类,或者将两者结合进行更加细致的分类。可以按照需要选择一个或多个分类分别作为目标用户集合。在步骤303中,根据预定行为数据生成目标用户集合中每个用户的单用户特征向量。在一个实施例中,可以根据预定行为数据的数量、预定行为数据的效用数据、生成时间所处的时间区间等确定单用户特征向量。在步骤304中,将效用抵扣数据之和大于预定分位数的用户作为异常用户,将异常用户从用于聚类运算的目标用户集合中删除。在步骤305中,对特征向量指标数据进行标准化,以消除不同量纲对聚类结果带来的影响。在步骤306中,根据标准化后的单用户特征向量,基于聚类算法对删除异常用户后的目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。在一个实施例中,可以选择与预定分级数量的数量相同的初始聚类中心,采用K均值算法进行聚类操作。在一个实施例中,还可以为异常用户选择相似的分级用户集合,并将异常用户并入分级用户集合中。通过这样的方法,能够先将用户进行分类,在一个分类内进行用户聚类,排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分的结果进行精准式、个性化的服务;能够保证初始聚类中心为高密度区域用户,避免将一些孤立点作为初始聚类中心造成用户分级的不准确;能够在排除异常用户对聚类计算造成的影响的同时,将异常用户纳入考虑范围内保证了用户分级结果的覆盖范围;消除不同量纲对聚类效果产生的影响,提高用户分级的准确性和可靠性。在一个实施例中,可以根据分级用户集合最终的聚类中心确定不同的分级用户集合对预定条件的敏感度。在一个实施例中,可以将几个分级用户集合的聚类中心分别在各个特征向量指标维度上求和,求和后按值的大小排序,值最大的聚类中心对应对预定条件极度敏感,以此类推,值最小的聚类中心对应对预定条件不敏感。通过这样的方法,能够对分级用户集合赋予现实的意义,使用户对不同分级用户集合具有直观的感受,从而实现对分级用户集合进行有针对性的应用、服务。在电子商务领域,可以根据用户的各种行为特征进行聚类,将购买用户群体划分成若干类,这样也便于市场分析及运营人员清晰地了解顾客群的特征,以便进行精准式、个性化的营销。促销敏感度是衡量用户对各类促销优惠的敏感程度的指标。有的用户非常关注促销优惠力度大的商品,经常多次性的购买,或者每当系统对用户发放优惠券时,用户就会利用优惠券产生购买行为,表明此类用户对促销比较敏感;而有些用户并不因商品是否参与促销而进行购买,并且对优惠券的发放也不感兴趣,表明此类用户对促销优惠并不敏感。基于这样的行为特征可以将用户划分为不同的群体,这便于实现对于用户的精准营销及个性化推荐,从而能够引导部分用户复购,提升交易额。现有技术中会选取系统数据库中的所有用户,计算优惠金额占比和优惠订单量占比这两个指标,采用随机选取初始聚类中心的方法,将用户分为对促销高度敏感、对促销轻度敏感和对促销不敏感三类。在本发明的一个实施例中,可以在用户群中进行选择,例如,将近3年有购物行为的用户作为促销敏感度识别的目标人群,一方面满足用户覆盖率,另一方面,识别近3年没有进行过购物的用户的促销敏感度已没有意义,通过营销很难会再引导其进行复购,这也会浪费营销资源。然后,再对近3年有购物行为的用户进行细分,可以根据用户最后一次购买时间及购物频次这两个指标将这部分用户划分成四大类:近一年仅购买过一次的用户;近一年有过复购行为的用户;最后一次购买行为发生在一年之前且一年前仅购买过一次的用户;最后一次购买行为发生在一年之前且一年前有过复购行为的用户。然后根据实际的应用场景分别将这四大类用户细分成5类:极度敏感、高度敏感、中度敏感、轻度敏感、不敏感。在一个实施例中,可以选取一个大类的用户进行细分,也可以对每个大类的用户分别进行细分。这样将用户进行精细划分的目的在于便于业务应用方进行更加精准、精细、个性化的运营,以最大化的满足营销的需求。在一个实施例中,可以采用更加丰富的特征向量指标对用户的促销敏感类型来进行区分,如表2所示。表2用户促销敏感度类型选取的特征向量指标在一些情况下,例如,有的用户仅购买过1次,而且这一单中的优惠金额占原价的80%,但原价仅10元;而另一些用户购买过多次且每次都是优惠订单,而且总的优惠金额占原价的50%,但原价达10万元,此时单纯的依靠优惠订单占比和优惠金额占比来判定用户的促销敏感类型是不准确的。本发明的实施例中的方法能够采用更加丰富的指标衡量用户的促销敏感度,更加合理和准确。在一个实施例中,还可以根据总优惠金额选取异常值,如通过分析各特征的数据分布发现,总优惠金额会出现一些极端大值,可以将优惠金额大于优惠金额0.995分位数的用户列为异常用户,这部分用户不参与聚类,但在聚类结束后,可以根据平均每单优惠金额占比进行归类,确定归属于哪个分级用户集合。如表3所示:用户i平均每单优惠金额ai≥a的均值+a的标准差极度敏感a的均值≤ai<a的均值+a的标准差高度敏感a的均值-a的标准差≤ai<a的均值中度敏感ai<a的均值-a的标准差轻度敏感ai=0不敏感表3促销优惠敏感度聚类中异常用户归类判断其中,a为单用户平均每单优惠金额。原有实现方式并没有对异常值进行处理,异常值会极大地影响聚类效果,这就会导致聚类的结果不佳。通过本发明实施例中的方法,能够结合具体的业务应用场景对离群点进行识别,识别出离群点后并没有进行简单的剔除,而是对离群点也进行了促销敏感类型的归类,这样提高了模型的用户覆盖率。本发明的数据挖掘装置的一个实施例的示意图如图4所示。其中,数据获取模块401能够获取用户的预定行为数据,预定行为数据包括预定行为的效用数据和预定行为的生成时间。同一用户可以有多条预定行为数据,包括该预定行为数据的生成时间和效用数据。在一个实施例中,可以获得多用户的预定行为数据。用户分类模块402能够根据每个用户的预定行为数据的生成时间和预定行为数据的数量对用户进行分类,确定目标用户集合。在一个实施例中,可以按照预定行为数据的生成时间进行分类,也可以按照预定行为数据的生成数量进行分类,或者将两者结合进行更加细致的分类。可以按照需要选择一个或多个分类分别作为目标用户集合。特征向量生成模块403能够根据预定行为数据生成目标用户集合中每个用户的单用户特征向量。在一个实施例中,可以根据预定行为数据的数量、预定行为数据的效用数据、生成时间所处的时间区间等确定单用户特征向量。用户分级模块404能够根据单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合,其中,分级用户集合的数量与预定分级数量相等。在一个实施例中,可以选择初始聚类中心,选择的初始聚类中心的数量预定分级数量相同的初始中心点,采用K均值算法进行聚类操作。这样的装置可以先将用户进行分类,在一个分类内进行用户聚类,从而能够选择适合的目标用户进行聚类分析,一方面能够更有针对性,减少运算的数据量,另一方面能够排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分的结果进行精准式、个性化的服务。在一个实施例中,可以设定预定时间阈值以及预定数量对用户进行分类。若预定行为数据的生成时间均早于预定时间阈值,且预定行为数据的数量大于预定数量阈值时,确定用户为第一类用户;若预定行为数据的生成时间均早于预定时间阈值,且预定行为数据的数量不大于预定数量阈值时,确定用户为第二类用户;若存在预定行为数据的生成时间不早于预定时间阈值,且生成时间不早于预定时间阈值的预定行为数据的数量大于预定数量阈值时,确定用户为第三类用户;若存在预定行为数据的生成时间不早于预定时间阈值,且生成时间不早于预定时间阈值的预定行为数据的数量不大于预定数量阈值时,确定用户为第四类用户。这样的装置能够根据预定行为数据的生成时间和预定行为数据的数量对用户进行分类,选择需要的类别的用户作为目标用户集合,或者可以对每个类别的用户集合分别进行聚类操作,实现每个类别的用户分级,从而能够实现同类别的用户的用户分级,提高用户分级的准确度。在一个实施例中,用户分类模块402可以排除较长一段时间内没有预定行为数据产生的用户,由于这类用户长时间没有活动,因此进行用户行为分析和数据挖掘的意义不大,从而能够降低运算量,也能够减少对分级效果的影响,且在数据应用过程中能够减少运营成本。在一个实施例中,预定行为数据还包括预定条件标识和效用抵扣数据。效用抵扣数据可以是由于预定行为满足了预定条件而产生的抵扣效用,如使效用数据比标准效用数据降低的额度等。在一个实施例中,可以通过预定行为数据的预定条件标识判断预定行为是否符合预定条件,可以将符合预定条件的预定行为的预定行为数据称为第一预定行为数据。单用户特征向量可以反映符合预定条件的预定行为所占的比例、产生的影响,从而通过数据挖掘实现对用户行为特点,特别是对预定条件的敏感度的分析。在一个实施例中,可以根据用户的第一预定行为数据的数量与预定行为数据的数量的比值确定用户的第一特征向量指标;在另一个实施例中,可以确定用户的各个预定行为数据的效用抵扣数据与效用数据的比值,并将比值取均值,确定用户的第二特征向量指标;在又一个实施例中,可以根据用户的效用抵扣数据之和与效用数据之和的比值确定用户的第三特征向量指标;在再一个实施例中,可以根据用户的效用抵扣数据之和确定用户的第四特征向量指标;还可以根据用户的第一预定行为数据的数量确定用户的第五特征向量指标;另外,还可以根据用户的存在第一预定行为数据的时间段的数量与从用户入网开始经过的时间段数量的比值确定用户的第六特征向量指标。通过用多个特征向量指标构成特征向量,能够准确的刻画出用户对预定条件敏感度的特点,从而在聚类计算中,能够得到显著的体现用户对于预定条件敏感度差异的用户分级,便于以分级用户为基础开展有针对性的应用,对用户开展有针对性的服务。本发明的数据挖掘装置中用户分级模块的一个实施例的示意图如图5所示。其中,高密度用户确定单元501能够根据每个用户的单用户特征向量确定高密度区域用户。在一个实施例中,可以以用户的单用户特征向量点为中心点,确定包括预定数量的其他用户单用户特征向量点的区域的半径,若半径小于预定阈值,则认为用户为高密度区域用户。在一个实施例中,可以以用户的单用户特征向量点为中心点,确定预定半径的区域内其他用户的单用户特征向量点的数量,若该数量达到预定数量,则认为用户为高密度区域用户。初始中心确定单元502能够从高密度区域用户中选择作为初始聚类中心的用户,初始聚类中心的数量与预定分级数量相等。例如,若需要将目标用户集合中的用户通过聚类分为五级,则需要在高密度区域中选取5个初始聚类中心。聚类单元503能够根据初始聚类中心,基于K均值算法确定分级用户集合。这样的装置能够保证初始聚类中心为高密度区域用户,避免将一些孤立用户作为初始聚类中心造成用户分级的不准确。在一个实施例中,初始中心确定单元502可以基于用户的单用户特征向量进行运算,在高密度区域用户中选择密度参数最大的数据点作为第一初始聚类中心,并将第一初始聚类中心从高密度区域用户中删除;从高密度区域用户中选取距离第一初始聚类中心最远的用户作为第二初始聚类中心,并将第二初始聚类中心从高密度区域用户中删除;从高密度区域用户中选取距离第一初始聚类中心和第二初始聚类中心集合的距离最远的用户作为第三初始聚类中心,并将第三初始聚类中心从高密度区域用户中删除;依次类推直至确定全部初始聚类中心。这样的装置能够在高密度区域用户中选择彼此距离最远的用户作为初始聚类中心,一方面能够排除选择孤立用户作为初始聚类中心对聚类结果造成影响,另一方面由于彼此距离最远的初始聚类中心点比随机选取的要更具有代表性,通过此方法得到的初始聚类中心也更具有代表性,能够优化聚类效果,得到更有代表性的用户分级结果。在一个实施例中,不同用户的特征指标中往往会出现一些远远偏离正常水平的极端大值和极端小值,通常将这些极端值称为异常值。为了不使这些异常值影响后续聚类的效果,可以在聚类之前对异常值进行识别。在一个实施例中,可以将用户的效用抵扣数据之和大于预定分位数的用户作为异常用户,将异常用户从用于聚类运算的目标用户集合中删除。在根据排除异常用户后的目标用户集合中用户的单用户特征向量,基于聚类算法对目标用户集合进行分级,确定分级用户集合之后,可以为异常用户选择相似的分级用户集合,并将异常用户并入分级用户集合中,如将用户的效用抵扣数据之和大于预定分位数的用户并入对预定条件极为敏感的分级用户集合中;将效用抵扣数据为0的用户并入对预定条件极为不敏感的分级用户集合中。在一个实施例中,可以根据用户上述第二特征向量指标的值与目标用户集合中第二特征指标的均值、标准差的大小关系确定异常用户归属的分级用户集合。这样的装置一方面能够排除异常用户对聚类计算造成的影响;另一方面也能够将异常用户纳入考虑范围内,而不是进行简单的剔除,从而提高了用户分级结果的覆盖范围,避免对部分用户的漏分析。在一个实施例中,进行聚类算法之前需要对特征向量指标数据进行标准化,以消除不同量纲对聚类结果带来的影响,例如有些特征向量指标是百分比,有些特征向量指标是数量,有些特征向量指标是效用,这些指标之间无法直接进行比较,因此需要转化成可比较、消除量纲影响的标准化特征向量指标数据。在一个实施例中,可以包括标准化处理模块,用于对数据进行标准化。在一个实施例中,标准化处理模块可以采用标准差标准化的方法进行数据标准化处理。标准差标准化是指将特征向量指标数据减去该特征向量指标数据的均值,然后除以其标准差。均值是衡量数据分布的集中程度,计算公式为:均值标准差是衡量数据的离散程度,计算公式为:标准差根据标准差标准化计算公式:得到标准化后的特征向量指标数据,其中,X1…Xi…Xn为特征向量指标数据,i为自然数,n为参与聚类的目标用户集合中用户的数量;Xscalei为将Xi标准化后的特征向量指标数据。这样的装置能够将特征向量指标数据标准化处理后再进行聚类计算,从而消除不同量纲对聚类效果产生的影响,提高用户分级的准确性和可靠性。本发明的数据挖掘装置的另一个实施例的示意图如图6所示。其中,数据获取模块601、用户分类模块602和特征向量生成模块603的结构和功能与图4的实施例中相似。数据挖掘装置还包括异常用户排除模块605和标准化处理模块606。异常用户排除模块605能够将效用抵扣数据之和大于预定分位数的用户作为异常用户,将异常用户从用于聚类运算的目标用户集合中删除。标准化处理模块606能够对特征向量指标数据进行标准化,以消除不同量纲对聚类结果带来的影响。用户分级模块604能够根据标准化后的单用户特征向量,基于聚类算法对删除异常用户后的目标用户集合进行分级,确定分级用户集合,还能够为异常用户选择相似的分级用户集合,并将异常用户并入分级用户集合中。这样的装置能够先将用户进行分类,在一个分类内进行用户聚类,排除不同类的用户数据对于聚类效果的干扰,使用户群体划分更加准确,便于根据用户群体划分的结果进行精准式、个性化的服务;能够保证初始聚类中心为高密度区域用户,避免将一些孤立点作为初始聚类中心造成用户分级的不准确;能够在排除异常用户对聚类计算造成的影响的同时,将异常用户纳入考虑范围内保证了用户分级结果的覆盖范围;消除不同量纲对聚类效果产生的影响,提高用户分级的准确性和可靠性。在一个实施例中,用户分级模块604可以根据分级用户集合最终的聚类中心确定不同的分级用户集合对预定条件的敏感度。在一个实施例中,可以将几个分级用户集合的聚类中心分别在各个特征向量指标维度上求和,求和后按值的大小排序,值最大的聚类中心对应对预定条件极度敏感,以此类推,值最小的聚类中心对应对预定条件不敏感。这样的装置,能够对分级用户集合赋予现实的意义,使用户对不同分级用户集合具有直观的感受,从而实现对分级用户集合进行有针对性的应用、服务。在一个实施例中,为了供各应用场景使用,可以将分级用户集合数据加工成规范化的数据表,存储在文件系统中,可通过数据库系统直接调用,或者以应用程序接口的方式推送给业务应用,以方便针对用户行为特点进行有针对的应用。本发明的数据挖掘系统的一个实施例的示意图如图7所示。该数据挖掘系统包括存储器701和处理器702。其中:存储器701可以是磁盘、闪存或其它任何非易失性存储介质。存储器系统运行的指令。处理器702耦接至存储器701,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器702用于执行存储器中存储的指令,进而实现获得高效、准确的分级用户集合的目的。本发明的数据挖掘系统的又一个实施例的示意图如图8所示。数据挖掘装置800包括存储器810和处理器820。处理器820可以包括处理器820a、820b…820n。处理器820a-820n通过BUS总线830耦合至存储器810。基于分布式式的数据挖掘系统,能够进行快速运算,提高了数据挖掘的运行效率。该数据挖掘系统800还可以通过存储接口840连接至外部存储装置850以便调用外部数据,还可以通过网络接口860连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,进而实现高效、准确的用户分级,便于根据用户行为特点提供对应的服务。最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1