电动汽车用户的分类方法及装置与流程

文档序号:12666291阅读:236来源:国知局
电动汽车用户的分类方法及装置与流程
本发明涉及电动汽车领域,具体而言,涉及一种电动汽车用户的分类方法及装置。
背景技术
:北京是国内大陆首批推动电动汽车发展和示范运营的城市,合理规划充电设施,规范网络运营,提升用户体验成为重点突破的瓶颈,充分运用电动汽车运营积累的数据,从各个维度挖掘用户充电行为特点、充电站运营特点等信息成为突破瓶颈的理想技术。用户分类是在收集和整理用户行为信息的基础上,依据用户的需求特点、行为习惯等方面的明显差异,将整体用户划分为若干个用户群的分类过程。这样各个用户群均为在某一方面具有类似特点的用户所构成的群体,而分属不同用户群的用户之间又具有明显的差异性。在现实应用中,用户分类是一切营销活动的前提,尤其是进入个性化的用户体验时代,更加需要使用科学的技术将用户行为细分。基于庞大的用户行为数据基础的用户行为细分是国外银行早已开始使用的一种进行科学的客户认知、风险管理、个性化营销和服务的必备手段,属于目前发达国家炙手可热的商务智能领域的应用范畴。许多金融机构从以前以产品为中心的战略发展转向了以客户为中心的发展战略,此战略转变的一个关键步骤就是手机足够的信息对客户进行细分,并且对不同群体的客户采用针对性和有效的沟通。但是,现有技术中对电动汽车用户的分类方法的分类粒度较大,无法做到电动汽车用户的精细分类,无法为不同用户提供更为精确服务,导致用户体验感较差。针对现有技术中电动汽车用户的分类方法的分类粒度大,用户体验感差的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种电动汽车用户的分类方法及装置,以至少解决现有技术中电动汽车用户的分类方法的分类粒度大,用户体验感差的技术问题。根据本发明实施例的一个方面,提供了一种电动汽车用户的分类方法,包括:获取待分类的用户数据;根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量;基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。进一步地,分类结果包括:稳定用户、不稳定用户、价值型用户、非价值型用户、流失用户和非流失用户。进一步地,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量包括:根据预设分类条件,对待分类的用户数据进行处理,得到多个变量;从多个变量中,确定多个可用变量;从多个可用变量中,获取预设个数的分类变量。进一步地,从多个变量中,确定多个可用变量包括:对每个变量与其他任意一个变量进行相关性分析,得到每个变量与其他任意一个变量的相关性结果,其中,相关性结果至少包括:相关系数和校验值;判断每个变量与其他任意一个变量的相关性结果是否满足预设条件;如果第一变量与其他任意一个变量的相关性结果满足预设条件,则确定第一变量为可用变量。进一步地,判断每个变量与其他任意一个变量的相关性结果是否满足预设条件包括:判断相关系数是否处于第一预设范围,校验值是否处于第二预设范围;如果相关系数处于第一预设范围,且校验值处于第二预设范围,则确定每个变量与其他任意一个变量的相关性结果满足预设条件。进一步地,在根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量之后,上述方法还包括:对预设个数的分类变量进行标准化处理,得到标准化后的分类变量;对标准化后的分类变量中的预设顺序的分类变量进行分类,得到分类结果。进一步地,在根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量之后,上述方法还包括:对标准化后的分类变量进行排序,得到排序后的分类变量;根据排序后的分类变量中预设位置的分类变量,生成标准化后的分类变量的分布信息。根据本发明实施例的另一方面,还提供了一种电动汽车用户的分类装置,包括:第一获取单元,用于获取待分类的用户数据;第二获取单元,用于根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量;分类单元,用于基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。进一步地,分类结果包括:稳定用户、不稳定用户、价值型用户、非价值型用户、流失用户和非流失用户。进一步地,第二获取单元包括:处理模块,用于根据预设分类条件,对待分类的用户数据进行处理,得到多个变量;确定模块,用于从多个变量中,确定多个可用变量;获取模块,用于从多个可用变量中,获取预设个数的分类变量。进一步地,确定模块包括:处理子模块,用于对每个变量与其他任意一个变量进行相关性分析,得到每个变量与其他任意一个变量的相关性结果,其中,相关性结果至少包括:相关系数和校验值;判断子模块,用于判断每个变量与其他任意一个变量的相关性结果是否满足预设条件;确定子模块,用于如果第一变量与其他任意一个变量的相关性结果满足预设条件,则确定第一变量为可用变量。进一步地,判断子模块包括:判断重子模块,用于判断相关系数是否处于第一预设范围,校验值是否处于第二预设范围;确定重子模块,用于如果相关系数处于第一预设范围,且校验值处于第二预设范围,则确定每个变量与其他任意一个变量的相关性结果满足预设条件。进一步地,上述装置还包括:处理单元,用于对预设个数的分类变量进行标准化处理,得到标准化后的分类变量;分类单元还用于对排序后的分类变量中的预设顺序的分类变量进行分类,得到分类结果。进一步地,上述装置还包括:排序单元,用于对标准化后的分类变量进行排序,得到排序后的分类变量;生成单元,用于根据排序后的分类变量中预设位置的分类变量,生成标准化后的分类变量的分布信息。在本发明实施例中,获取待分类的用户数据,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量,基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。容易注意到的是,可以基于预设分类模型进行分类,得到分类结果,从而实现对电动汽车用户进行精细分类的目的,解决了现有技术中电动汽车用户的分类方法的分类粒度大,用户体验感差的技术问题。因此,通过本发明上述实施例提供的方案,可以达到提升用户体验,减少因电卡使用不便给用户带来困扰的效果。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种电动汽车用户的分类方法的流程图;以及图2是根据本发明实施例的一种电动汽车用户的分类装置的示意图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本发明实施例,提供了一种电动汽车用户的分类方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本发明实施例的一种电动汽车用户的分类方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取待分类的用户数据。具体的,上述的用户数据可以是电动汽车用户的使用数据,可以包括电动汽车的充电时间,充电电量,电卡卡内余额等。步骤S104,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量。具体的,上述的预设分类条件可以是对电动汽车用户进行分类的目的,例如,确定经常使用电卡进行充电的用户,或者确定开卡时间较长的用户;上述的预设个数可以是根据分类目的确定的作为用户分类依据的分类变量的数量,例如,可以是5个。在一种可选的方案中,在获取到电动汽车用户的原始数据之后,即获取到待分类的用户数据之后,可以根据分类目的,从获取到的原始数据中筛选出5个作为用户分类依据的分类变量,从而通过筛选出的5个分类变量,对电动汽车用户进行分类。步骤S106,基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。可选的,在本发明上述实施例中,分类结果包括:稳定用户、不稳定用户、价值型用户、非价值型用户、流失用户和非流失用户。具体的,上述的预设分类模型可以是K_means算法模型,K_means聚类法是较常用的分类方法,其最重要的特点是算法收敛的时间是和待分析数据的观测数成正比的。因此,K_means聚类法常被用来处理规模较大的数据;在分类结果中,认为“价值型非流失用户”是最好的,相反“价值型流失用户”是需要避免的。对于“价值型非流失用户”,这部分用户是需要进一步维护的用户,可以通过积分制等方式奖励这部分用户,进而提升这些用户的忠诚度;“价值型流失用户”可能由于在数据预处理过程中筛除了这部分数据,以后仍有可能出现该现象,则需要通过走访、问卷调查等方式找出这部分用户流失的原因,如:电卡废弃原因、自身原因等,进而有策略的对充电设施进行维护。在一种可选的方案中,可以通过K_means算法模型根据筛选出的5个分类变量,对用户进行分类。在分类结果中,价值型用户(电卡)约占11%,流失用户(电卡)约占15%。由此可见,全量数据中,价值型用户(电卡)较少,全部集中在长期用户中,这是由于评判价值型的一个衡量指标是使用电量总和,而长期用户更容易累积更多的电量;而流失的用户几乎集中在短期用户中,说明短期持卡用户的行为具有较强的不稳定性。对于“非价值型用户”又可分为“长期型非价值型用户”(约占全量数据的9%)和“短期型非价值型用户”(约占全量数据的80%)。其中,“短期型非价值型用户”可能是由于电卡使用时间短的原因,所以其价值仍然有待观察;而“长期型非价值型用户”可能是由于用户手持多张电卡,并非规律的使用一张电卡所导致。由此可见,提高电卡质量对于规范化分析用户充电行为有至关重要的意义。根据本发明上述实施例,获取待分类的用户数据,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量,基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。容易注意到的是,可以基于预设分类模型进行分类,得到分类结果,从而实现对电动汽车用户进行精细分类的目的,解决了现有技术中电动汽车用户的分类方法的分类粒度大,用户体验感差的技术问题。因此,通过本发明上述实施例提供的方案,可以达到提升用户体验,减少因电卡使用不便给用户带来困扰的效果。可选的,在本发明上述实施例中,步骤S104,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量,包括:步骤S1042,根据预设分类条件,对待分类的用户数据进行处理,得到多个变量。具体的,上述的多个变量可以是多个衍生变量。在一种可选的方案中,可以根据分类目的将待分类的用户数据中的原始变量进行加工,生成多个衍生变量,如表1至表4所示。表1衍生变量表2衍生变量表3衍生变量OBS矢量准备名称35pub_sum_PQ_ratepub_sum_PQ/(pub_sum_PQ+tax_sum_PQ)36pub_tax_sum_PQ_ratepub_sum_PQ/tax_sum_PQ37pub_tax_mean_PQ_ratetax_mean_PQ/pub_mean_PQ38pub_tax_max_PQ_ratetax_max_PQ/pub_max_PQ39pub_tax_mean_time_ratetax_mean_time_rate/pub_mean_time_rate40pub_tax_max_time_ratetax_max_time_rate/pub_max_time_rate41pub_tax_min_time_ratetax_min_time_rate/pub_min_time_rate42tax_freq_ratetax_freq/(pub_freq+tax_freq)43pub_freq_ratepub_freq/(pub_freq+tax_freq)44pub_tax_freq_ratepub_freq/tax_freq45AC_sum_PQ_rateAC_sum_PQ/(AC_sum_PQ+DC_sum_PQ)46DC_sum_PQ_rateDC_sum_PQ/(AC_sum_PQ+DC_sum_PQ)47AC_DC_sum_PQ_rateAC_sum_PQ/DC_sum_PQ48AC_DC_mean_PQ_rateAC_mean_PQ/DC_mean_PQ49AC_DC_max_PQ_rateAC_max_PQ/DC_max_PQ50AC_DC_mean_time_rateAC_mean_time_rate/DC_mean_time_rate51AC_DC_max_time_rateAC_max_time_rate/DC_max_time_rate52AC_DC_min_time_rateAC_min_time_rate/DC_min_time_rate53AC_freq_rateAC_freq/(AC_freq+DC_freq)54DC_freq_rateDC_freq/(AC_freq+DC_freq)55AC_DC_freq_rateAC_freq/AC_freq56min_recentlymin(AC_min_recently,DC_min_recently)57max_recentlymin(AC_max_recently,DC_max_recently)表4衍生变量OBS矢量准备名称58card_monthmax_recently-min_recently步骤S1044,从多个变量中,确定多个可用变量。具体的,上述的可用变量可以是无相关性的变量。在一种可选的方案中,可以通过相关性检查分析方法,对多个衍生变量进行相关性检验分析,确定无相关性的可用变量,从而避免选取的分类变量之间具有相关性。步骤S1046,从多个可用变量中,获取预设个数的分类变量。在一种可选的方案中,可以在无相关性的可用变量中挑选出5个作为用户分类依据的分类变量,例如,可以是sum_PURCHASE_PQ(用户使用总电量);mean_use_time_rate(平均使用/占用情况);min_recently(最后一次充电距离截止日期的时长);card_balance_mean(平均卡内剩余金额);card_month(开卡总时长)。可选的,在本发明上述实施例中,步骤S1044,从多个变量中,确定多个可用变量包括:步骤S122,对每个变量与其他任意一个变量进行相关性分析,得到每个变量与其他任意一个变量的相关性结果,其中,相关性结果至少包括:相关系数和校验值。具体的,相关性检验是指检验两变量是否存在相关关系的一种假设检验。在该假设检验中,ρ是相关系数的参数,P是校验值。步骤S124,判断每个变量与其他任意一个变量的相关性结果是否满足预设条件。具体的,上述的预设条件可以是用户根据分类目的,预先设置的确定两个衍生变量无相关性的条件,包括相关系数的条件和校验值的条件。步骤S126,如果第一变量与其他任意一个变量的相关性结果满足预设条件,则确定第一变量为可用变量。在一种可选的方案中,可以将一个衍生变量与其他每个衍生变量进行相关性分析,可以通过相关性校验分析法计算该衍生变量与其他每个衍生变量之间的相关系数和校验值,根据计算得到的相关系数和校验值,通过预设值进行匹配判断,确定该衍生变量与其他每个衍生变量是否相关,如果该衍生变量与其他每个衍生变量均不相关,则可以将该衍生变量作为可用变量。可选的,在本发明上述实施例中,步骤S124,判断每个变量与其他任意一个变量的相关性结果是否满足预设条件包括:步骤S1242,判断相关系数是否处于第一预设范围,校验值是否处于第二预设范围。具体的,上述的第一预设范围可以是0,上述的第二预设范围可以是大于等于0.05的范围。在一种可选的方案中,相关性检验中原假设H0和备择假设H1分别为:H0:ρ=0,H1:ρ≠0,即ρ=0可以表示为两个衍生变量无相关性,ρ≠0可以表示为两个衍生变量有相关性;通常,当P<0.05时,则表示两个衍生变量之间的线性关系是显著的,但P值的大小不能表示相关性的强弱,并且P值得大小受到样本容量的影响。步骤S1244,如果相关系数处于第一预设范围,且校验值处于第二预设范围,则确定每个变量与其他任意一个变量的相关性结果满足预设条件。在一种可选的方案中,如果一个衍生变量与另一个衍生变量的ρ≠0,且P<0.05,则可以确定该两个衍生变量具有相关性,且相关性显著;如果一个衍生变量与其他每个衍生变量的ρ=0,且P≥0.05,则确定该衍生变量与其他每个衍生变量均不相关,可以将该衍生变量作为可用变量。可选的,在本发明上述实施例中,在步骤S104,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量之后,该方法还包括:步骤S108,对预设个数的分类变量进行标准化处理,得到标准化后的分类变量。在一种可选的方案中,为了避免分类变量的方差之间差异较大,可以对分类变量进行标准化,SAS(统计分析系统,StatisticalAnalysisSystem的简写)中标准化过程如下:Procfastclusdata=数据集;Var变量;Run。步骤S110,对标准化的分类变量中的预设顺序的分类变量进行分类,得到分类结果。在一种可选的方案中,可以在对5个分类变量进行标准化之后,依据通过K_means算法模型根据标准化后的5个分类变量,对用户进行分类,提高用户分类的准确度。可选的,在本发明上述实施例中,在步骤S104,根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量之后,该方法还包括:步骤S112,对标准化后的分类变量进行排序,得到排序后的分类变量。步骤S114,根据排序后的分类变量中预设位置的分类变量,生成标准化后的分类变量的分布信息。具体的,上述的预设位置可以是预先设定的1%位置、25%位置、50%位置、75%位置、90%位置和99%位置。在一种可选的方案中,可以对即将分类的分类变量进行分布情况了解,即按照标准化后的分类变量由小到大排列顺序的1%位置、25%位置、50%位置、75%位置、90%位置和99%位置所对应的值一一列出,通过这些对应值的分布情况更好的了解分类变量并对分类依据提供帮助。实施例2根据本发明实施例,提供了一种电动汽车用户的分类装置实施例。图2是根据本发明实施例的一种电动汽车用户的分类装置的示意图,如图2所示,该装置包括:第一获取单元21,用于获取待分类的用户数据。具体的,上述的用户数据可以是电动汽车用户的使用数据,可以包括电动汽车的充电时间,充电电量,电卡卡内余额等。第二获取单元23,用于根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量。具体的,上述的预设分类条件可以是对电动汽车用户进行分类的目的,例如,确定经常使用电卡进行充电的用户,或者确定开卡时间较长的用户;上述的预设个数可以是根据分类目的确定的作为用户分类依据的分类变量的数量,例如,可以是5个。在一种可选的方案中,在获取到电动汽车用户的原始数据之后,即获取到待分类的用户数据之后,可以根据分类目的,从获取到的原始数据中筛选出5个作为用户分类依据的分类变量,从而通过筛选出的5个分类变量,对电动汽车用户进行分类。分类单元25,用于基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。可选的,在本发明上述实施例中,分类结果包括:稳定用户、不稳定用户、价值型用户、非价值型用户、流失用户和非流失用户。具体的,上述的预设分类模型可以是K_means算法模型,K_means聚类法是较常用的分类装置,其最重要的特点是算法收敛的时间是和待分析数据的观测数成正比的。因此,K_means聚类法常被用来处理规模较大的数据;在分类结果中,认为“价值型非流失用户”是最好的,相反“价值型流失用户”是需要避免的。对于“价值型非流失用户”,这部分用户是需要进一步维护的用户,可以通过积分制等方式奖励这部分用户,进而提升这些用户的忠诚度;“价值型流失用户”可能由于在数据预处理过程中筛除了这部分数据,以后仍有可能出现该现象,则需要通过走访、问卷调查等方式找出这部分用户流失的原因,如:电卡废弃原因、自身原因等,进而有策略的对充电设施进行维护。在一种可选的方案中,可以通过K_means算法模型根据筛选出的5个分类变量,对用户进行分类。在分类结果中,价值型用户(电卡)约占11%,流失用户(电卡)约占15%。由此可见,全量数据中,价值型用户(电卡)较少,全部集中在长期用户中,这是由于评判价值型的一个衡量指标是使用电量总和,而长期用户更容易累积更多的电量;而流失的用户几乎集中在短期用户中,说明短期持卡用户的行为具有较强的不稳定性。对于“非价值型用户”又可分为“长期型非价值型用户”(约占全量数据的9%)和“短期型非价值型用户”(约占全量数据的80%)。其中,“短期型非价值型用户”可能是由于电卡使用时间短的原因,所以其价值仍然有待观察;而“长期型非价值型用户”可能是由于用户手持多张电卡,并非规律的使用一张电卡所导致。由此可见,提高电卡质量对于规范化分析用户充电行为有至关重要的意义。根据本发明上述实施例,第一获取单元获取待分类的用户数据,第二获取单元根据预设分类条件,从待分类的用户数据中获取预设个数的分类变量,分类单元基于预设分类模型对预设个数的分类变量进行分类,得到分类结果,其中,分类结果用于表征用户数据的类型。容易注意到的是,可以基于预设分类模型进行分类,得到分类结果,从而实现对电动汽车用户进行精细分类的目的,解决了现有技术中电动汽车用户的分类方法的分类粒度大,用户体验感差的技术问题。因此,通过本发明上述实施例提供的方案,可以达到提升用户体验,减少因电卡使用不便给用户带来困扰的效果。可选的,在本发明上述实施例中,该第二获取单元包括:处理模块,用于根据预设分类条件,对待分类的用户数据进行处理,得到多个变量。具体的,上述的多个变量可以是多个衍生变量。在一种可选的方案中,可以根据分类目的将待分类的用户数据中的原始变量进行加工,生成多个衍生变量,如表1至表4所示。确定模块,用于从多个变量中,确定多个可用变量。具体的,上述的可用变量可以是无相关性的变量、在一种可选的方案中,可以通过相关性检查分析装置,对多个衍生变量进行相关性检验分析,确定无相关性的可用变量,从而避免选取的分类变量之间具有相关性。获取模块,用于从多个可用变量中,获取预设个数的分类变量。在一种可选的方案中,可以在无相关性的可用变量中挑选出5个作为用户分类依据的分类变量,例如,可以是sum_PURCHASE_PQ(用户使用总电量);mean_use_time_rate(平均使用/占用情况);min_recently(最后一次充电距离截止日期的时长);card_balance_mean(平均卡内剩余金额);card_month(开卡总时长)。可选的,在本发明上述实施例中,该确定模块包括:处理子模块,用于对每个变量与其他任意一个变量进行相关性分析,得到每个变量与其他任意一个变量的相关性结果,其中,相关性结果至少包括:相关系数和校验值。具体的,相关性检验是指检验两变量是否存在相关关系的一种假设检验。在该假设检验中,ρ是相关系数的参数,P是校验值。判断子模块,用于判断每个变量与其他任意一个变量的相关性结果是否满足预设条件。具体的,上述的预设条件可以是用户根据分类目的,预先设置的确定两个衍生变量无相关性的条件,包括相关系数的条件和校验值的条件。确定子模块,用于如果第一变量与其他任意一个变量的相关性结果满足预设条件,则确定第一变量为可用变量。在一种可选的方案中,可以将一个衍生变量与其他每个衍生变量进行相关性分析,可以通过相关性校验分析法计算该衍生变量与其他每个衍生变量之间的相关系数和校验值,根据计算得到的相关系数和校验值,通过预设值进行匹配判断,确定该衍生变量与其他每个衍生变量是否相关,如果该衍生变量与其他每个衍生变量均不相关,则可以将该衍生变量作为可用变量。可选的,在本发明上述实施例中,该判断子模块包括:判断重子模块,用于判断相关系数是否处于第一预设范围,校验值是否处于第二预设范围。具体的,上述的第一预设范围可以是0,上述的第二预设范围可以是大于等于0.05的范围。在一种可选的方案中,相关性检验中原假设H0和备择假设H1分别为:H0:ρ=0,H1:ρ≠0,即ρ=0可以表示为两个衍生变量无相关性,ρ≠0可以表示为两个衍生变量有相关性;通常,当P<0.05时,则表示两个衍生变量之间的线性关系是显著的,但P值的大小不能表示相关性的强弱,并且P值得大小受到样本容量的影响。确定重子模块,用于如果相关系数处于第一预设范围,且校验值处于第二预设范围,则确定每个变量与其他任意一个变量的相关性结果满足预设条件。在一种可选的方案中,如果一个衍生变量与另一个衍生变量的ρ≠0,且P<0.05,则可以确定该两个衍生变量具有相关性,且相关性显著;如果一个衍生变量与其他每个衍生变量的ρ=0,且P≥0.05,则确定该衍生变量与其他每个衍生变量均不相关,可以将该衍生变量作为可用变量。可选的,在本发明上述实施例中,该装置还包括:处理单元,用于对预设个数的分类变量进行标准化处理,得到标准化后的分类变量。在一种可选的方案中,为了避免分类变量的方差之间差异较大,可以对分类变量进行标准化,SAS(统计分析系统,StatisticalAnalysisSystem的简写)中标准化过程如下:Procfastclusdata=数据集;Var变量;Run。分类单元还用于对标准化的分类变量中的预设顺序的分类变量进行分类,得到分类结果。在一种可选的方案中,可以在对5个分类变量进行标准化之后,依据通过K_means算法模型根据标准化后的5个分类变量,对用户进行分类,提高用户分类的准确度。可选的,在本发明上述实施例中,该装置还包括:排序单元,用于对标准化后的分类变量进行排序,得到排序后的分类变量。生成单元,用于根据排序后的分类变量中预设位置的分类变量,生成标准化后的分类变量的分布信息。具体的,上述的预设位置可以是预先设定的1%位置、25%位置、50%位置、75%位置、90%位置和99%位置。在一种可选的方案中,可以对即将分类的分类变量进行分布情况了解,即按照标准化后的分类变量由小到大排列顺序的1%位置、25%位置、50%位置、75%位置、90%位置和99%位置所对应的值一一列出,通过这些对应值的分布情况更好的了解分类变量并对分类依据提供帮助。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1