本发明涉及互联网,尤其涉及一种基于用户消费数据的精准营销方法、装置及设备。
背景技术:
1、随着信息化技术的不断进步,人们生活中的的方方面面已经逐渐数字化,一举一动都在产生着大量的数据。
2、目前在对消费者网上行为数据的挖掘中,将数据抽象为用户的特征“标签”,用标签组成用户的模型即“用户画像”,可以有效地对数据进行去冗降噪、提高非结构化和半结构化数据的处理,而准确勾勒“用户画像”需要是其中的关键。
3、在营销活动中优质的高消费群体往往会成为精准营销的重点,但该高消费的群体相对于海量的用户来说是少数的存在,因此普通的用户数据以及“精准营销”的用户数据的比例之间是极其不平衡的,如果仅依靠基于平衡数据集设计的传统分类器,那么在处理不平衡数据时就会出现偏向于多数类的情况,从而导致少数类的不正确的分类,难以准确的勾勒少数类用户的画像,影响营销效果。
技术实现思路
1、本发明提供了一种基于用户消费数据的精准营销方法,用于解决现有技术中根据不平衡数据得到的分类器会出现偏向多数类数据的情况,导致精准营销时存在难以准确识别少数类用户的问题。
2、本发明第一方面提供了一种基于用户消费数据的精准营销方法,包括:
3、获取消费数据并进行归一化处理,将归一化处理后的数据集划分为多数类数据集和少数类数据集;
4、计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集;
5、根据预设的目标样本数计算少数类样本的迭代次数,再以迭代次数计算最小马氏距离;以添加随机参数的mahakil算法将不同子集内的样本作为双亲样本,迭代生成后代样本,将与双亲样本之间的马氏距离大于等于所述最小马氏距离的后代样本组成新少数类数据集;
6、以新少数类数据集和多数类数据集训练用户群体分类器,以向不同用户群体进行精准营销。
7、可选的,所述计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集,具体包括:
8、计算少数类数据集中各样本的马氏距离;
9、根据马氏距离将样本排序后确定分界样本;
10、根据分区样本位置将排序后的数据集划分为若干子集。
11、可选的,所述预设的目标样本数的计算模型具体为:
12、
13、式中,len(datask)为目标样本数,len(datasmax)为多数类样本数,len(datasmin)为少数类样本数目,q为预计少数类占比。
14、可选的,所述计算少数类数据集中各样本的马氏距离的计算公式为:
15、m2=(x-v)ts-1(x-v)
16、其中,x为少数类数据集中的样本,m为x在少数类数据集中的马氏距离,v是少数类数据集的样本均值,s是协方差矩阵,t为迭代次数。
17、可选的,所述迭代生成后代样本包括:
18、若迭代中后代样本与其双亲样本中的一个之间的马氏距离小于最小马氏距离,则将双亲样本的均值或欧式距离中间点作为后代样本继续进行迭代。
19、可选的,所述将与双亲样本之间的马氏距离大于等于所述最小马氏距离的后代样本组成新少数类数据集之后,还包括:
20、若新样本的数量不满足目标样本数,则将少数类数据集合并入新少数类数据集中作为补充。
21、本申请第二方面提供了一种基于用户消费数据的精准营销装置,包括:
22、数据集初步划分模块,用于获取消费数据并进行归一化处理,将归一化处理后的数据集划分为多数类数据集和少数类数据集;
23、少数类数据集划分模块,用于计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集;
24、少数类数据集平衡模块,用于根据预设的目标样本数计算少数类样本的迭代次数,再以迭代次数计算最小马氏距离;以添加随机参数的mahakil算法将不同子集内的样本作为双亲样本,迭代生成后代样本,将与双亲样本之间的马氏距离大于等于所述最小马氏距离的后代样本组成新少数类数据集;
25、分类器精准营销模块,用于以新少数类数据集和多数类数据集训练用户群体分类器,以向不同用户群体进行精准营销。
26、可选的,所述少数类数据集划分模块中,计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集,具体包括:
27、计算少数类数据集中各样本的马氏距离;
28、根据马氏距离将样本排序后确定分界样本;
29、根据分区样本位置将排序后的数据集划分为若干子集。
30、可选的,所述少数类数据集平衡模块中,预设的目标样本数的计算模型具体为:
31、
32、式中,len(datask)为目标样本数,len(datasmax)为多数类样本数,len(datasmin)为少数类样本数目,q为预计少数类占比。
33、本申请第三方面提供了一种基于用户消费数据的精准营销设备,所述设备包括处理器以及存储器:
34、所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
35、所述处理器用于根据所述程序代码中的指令执行本发明第一方面任一项所述的基于用户消费数据的精准营销方法。
36、从以上技术方案可以看出,本发明具有以下优点:通过获取消费数据并进行归一化处理,将归一化处理后的数据集划分为多数类数据集和少数类数据集;计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集;根据预设的目标样本数计算少数类样本的迭代次数,再以迭代次数计算最小马氏距离;以添加随机参数的mahakil算法将不同子集内的样本作为双亲样本,迭代生成后代样本,将与双亲样本之间的马氏距离大于等于所述最小马氏距离的后代样本组成新少数类数据集;以新少数类数据集和多数类数据集训练用户群体分类器,以向不同用户群体进行精准营销;通过在少数类数据集中生成满足马氏距离要求的若干新样本,平衡少数类数据集与多数类数据集之间的样本数量关系,再以两数据集训练分类器后,能使得分类器能准确的识别少数类用户,不会因训练的数据集数量差异导致偏向某一类用户,提高了营销的精准度。
1.一种基于用户消费数据的精准营销方法,其特征在于,包括:
2.根据权利要求1所述的基于用户消费数据的精准营销方法,其特征在于,所述计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集,具体包括:
3.根据权利要求1所述的基于用户消费数据的精准营销方法,其特征在于,所述预设的目标样本数的计算模型具体为:
4.根据权利要求2所述的基于用户消费数据的精准营销方法,其特征在于,所述计算少数类数据集中各样本的马氏距离的计算公式为:
5.根据权利要求1所述的基于用户消费数据的精准营销方法,其特征在于,所述迭代生成后代样本包括:
6.根据权利要求1所述的基于用户消费数据的精准营销方法,其特征在于,所述将与双亲样本之间的马氏距离大于等于所述最小马氏距离的后代样本组成新少数类数据集之后,还包括:
7.一种基于用户消费数据的精准营销装置,其特征在于,包括:
8.根据权利要求7所述的基于用户消费数据的精准营销装置,其特征在于,所述少数类数据集划分模块中,计算少数类数据集中各样本的马氏距离,并根据马氏距离将样本排序后再将各样本划分为若干子集,具体包括:
9.根据权利要求7所述的基于用户消费数据的精准营销装置,其特征在于,所述少数类数据集平衡模块中,预设的目标样本数的计算模型具体为:
10.一种基于用户消费数据的精准营销设备,其特征在于,所述设备包括处理器以及存储器: