本发明属于大数据领域,尤其涉及一种基于潜客挖掘系统的数据清洗方法。
背景技术:
1、商场商圈潜客挖掘模型应用于商业房产平台项目。为平台提供基础的用户数据。同行业内的算法适用的数据量小,效率不高,数据质量不理想等,该算法模型基于电信位置类大量数据进行挖掘分析,多维度分析用户与商场商圈的关系。
技术实现思路
1、本发明所要解决的技术问题是针对背景技术的不足提供一种基于潜客挖掘系统的数据清洗方法,。商场商圈潜客挖掘模型应用于商业房产平台项目。为平台提供基础的用户数据。同行业内的算法适用的数据量小,效率不高,数据质量不理想等,该算法模型基于电信位置类大量数据进行挖掘分析,多维度分析用户与商场商圈的关系。
2、本发明为解决上述技术问题采用以下技术方案:
3、一种基于潜客挖掘系统的数据清洗方法,应用于房地产平台商场商圈顾客判定上,具体包含超速数据清洗算法、乒乓切换清洗算法、顾客识别算法三种算法:
4、其中,超速数据清洗算法,具体包含如下步骤;
5、步骤a1,针对同一用户,顺次选取两条记录即第n条、第n+1条,根据第n条记录的停留时间tsn,以及与第n+1条记录的距离dn,计算第n条记录的穿越速度,如果该穿越速度大于350km/h,则第n条记录的坐标修改为第n-1条记录的坐标,否则不作修改;
6、其中,tsn为两停留点时间差;dn为两记录点经纬度距离;
7、步骤a2,如果为首条记录不合格,则继续计算第2条记录的速度,第2条记录与第3条记录的距离d2,直到找到速度合格的记录,将其坐标赋予首条记录;
8、步骤a3,最后一条记录始终保留;
9、步骤a4,重复步骤a2;
10、步骤a5,删除重复记录。
11、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤a1中,第n条记录的穿越速度具体计算如下:dn/tsn。
12、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,所述乒乓切换清洗算法,具体包含如下步骤:
13、步骤b1,针对同一用户mdn,顺次选取三条记录包含第n-1条、第n条、第n+1条;
14、步骤b2,对于只有一条乒乓记录的重复组,考虑两点间的距离和事件发生的时间;
15、步骤b3,对于大于等于两条乒乓记录的重复组(cababd、cababad、cabababd),将第一个乒乓记录坐标替换为其相邻的记录坐标,一个重复组内沿用相同规则进行替换,不再依次进行判断;
16、步骤b4,遍历结束后重复步骤b2;
17、步骤b5,重复步骤b2、步骤b3和步骤b4,直到所有记录均合格;
18、步骤b6,删除重复记录。
19、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤b3中,cababd替换为caabbd、cababad替换为caabaad。
20、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤b1中,如果第n-1条记录与第n+1条记录相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组。
21、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤b2中,计算第n条记录的穿越速度,当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度6km/h,则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。
22、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤b2中,步行平均速度为6km/h。
23、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,所述顾客识别算法,具体包含如下步骤:
24、步骤c1,判断目标区域的范围;
25、步骤c2,使用居住地工作地最近的地点与目标区域的距离,判断是否为顾客。
26、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,在步骤c2中,按下面条件进行筛选:设d为距离,其中,当d<1公里则停留时长>10min;
27、当1公里<d<2公里,则停留时长>30min;
28、当d>2公里,则停留时长>45min;
29、满足以上条件即为非顾客。
30、作为本发明一种基于潜客挖掘系统的数据清洗方法的进一步优选方案,使用进入前、里面和离开后三组速度计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。
31、本发明采用以上技术方案与现有技术相比,具有以下技术效果:
32、1、本发明一种基于潜客挖掘系统的数据清洗方法,通过使用数据去超速算法、数据去乒乓算法、顾客识别算法对数据进行处理,更贴近于实际的应用场景,应用于中国电信云计算公司大数据事业部房地产项目平台,是该平台的核心算法模型,为平台系统提供了基础的数据;
33、2、利用用户基站位置异常数据进行算法分析、判断、清洗,对因信号强弱、地形变化导致的用户位置不稳定、位置变化异常进行无监督学习,清洗效率快、粒度细;
34、3、结合数据清洗对用户位置重定位,在顾客识别过程中,提高位置精度、结合商场商圈位置数据提升识别精度;
35、4、不同于车辆等物体数据飘移算法,本算法应用场景广泛,应用成本低,识别精度高。
1.一种基于潜客挖掘系统的数据清洗方法,其特征在于:应用于房地产平台商场商圈顾客判定上,具体包含超速数据清洗算法、乒乓切换清洗算法、顾客识别算法三种算法:
2.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤a1中,第n条记录的穿越速度具体计算如下:dn/tsn。
3.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:所述乒乓切换清洗算法,具体包含如下步骤:
4.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤b3中:cababd替换为caabbd、cababad替换为caabaad。
5.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤b1中,如果第n-1条记录与第n+1条记录相同,第n条记录和第n-1条两条记录时间小于5分钟且与第n条记录不同,则标记第n条记录为一条乒乓记录,连续标记的乒乓记录记录为一个乒乓记录重复组。
6.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤b2中,计算第n条记录的穿越速度,当第n条记录与第n+1条记录距离小于1km时,穿越速度如果大于步行平均速度,则第n条记录坐标修改为第n-1条记录的坐标;否则不作修改。
7.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤b2中,步行平均速度为6km/h。
8.根据权利要求1所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:所述顾客识别算法,具体包含如下步骤:
9.根据权利要求8所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:在步骤c2中,按下面条件进行筛选:设d为距离,其中,当d<1公里则停留时长>10min;
10.根据权利要求9所述的一种基于潜客挖掘系统的数据清洗方法,其特征在于:使用进入前、里面和离开后三组速度计算方差,大于1的去掉,计算进入前的最近三个速度的平均速度,和在目标区域里面的平均速度,如果相差小于于10km/h为非顾客则去掉,否则是顾客。