一种基于统计判别法对电商销售额异常值的预处理方法

文档序号:8339750阅读:253来源:国知局
一种基于统计判别法对电商销售额异常值的预处理方法
【技术领域】
[0001] 本发明涉及计算机网络数据处理技术领域,具体地说是一种基于统计判别法对电 商销售额异常值的预处理方法。
【背景技术】
[0002] 现行的电商数据库极易受噪声、丢失数据和不一致数据的侵扰,而现实中,电商刷 单、商家提供虚假信息等现象也是屡禁不止。低质量的数据将导致低质量的挖掘结果,低质 量的基础数据直接导致无法做出高质量的决策。如何预处理电商数据异常值,提高数据质 量,做出高效的统计决策是做好数据分析工作必须重视的问题。
[0003] 现行的电商数据异常值主要存在以下几种方式:
[0004] 1)因为数据挖掘存在疏漏或其它原因造成的数据值缺失、数据噪音、数据值不一 致等。
[0005] 2)因为商家提供虚假信息,编造虚假销售记录导致销售额偏大。
[0006] 3)因为商家恶意刷单,导致销售数量偏大,最终导致整体销售额偏大。

【发明内容】

[0007] 本发明的技术任务是提供一种基于统计判别法对电商销售额异常值的预处理方 法。
[0008] 本发明的技术任务是按以下方式实现的,该预处理方法步骤如下:
[0009] 步骤1 :完善数据挖掘技术和工具;
[0010] 步骤2 :对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据 库,异常值再次进行验证处理;
[0011] 步骤3 :对异常值进行分类;
[0012] 步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数 据的对其补零处理;
[0013] 步骤5 :对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信 息库,并将其删除,非虚假信息纳入原始电商数据库;
[0014] 步骤6 :对于刷单数据进行验证处理;
[0015] 步骤7 :数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉; 如若不同,继续利用上述步骤对其进行检验;
[0016] 步骤8 :形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库, 实时数据都与历史数据建模分析,实现对海量数据的批量处理。
[0017] 所述的步骤3中异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷单数据。
[0018] 所述的步骤6中验证处理的方式为:1)刷单网站信息获取刷单数据进行信息验 证;2) IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP在某一时间段内成 规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的年销售数据,将时间 序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳入虚假信息库,并将 其删除,非虚假信息纳入原始电商数据库。
[0019] 本发明的一种基于统计判别法对电商销售额异常值的预处理方法和现有技术相 比,对异常电商数据更有针对性,对异常电商数据的排查将使采集周期变短、数据准确性大 大提高,而且操作简单,利于数据挖掘师、数据分析师的快速掌握。建立的异常值数据库还 可以为企业、政府、银行、个人等领域提供决策参考和依据,从而大大的节省了客户查阅资 料的时间。
【附图说明】
[0020] 附图1为一种基于统计判别法对电商销售额异常值的预处理方法的流程框图。
【具体实施方式】
[0021] 实施例1 :
[0022] 该预处理方法步骤如下:
[0023] 步骤1 :完善数据挖掘技术和工具;
[0024] 步骤2 :对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据 库,异常值再次进行验证处理;
[0025] 步骤3 :对异常值进行分类;异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷 单数据;
[0026] 步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数 据的对其补零处理;
[0027] 步骤5 :对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信 息库,并将其删除,非虚假信息纳入原始电商数据库;
[0028] 步骤6 :对于刷单数据进行验证处理;验证处理的方式为:1)刷单网站信息获取刷 单数据进行信息验证;2) IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP 在某一时间段内成规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的 年销售数据,将时间序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳 入虚假信息库,并将其删除,非虚假信息纳入原始电商数据库;
[0029] 步骤7 :数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉; 如若不同,继续利用上述步骤对其进行检验;
[0030] 步骤8 :形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库, 实时数据都与历史数据建模分析,实现对海量数据的批量处理。
[0031] 实施例2:
[0032] 对电商销售额异常值首先进行异常数据库的完善:
[0033] 1)对数据进行异常值检验,若确实为异常值,则将数据删除,且将此数据信息记录 到异常值数据库中;
[0034] 2)再次采集数据时,首先将要采集的数据与异常值数据库中进行对比,若信息一 致,则不会对此条数据采集入库;
[0035] 3)对新采集的数据进行异常值检验,若检测为异常值,则将数据删除,且将此数 据信息记录到异常值数据库中,进行异常值数据库的完善;循环往复,不断完善异常值数据 库。
[0036] 其次在异常数据库完备的基础之上,进行分类判断:
[0037] 1)当存在数据噪音时,即空值时,对数据进行补零处理。后期需要开发人员进一步 提高数据挖掘技术和完善数据挖掘工具,最大限度的避免数据缺失、噪音、不一致等情况;
[0038] 2)针对商家提供虚假信息的,在数据采集过程中,对于单价超过百万,且单价有四 位相同数据组成的,类似于99999999元,2020202020元等销售信息将其列为异常值,对于 异常值选定该商户(公司),采用此商户(公司)连续几个月的数据,首先对时间序列面板 化处理,剔除时间因素对数值的影响,之后将处理后的面板数据进行Q检验,当检验缺失为 异常值时,将此商户的数据剔除,且此商户的店铺URL列为虚假店铺信息库,下次采集数据 时将此商户直接剔除,既减少了的长期统计的工作量,又避免了异常值对于统计结果分析 的影响;
[0039] 3)对于同一买家IP连续在一家商店购买次数多于10次,且购买时间间隔不足30 天的,也将此家店铺列为异常值店铺,对于此类刷单店铺,需要结合评价数等因素排除异常 值。其中可用狄克逊检验对面板化的数据进行检验,模型如下:模型认为异常数据应该是最 大数据和最小数据,因此该其基本方法是将数据按大小排队,检验最大数据和最小数据是 否异常数据,只考虑极大值的情况;
[0040] (1)将实验数据Xi按值的大小排成顺序统计量
[0041 ] X⑴ < X ⑵ < X ⑶......X(n)
[0042] ⑵计算f0值
[0043]
【主权项】
1. 一种基于统计判别法对电商销售额异常值的预处理方法,其特征在于,该预处理方 法步骤如下: 步骤1:完善数据挖掘技术和工具; 步骤2 :对基础数据的进行初步验证,找出异常值,非异常值纳入原始电商数据库,异 常值再次进行验证处理; 步骤3 :对异常值进行分类; 步骤4:加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的 对其补零处理; 步骤5 :对于虚假数据,使用DDFAI对其判别验证,判别为虚假信息的纳入虚假信息库, 并将其删除,非虚假信息纳入原始电商数据库; 步骤6 :对于刷单数据进行验证处理; 步骤7 :数据采集过程中,将采集结果与异常数据库进行对比,如若相同,则删掉;如若 不同,继续利用上述步骤对其进行检验; 步骤8 :形成海量的数据库之后,建立基本的信息库,对每一个电商建立样本库,实时 数据都与历史数据建模分析,实现对海量数据的批量处理。
2. 根据权利要求1所述的一种基于统计判别法对电商销售额异常值的预处理方法,其 特征在于,所述的步骤3中异常值分类为:1)缺失、噪音数据;2)虚假数据;3)刷单数据。
3. 根据权利要求1所述的一种基于统计判别法对电商销售额异常值的预处理方法,其 特征在于,所述的步骤6中验证处理的方式为:1)刷单网站信息获取刷单数据进行信息验 证;2) IP查重技术,对于在同一家网店中买家IP重复出现或者不同IP在某一时间段内成 规律性购买同一商品,认定其为刷单数据怀疑对象,之后统计此网店的年销售数据,将时间 序列数据面板化处理,之后对其狄克逊检验,判别为虚假信息的将其纳入虚假信息库,并将 其删除,非虚假信息纳入原始电商数据库。
【专利摘要】本发明公开了一种基于统计判别法对电商销售额异常值的预处理方法,该预处理方法步骤如下:完善数据挖掘技术和工具;对基础数据的进行初步验证;对异常值进行分类;加强与虚假信息库的对比剔除,减少缺失、噪音数据,对于确实为缺失数据的对其补零处理;对于虚假数据判别验证;对于刷单数据进行验证处理;数据采集过程中,将采集结果与异常数据库进行对比;形成海量的数据库之后,建立基本的信息库,对海量数据批量处理。本发明和现有技术相比,对异常电商数据更有针对性,对异常电商数据的排查将使采集周期变短、数据准确性大大提高,而且操作简单,节省了客户查阅资料的时间。
【IPC分类】G06F17-30
【公开号】CN104657503
【申请号】CN201510109629
【发明人】左少标, 贾亦真, 张鑫, 徐宏伟
【申请人】浪潮集团有限公司
【公开日】2015年5月27日
【申请日】2015年3月13日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1