一种基于防伪溯源系统的异常数据处理方法及系统与流程

文档序号:11584120阅读:187来源:国知局
一种基于防伪溯源系统的异常数据处理方法及系统与流程

本发明涉及防伪溯源领域,更具体地,涉及一种基于防伪溯源系统的异常数据处理方法及系统。



背景技术:

现阶段的防伪溯源系统,消费者通过产品上粘贴的rfid或二维码查询该产品从生产到流通,再到自己手里的全过程信息。系统接收用户特征,商品特征,并返回商品的真伪结果,商品生产、制作、批发、零售等环节记录。

通过上述现有方案,传统的防伪溯源系统止步于分辨真伪,不能对查询结果进行深入挖掘。而且,用户不能获取意图消费店铺的诚信情况。



技术实现要素:

本发明为克服上述现有技术所述的至少一种缺陷,提供一种基于防伪溯源系统的异常数据处理方法及系统,利用防伪溯源系统的信息进行有效挖掘,为用户、店铺管理者和政府监管部门提供有效参考。

为解决上述技术问题,本发明的技术方案如下:

一种基于防伪溯源系统的异常数据处理方法,包括以下步骤:

s1:获取用户信息,查询产品真伪情况;

s2:根据获取的信息,利用数据清洗、数据集成、数据变换和数据归约方法对数据进行预处理;

s3:针对数据集进行异常检测,去除异常点干扰;

s4:针对线下数据集利用基于距离的方法找到最可疑假冒源;针对线上数据集采用基于频率的分类方法,找出最可疑假冒源;

s5:标记不良店铺,并发送标记结果到数据库。

在一种优选的方案中,步骤s1中,接收用户输入的基本信息、商品信息、查询信息和购买途径,基本信息包括id、性别、年龄,商品信息包括价格、种类、用途,查询信息包括空间位置、时间,购买途径为线上和线下,线上途径包括网站、店铺,线下途径为店铺。

在一种优选的方案中,步骤s2中,具体包括以下步骤:

s2.1:检查用户输入的各项属性,若存在空值,则将记录删除;

s2.2:对价格、时间输入统一格式:价格提取整数部分,删除小数部分和货币符号,时间保留年、月、日、时、分信息;

s2.3:将数据依据预收的规则进行变换,如对地理位置的经纬度依据一定的变换关系,扩大数据间的差异;

s2.4:对短时间内反复出现的相同数据点,标记为异常行为,只记录1次;对用户与其反馈店铺反复成对出现的数据点,标记为异常行为,只记录为1次。

在一种优选的方案中,步骤s3中,具体包括以下步骤:

s3.1:对输入数据di进行处理,使用相同的半径,将输入数据划分成不同的类,当类中所包含的数量大于所设阈值k时,证明其不是离群点,将其删除;

s3.2:使用fcm聚类算法对步骤s3.2获取到的数据进行聚类,数据集记为d=(1,d2,d3,..,dc),其中c为聚类数量,di为具体类别中所含数量,ri为聚类半径,则根据以下公式计算密度den:

根据den的数值对其进行排序,密度较低的几个类,就最大可能包含离群点;

s3.3:使用最近邻算法查找离群点;

s3.4:在输入数据di中,将步骤s3.3获取的离群点删除,结果即为有效点集。

在一种优选的方案中,步骤s4中,针对线下数据集利用基于距离的方法找到最可疑假冒源,具体包括以下步骤:

s4.1:使用k-means算法对有效点集进行聚类,数据集记为pi,i∈[0,c],其中c为聚类数量;

s4.2:当簇中数量达到阈值时,其聚类中心即标记为假冒源中心点;

s4.3:根据步骤s2.3的地理位置变换,对聚类中心进行相应逆变换,得到假冒源的地理位置,寻找数据集内距离聚类中心最近的点,即为假冒源。

在一种优选的方案中,步骤s4中,针对线上数据集采用基于频率的分类方法,找出最可疑假冒源,具体包括:

在pi中对相同数据点出现次数进行累加,对累加结果进行排序,累加结果超过所设阈值的即为假冒源。

一种基于防伪溯源系统的异常数据处理系统,包括:

信息采集模块:用于采集用户输入的基本信息、商品信息、查询信息和购买途径,基本信息包括id、性别、年龄,商品信息包括价格、种类、用途,查询信息包括空间位置、时间,购买途径为线上和线下,对于线上购买需进一步获取店铺id;

信息预处理模块:用于对信息采集模块得到的数据进行预处理得到样本集d={x1,x2,...,xm},包含m个无标记样本,每个样本xi=(xi1;xi2,...,xin)是一个n维特征向量,反映假冒商品的特征信息;

异常检测模块:用于对预处理后的数据进行异常检测,剔除异常数据点;

查找模块:用于根据得到的数据集,针对线上线下两种情况,查找假冒源;

标记模块:用于标记不良店铺,并发送标记结果到数据库。

与现有技术相比,本发明技术方案的有益效果是:本发明提供一种基于防伪溯源系统的异常数据处理方法及系统,在用户通过防伪溯源平台查询商品真伪的过程中,当判定商品为假冒时,系统将得到的用户信息(性别、年龄)、查询信息(空间位置、时间)以及用户反馈的商品信息(价格、种类、用途)和购买途径信息(线上(网站、店铺)、线下(店铺))等进行数据预处理。接着对数据进行异常检测,然后对线下数据集利用基于距离分类方法进行分析,根据位置信息查找假冒源,或者针对线上数据集基于频率分类方法进行分析,达到阈值即判定为假冒源。

本发明具有以下优点:

1、利用防伪溯源系统的信息进行有效挖掘,查找并标记假冒商品源头,提醒用户对标记店铺提高警惕,同时为政府监管和电子商务平台打击假冒商品提供有效参考;

2、对数据集进行数据预处理,减少人为恶意多次刷取假冒信息的影响,提高结果的可信度;

3、对数据集进行异常检测,排除人为错误等非假冒情况的干扰,提高数据处理的精确度;

4、先对数据进行异常检测处理,查找假冒源时可以减少无效数据的干扰,提高系统运算速度,实时性高。

附图说明

图1为本发明基于防伪溯源系统的异常数据处理方法的流程图。

图2为本发明基于防伪溯源系统的异常数据处理系统的结构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于防伪溯源系统的异常数据处理方法,包括以下步骤:

s1:获取用户信息,查询产品真伪情况;

s2:根据获取的信息,利用数据清洗、数据集成、数据变换和数据归约方法对数据进行预处理;

s3:针对数据集进行异常检测,去除异常点干扰;

s4:针对线下数据集利用基于距离的方法找到最可疑假冒源;针对线上数据集采用基于频率的分类方法,找出最可疑假冒源;

s5:标记不良店铺,并发送标记结果到数据库。

步骤s1中,接收用户输入的基本信息、商品信息、查询信息和购买途径,基本信息包括id、性别、年龄,商品信息包括价格、种类、用途,查询信息包括空间位置、时间,购买途径为线上和线下,线上途径包括网站、店铺,线下途径为店铺。

步骤s2中,具体包括以下步骤:

s2.1:检查用户输入的各项属性,若存在空值,则将记录删除;

s2.2:对价格、时间输入统一格式:价格提取整数部分,删除小数部分和货币符号,时间保留年、月、日、时、分信息;

s2.3:将数据依据预收的规则进行变换,如对地理位置的经纬度依据一定的变换关系,扩大数据间的差异;

s2.4:对短时间内反复出现的相同数据点,标记为异常行为,只记录1次;对用户与其反馈店铺反复成对出现的数据点,标记为异常行为,只记录为1次。

步骤s3中,具体包括以下步骤:

s3.1:对输入数据di进行处理,使用相同的半径,将输入数据划分成不同的类,当类中所包含的数量大于所设阈值k时,证明其不是离群点,将其删除;

s3.2:使用fcm聚类算法对步骤s3.2获取到的数据进行聚类,数据集记为d=(1,d2,d3,..,dc),其中c为聚类数量,di为具体类别中所含数量,ri为聚类半径,则根据以下公式计算密度den:

根据den的数值对其进行排序,密度较低的几个类,就最大可能包含离群点;

s3.3:使用最近邻算法查找离群点;

s3.4:在输入数据di中,将步骤s3.3获取的离群点删除,结果即为有效点集。

步骤s4中,针对线下数据集利用基于距离的方法找到最可疑假冒源,具体包括以下步骤:

s4.1:使用k-means算法对有效点集进行聚类,数据集记为pi,i∈[0,c],其中c为聚类数量;

s4.2:当簇中数量达到阈值时,其聚类中心即标记为假冒源中心点;

s4.3:根据步骤s2.3的地理位置变换,对聚类中心进行相应逆变换,得到假冒源的地理位置,寻找数据集内距离聚类中心最近的点,即为假冒源。

步骤s4中,针对线上数据集采用基于频率的分类方法,找出最可疑假冒源,具体包括:

在pi中对相同数据点出现次数进行累加,对累加结果进行排序,累加结果超过所设阈值的即为假冒源。

实施例2

如图2所示,一种基于防伪溯源系统的异常数据处理系统,包括:

信息采集模块201:用于采集用户输入的基本信息、商品信息、查询信息和购买途径,基本信息包括id、性别、年龄,商品信息包括价格、种类、用途,查询信息包括空间位置、时间,购买途径为线上和线下,对于线上购买需进一步获取店铺id;

信息预处理模块202:用于对信息采集模块得到的数据进行预处理得到样本集d={x1,x2,...,xm},包含m个无标记样本,每个样本xi=(xi1;xi2,...,xin)是一个n维特征向量,反映假冒商品的特征信息;

异常检测模块203:用于对预处理后的数据进行异常检测,剔除异常数据点;

查找模块204:用于根据得到的数据集,针对线上线下两种情况,查找假冒源;

标记模块205:用于标记不良店铺,并发送标记结果到数据库。

本发明提供一种基于防伪溯源系统的异常数据处理方法及系统,在用户通过防伪溯源平台查询商品真伪的过程中,当判定商品为假冒时,系统将得到的用户信息(性别、年龄)、查询信息(空间位置、时间)以及用户反馈的商品信息(价格、种类、用途)和购买途径信息(线上(网站、店铺)、线下(店铺))等进行数据预处理。接着对数据进行异常检测,然后对线下数据集利用基于距离分类方法进行分析,根据位置信息查找假冒源,或者针对线上数据集基于频率分类方法进行分析,达到阈值即判定为假冒源。

本发明具有以下优点:

1、利用防伪溯源系统的信息进行有效挖掘,查找并标记假冒商品源头,提醒用户对标记店铺提高警惕,同时为政府监管和电子商务平台打击假冒商品提供有效参考;

2、对数据集进行数据预处理,减少人为恶意多次刷取假冒信息的影响,提高结果的可信度;

3、对数据集进行异常检测,排除人为错误等非假冒情况的干扰,提高数据处理的精确度;

4、先对数据进行异常检测处理,查找假冒源时可以减少无效数据的干扰,提高系统运算速度,实时性高。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1