一种物联网数据清洗方法

文档序号:9432635阅读:1023来源:国知局
一种物联网数据清洗方法
【技术领域】
[0001] 本发明设及数据处理领域,特别是设及一种物联网数据清洗方法。
【背景技术】
[0002] 自Internet出现W来,互联网上的肥B页面的数量就飞速增长着,也恰是由于其 运种增长速度,形成了世界上最大的信息资源库。W邸信息整合技术就是对运一个信息资源 库进行有效处理,整合相关信息,为数据挖掘提供数据方面的支撑,W便更好地应用于专业 领域中的信息服务。在当前飞速发展的网络时代,信息资源日益丰富,W邸信息整合已成为 信息时代的重要内容,在多个领域中都有W邸信息整合的应用。
[0003] 如在物联网领域中,产品供货商可W通过多个W邸交易平台发布产品信息,而买 家可W从W邸交易平台中获取信息,并通过产品供货商所发布的信息可W联系到产品供货 商进行购买;在运一过程中,就设及到大量数据的处理。但是,由于每个W邸交易平台对信 息的表述方式不尽相同,从而给信息整合带来了一定的困难。另外,同一个产品供货商去不 同的W邸交易平台发布同一个产品可能会出现不同的表现形式,其会造成运些W邸产品交 易平台上使用数据爬虫获取数据,进而会产生很多重复数据,因此,针对来自不同W邸数据 源的、表述形式不一样的产品数据进行重复数据的清洗是非常有必要的,其是通过机器判 断是否有重复数据的重要保障。

【发明内容】

[0004] 鉴于W上所述现有技术的缺陷和各种不足之处,本发明要解决的技术问题在于提 供一种物联网数据清洗方法。
[0005] 为实现上述目的,本发明提供一种物联网数据清洗方法,包括W下步骤:
[0006] S1、通过多个肥B交易平台获取产品原始记录; 阳007] S2、检测并清除产品原始记录中多条相似重复记录;
[000引 S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;
[0009] S4、通过软件配置,或利用配置文件,对清洗规则进行定义;
[0010] S5、读取设定的清洗规则,进行数据清洗。
[0011] 进一步地,所述步骤S2还包括W下步骤:
[0012] S21、数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、 可W初步判别的错误;
[0013] S22、缩小捜索空间,采用启发式的捜索算法;
[0014] S23、相似重复记录识别,检测出标识同一个现实实体的重复记录;
[0015] S24、相似重复记录清除,使得步骤S3中的每一条记录都代表唯一的实体;
[0016] S25、验证,通过召回率或准确率衡量相似重复记录的检测是否有效。
[0017] 优选地,所述步骤S1还包括如下步骤:
[0018] S11、检测产品原始记录中的异常数据;
[0019]S12、消除产品原始记录中的异常数据。
[0020] 本发明设及的数据清洗方法具有W下有益效果:
[0021] 本申请能够将从多个W邸交易平台中获取的多条产品原始记录的脏数据转换为 符合数据质量条件的数据,从而形成全面而专业的物联网产品数据库,为提供高效的、专业 的产品交易信息服务给出了有力保障。
[0022] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 并可依照说明书的内容予W实施,W下W本发明的较佳实施例并配合附图对本专利进行详 细说明。
【附图说明】
[0023] 图1为本申请的流程图。
【具体实施方式】
[0024] 下面结合附图对本发明的优选实施例进行详细介绍。
[0025] 本申请提供一种物联网数据清洗方法,用于将洗掉多个数据中的脏数据,发现并 纠正数据文件中可识别的错误,W清除那些不符合要求的数据,保留符合数据质量条件的 数据,然后将符合要求的数据建立数据库,为后续研究工作提供有力保障。如图1所示,所 述数据清洗方法包括W下步骤:
[0026]S1、通过多个肥B交易平台获取产品原始记录;
[0027]S2、检测并清除产品原始记录中多条相似重复记录;
[002引S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;
[0029] 该步骤可W采用桶算法实现查询重写,也可W采用逆规则算法实现查询重写;
[0030]S4、通过软件配置,或利用配置文件,根据所需要的数据质量条件对清洗规则进行 定义;
[0031]S5、读取设定的清洗规则,进行数据清洗。
[0032] 通过上述步骤可清除多条产品原始记录数据中那些不符合相关准则的脏数据,特 别是清除相似重复记录的数据,最后保留合乎要求的数据,将运些数据集成并建立相应的 数据库,通过再次清洗(即步骤S4和步骤S5)去除数据中的残缺数据和错误数据,最终得 到全面、准确、专业、符合数据质量条件的产品数据库,为提供高效专业的产品交易信息服 务建立扎实的基础,为精确捜索、查询、对比乃至个性化服务提供有力的数据支持,最终为 建立多样化的物联网产品交易平台提供有力支撑。
[0033] 进一步地,所述步骤S2中,多条相似重复记录的检测并清除包括W下步骤:
[0034]S21、数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、 可W初步判别的错误。
[0035]S22、缩小捜索空间,采用启发式的捜索算法,如可W采用分类邻近法、笛卡尔积算 法、聚类算法等,W较大地提升计算数目和有效性;其中,聚类算法还可避免因排序不当造 成的相似重复记录不能被有效识别的问题,其在准确率和召回率等技术指标上有进一步地 提升。另外,还可W根据各个属性的贡献程度对各属性赋予合理的权重,加入到相似记录的 匹配算法中,W提高算法准确率;还可W在分析数据源动态时增加相似记录识别的问题,在 数据模式不变的条件下,保证相似记录匹配的精确度。
[0036]S23、相似重复记录识别,检测出标识同一个现实实体的重复记录;该步骤即为匹 配过程,使用合适的算法检测出标识同一个现实实体的重复记录;优选地,可采用字段匹配 算法、编辑距离法等识别相似重复记录。
[0037]S24、相似重复记录清除,对检测出的相似重复记录进行合二为一或删除处理,使 得步骤S3中的每一条记录都代表唯一的实体。
[0038] S25、验证,通过召回率或准确率衡量相似重复记录的检测是否有效。
[0039]本申请中,召回率是指被重复记录检测算法正确识别出的重复记录占记录集实际 包含的重复记录的百分比。
[0040]
[0041] 准确率是指识别出的重复记录表示的是否是同一个实体,即标识误识别情况的程 度。
[0042]
[0043] 另外,基于准确率和召回率,增加了一个新的衡量标准:F1值。该指标是评价查准 率和查全率综合性能的指标,是两个指标的函数。
[0044]
[0045] 查全率和查准率之间是相互限制的,提高查准率就会降低查全率,相反,要提高查 全率就会减少查准率。因此可W根据实际的情况,衡量二者之间的权重,W找到一个最适合 的值。
[0046]较优地,本申请中,所述步骤S24主要通过=种方式处理相似重复记录,用户可根 据具体实际情形进行选择。
[0047] 方式一:人工方式,在由程序得出相似重复记录W后,由专家判断记录的取舍。 W48] 方式二,保留方式,在检测到的相似记录中由制定好规则的程序挑选其中一条记 录保存下来,删除其它记录。运种方法最简单,但必须事先对程序的取舍规则进行设定。
[0049]方式=,合并方式,也就是把每条重复记录都当作完整记录的一部分,可W将其合 并作为一条包含更完整信息的新记录,与第二条方法相似,必须对程序指定规则。
[0050]优选地,所述步骤S1还包括如下步骤:
[0051] S11、检测产品原始记录中的异常数据;
[0052]使用统计方法来检测数值型属性,计算字段值的均值和标准差,考虑每个字段的 置信区间来识别异常字段和记录。将数据挖掘方法引入数据清理,如聚类方法用于检测异 常记录、模型方法发现不符合现有模式的异常记录、关联规则方法发现数据集中不符合具 有高置信度和支持度规则的异常数据。
[0053] S12、消除产品原始记录中的异常数据,即对重复记录进行清洗。
[0054] 综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0055] W上对本发明实施例所提供的一种数据清洗方法进行了详细介绍,对于本领域的 一般技术人员,依据本发明实施例的思想,在【具体实施方式】及应用范围上均会有改变之处, 综上所述,本说明书内容不应理解为对本发明的限制,凡依本发明设计思想所做的任何改 变都在本发明的保护范围之内。
【主权项】
1. 一种物联网数据清洗方法,其特征在于:包括以下步骤: 51、 通过多个WEB交易平台获取产品原始记录; 52、 检测并清除产品原始记录中多条相似重复记录; 53、 集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中; 54、 通过软件配置,或利用配置文件,对清洗规则进行定义; 55、 读取设定的清洗规则,进行数据清洗。2. 根据权利要求1所述的一种物联网数据清洗方法,其特征在于:所述步骤S2还包括 以下步骤: 521、 数据预处理,对产品原始记录的数据形式进行格式化处理,清除比较明显的、可以 初步判别的错误; 522、 缩小搜索空间,采用启发式的搜索算法; 523、 相似重复记录识别,检测出标识同一个现实实体的重复记录; 524、 相似重复记录清除,使得步骤S3中的每一条记录都代表唯一的实体; 525、 验证,通过召回率或准确率衡量相似重复记录的检测是否有效。3. 根据权利要求1所述的一种物联网数据清洗方法,其特征在于:所述步骤Sl还包括 如下步骤: 511、 检测产品原始记录中的异常数据; 512、 消除产品原始记录中的异常数据。
【专利摘要】本发明提供一种物联网数据清洗方法,包括以下步骤:S1、通过多个WEB交易平台获取产品原始记录;S2、检测并清除产品原始记录中多条相似重复记录;S3、集成剩下的记录,将剩下数据源中的结构和数据映射到目标结构与域中;S4、通过软件配置,或利用配置文件,对清洗规则进行定义;S5、读取设定的清洗规则,进行数据清洗。本申请能够将从多个WEB交易平台中获取的多条产品原始记录的脏数据转换为符合数据质量条件的数据,从而形成全面而专业的物联网产品数据库,为提供高效的、专业的产品交易信息服务给出了有力保障。
【IPC分类】G06F17/30
【公开号】CN105183814
【申请号】CN201510534824
【发明人】谢东, 肖东, 成运
【申请人】湖南人文科技学院
【公开日】2015年12月23日
【申请日】2015年8月27日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1