一种虚拟化环境下的多元数据清洗技术的制作方法

文档序号:12464905阅读:来源:国知局

技术特征:

1.一种虚拟化环境下的多元数据清洗技术,其特征在于,包含以下步骤:(1)数据分析、定义错误类型,(2)搜索、识别错误记录,(3)修正错误。

2.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(1)具体是:利用数据分析工具,来筛选错误数据;在错误类型分为两大类:单数据源与多数据源,并将它们又各分为结构级与记录级错误;这种分类非常适合于解决数据仓库中的数据清理问题。

3.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(2)具体是:在搜索、识别错误记录方面,根据自定义的清理规则库,查找不匹配的记录。

4.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(3)具体是:根据发现的错误模式,通过关联查询一定程度上修正错误;对数值字段,能根据数理统计知识自动修正,少量不能自动修复的数据可以借助于人工干预完成。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1