1.一种虚拟化环境下的多元数据清洗技术,其特征在于,包含以下步骤:(1)数据分析、定义错误类型,(2)搜索、识别错误记录,(3)修正错误。
2.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(1)具体是:利用数据分析工具,来筛选错误数据;在错误类型分为两大类:单数据源与多数据源,并将它们又各分为结构级与记录级错误;这种分类非常适合于解决数据仓库中的数据清理问题。
3.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(2)具体是:在搜索、识别错误记录方面,根据自定义的清理规则库,查找不匹配的记录。
4.根据权利要求1所述的虚拟化环境下的多元数据清洗技术,其特征在于,所述步骤(3)具体是:根据发现的错误模式,通过关联查询一定程度上修正错误;对数值字段,能根据数理统计知识自动修正,少量不能自动修复的数据可以借助于人工干预完成。