技术编号:12177428
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明涉及数据处理技术领域,尤其涉及一种海量数据的清洗方法和系统。背景技术随着计算机技术的飞速发展及企业业务量的增长,企业的用户数据越来越多,不可避免的,数据的错误率也相应增多,在对数据做统计分析之前,需要将这些错误数据清洗掉,以确保统计的准确性。现有数据清洗任务指的是过滤或修改不符合要求的数据,这些不符合要求的数据主要包括:不完整数据、错误数据和重复数据共三大类。其中,识别重复数据是数据清洗的核心,重复数据是指,同一实体在数据集合中用多条不完全相同的记录来表示,由于它们在格式、拼写上的差异,导...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考以及查看自身技术是否侵权,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。