一种档案大数据智能分析清洗挖掘系统的制作方法

文档序号:17641453发布日期:2019-05-11 00:42阅读:732来源:国知局
一种档案大数据智能分析清洗挖掘系统的制作方法

本发明涉及数据挖掘和清洗技术领域,特别是一种档案大数据智能分析清洗挖掘系统。



背景技术:

随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:即数据量大、类型繁多、价值密度低、速度快时效高;作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种档案大数据智能分析清洗挖掘系统,解决传统面对海量数据无法准确进行数据挖掘和数据清洗的问题,本申请能对档案进行缺失值处理,以及数据统计分析,结构简单,使用方便。

本发明的目的是通过以下技术方案来实现的:

一种档案大数据智能分析清洗挖掘系统,包括档案信息数据库;档案信息数据库内包括档案归置模块、数据预处理模块和数据挖掘分析模块;档案归置模块包括档案分类统计模块、档案定位展现模块和档案记录模块;

档案分类统计模块用于对档案进行录入、归置、分类和统计,并对档案按日期、按名称或按分类统计成表;

档案定位展现模块用于获取和记录每个实体档案的定位信息,并对档案的位置变化进行记录;

档案记录模块用于记录档案的录入时间,以及记录档案的调取信息,所述调取信息包括调取人、调取时间、调取原因和归还时间;

数据预处理模块包括数据清理模块、缺失值处理模块、数据选择模块、数据变换模块、数据集成模块、数据消减模块和数据清洗评估模块;

数据清理模块用于过滤和修改不符合要求的数据,检测和消除数据异常;所述不符合要求的数据包括不完整的数据、错误的数据和重复的数据;

缺失值处理模块用于对带大量缺失值的数据进行处理,所述对缺失值的数据进行处理包括删除、比对数据属性和利用数据属性填充缺失值;

数据选择模块用于对缺失处理后的数据进行选择,剔除冗余属性和挖掘关系不大的属性;

数据变换模块用于对不同来源的数据进行转换,所述对不同来源的数据进行转换包括属性的数据类型转换、属性构造的转换、数据离散化的转换和数据标准化的转换;

数据集成模块用于把不同来源、不同格式和不同特点性质的数据在逻辑上或物理上有机地集中,从而为数据挖掘提供完整的数据源;

数据消减模块用于对大规模的数据进行数据消减,所述数据消减包括数据聚合、消减纬度、数据压缩和数据块消减;

数据清洗评估模块用于对清洗后的数据进行质量评估;

数据挖掘分析模块包括统计分析模块、机器学习模块、神经网络模块和挖掘分析模块;

统计分析模块用于对待挖掘的数据进行分析,所述对待挖掘的数据进行分析包括分类分析、聚类分析、关联分析、序列分析和时间分析;

机器学习模块用于通过归纳学习方法对大量数据进行有目的分类,从中找到有价值的信息,并通过算法生成预测模型;

神经网络模块用于通过聚类的自组织映射方法对数据进行自适应性处理;

挖掘分析模块用于建立数据挖掘模型,通过算法得到有特殊关联性的数据信息。

优选的,档案分类统计模块还包括用户自定义模块,所述用户自定义模块用于对数据属性进行自定义以及对数据进行标记。

优选的,档案分类统计模块还包括标记模块,所述标记模块用于对数据进行标记,所述标记包括属性标记、颜色标记、重要等级标记和类型标记。

优选的,机器学习模块的机器学习方法包括归纳学习法、遗传算法、贝叶斯信念网络和推理cbr。

本发明的有益效果是:

本发明能对纸质档案和电子档案进行分类管理,同时对缺失档案的数据进行处理,能通过机器学习法和神经网络自适应处理方法对相关知识进行处理,并能对相关数据进行标记,增强了数据的分类、数据清洗效果。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

实施例:

一种档案大数据智能分析清洗挖掘系统,该数据智能分析清洗挖掘系统能对纸质档案和电子档案进行分类管理,同时对缺失档案的数据进行处理,能通过机器学习法和神经网络自适应处理方法对相关知识进行处理,并能对相关数据进行标记,增强了数据的分类、数据清洗效果。以下结合附图对系统进行进一步说明。

一种档案大数据智能分析清洗挖掘系统,包括档案信息数据库;档案信息数据库内包括档案归置模块、数据预处理模块和数据挖掘分析模块;档案归置模块包括档案分类统计模块、档案定位展现模块和档案记录模块;档案分类统计模块用于对档案进行录入、归置、分类和统计,并对档案按日期、按名称或按分类统计成表;档案定位展现模块用于获取和记录每个实体档案的定位信息,并对档案的位置变化进行记录;档案记录模块用于记录档案的录入时间,以及记录档案的调取信息,所述调取信息包括调取人、调取时间、调取原因和归还时间;数据预处理模块包括数据清理模块、缺失值处理模块、数据选择模块、数据变换模块、数据集成模块、数据消减模块和数据清洗评估模块;数据清理模块用于过滤和修改不符合要求的数据,检测和消除数据异常;所述不符合要求的数据包括不完整的数据、错误的数据和重复的数据;缺失值处理模块用于对带大量缺失值的数据进行处理,所述对缺失值的数据进行处理包括删除、比对数据属性和利用数据属性填充缺失值;数据选择模块用于对缺失处理后的数据进行选择,剔除冗余属性和挖掘关系不大的属性;数据变换模块用于对不同来源的数据进行转换,所述对不同来源的数据进行转换包括属性的数据类型转换、属性构造的转换、数据离散化的转换和数据标准化的转换;数据集成模块用于把不同来源、不同格式和不同特点性质的数据在逻辑上或物理上有机地集中,从而为数据挖掘提供完整的数据源;数据消减模块用于对大规模的数据进行数据消减,所述数据消减包括数据聚合、消减纬度、数据压缩和数据块消减;数据清洗评估模块用于对清洗后的数据进行质量评估;数据挖掘分析模块包括统计分析模块、机器学习模块、神经网络模块和挖掘分析模块;统计分析模块用于对待挖掘的数据进行分析,所述对待挖掘的数据进行分析包括分类分析、聚类分析、关联分析、序列分析和时间分析;机器学习模块用于通过归纳学习方法对大量数据进行有目的分类,从中找到有价值的信息,并通过算法生成预测模型;神经网络模块用于通过聚类的自组织映射方法对数据进行自适应性处理;挖掘分析模块用于建立数据挖掘模型,通过算法得到有特殊关联性的数据信息。

档案大数据智能分析清洗挖掘的方法,请参阅附图1所示,其主要步骤包括:

s1、数据清洗,将采集到的数据进行去噪以及删掉无关数据,并对数据进行整理分类,转换不同格式的数据类型;

s2、数据集成,将多个数据源中的数据结合起来存放在一个关联的数据集中;

s3、数据变换,将原始数据转换成需要进行数据挖掘的数据格式;

s4、数据归约,通过数据立方体聚集、维归约、数据压缩、数据归约、离散化等进行处理;

在数据清洗过程中,还包括对空缺值进行处理,处理过程包括1、忽略该空缺记录;2、去掉空缺属性;3、手工填写空缺值;4、使用默认值补充;5、使用属性平均值;6、使用同类样本平均值;7、预测最可能的值。

在数据清洗过程中,还包括对数据噪声进行处理的过程,以避免出现数据偏差或错误,具体过程包括:分箱:将待处理的数据按照预设规则放进预设的箱子,考察每一个箱子中的数据,并对每个箱子中的数据进行处理。分箱为按照属性值划分的子区间内,如果一个属性值处于某个子区间范围内,就称吧该属性值放在这个子区间所代表的箱子。

进一步的,档案分类统计模块还包括用户自定义模块,所述用户自定义模块用于对数据属性进行自定义以及对数据进行标记。

进一步的,档案分类统计模块还包括标记模块,所述标记模块用于对数据进行标记,所述标记包括属性标记、颜色标记、重要等级标记和类型标记。

进一步的,机器学习模块的机器学习方法包括归纳学习法、遗传算法、贝叶斯信念网络和推理cbr。

以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1