一种数据清理、索引方法与流程

文档序号:11063575阅读:来源:国知局

技术特征:

1.一种数据清理、索引方法,其特征在于:具体流程如下:

1)数据清理、导入:

对于结构化数据的清理,通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上或者通过文件等方式传送到数据中心的分布式数据库集群中或者通过接口实时调用;

对于非结构化数据的清理,通过清理工具层进行交换处理,存放于数据中心的分布式文件系统中,指定冗余度,同时实现统一存储管理和冗余备份;

2)元数据的建立:

(1)元数据获取,通过元数据获取流程整合数据中心多个源中的不同元数据,并使用数据库作为元数据知识库进行统一存储管理;

(2)元数据发布,建立一套元数据的发布流程来管理元数据的发布,元数据发布后,用户能通过元数据报表来查询各种元数据的内容,使用关联影响分析、依赖分析、血统分析方法来分析元数据间的关系,通过搜索功能对元数据对象进行精确或模糊查询,以XML标准进行元数据交换,并提供API接口和WebService接口接入,使得用户的查询请求得到及时有效的反馈;

(3)元数据访问,建立一套元数据访问权限的授予、管理流程机制,控制合法用户对元数据资料的有效访问;

3)索引构建:

通过元数据访问,得出数据中心的分布式数据集群上的数据属性,其中对于与表有关的数据库结构采用数据库索引,对于存储在介质上的位置数据信息的描述采用空间索引,对于姓名、手机号和地址信息的描述采用关系索引,在关系型数据中,对数据中心的所有要素都要进行匹配的时候,采用全文索引。

2.根据权利要求1所述的一种数据清理、索引方法,其特征在于:所述的数据清理、导入过程中,现有RDBMS数据库中,关键数据少的部分,通过清理工具利用在线同步的方式同步到数据中心的分布式数据库集群上;数据量大的部分,通过文件等方式传送到数据中心的分布式数据库集群中,或者通过接口实时调用的方式;

WEB平台录入的信息经过清理工具的处理直接同步到数据中心的分布式数据集群中。

3.根据权利要求1或者2所述的一种数据清理、索引方法,其特征在于:所述的清理工具为能够支持常见文件格式,至少包括txt文件、csv文件、excel文件、dmp文件数据格式,并且相同数据、不同数据的转换过程能够自定义,还能够实现数据格式的转换,按照要求进行标准化处理,另外数据规范化工具操作便利、界面直观以及数据格式化工作自动和人工进行。

4.根据权利要求1所述的一种数据清理、索引方法,其特征在于:所述的元数据建立过程中,当元数据发生变更时,元数据管理应用应该捕捉到这种变更,给出分析报告,指引用户完成元数据同步工作;并且自动跟踪和记录元数据的更新,包括变更时间和变更原因,生成完整的元数据变更历史。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1