基于数据挖掘技术的海量数据查询系统的制作方法

文档序号:12364500阅读:426来源:国知局

本发明涉及一种查询系统,具体涉及基于数据挖掘技术的海量数据查询系统。



背景技术:

随着计算机和网络技术的飞速发展,信息量的增长远远超出了人们对信息获取能力的增长。海量信息资源的有序存储和利用越来越受到世界各国的关注。现实社会里,由其在移动电子商务领域经常存在着对海量数据进行查询显示和浏览交易的需求。然而,面对海量级别的数据,我们首先要考虑的问题是如何提高海量数据的操作性能和处理效率。目前人们主要采取的海量数据处理措施主要包括:选用优秀的数据库工具、优化查询语句、加大虚拟内存、对数据进行分区操作、建立广泛的索引、利用分页技术进行分批处理、使用临时表和中间表、使用数据仓库和多维数据库存储、使用采样数据进行数据挖掘和升级硬件等策略。以上这些解决海量数据处理效率的策略往往需要巨大的资金投入,要么增加硬件的成本、要么提成开发人员的自身素质,这些都需要增加成本,并且不能从根源上解决海量数据的处理效率问题。



技术实现要素:

本发明所要解决的技术问题是简化海量数据的查询系统,目的在于提供基于数据挖掘技术的海量数据查询系统,提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。

本发明通过下述技术方案实现:

基于数据挖掘技术的海量数据查询系统,包括:

数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;

数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;

数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;

数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。

数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;

数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。

数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。

进一步地,数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。

进一步地,数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。

进一步地,挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。

本发明与现有技术相比,具有如下的优点和有益效果:能够提高海量数据查询速度,简化查询方式,降低查询成本,增强海量数据的使用便捷性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

如图1所示,本发明基于数据挖掘技术的海量数据查询系统,基于数据挖掘技术的海量数据查询系统,包括:

数据采集模块:从各类数据源收集数据到数据处理中心,针对所收集的各类数据进行初步加工,即格式检查和标准化处理;

数据处理模块:针对所述数据采集模块中采集到的经过初步加工的数据进行解码和格式转换,生成标准格式的数据产品,设置每个数据的质量控制码,生成带有质量控制码的标准格式数据产品;对部分实时和非实时海量数据进行选取、融合以及统计加工,生成处理后的数据;

数据存储管理模块:对经过所述数据处理模块加工处理之后的数据进行存储管理;

数据挖掘模块:包括数据源整合子模块、关联词存储子模块、挖掘子模块、输出子模块和反馈子模块,其中所述数据源整合子模块将用户输入的搜索词和预先存储的关键词进行相关性匹配,形成所述搜索词和所述关键词之间对应关联的至少一种数据源;所述关联词存储子模块将数据源整合子模块中形成的搜索词和关键词之间关联的数据源发送给所述数据存储管理模块进行存储;所述挖掘子模块与数据存储管理子模块之间进行数据联系,构成网络拓扑关系图,并作数据挖掘;所述输出子模块根据用户输入的不同需求,将数据挖掘的数据显示,供用户选择;所述反馈子模块用于将用户满意度的信息回复给数据源整合子模块。

数据服务模块:将所述数据存储管理模块存储的数据以各种方式与用户之间进行交互,实现用户对数据的访问需求;

数据监控模块:对所述数据采集模块中的数据收集过程、多维数据集处理模块的多维度数据集、数据服务模块中的数据访问过程进行监控记录和处理。

数据采集模块将各类数据源的数据收集到数据处理中心,针对收集的数据进行格式检查和标准化处理的初步加工;数据处理模块将数据采集模块发送的数据进行进一步加工,包括对数据的实时质量检查、对数据进行选取、融合以及统计加工;数据存储模块将数据进行数据转换出力、数据融合处理等预处理工作之后将数据存入各数据子库中;数据挖掘模块将数据进行缺省值处理、噪声处理、数据集成、维度规约以及数据变换,根据用户输入的搜索词匹配关键词从海量数据中找出用户需要的数据;数据服务模块为用户提供除数据挖掘之外的数据需求;数据监控模块将对整个海量数据查询系统的数据的访问记录和过程进行监控。

数据存储模块包括数据存储结构、数据入库存储、数据处理、数据清除、数据安全控制、数据备份与恢复、数据迁移与回迁、数据归档和数据访问接口。数据存储模块既要负责接收数据处理模块存入的数据,而且需要为数据挖掘模块和数据服务模块提供数据的输出。数据服务模块包括数据共享分发、元数据交换、数据定制服务、数据直接服务、数据访问服务接口和用户服务管理。挖掘子模块与数据存储管理子模块之间的数据联系是指将搜索词和关键词及其之间的关联抽象成节点,将所述节点附加属性,将搜索词和关键词之间建立存储结构。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1