分布式文件存储系统和关系数据库的结合应用方法

文档序号:6340821阅读:525来源:国知局
专利名称:分布式文件存储系统和关系数据库的结合应用方法
技术领域
本发明涉及数据挖掘领域,具体涉及分布式文件存储系统和关系数据库(RDBMS) 的结合应用方法。
背景技术
当前的关系型数据库应用分为两种方式对数据进行实时的查询,及时响应用户的请求,对数据分析做到及时反馈。在已有的数据的基础上进行数据挖掘的工作,也就是针对历史数据进行分析从而 从中提炼出有用的数据结果集合。以上两种数据库的应用模式,在数据量不大的情况下,对数据的读写操作是相当 有优势的。但是对于数据呈数量级的增长之后,数据的频繁录入和频繁读取,将直接导致I/ 0(输入/输出接口)的操作出现瓶颈,数据查询效率低下。因为所有的数据都在实时的录 入和读取,同时,一些常规的数据挖掘工作也在进行,所以写入和读出的操作同时进行将导 致数据查询速度缓慢,严重影响用户体验和数据库使用的效果。

发明内容
本发明的目的是提供一种技术方案来解决关系数据库因频繁录入和读取导致的 查询速度降低的问题,本发明的申请人通过分析得知,一部分数据内容并非是需要实时的 反馈结果,而是需要更进一步挖掘和分析的数据;但有些数据确实是需要实时的结果反馈。 所以基于此,对数据的实时性要求就可以做出区分。通过区分数据的实时性要求,可设计出
数据库压力缓解的方法。因此,本发明的技术方案-分布式文件存储系统和关系型数
据库的结合应用方法,就解决了关系型数据库在应用中I/O瓶颈导致的查询效率低下的问 题。本发明的内容如下1、将待录入数据库的数据区分为高实时性数据和低实时性数据;2、将高实时性数据输入关系型数据库,用以配合高实时的查询请求,给用户带来 更为人性化的体验和感受。3、将低实时性数据输入分布式文件系统,进行数据后续处理;4、将数据后续处理的结果输入关系型数据库,提供用户进行查询或是提供给数据 库做二次分析的依据。所述高实时性数据是查询响应时间低于阈值的数据;低实时性数据是查询响应时 间高于阈值的数据。所述关系数据库在线响应数据查询请求。所述分布式文件存储系统线下进行数据后续处理。所述数据后续处理包括线下数据挖掘和分析。所述查询响应时间的阈值为8-10秒。
所述数据后续处理 的结果转换为符合关系型数据库的数据格式后输入关系型数 据库。本发明的优点和积极效果如下在现实数据分析领域,尤其是近年来电子商务的兴起,数据量成指数级增长,单纯 的关系数据库已无法应付这样大级别的数据查询和分析,而本发明将数据查询和分析分开 进行,达到了解决这个问题的目的。,本发明的方法降低了关系数据库的查询压力,提高了 查询的响应速度。其具体的优点如下1、可带来良好的用户体验,对数据后续处理提供有力的基础保障。2、数据的分类带来良好的数据结构和关系。3、挖掘分析工作是实时查询工作的剥离,将直接提升数据的提炼效果。4、缓解了当前关系型数据库的压力,同时对数据的分析更加完善。


图1是本发明的框架结构图
具体实施例方式下面详细说明本发明的方法的步骤。a)制定数据拆分的实时性原则,响应的阈值时间要求是8-10秒以内为高实时性 数据,否则为低实时性数据。具体阈值时间可以结合实际应用的具体业务进行确定。b)对数据源的数据进行拆分,主要是2个部分的内容,高实时性数据集合和低实 时性数据集合。c)将划分完成的数据内容进行存放。高实时性数据存放在关系型数据库,低实时 性数据存放在分布式文件存储系统中。d)分布式文件存储系统安装,并接收低实时性的数据结果集合e)对接收的数据结果集合进行存放。f)进行数据结果的线下挖掘和分析工作,并产出数据结果集合。挖掘的结果集合的输出1.对挖掘的数据结果集合进行格式转换,转换为符合关系型数据库要求的数据格 式。2.将转换后的数据的结果集合存放到关系型数据库。关系型数据库的数据存放1、对关系型数据库的内容进行数据存放。2、存放的数据类型主要是高实时性的数据以及分布式文件系统挖掘分析后的数 据结果集合。关系数据库中的数据可供用户进行在线的实时查询。具有比常规技术中的关系数 据库更快的查询响应速度。本发明的框架结构参见图1。尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明 的内容并据以实施,但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和 修改都是可能的。本发明不应局限于本说明书最佳实施 例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
权利要求
1.分布式文件存储系统和关系数据库的结合应用方法,包括下列步骤1)将待录入数据库的数据区分为高实时性数据和低实时性数据;2)将高实时性数据输入关系型数据库;3)将低实时性数据输入分布式文件系统,进行数据后续处理;4)将数据后续处理的结果输入关系型数据库。
2.根据权利要求1所述的分布式文件存储系统和关系数据库的结合应用方法,其特征 在于所述高实时性数据是查询响应时间低于阈值的数据;低实时性数据是查询响应时间高 于阈值的数据。
3.根据权利要求1所述的分布式文件存储系统和关系数据库的结合应用方法,其特征 在于所述关系数据库在线响应数据查询请求。
4.根据权利要求1所述的分布式文件存储系统和关系数据库的结合应用方法,其特征 在于所述分布式文件存储系统线下进行数据后续处理。
5.根据权利要求2所述的分布式文件存储系统和关系数据库的结合应用方法,其特征 在于所述查询响应时间的阈值为8-10秒。
6.根据权利要求1所述的分布式文件存储系统和关系数据库的结合应用方法,其特征 在于所述数据后续处理的结果转换为符合关系型数据库的数据格式后输入关系型数据库。
7.根据权利要求1或4所述的分布式文件存储系统和关系数据库的结合应用方法,其 特征在于所述数据后续处理包括线下数据挖掘和分析。
全文摘要
本发明公开了一种分布式文件存储系统和关系数据库的结合应用方法,包括下列步骤1)将待录入数据库的数据区分为高实时性数据和低实时性数据;2)将高实时性数据输入关系型数据库;3)将低实时性数据输入分布式文件系统,进行数据后续处理;4)将数据后续处理的结果输入关系型数据库。采用本发明的方法可带来良好的用户体验,对数据后续处理提供有力的基础保障;数据的分类带来良好的数据结构和关系;后续处理工作是实时查询工作的剥离,将直接提升数据的提炼效果;缓解了当前关系型数据库的压力,同时对数据的分析更加完善。
文档编号G06F17/30GK102073706SQ20101061648
公开日2011年5月25日 申请日期2010年12月30日 优先权日2010年12月30日
发明者李园花, 江舟, 马涛 申请人:北京锐安科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1