一种大数据存储系统的制作方法

文档序号:20576627发布日期:2020-04-29 01:10阅读:134来源:国知局
一种大数据存储系统的制作方法

本发明属于数据存储技术领域,具体的,涉及一种大数据存储系统。



背景技术:

随着互联网技术的高速发展,人们对于数据的存储也有着越来越高的需求,数据只会不断的增长,而在这一过程中,如何将增长的数据信息存储起来是存储系统的发展中最基本的问题,大数据通常指的是那些数量巨大、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据,大数据存储是将这些数据集持久化到计算机中。

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展,毕竟处理大数据这种特殊的需求是一个新的挑战,硬件的发展最终还是由软件需求推动的,就这个例子来说,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展,提高存储系统的存储能力,可以从两方面入手,一方面为通过拓展存储系统的存储空间,对海量数据进行存储,这也是现有技术中主要的操作方法,但单从拓展存储空间下手会快速提高存储新系统的硬件成本,因此还可以从对存储空间内的存储内容进行整改,剔除重复的、检索意义不高的内容,释放存储空间,从而达到提高存储系统存储能力的效果,为了解决这一问题,本发明提供了以下技术方案。



技术实现要素:

本发明的目的在于提供一种大数据存储系统。

本发明需要解决的技术问题为:

1、现有技术中,用户用于连接存储系统的链接密钥容易被盗取,从而出现恶意利用链接密钥不断的对存储系统进行访问的事件,导致网络宽带被大量占用,影响正常用户对存储系统的访问;

2、现有技术中,存储系统对大量数据进行存储,其中大量数据出现重复,占用了大量的存储空间,同时在数据的长期积累之后,同类文件的增多也会提高用户的检索难度。

本发明的目的可以通过以下技术方案实现:

一种大数据存储系统,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块;

所述访问模块通过信息传输模块与控制器向验证模块传输访问认证信息,当访问认证信息通过验证模块的验证时,对应用户能够登录并对数据库中的数据进行访问查看;

所述验证模块用于对访问模块发出的访问认证信息进行验证,并对通过验证的账号登录状况进行监督;

所述标示模块用于生成账号并对账号标记,所标记账号分为高权限用户账号与普通权限用户账号,标记模块生成的账号分至各用户;

所述数据编录模块用于输入待存储数据,同时高权限用户能够通过数据编录模块对二级数据进行修改,数据编录模块中输入的待存储数据经分级模块设定权限后传输至暂存模块;

所述存储数据库用于存储数据编录模块输入的数据;

所述数据处理模块用于响应控制器的控制命令对存储数据库中的数据进行处理;

所述数据编录模块输入的待存储数据进入存储数据库的流程为:

步骤一:待存储数据传输至分级模块,分级模块将待存储数据分为一级数据与二级数据,其中一级数据为所有用户可发布、所有用户不可修改只可查阅的数据,二级数据为高权限用户可发布,所有用户可以查阅,高权限用户能够进行修改的数据;

步骤二:待存储数据传输至暂存模块,自动检索模块对待存储数据的标题进行检索,当待存储数据的标题中θ%的字符包含于分布式数据库中已经存储的数据a1、a2、......、an的标题中,则定义此待存储数据与已经存储的信息a1、a2、......、an为同一类数据,其中θ为预设值;

步骤三:控制器分析已经存储的数据a1、a2、......、an在分布式数据库中的分布状况,得到已经存储的数据a1、a2、......、an在各个分布式数据库中的存储数量b1、b2、......、bn,取b1、b2、......、bn中最小的存储数量bk对应的分布式数据库ck中,将该待存储数据传输至ck中,若同时出现多个存储数量为bk的分布式数据库c1、c2、......cn,则待存储数据随机存储分布式数据库c1、c2、......cn中的一个;

所述阅览模块用于查询阅览数据库中的现有数据;

所述信息评阅模块用于对数据库中的现有数据进行评价,评价分为赞同与不赞同,评价由接入存储系统的用户进行,每一个账号能够对一条数据信息进行一次评价;

所述数据分类模块用于对数据编录模块输入的数据按照所属检索领域进行分类,检索领域包括但不限于建筑、娱乐、军事、政治、社会与航天;

用户通过所述访问模块输入关键词对存储数据库中的数据进行检索与查看,访问模块的关键词信息传输入统计模块;

所述统计模块用于对一段时间内访问模块输入的关键词信息进行统计与分析,并将分析结果传输至自动检索模块;

所述自动检索模块用于对分布式数据库中的数据的标题与内容进行检索,并根据检索结果对冗余文件进行删除以释放存储数据库的存储空间;

所述冗余文件的删除方法为:

ss1、将检索领域分为r1、r2、......、rn,预设每个检索领域的检索时间为t1、t2、......tn,所述统计模块按照检索领域rk每隔tk时间对关键词信息进行统计,提取排名为sk的关键词,其中1≤k≤n,且k为自然数,tk与sk均为预设值;

ss2、自动检索模块根据上一步骤中提取的关键词对存储数据库中的数据进行检索并提取,各个存储数据库中被提取的数据首先传输至数据处理模块,数据处理模块对其所在的分布式数据库内的被提取数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,每个检索领域的预设值ω%均不相同,且ω为预设值;

ss3、被定义为同一内容的数据之间根据x值与x1值进行比较,其中x=xx12,其中x1为数据的赞同的数量,x2为数据的不赞同的数量,x1≥x3,x3为设定数值,对同一内容的数据的x值进行比较并保留x值最大的数据y1的以及x1值最大的数据q1,x1≤x3的数据与其它不符合要求的冗余数据均从存储数据库中进行删除;

ss4、自动检索模块将各分布式数据库中得到的数据y1、y2、......yn、q1、q2、......qn后,对各数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,按照步骤ss3中的操作方法对冗余数据进行删除,其中ω为预设值。

作为本发明的进一步方案,所述访问模块与所述验证模块验证账号信息与账号登录状况的方法如下:

s1、访问模块在登录账号后向验证模块发出登录认证信息,验证模块接收到该登录认证信息后,向访问模块反馈第一验证信息,第一验证信息包括但不限于验证码,用于初步验证账号登录为计算机自动操作或真人操作;

s2、访问模块在接收到反馈的第一验证信息后,向验证模块发出链接申请信息,验证模块在接收到链接申请信息后向访问模块开放部分分布式数据库,开放的分布式数据库占分布式数据库的总数量比例不超过λ%,λ为预设值;

s3、验证模块在设定时间t内该登录账号对开放的分布式数据库内的检索次数g1,若g1<g2时,对该账号开放所有分布式数据库,g2为预设值,若g1≥g2,断开该账号与数据库的连接。

本发明的有益效果:

1、本发明通过短时间内对通过初步验证的账号开放部分数据库,并对账号登录之后的检索状况进行跟踪记录,若账号出现频繁访问的异常情况,及时断开该账号的登录,减小了异常登录的账号频繁访问对大部分分布式数据库的压力,降低异常账号对正常访问的影响;

2、本发明按时对存储数据库中的冗余文件进行删除以释放存储数据库的存储空间,并保留最受用户所认可的数据,同时通过将数据分布式进行存储,数据均匀分布在若干个分布式数据库中,在其中一个或多个分布式数据库损坏时,仍然能够保留同类数据的多样性与丰富性,因此能够大大提高数据存储的安全性。

附图说明

下面结合附图和具体实施例对本发明作进一步详细描述。

图1为本发明的系统结构示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

一种大数据存储系统,如图1所示,包括控制器,控制器连接有信息传输模块与若干个分布式数据库,分布式数据库数量可拓展,所述分布式数据库包括存储数据库与数据处理模块,所述信息传输模块连接有分级模块、阅览模块、信息评阅模块、访问模块与检索模块,所述分级模块连接有数据编录模块,所述控制器还连接有标识模块、暂存模块、自动检索模块、统计模块、验证模块与数据分类模块。

所述访问模块通过信息传输模块与控制器向验证模块传输访问认证信息,当访问认证信息通过验证模块的验证时,对应用户能够登录并对数据库中的数据进行访问查看;

所述验证模块用于对访问模块发出的访问认证信息进行验证,并对通过验证的账号登录状况进行监督;

所述标示模块用于生成账号并对账号标记,所标记账号分为高权限用户账号与普通权限用户账号,标记模块生成的账号分至各用户;

所述访问模块与所述验证模块验证账号信息与账号登录状况的方法如下:

s1、访问模块在登录账号后向验证模块发出登录认证信息,验证模块接收到该登录认证信息后,向访问模块反馈第一验证信息,第一验证信息包括但不限于验证码,用于初步验证账号登录为计算机自动操作或真人操作;

s2、访问模块在接收到反馈的第一验证信息后,向验证模块发出链接申请信息,验证模块在接收到链接申请信息后向访问模块开放部分分布式数据库,开放的分布式数据库占分布式数据库的总数量比例不超过λ%,λ为预设值;

s3、验证模块在设定时间t内该登录账号对开放的分布式数据库内的检索次数g1,若g1<g2时,对该账号开放所有分布式数据库,g2为预设值,若g1≥g2,断开该账号与数据库的连接。

所述数据编录模块用于输入待存储数据,同时高权限用户能够通过数据编录模块对二级数据进行修改,数据编录模块中输入的待存储数据经分级模块设定权限后传输至暂存模块;

所述存储数据库用于存储数据编录模块输入的数据;

所述数据处理模块用于响应控制器的控制命令对存储数据库中的数据进行处理;

所述数据编录模块输入的待存储数据进入存储数据库的流程为:

步骤一:待存储数据传输至分级模块,分级模块将待存储数据分为一级数据与二级数据,其中一级数据为所有用户可发布、所有用户不可修改只可查阅的数据,二级数据为高权限用户可发布,所有用户可以查阅,高权限用户能够进行修改的数据;

步骤二:待存储数据传输至暂存模块,自动检索模块对待存储数据的标题进行检索,当待存储数据的标题中θ%的字符包含于分布式数据库中已经存储的数据a1、a2、......、an的标题中,则定义此待存储数据与已经存储的信息a1、a2、......、an为同一类数据,其中θ为预设值;

步骤三:控制器分析已经存储的数据a1、a2、......、an在分布式数据库中的分布状况,得到已经存储的数据a1、a2、......、an在各个分布式数据库中的存储数量b1、b2、......、bn,取b1、b2、......、bn中最小的存储数量bk对应的分布式数据库ck中,将该待存储数据传输至ck中,若同时出现多个存储数量为bk的分布式数据库c1、c2、......cn,则待存储数据随机存储分布式数据库c1、c2、......cn中的一个。

该处理方法能够将同类数据更加均匀的分布在若干个分布式数据库中,在用户进行信息检索时,提高信息检索效率,同时将数据均匀分布进行存储能够提高数据信息的安全性能,在一个分布式数据库意外损坏时,能够保证信息的完整性与丰富性。

所述阅览模块用于查询阅览数据库中的现有数据;

所述信息评阅模块用于对数据库中的现有数据进行评价,评价分为赞同与不赞同,评价由接入存储系统的用户进行,每一个账号能够对一条数据信息进行一次评价;

所述数据分类模块用于对数据编录模块输入的数据按照所属检索领域进行分类,检索领域包括但不限于建筑、娱乐、军事、政治、社会与航天;

用户通过所述访问模块输入关键词对存储数据库中的数据进行检索与查看,访问模块的关键词信息传输入统计模块;

所述统计模块用于对一段时间内访问模块输入的关键词信息进行统计与分析,并将分析结果传输至自动检索模块;

所述自动检索模块用于对分布式数据库中的数据的标题与内容进行检索,并根据检索结果对冗余文件进行删除以释放存储数据库的存储空间;

所述冗余文件的删除方法为:

ss1、将检索领域分为r1、r2、......、rn,预设每个检索领域的检索时间为t1、t2、......tn,所述统计模块按照检索领域rk每隔tk时间对关键词信息进行统计,提取排名为sk的关键词,其中1≤k≤n,且k为自然数,tk与sk均为预设值;

ss2、自动检索模块根据上一步骤中提取的关键词对存储数据库中的数据进行检索并提取,各个存储数据库中被提取的数据首先传输至数据处理模块,数据处理模块对其所在的分布式数据库内的被提取数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,每个检索领域的预设值ω%均不相同,且ω为预设值;

ss3、被定义为同一内容的数据之间根据x值与x1值进行比较,其中x=xx12,其中x1为数据的赞同的数量,x2为数据的不赞同的数量,x1≥x3,x3为设定数值,对同一内容的数据的x值进行比较并保留x值最大的数据y1的以及x1值最大的数据q1,x1≤x3的数据与其它不符合要求的冗余数据均从存储数据库中进行删除;

ss4、自动检索模块将各分布式数据库中得到的数据y1、y2、......yn、q1、q2、......qn后,对各数据的标题与内容进行读取并进行相似度比较,当至少两个数据的相似度达到预设值ω%时,定义其为同一内容数据,按照步骤ss3中的操作方法对冗余数据进行删除,其中ω为预设值。

该删除方法能够对各个领域内的内容重复的冗余数据及时进行删除以减小重复数据的积累对存储空间的占用,删除过程中考虑到数据除内容外的其它因素,使保留下来的数据为最能够得到用户认同的数据。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1