差异区块大数据分析方法、装置、存储介质及服务器与流程

文档序号:16262347发布日期:2018-12-14 21:40阅读:170来源:国知局
差异区块大数据分析方法、装置、存储介质及服务器与流程

本发明涉及大数据处理领域,特别涉及一种差异区块大数据分析方法、装置、存储介质及服务器。

背景技术

现有技术中,大数据的分析方法是在数据流入服务器或者终端时,对数据进行抓取,然后再进行分析的。这种传统的方法存在数据漏抓等问题,造成数据不全(并且无法回到以前的时间点对数据进行补全),对分析结果造成严重的影响。因此,现有技术存在缺陷,急需改进。

因此,现有技术存在缺陷,急需改进。



技术实现要素:

本发明的目的是提供一种差异区块大数据分析方法、装置、存储介质及服务器,使得差异数据有更全面,更丰富的大数据分析空间。

本发明实施例提供一种差异区块大数据分析方法,包括以下步骤:

获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;

对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。

在本发明所述的差异区块大数据分析方法中,所述差异区块是指写入数据时产生变化的磁盘区块。

在本发明所述的差异区块大数据分析方法中,所述获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段的步骤包括:

每一终端设备把磁盘内各个时间段的差异区块记录下;

接收来自各个终端设备的各个时间段的差异区块;

集中来自各个地区的各个终端设备在各个时间段的差异区块。

在本发明所述的差异区块大数据分析方法中,所述对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律的步骤包括:

根据数据变化信息的发生时间、对应的地点以及出现频率对对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。

在本发明所述的差异区块大数据分析方法中,所述获取预设范围内的多台终端设备的数据变化信息的步骤包括:

获取预设范围内的多台终端设备的差异区块;

查询该多个差异区块的属性并获取产生每一差异区块的时间段以及每一差异区块的数据量。

一种差异区块大数据分析装置,包括:

获取模块,用于获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;

分析模块,用于对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。

在本发明所述的差异区块大数据分析装置中,所述差异区块是指写入数据时产生变化的磁盘区块。

在本发明所述的差异区块大数据分析装置中,所述获取模块用于:把磁盘内各个时间段的差异区块记录下;接收来自各个终端设备的各个时间段的差异区块;集中来自各个地区的各个终端设备在各个时间段的差异区块。

在本发明所述的差异区块大数据分析装置中,还包括:

上传模块,用于将该相同或类似的差异区块上传至监控中心进行处理。

一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述任一项所述的方法。

一种服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行上述任一项所述的方法。

由上可知,本发明通过获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;对该多台终端设备的数据变化信息进行分析,获取这些变化信息的规律,从而可以定性的得到合理的分析结果。从而通过建立一个差异数据的大数据研究空间,让大数据增添数据流的研究,再以备份流的数据差异片段(磁盘差异区块,在数据差异中加入了同区的数据),让差异数据有更全面,更丰富的大数据分析空间。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的差异区块大数据分析方法的流程示意图。

图2是本发明实施例提供的差异区块大数据分析装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明的说明书和权利要求书以及上述附图中的术语“第一”、“第二”、“第三”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应当理解,这样描述的对象在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤的过程、方法或包含了一系列模块或单元的装置、服务器、系统不必限于清楚地列出的那些步骤或模块或单元,还可以包括没有清楚地列出的步骤或模块或单元,也可以包括对于这些过程、方法、装置、服务器或系统固有的其它步骤或模块或单元。

参考图1,图1为本发明实施例中的差异区块大数据分析方法的流程图。其应用于服务器器中,主要用于火灾、恐怖袭击、黑客攻击等突发事件的监控。该差异区块大数据分析方法,包括以下步骤:

s101、获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段。

其中,该预设范围可以为一个或多个地区,或者一个公司,一个学校等。

其中,在最开始要先将该多台终端设备的数据信息统一上传至该服务器中进行全盘备份。然后在后续产生新的数据时,就会对该数据进行一定程度的筛选,满足预设条件时就会备份复制到该服务器中。其中,由于数据的变化导致磁盘区块的变化,这种产生变化的磁盘区块就是差异区块。其中,备份方法是镜像的差异块状,除了第一次备份是全盘复制,之后的每一次备份也即是差异块状(磁盘区块),完全没有传统资讯内容。就像数学上,把影像进行了fft(离散傅氏变换的快速算法)处理,在频谱下看出影像一种表现形式。例如,将数据a存储到磁盘区块后,该数据a会进行fft(离散傅氏变换的快速算法)处理,使得其以数据a1的方式存在。而在本申请中所获取的差异区块就是该数据a1。

该时间段可以为30秒,也可以为5分钟,也可以另外进行设置。

在一些实施例中,该步骤s101具体为:

每一终端设备把磁盘内各个时间段的差异区块记录下;

接收来自各个终端设备的各个时间段的差异区块;

集中来自各个地区的各个终端设备在各个时间段的差异区块。

s102、对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。

在一些实施例中,该步骤s102包括:s1021、判断是否存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,该类似的差异区块是指相似度超过预设阈值的差异区块;s1022、若存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,则判断有突发事件产生。

如果存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,例如,同一个图片或者同一场景的图片出现在所有电脑中,则说明书可能发生了与该图片相关的突发事件,例如恐怖袭击。

在一些实施例中,该步骤s102还包括:s1023、根据所述差异区块的数据类型采用对应识别策略对该差异区块进行分析以识别该突发事件的种类。

要想根据该差异区块来判断突发事件的种类,需要预先建立庞大的数据库,该数据库中存储有发生某些突然事件可能出现的常见差异区块。例如,对于爆发恐怖袭击而言,肯定会出现很多现场照片或者视频,如果在对这些照片或者视频进行识别,就可以判断出是发生了恐怖袭击。

其中,例如,如果该作为被监控的终端的总台数为1000台,则该第一预设数量可以设定为800台。

变化规律的步骤包括但不限于:時間性事件研究以及非時間性事件研究。

其中,時間性事件研究为:判断抽取存在超过第一预设数量的终端设备在相同的时间段产生相關的差异区块,该相關的差异区块是指關連性超过研究題目定义之预设阈值的差异区块;若存在超过第一预设数量的终端设备在相同的时间段产生相關的差异区块,则判断有时间性事件研究。如对攻击、意外、暴动等行为预测研究。

其中,非时间性事件研究为:判断抽取存在超过第一预设数量的终端设备产生相关的差异区块,该相关的差异区块是指关联性超过研究題目定义之预设阈值的差异区块;若存在超过第一预设数量的终端设备在不同的时间段产生相关的差异区块,则判断有非时间性事件研究。如各类统计、内容分布、资料采集等大数据研究。

在一些实施例中,该步骤s102包括:判断是否存在一差异区块在不同时间段分别出现在该多台终端设备的第二预设数量的终端设备中;若存在,则判断有突发事件发生。比如,某地的电脑区数据看似正常,但跨地域异常(例如,同一改变轮流出现在多台电脑,重复出现),集团可能受内部攻击。

在一些实施例中,该步骤s102包括:根据数据变化信息的发生时间、对应的地点以及出现频率对对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。可以从这些数据变化信息的发生时间、地点以及出现频率进行多维度组合分析,从而得出其变化规律。

当然,实际应用中,根据不同的需求可以采用不同的大数据分析方法进行分析,本发明并不对具体的大数据分析方法进行限定,凡是现有的可以用于大数据分析的方法,均在本发明的保护范围内。

在一些实施例中,该步骤s102包括以下子步骤:

将该多台终端设备的差异区块中的数据类型相同且数据量差值小于预设值的差异区块筛选出,以得到多个疑似目标差异区块;若该多个疑似目标差异区块的数量小于所述第一预设数量,则判断不存在超过第一预设数量的终端设备在相同的时间段产生相同的差异区块;若该多个疑似目标差异区块的数量大于或等于所述第一预设数量,则对该多个疑似目标差异区块进行特征匹配;若特征匹配的结果为该多个疑似目标差异区块中存在超过第一预设数量的疑似目标差异区块的相似度在预设阈值范围内,则判断存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块。

其中,该差异区块中可能存在几种数据类型的文件,其中的数据类型为该差异区块中数据量最大的子文件的数据类型。其中,该特征匹配方式是将该多个疑似目标差异区块进行一一对比,或者采用其他方式来进行对比,从而判断是否存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块。

在一些实施例中,该步骤s102包括以下子步骤:

s1025、将该多台终端设备的差异区块中数据量超过预设值的差异区块筛选出作为第一差异区块;s1026、将该多个第一差异区块的多个第二差异区块筛选出,该多个第二差异区块中的预设百分比的数据为同一数据类型;s1027、对该多个第二差异区块进行特征匹配;s1028、若特征匹配的结果为该多个第二目标差异区块中存在超过第一预设数量的第二目标差异区块的相似度在预设阈值范围内,则判断存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块。其中,该特征匹配方式为现有技术中的匹配方式,例如可以采用对比,或者更高级的一些比较方式。其中,该第第二差异区块的预设百分比的数据为同一数据类型,例如为a类型,则,说明该多个第一差异区块中a类型的数据最多。

s104、将该相同或类似的差异区块上传至监控中心进行分析处理。

在该步骤s104中,需要将该差异区块上传至监控中心进行人工判断,前面的只是初步判断,且该相同或者类似的差异区块需要在监控中心进行保存的,以便于后续的数据提取。

由上可知,本发明通过获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;对该多台终端设备的数据变化信息进行分析,可以提高突发事件的处理效率。

请参照图2,图2是本发明一些实施例中的差异区块大数据分析装置的结构图,该装置包括:获取模块201、分析模块202。

其中,该获取模块201用于获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段。其中,该预设范围可以为一个或多个地区,或者一个公司,一个学校等。其中,在最开始要先将该多台终端设备的数据信息统一上传至该服务器中进行全盘备份。然后在后续产生新的数据时,就会对该数据进行一定程度的筛选,满足预设条件时就会备份复制到该服务器中。传统大数据都从数据表面去拿数据,比如:图、视频、档案。而本申请中的备份方法是镜像的差异块状,除了第一次是全盘复制,之后的每一次备份也是差异区块(磁盘区块)。

该时间段可以为30秒,也可以为5分钟,也可以另外进行设置。

获取模块201用于获取预设范围内的多台终端设备的差异区块;以及,查询该多个差异区块的属性并获取产生每一差异区块的时间段以及每一差异区块的数据量。所述获取模块用于:把磁盘内各个时间段的差异区块记录下;接收来自各个终端设备的各个时间段的差异区块;集中来自各个地区的各个终端设备在各个时间段的差异区块。

分析模块202用于对该多台终端设备的数据变化信息进行分析,以获取该多个数据变化信息的变化规律。

对该多台终端设备的数据变化信息进行分析,以判断是否存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,该类似的差异区块是指相似度超过预设阈值的差异区块。其中,例如,如果该作为被监控的终端的总台数为1000台,则该第一预设数量可以设定为800台。

所述分析模块202用于判断是否存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,该类似的差异区块是指相似度超过预设阈值的差异区块;若存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,则判断有突发事件产生。

所述分析模块202用于判断是否存在一差异区块在不同时间段分别出现在该多台终端设备的第二预设数量的终端设备中;若存在,则判断有突发事件发生。

在本发明所述的差异区块大数据分析装置中,还包括:上传模块,用于将该相同或类似的差异区块上传至监控中心进行处理。

由上可知,本发明通过获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;对该多台终端设备的数据变化信息进行分析,可以提高突发事件的处理效率。

本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述实施例中的方法。

本发明实施例还提供一种服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行上述实施例中的方法以实现以下功能:获取预设范围内的多台终端设备的数据变化信息,该数据变化信息包括差异区块以及产生该差异区块的时间段;对该多台终端设备的数据变化信息进行分析,以判断是否存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,该类似的差异区块是指相似度超过预设阈值的差异区块;若存在超过第一预设数量的终端设备在相同的时间段产生相同或类似的差异区块,则判断有突发事件产生。

需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,该存储介质可以包括但不限于:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。

以上对本发明实施例所提供的大数据提取分析方法、装置、存储介质及服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1