一种多数据的处理方法、系统及存储介质与流程

文档序号：14653724发布日期：2018-06-08 22:34阅读：141来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及数据处理技术领域，尤其涉及一种多数据的处理方法、系统及存储介质。

背景技术：

随着大数据技术的发展，数据采集、转换和传输等流处理技术比以往显得更加重要，并对其在应对复杂性与适配性方面提出了更高的要求。目前有必要研究结构化与非结构化数据多类型数据源与数据处理技术，提高数据流处理效率和安全，更好地支撑大数据技术的应用。

目前技术对多数据源和多类型数据的兼容性和灵活性不高，需要采用不同的技术和工具来实现，而且在进行大数据的抽取时容易抽取出错误的、不匹配的数据，导致抽取出的数据并非用户所需求的数据，同时还会泄露错误的数据中的信息，同时造成了信息的不安全。

技术实现要素：

本发明所要解决的技术问题是提供一种多数据的处理方法、系统及存储介质，以解决现有技术中抽取出的数据并非用户所需求的数据，造成了信息不安全的问题。

为了解决上述问题，本发明提供了一种多数据的处理方法，其包括如下步骤：

接收来自外部的数据请求指令；

根据所述数据请求指令调取原始数据压缩包和与所述原始数据对应的接口校验文件；

提取所述接口校验文件的MD5，并作为第一特征值；

解压缩所述原始数据压缩包，并得到原始数据；

抽取所述原始数据的接口数据文件，获得待校验接口数据文件；

提取所述待校验接口数据文件的MD5，并作为第二特征值；

判断所述第一特征值与所述第二特征值是否匹配；

若所述第一特征值与所述第二特征值匹配，则发送所述原始数据至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，所述判断所述第一特征值与所述第二特征值是否匹配，之后还包括：

若所述第一特征值与所述第二特征值不匹配，则标记所述原始数据压缩包为非原装数据压缩包；

根据所述非原装数据压缩包生成记录文件；

发送所述记录文件至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，根据所述数据请求指令调取原始数据压缩包和与所述原始数据对应的接口校验文件，之后包括：

判断所述原始数据压缩包是否标记为非原装数据压缩包；

若所述原始数据压缩包被标记为非原装数据压缩包，则发送与所述原始数据压缩包对应的记录文件至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，其还包括：

保存所述接口校验文件和所述待验证接口数据文件，并记录保存时长；

当所述保存时长达到预设时长时，删除所述接口校验文件和所述待验证接口数据文件。

本发明还提供了一种多数据的处理系统，其应用于多数据的处理方法，其包括：

接收模块，用于接收来自外部的数据请求指令；

调取模块，用于根据所述数据请求指令调取原始数据压缩包和与所述原始数据对应的接口校验文件；

第一提取模块，用于提取所述接口校验文件的MD5，并作为第一特征值；

解压模块，用于解压缩所述原始数据压缩包，并得到原始数据；

抽取模块，用于抽取所述原始数据的接口数据文件，获得待校验接口数据文件；

第二提取模块，用于提取所述待校验接口数据文件的MD5，并作为第二特征值；

第一判断模块，用于判断所述第一特征值与所述第二特征值是否匹配；

第一通讯模块，用于若所述第一特征值与所述第二特征值匹配，则发送所述原始数据至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，其还包括：

标记模块，用于若所述第一特征值与所述第二特征值不匹配，则标记所述原始数据压缩包为非原装数据压缩包；

生成模块，用于根据所述非原装数据压缩包生成记录文件；

第一发送模块，用于发送所述记录文件至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，其还包括：

第二判断模块，用于判断所述原始数据压缩包是否标记为非原装数据压缩包；

第二发送模块，用于若所述原始数据压缩包被标记为非原装数据压缩包，则发送与所述原始数据压缩包对应的记录文件至发送所述数据请求指令的请求终端。

作为本发明的进一步改进，其还包括：

保存与记录模块，用于保存所述接口校验文件和所述待验证接口数据文件，并记录保存时长；

删除模块，用于当所述保存时长达到预设时长时，删除所述接口校验文件和所述待验证接口数据文件。

本发明还提供了一种存储介质，其上存储有程序数据，所述程序数据被处理器执行时实现权利要求1-4任一项所述多数据的处理方法中的步骤。

本发明通过校验原始数据的接口数据文件，并对已提取的数据进行备份，防止错误数据流出导致数据失窃，保证了数据的正确性和安全性。

附图说明

图1为本发明多数据的处理方法的第一个实施例的流程示意图。

图2为本发明多数据的处理方法的第二个实施例的流程示意图。

图3为本发明多数据的处理方法的第三个实施例的流程示意图。

图4为本发明多数据的处理方法的第四个实施例的流程示意图。

图5为本发明多数据的处理方法的第一个实施例的模块示意图。

图6为本发明多数据的处理方法的第二个实施例的模块示意图。

图7为本发明多数据的处理方法的第三个实施例的模块示意图。

图8为本发明多数据的处理方法的第四个实施例的模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用来限定本发明。

图1展示本发明多数据的处理方法的一个实施例，在本实施例中，多数据的处理方法包括如下步骤：

步骤S1，接收来自外部的数据请求指令。

具体地，步骤S1之前还包括用户可视化配置FTP服务器的连接信息，并配置主机IP地址、端口、用户名和密码等操作。

步骤S2，根据数据请求指令调取原始数据压缩包和与原始数据对应的接口校验文件。

具体地，在抽取过程中，根据业务需求配置采集策略(如单节点采集，计划任务等)，定时从FTP服务器上抽取由接口数据文件提供方(例如数据的撰写者等)生成到FTP服务器上相关目录中的接口校验文件。

优选地，调取与原始数据对应的接口校验文件的策略，可根据原始数据的文件名称匹配相同文件名称的接口校验文件。例如，原始数据的文件名称为XXX.dat，则匹配的接口校验文件的文件名称应为XXX.zip。

需要说明的是，由于原始数据的文件类型与接口校验文件的文件类型不同，仅需匹配相同的文件名称即可获得对应的接口校验文件。

步骤S3，提取接口校验文件的MD5，并作为第一特征值；

具体地，第一特征值还可包括数据接口数据文件的文件大小。

步骤S4，解压缩原始数据压缩包，并得到原始数据。

具体地，解压缩可配置特定的解压缩算法(例如GNUzip)解压缩从FTP服务器上抽取的接口校验文件，得到数据接口数据文件。

进一步地，解压缩得到的接口校验文件的文件名称为XXX.chk，且接口校验文件的文件名称(XXX.chk)分别与原始数据的文件名称(XXX.dat)、接口校验文件的文件名称(XXX.zip)相同。

需要说明的是，压缩文件的文件类型不仅限于zip格式，还可设置为rar,cab,arj,lzh等格式。

步骤S5，抽取原始数据的接口数据文件，获得待校验接口数据文件。

步骤S6，提取待校验接口数据文件的MD5，并作为第二特征值。

具体地，第二特征值还可包括待校验接口数据文件的文件大小。

步骤S7，判断第一特征值与第二特征值是否匹配，若第一特征值与第二特征值匹配，则执行步骤S8.

具体地，判断第一特征值的MD5值和文件大小是否与第二特征值的MD5值和文件大小是否相同。

步骤S8，发送原始数据至发送数据请求指令的请求终端。

具体地，MD5为信息摘要算法第五版，为计算机安全领域广泛使用的一种散列函数，用以提供消息的完整性保护。其用于确保信息传输完整一致。是计算机广泛使用的杂凑算法之一，主流编程语言普遍已有MD5实现。将数据(如汉字)运算为另一固定长度值，是杂凑算法的基础原理。

进一步地，MD5具有：压缩性：任意长度的数据，算出的MD5值长度都是固定的。容易计算：从原数据计算出MD5值很容易。抗修改性：对原数据进行任何改动，所得到的MD5值都有很大区别。强抗碰撞：已知原数据和其MD5值，想找到一个具有相同MD5值的数据(即伪造数据)非常困难。

进一步地，可通过哈希算法获取MD5，将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能的，所以数据的哈希值可以检验数据的完整性。

本实施例采用校验MD5的方式校验数据的完整性和真实性，保证了用户抽取的数据的正确性，避免了用户抽取到不正确的数据。

为了将不匹配的数据与其他原始数据区别，在上述实施例的基础上，参见图2，在本实施例中，步骤S7之后还包括：

步骤S71，若第一特征值与第二特征值不匹配，则标记原始数据压缩包为非原装数据压缩包。

具体地，标记的方法可通过更改不匹配数据的名称或格式或详细信息等。

步骤S72，根据非原装数据压缩包生成记录文件。

具体地，记录文件可记录非原装数据的数据名称或大小或详细信息等。

进一步地，记录文件还可保存于FTP服务器中。

步骤S73，发送记录文件至发送数据请求指令的请求终端。

本实施例通过标记不匹配的数据并生成相应的记录文件反馈至用户，避免了用户使用不正确的数据，同时用户还可以查看记录文件以了解不正确数据的信息，从而提升了用户体验。

为了方便用户的数据抽取操作，在上述实施例的基础上，参见图3，步骤S2之后包括：

步骤S21，判断原始数据压缩包是否标记为非原装数据压缩包，若原始数据压缩包标记为非原装数据压缩包，则执行步骤S22。

步骤S22，发送与原始数据对应的记录文件至发送数据请求指令的请求终端。

具体地，记录文件为上述实施例中生成并保存在FTP服务器端。

进一步地，若袁术数据未标记为非原装数据，则执行步骤S3。

本实施例通过直接发送与非原装数据对应的记录文件至用户，免去了先匹配再生成的步骤，有效降低了服务器端的运作负荷并加快了数据请求的处理速度，进一步提升了用户体验。

为了方便同一数据、接口数据文件的重复调取，在上述实施例的基础上，参见图4，在本实施例中，多数据的处理方法还包括：

步骤S9，保存接口校验文件和待验证接口数据文件，并记录保存时长。

优选地，接口校验文件和待验证接口数据文件可保存至HDFS临时目录中。

进一步地，保存至HDFS临时目录中的接口校验文件和待验证接口数据文件之后还可保存至HIVE分区中，并在HIVE的接口表中根据预先配置的命名规则增加抽取数据分区，并写入数据到HIVE分区。

步骤S10，当保存时长达到预设时长时，删除接口校验文件和待验证接口数据文件。

具体地，步骤S10之前还包括判断保存时长是否达到预设时长的步骤，若保存时长达到预设时长则执行步骤S10。

具体地，预设时长可根据用户需求进行设置(例如七天或一个月等)，且接口校验文件的保存时长和待验证文件的保存时长可设置为不同时长。

进一步地，接口校验文件还可保存在FTP服务器中。

本实施例通过保存以备份接口校验文件和待验证接口数据文件，方便用户对同意数据进行抽取时可直接抽取备份文件，进一步提升了用户体验。

图5展示了本发明一种多数据的处理系统的一个实施例，其包括接收模块1、调取模块2、解压模块3、第一提取模块4、抽取模块5、第二提取模块6、第一判断模块7和第一通讯模块8，其中：

接收模块1，用于接收来自外部的数据请求指令。

调取模块2，用于根据数据请求指令调取原始数据压缩包和与原始数据对应的接口校验文件。

第一提取模块3，用于提取接口校验文件的MD5，并作为第一特征值。

解压模块4，用于解压缩原始数据压缩包，并得到原始数据。

抽取模块5，用于抽取原始数据的接口数据文件，获得待校验接口数据文件。

第二提取模块6，用于提取待校验接口数据文件的MD5，并作为第二特征值。

第一判断模块7，用于判断第一特征值与第二特征值是否匹配。

第一通讯模块8，用于若第一特征值与第二特征值匹配，则发送原始数据至发送数据请求指令的请求终端。

在上述实施例的基础上，参见图6，第一判断模块7还包括标记模块71、生成模块72和第一发送模块73，其中：

标记模块71，用于若第一特征值与第二特征值不匹配，则标记原始数据压缩包为非原装数据压缩包。

生成模块72，用于根据非原装数据压缩包生成记录文件。

第一发送模块73，用于发送记录文件至发送数据请求指令的请求终端。

在上述实施例的基础上，参见图7，在本实施例中，调取模块2还包括第二判断模块21和第二发送模块22，其中：

第二判断模块21，用于判断原始数据压缩包是否标记为非原装数据压缩包。

第二发送模块22，用于若原始数据压缩包被标记为非原装数据压缩包，则发送与原始数据压缩包对应的记录文件至发送数据请求指令的请求终端。

在上述实施例的基础上，参见图8，多数据的处理系统还包括：

保存与记录模块9，用于保存接口校验文件和待验证接口数据文件，并记录保存时长。

删除模块10，用于当保存时长达到预设时长时，删除接口校验文件和待验证接口数据文件。

本发明还提供了一种存储介质，其上存储有程序数据，程序数据被处理器执行时实现多数据的处理方法中的步骤。

本实施例中的存储介质可以是只读存储器、可存储静态信息和指令的静态存储设备、随机存取存储器、或者可存储信息和指令的动态存储设备，也可以是电可擦可编程只读存储器、只读光盘、或其他光盘存储、光碟存储、磁盘存储介质或者其他磁存储设备。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以不再进行赘述，相关之处参见方法实施例的部分说明即可。

以上对发明的具体实施方式进行了详细说明，但其只作为范例，本发明并不限制于以上描述的具体实施方式。对于本领域的技术人员而言，任何对该发明进行的等同修改或替代也都在本发明的范畴中，因此，在不脱离本发明的精神和原则范围下所作的均等变换和修改、改进等，都应涵盖在本发明的范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈亮;何庆勇
技术所有人：深圳索信达数据技术股份有限公司
我是此专利的发明人

上一篇：一种基于网络爬虫的机器自动分类方法与流程
上一篇：一种基于区块链技术的汽车检测信息系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。