批量数据的处理方法和装置与流程

文档序号：18832302发布日期：2019-10-09 03:50阅读：305来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及数据处理技术领域，具体而言，本发明涉及一种批量数据的处理方法和装置。

背景技术：

随着互联网大数据技术的发展，服务器所要处理的数据量会爆发式增长，同时，具数据处理、存储、查询等功能的服务器系统也逐渐发展为多级分功能模块的处理系统。如何服务器系统的功能模块之间如何进行数据同步处理变得尤为重要。

为了做到这一点，现有的做法是在数据处理的闲时，如凌晨12点，对服务器系统内各个功能模块之间的数据进行同步处理。但是，在同步的过程中通常以所有需要同步的数据一同进行同步处理，无益于服务器系统的功能模块之间的同步处理效率和数据质量。

技术实现要素：

为克服以上技术问题，特别是现有技术中将所有需要同步的数据一同进行同步处理不利于服务器系统的功能模块之间的同步处理效率和数据质量的问题：

第一方面，本发明提供一种批量数据的处理方法，其包括以下步骤：

接收若干个批量数据文件，获取所述批量数据文件的属性信息；

根据批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息将其中的数据信息存储至各数据表中；

根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息。

在其中一个实施例中，所述根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息的步骤，包括：

根据数据信息索引，依据所述数据信息提取对应的特征字节；

将每一数据信息的特征字节与数据表中的原数据信息进行比对；

根据比对的结果，将所述数据信息覆盖数据表的对应数据信息。

在其中一个实施例中，所述属性信息是对所述批量数据文件中的数据信息属于新增数据信息增和更新数据信息进行划分。

在其中一个实施例中，所述批量数据的处理方法还包括：

当检测所述数据表中存储的数据信息为异常状态时，根据所述数据信息查找对应的批量数据文件，并停止该批量数据文件进行数据处理；

根据所述数据信息的错误日志进行数据修正。

在其中一个实施例中，所述当检测所述数据表中存储的数据信息为异常状态时，根据所述数据信息查找对应的批量数据文件，并停止该批量数据文件进行数据处理的步骤，包括：

根据数据信息索引，当检测到无法从所述数据表中存储的数据信息解析得到所述数据信息索引对应的相关内容时，则判断所述数据信息为异常状态；

根据所述数据信息查找得到其对应的批量数据文件，并停止该批量数据文件进行数据处理。

在其中一个实施例中，所述根据所述数据信息的错误日志进行修正的步骤包括：

根据错误日志获取对应的数据信息的异常字节；

将所述异常字节对应于所述数据信息索引相应的字节，对所述异常字节进行修正。

在其中一个实施例中，所述根据所述批量数据文件存储的匹配规则，将对应所述批量数据文件的属性信息将其中的数据信息存储至各数据表中的步骤还包括：

获取所述数据信息的实际形成时间段；

若所述实际形成时间段在对应的批量数据文件的设定生成时间段内，将对应的数据信息先存储至临时数据表中；

待其他批量数据文件完成存储后，根据所述批量数据文件存储的匹配规则，再将所述临时数据表中的数据信息存储至对应的数据表中。

第二方面，本发明还提供一种批量数据的处理装置，其包括：

接收模块，用于接收若干个批量数据文件，获取所述批量数据文件的属性信息；

存储模块，用于根据批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息将其中的数据信息存储至各数据表中；

覆盖模块，用于根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息。

第三方面，本发明还提供一种服务器，其包括：

一个或多个处理器；

存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序配置用于执行第一方面实施例所述的批量数据的处理方法。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现第一方面实施例所述的批量数据的处理方法。

本发明所提供的一种批量数据的处理方法和装置，根据所接收的若干个批量数据文件的属性信息将各自的数据信息分配至不同的数据表中，并根据不同数据表的数据信息的特点，获取其特征字节覆盖数据表对应的数据信息。

在上述基础上，本发明还提供另一种批量数据的处理方法和装置，当检测所述数据表所存储的数据信息为异常状态时，对所述批量数据文件停止相应的数据处理，并根据数据信息的错误日志进行相应的修复。

本发明所提供的技术方案将在服务器系统中功能模块之间同步的数据处理的需要，定义属性信息并对所述数据信息进行分类形成各自的批量数据文件。所述批量数据文件之间是相互独立的，服务器可以同时或者单独对所述批量数据文件进行处理。但是，若存在有批量数据文件出现异常状态，和/或需要进行其他数据处理，如数据的修正、停止数据处理等措施时，不影响其他批量数据文件的正常数据处理。这样，可以保证数据同步的过程中，可防止因个别数据出现异常，造成其他数据处理停滞不前的情况出现，有利于保证数据的处理效率，最终保证数据的处理质量。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例方案的应用环境图；

图2是本发明中的一个实施例的批量数据的处理方法的流程图；

图3是本发明中的另一个实施例的批量数据的处理方法的流程图；

图4为本发明中的一个实施例的批量数据的处理装置的示意图；

图5为本发明中的一个实施例的服务器的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的远端网络设备，其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此，云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中，远端网络设备、终端设备与wns服务器之间可通过任何通讯方式实现通讯，包括但不限于，基于3gpp、lte、wimax的移动通讯、基于tcp/ip、udp协议的计算机网络通讯以及基于蓝牙、红外传输标准的近距无线传输方式。

参考图1所示，图1是本发明实施例方案的应用环境图；该实施例中，本发明技术方案可以基于服务器上实现，如图1中，主机服务器110和查询系统服务器120可以通过internet网络实现数据交互。主机服务器110可以根据用户的业务请求进行数据处理业务，并将相应的用户数据发送至所述查询系统服务器120建立的数据库中进行存储。当所述主机服务器110接收到用户的查询和信息更新指令时，向所述查询系统服务器120发出相关的操作指令，调用相关的数据，形成相关的查询信息发送至用户界面。

为了解决上述问题，本发明提供了一种批量数据的处理方法。可参考图2，图2是一个实施例的批量数据的处理方法流程图，该方法包括以下步骤：

s210、接收若干个批量数据文件，获取所述批量数据文件的属性信息。

由于服务器所处理的数据量大，在服务器系统的模块之间进行数据的同步，尤其是设定时间段(如闲时，具体可为凌晨12点)，所涉及的数据处理通常以批量数据的形式进行同步。

在本实施例中，所同步的数据涉及到相关领域的数据信息，所述数据信息可以是如服务行业(金融、互联网等)的客户信息，或者是制造行业的产品信息。每个批量数据文件中可以包含数万、甚至数千万的数据信息。

在数据同步处理时为了便于对不同的批量数据文件进行区分。在生成批量数据文件时，会根据不同属性的数据信息进行分类，并将同类的数据信息集中在一个批量信息文件中，并对该批量信息文件设置相应的属性信息。

以金融服务行业的数据同步为例，所述数据信息为用户信息，每个批量文件为每一次数据同步处理时针对同一属性信息的用户信息的批量文件。在本实施例中，所述数据同步处理以数据信息的新增和更新作为同一时段划分批量数据文件的依据，对应的，所述属性信息为新增数据信息和更新数据信息。

根据上述对数据信息的属性划分，在同一时间段内，所述主机服务器向所述查询系统服务器同步传送的批量数据文件中，至少包括仅包含新增用户信息的第一批量数据文件和仅包含更新用户信息的第二批量数据文件。

由于所述批量数据文件所包含的数据量大，所以可以对所述批量数据文件进行压缩处理后，再向所述查询系统服务器进行同步传送。对应地，所述查询系统服务器相应地接收了所述批量数据文件并解压，从该批量数据文件中获取对应的属性信息，为后续的数据区分处理做好分类准备。

s220、根据批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息将其中的数据信息存储至各数据表中。

由于所述批量数据文件在上述步骤s210已被解压，因此，可直接从对应的批量数据文件获取相应的数据信息。

按照相关的批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息，将其中的数据信息存储至对应的数据表中。

对应上述实施例，所述第一批量数据文件的新增用户信息存储至表0中，所述第二批量数据文件的更新用户信息存储至表1中。而表0和表1也相应地携带对应批量数据文件的属性信息。

s230、根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息。

在本实施例中，所述数据信息是以字节的形式存储的。所有数据信息的固定序号字节的所存储的信息是属于同一属性的内容。在本实施例中，所述内容如可以包括用户账户号、用户的姓名、开户日期等。其中，所述特征字节是用于区分所述数据信息之间的基本区别点，在本实施例中，所述特征字节为存储用户账户信息的字节。

从每个数据表的数据信息中获取特征字节后，将所述特征字节对数据表的数据信息对应的特征字节进行遍历，将最新的数据信息覆盖数据表中对应的数据信息。

本发明提供一种批量数据的处理方法，通过获取所述批量数据文件的属性信息并存储至对应的数据表中，并对所述批量数据文件的数据信息中获取特征字节，根据所述特征字节将所述数据信息覆盖至数据表中原有的数据信息栏。本发明根据所述属性信息对批量数据文件进行分开不同数据表存储，并进行相关数据信息的处理，使得不同数据表之间在数据同步处理时相互独立，不受其他数据表的错误或者是修正的干扰，有利于提升同步处理效率和数据质量。

对于步骤s230，可进一步包括：

a1、根据数据信息索引，依据所述数据信息提取对应的特征字节。

对应同一服务器设备所处理的同一类型的批量数据文件来说，所述数据信息的存储形式是相同的，该相同的存储形式是根据一定的约定规则的，在本实施例中，以数据信息索引来对所述数据信息的存储形式进行规定。具体的索引规定了如：所述数据信息的第1-10字节是存储对应用户账户号，第11-18存储对应用户的姓名，第19-25位对应用户的开户日期等。在本实施例中，所述查询系统服务器根据数据信息索引，依据所述数据信息提取能将数据信息的特征信息，以便后续区别处理。

a2、将每一数据信息的特征字节与数据表中的原数据信息进行比对。

所述数据信息的特征字节是用于数据信息之间区分的最基础信息，在数据处理中，无论所述数据信息经历过多少次变更，在本实施例中，所述特征字节不会发生变化。

在本实施例中，由于所述批量数据文件中的数据信息中包含了新增数据信息或更新数据信息的属性信息。

将所述每一数据信息的特征字节对数据表中原有的数据信息进行遍历和比对，如果所述数据信息为新增数据信息，则在数据表中不能得到具有相同特征字段的数据信息；如果所述数据信息为更新数据信息，则在数据表中可以得到具有相同特征字段的数据信息。

a3、根据比对的结果，将所述数据信息覆盖数据表的对应数据信息。

对于上述步骤a3比对的结果，对于在数据表中不能得到具有相同特征字段的数据信息的，将相关的数据信息根据对应的字节排列形式新增至所述数据表中；对应在数据表中可以得到具有相同特征字段的数据信息的，将生成时间在后的数据信息覆盖数据表的生成时间在前的对应数据信息。

所述生成时间的判定，可以根据数据信息的时间标注进行判定。

参考图3，图3是本发明中的另一个实施例的批量数据的处理方法的流程图。在本发明提供的一种批量数据的处理方法，在上述的基础上，还可包括以下步骤：

s240、当检测所述数据表中存储的数据信息为异常状态时，根据所述数据信息查找对应的批量数据文件，并停止该批量数据文件进行数据处理。

在该步骤中，当检测到所述数据表的数据信息存在异常时，由于所述批量数据文件将同一属性信息的数据信息进行打包同步处理的，所以根据所述数据信息能查找到对应的批量数据文件，这时，为了保证数据同步处理的准确性，停止对所述数据信息对应的批量数据文件的数据信息的同步数据处理，包括对新增数据信息或更新数据信息的同步处理。

s250、根据所述数据信息的错误日志进行修正。

根据错误日志得到出现异常状态的数据信息，并根据所述错误日志的错误代码，得到所述数据信息中出现错误的属性内容，并对其进行修正。

直至完成对应批量数据文件的错误修正，方能恢复对所述批量数据文件中的数据信息的同步处理。

在本实施例中，由于批量数据文件之间是相互独立的，当存在个别批量数据文件处理出现异常时，不影响其他批量文件处理的处理进度，这样，可以进一步地避免因部分的数据异常情况影响其他数据的处理进度，使得批量数据的处理效率得到进一步地提升。

对于步骤s240，可进一步包括：

b11、根据数据信息索引，当检测到无法从所述数据表中存储的数据信息解析得到所述数据信息索引对应的相关内容时，则判断所述数据信息为异常状态。

根据所述数据信息索引，所述数据信息总的不同序号的字节代表不同的属性的内容，根据所述属性内容。当对数据信息解析所得到对应字节的属性内容，与根据所述数据信息索引得到的属性内容不同，则判定所述数据信息出现异常。

如在账户信息中，客户的信息由若干个字节组成，其中，第19-25个字节为开户日期，若某文件中对应的字节为88888888，而不是为预设的日期的格式yyyymmdd，则查询系统服务器无法从该字段中解析得到相应的开户日期，这时，则对应的数据信息在状态表中标识为异常状态，并生成关于该错误信息的错误日志。

b12、根据所述数据信息查找得到其对应的批量数据文件，并停止该批量数据文件进行数据处理。

由于所述数据信息来自与对应的批量数据文件，可以通过所述数据信息的编码或者是位置标注得到对应的批量数据文件，

由所述数据信息的属性信息，得到其对应的批量数据文件，以便服务器停止对该批量数据文件处理。

上述实施例的方案能根据所述数据信息索引，快速得到出现异常状态的数据信息，并同时停止对应的批量数据文件的数据处理，以减少数据同步处理过程中报错的数量，提高同步处理的数据质量。

针对上述内容，所述步骤s250还可包括：

b21、根据错误日志获取对应的数据信息的异常字节；

b22、将所述异常字节对应于所述数据信息索引相应的字节，对所述异常字节进行修正。

在上述步骤b21-b22中，根据所述错误日志中获得错误代码，从所述错误代码中获得相应数据信息出现异常的属性内容，再从该属性内容得到对应的异常字节，或者直接冲错误代码中获取对应的错误字节。

将所述异常字节对应的字节序号对应于所述数据信息索引中的字节排序，得到所述异常字节的字节序号正确的属性内容。根据该正确的属性内容，重新对相应的数据信息最新的信息中获取相应的内容，并对相应的数据信息的异常字节进行相应的修正。

上述结合根据错误日志得到的异常字节额所述数据信息索引进行对比进行修正，可以快速对错误信息进行定位并进行修正，提高同步处理的数据质量，也进一步地提高了数据的同步效率。

对于步骤s220，可进一步包括：

c1、获取所述批量数据文件的实际形成时间段；

c2、若所述实际形成时间段在对应的批量数据文件的设定生成时间段内，将对应的批量数据文件先存储至临时数据表中；

c3、待其他批量数据文件完成存储后，根据所述批量数据文件存储的匹配规则，再将所述临时数据表中的数据信息存储至对应的数据表中。

在上述步骤c1-c3中，在所述查询系统服务器收到所述批量数据文件时，根据其时间标签获得得到所述批量数据文件在主机服务器的形成时间。若所述数据信息的实际形成时间刚好在所述批量数据文件的设定生成时间段，即所述批量数据文件形成的过程中，对应的数据信息才刚好形成，但此时不能插入至具备相同属性信息的批量数据文件中。为了保证数据的完整性和及时同步处理，将对应的数据信息先以数据包或另外一个批量数据文件同步至所述查询系统服务器，并以临时数据表进行存储。待在设定生成时间段内生成的批量数据文件解压后并以数据信息逐条数据表的对应数据信息，完成相应的数据存储后，再根据所述批量数据文件存储的匹配规则，对该临时数据表中的数据信息根据属性信息，相应地保持至对应的数据表中。

沿用上述的例子进行具体的说明：

在上述表0和表1对应的批量数据文件生成的过程中得到的数据信息以数据包的形式同步至所述查询系统服务器中，并以表2的形式进行临时存储。但表0和表1完成新增用户信息和更新用户信息的存储后，根据表2中对应数据信息对应的属性信息，即按照新增数据和更新数据合并至所述表1中。

为了缩短后续对外查询服务的相应时间，将各个数据表合并至对外服务的基础表中。在本实施例中，将表0和表1的数据信息合并至基础表中。

对于上述陈述的批量数据的处理方法中，所述批量数据文件根据设定的生成时间段和同步时间段，对最近新增和更新进行相应的处理。为了能及时对所产生的数据信息进行处理，在设定的生成时间段外产生的数据信息先以数据包的形式同步并存储至所述查询系统服务器中。当到所述批量数据文件的设定的生成时间段时，对该数据信息最新的更新信息再次以批量数据文件的形式同步并存储至所述查询系统服务器中。

基于与上述批量数据的处理方法相同的发明构思，本发明实施例还提供了一种批量数据的处理装置，如图4所示，包括：

接收模块410，用于接收若干个批量数据文件，获取所述批量数据文件的属性信息；

存储模块420，用于根据批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息将其中的数据信息存储至各数据表中；

覆盖模块430，用于根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息。

请参考图5，图5为一个实施例中服务器的内部结构示意图。如图5所示，该服务器包括通过系统总线连接的处理器510、存储介质520、存储器530和网络接口540。其中，该服务器的存储介质520存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器510执行时，可使得处理器510实现一种批量数据的处理方法，处理器510能实现图4所示实施例中的一种批量数据的处理装置中的接收模块410、存储模块420和覆盖模块430的功能。该服务器的处理器510用于提供计算和控制能力，支撑整个服务器的运行。该服务器的存储器530中可存储有计算机可读指令，该计算机可读指令被处理器510执行时，可使得处理器510执行一种批量数据的处理方法。该服务器的网络接口540用于与终端连接通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本发明还提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收若干个批量数据文件，获取所述批量数据文件的属性信息；根据批量数据文件存储的匹配规则，根据所述批量数据文件的属性信息将其中的数据信息存储至各数据表中；根据所述数据信息获取特征字节，对应所述特征字节逐条对应覆盖数据表的对应数据信息。

综合上述实施例可知，本发明最大的有益效果在于：

在上述基础上，本发明还提供另一种批量数据的处理方法和装置，对于不能在设定时间段内生成批量数据文件的数据信息并覆盖对应数据表中的数据信息，将以临时数据表的形式先进行存储，待其他批量数据文件完成存储后，在根据所述批量数据文件存储的匹配规则，将数据信息存储至对应的数据表中。这样，可以保证数据的完整性和得到及时同步处理。

综上，本发明通过批量数据的处理方法和装置，通过定义属性信息对批量数据进行分类并形成对应的批量数据文件，根据批量数据文件中的数据信息的特征字节覆盖数据表的数据信息的技术方案，解决了现有技术中将所有需要同步的数据一同进行同步处理不利于服务器系统的功能模块之间的同步处理效率和数据质量的问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)等存储介质，或随机存储记忆体(randomaccessmemory，ram)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐丽萍;姚伏霞;安娜娜;包六十三;邹延鑫;徐晶;欧阳海
技术所有人：平安银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。