数据处理系统及方法

文档序号:9547229阅读:310来源:国知局
数据处理系统及方法
【技术领域】
[0001]本发明的实施例涉及一种数据处理系统及方法,尤其涉及一种用于在加载大容量数据时自动处理数据错误的数据处理系统及方法。
【背景技术】
[0002]在大容量日志数据的分析初始阶段中,数据的结构化、加载和存储是非常重要的作业。加载或存储需执行为符合用于数据分析的最低限度的数据结构信息。然而,大部分现有的日志数据却大量包含不符合这样的数据结构信息的非正常数据。尤其对于大容量数据而言,这样的非正常数据可能导致数据加载过程中发生严重的错误,或者以错误的形态加载而导致出现不正确的数据分析结果。现有技术不具备加载日志数据时自动修正错误部分或结构化的处理功能,且错误修正或结构化过程均由手动作业实现。
[0003]具体地说,对于现有技术而言,如果在数据输入的过程中发生错误,则数据的加载作业中断并找出错误原因而进行修正,然后从头开始重新执行数据加载。如果多次发现非正常数据,则这样的作业只能每次都重复执行,尤其在加载大容量数据时,由于这样的繁琐而存在浪费时间和成本的问题。
[0004][现有技术文献]
[0005][专利文献]
[0006]韩国公开专利公报第10-2014-0001910 号(2014.01.07)

【发明内容】

[0007]本发明的实施例的目的在于提供一种用于有效地存储大容量数据并自动处理包含于数据中的错误的数据处理系统及方法。
[0008]根据本发明的示例性实施例,提供一种数据处理系统,包括:数据判别单元,接收输入数据以及与所述输入数据的结构有关的元数据,并基于所述元数据而判别所述输入数据究竟是正常数据还是非正常数据;第一存储单元,存储所述正常数据;第二存储单元,存储所述非正常数据;数据处理单元,将存储于所述第二存储单元的所述非正常数据修正为具有与所述正常数据相同的结构,并将修正的所述非正常数据存储于所述第一存储单元。
[0009]所述数据判别单元可以以所述输入数据的记录(record)单位判别所述输入数据究竟是正常数据还是非正常数据。
[0010]所述元数据可包括如下信息中的一种以上的信息:与每一记录各自的数据字段(data field)的个数有关的信息;与用于分隔各个所述数据字段的分隔符的个数有关的信息;与每一所述数据字段各自的数据模式有关的信息。
[0011]所述数据判别单元可将包含于所述元数据的数据字段的个数或所述分隔符的个数中的一个与包含于所述输入数据的记录的数据字段的个数或分隔符的个数中的一个进行比较,或者按包含于所述输入数据的记录的每一数据字段分别判断包含于所述元数据的每一数据字段各自的数据模式是否匹配,从而判别所述输入数据的各个记录究竟是正常数据还是非正常数据。
[0012]所述数据处理单元可提取所述正常数据内的特定数据模式,并将所述非正常数据内的数据字段中与所述特定数据模式相匹配的数据字段作为基准而将所述非正常数据分隔为多个虚拟记录,并以所述虚拟记录单位修正所述非正常数据。
[0013]所述数据处理单元可按所述正常数据内的每一数据字段分别提取一个以上的特定数据值,并将所述虚拟记录内的数据字段中除了存在所述特定数据值的数据字段以外的其余数据字段所包含的数据进行修正。
[0014]所述数据处理单元可将包含于所述其余数据字段的数据内的特定字符串或字符删除,或者置换为已设定的字符串或字符。
[0015]所述数据处理单元每当修正所述虚拟记录时判别所述虚拟记录是否为正常数据,并在所述虚拟记录被判别为正常数据的情况下,可将所述虚拟记录存储于所述数据处理单元内的数据库,而在虚拟记录全部都存储于所述数据库的情况下,可将修正的所述非正常数据存储于所述第一存储单元。
[0016]所述数据处理单元每当修正所述虚拟记录时判别所述虚拟记录是否为正常数据,并在所述虚拟记录被判别为不是正常数据的情况下,可再次修正目前为止修正的全部虚拟记录。
[0017]根据本发明的另一示例性实施例,提供一种数据处理方法,包括如下步骤:由数据判别单元接收输入数据以及与所述输入数据的结构有关的元数据;由所述数据判别单元基于所述元数据而判别所述输入数据究竟是正常数据还是非正常数据;由所述数据判别单元将所述正常数据存储于第一存储单元;由所述数据判别单元将所述非正常数据存储于第二存储单元;由数据处理单元将存储于所述第二存储单元的所述非正常数据修正为具有与所述正常数据相同的结构;由所述数据处理单元将修正的所述非正常数据存储于所述第一存储单元。
[0018]在判别所述输入数据究竟是正常数据还是非正常数据的步骤中,可以以所述输入数据的记录(record)单位判别所述输入数据究竟是正常数据还是非正常数据。
[0019]所述元数据可包括如下信息中的一种以上的信息:与每一记录各自的数据字段(data field)的个数有关的信息;与用于分隔各个所述数据字段的分隔符的个数有关的信息;与每一所述数据字段各自的数据模式有关的信息。
[0020]在判别所述输入数据究竟是正常数据还是非正常数据的步骤中,可将包含于所述元数据的数据字段的个数或所述分隔符的个数中的一个与包含于所述输入数据的记录的数据字段的个数或分隔符的个数中的一个进行比较,或者按包含于所述输入数据的记录的每一数据字段分别判断包含于所述元数据的每一数据字段各自的数据模式是否匹配,从而判别所述输入数据的各个记录究竟是正常数据还是非正常数据。
[0021]在修正所述非正常数据的步骤中,可包括如下步骤:提取所述正常数据内的特定数据模式;将所述非正常数据内的数据字段中与所述特定数据模式相匹配的数据字段作为基准而将所述非正常数据分隔为多个虚拟记录;以所述虚拟记录单位修正所述非正常数据。
[0022]在以所述虚拟记录单位修正所述非正常数据的步骤中,可包括如下步骤:按所述正常数据内的每一数据字段分别提取一个以上的特定数据值;将所述虚拟记录内的数据字段中除了存在所述特定数据值的数据字段以外的其余数据字段所包含的数据进行修正。
[0023]在修正包含于所述其余数据字段的数据的步骤中,可将包含于所述其余数据字段的数据内的特定字符串或字符删除,或者置换为已设定的字符串或字符。
[0024]在以所述虚拟记录单位修正所述非正常数据的步骤中,可包括如下步骤:每当修正所述虚拟记录时判别所述虚拟记录是否为正常数据;在所述虚拟记录被判别为正常数据的情况下,将所述虚拟记录存储于所述数据处理单元内的数据库;在虚拟记录全部都存储于所述数据库的情况下,将修正的所述非正常数据存储于所述第一存储单元。
[0025]在以所述虚拟记录单位修正所述非正常数据的步骤中,可包括如下步骤:每当修正所述虚拟记录时判别所述虚拟记录是否为正常数据;在所述虚拟记录被判别为不是正常数据的情况下,再次修正目前为止修正的全部虚拟记录。
[0026]根据本发明的实施例,在数据输入过程中将非正常数据临时存储于第二存储单元并继续进行针对正常数据的输入,从而可以防止基于非正常数据的输入错误的数据处理时间的延迟。据此,可以防止非正常数据引起数据的存储及加载作业中断,且无需将已存储的正常数据无效化。而且,可以改善不必要的存储、加载反复作业。
[0027]并且,根据本发明的实施例,可利用正常数据的数据模式和数据值而有效地探寻非正常数据内的出错位置。
【附图说明】
[0028]图1为表示根据本发明的一个实施例的数据处理系统的详细构成的模块图。
[0029]图2为根据本发明的一个实施例的输入数据的示例。
[0030]图3为根据本发明的一个实施例的正常数据和非正常数据的示例。
[0031]图4为概略地表示根据本发明的一个实施例的数据处理过程的图。
[0032]图5为表示将根据本发明的一个实施例的非正常数据修正为具有与正常数据相同的结构的结果的图。
[0033]图6为表示根据本发明的一个实施例的输入数据被存储和加载的最终结果的图。
[0034]图7为用于说明根据本发明的一个实施例的数据处理方法的顺序图。
[0035]图8为用于说明图7的S706的示例性实施例的顺序图。
[0036]图9为用于说明图7的S706的另一示例性实施例的顺序图。
[0037]图10为用于说明图7的S714的示例性实施例的顺序图。
[0038]符号说明:
[0039]100:数据处理系统 102:数据判别单元
[0040]104:第一存储单元 106:第二存储单元
[0041]108:数据处理单元 150:输入数据
[0042]160:元数据
【具体实施方式】
[0043]以下,参照【附图说明】本发明的具体实施例。然而这只不过是示例性实施例,本发明并不局限于此。
[0044]在说明本发明时,如果认为对有关本发明的公知技术的具体说明有
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1