数据处理系统及方法_4

文档序号:9547229阅读:来源:国知局
致CPU运行队列超负荷”与数据“EBD注册请求”之间的分隔符“,”置换为其他特殊字符”,而对于第二个记录②而言,将数据“〇发生原因:基于服务使用量增加的表空间临界值超额使用现象”与数据“〇措施内容:在表空间添加30GB原始设备”之间的换行符“/η”置换为空格字符“”。然而,这样的修正方式只不过是一个实施例,数据处理单元108可利用多种多样的方式而对成为修正对象的记录内的数据进行修正。
[0073]图6为表示根据本发明的一个实施例的输入数据被存储和加载的最终结果的图。通过所述的过程而得到修正的非正常数据可被存储于第一存储单元104。参照图6,先前的非正常数据经过数据处理单元108中的修正过程而转换为正常数据。即,可以确认先前的非正常数据已变换为具有与正常数据相同的结构。
[0074]图7为用于说明根据本发明的一个实施例的数据处理方法的顺序图。
[0075]首先,数据处理系统100的数据判别单元102接收输入数据以及与输入数据的结构有关的元数据(S702)。在此,输入数据150是成为分析对象的数据,例如可以是特定系统的日志数据、关于故障发生状况的数据等。元数据160作为关于输入数据150的结构的信息,可包括如下信息中的一种以上的信息:与每一记录各自的数据字段的个数有关的信息;与用于分隔各个数据字段的分隔符的个数有关的信息;以及与每一数据字段各自的数据模式有关的信息。
[0076]然后,数据判别单元102读取输入数据(S704),然后基于元数据而判别输入数据究竟是正常数据还是非正常数据(S706)。关于判别输入数据究竟是正常数据还是非正常数据的过程,将会参照图8和图9而具体说明。
[0077]然后,数据判别单元102将正常数据存储于第一存储单元104(S708),并将非正常数据存储于第二存储单元106(S710)。S卩,数据判别单元102在数据输入步骤中将输入数据150分类为正常数据和非正常数据,然后可将正常数据和非正常数据分别存储于单独的存储单元。在此,虽然是对数据判别单元102在将正常数据存储于第一存储单元104之后将非正常数据存储于第二存储单元106的情形进行了说明,然而并不局限于此,数据判别单元102也可以在将非正常数据存储于第二存储单元106之后将正常数据存储于第一存储单元104,且还可以将正常数据和非正常数据同时存储于第一存储单元104和第二存储单元 106。
[0078]数据判别单元102依次接收输入数据,并判别输入数据是否为最后的输入数据(S712)。如果输入数据不是最后的数据,则回到步骤S704而重复上述步骤。
[0079]如果输入数据为最后的数据,则数据处理单元108将存储于第二存储单元106的非正常数据修正为具有与正常数据相同的结构(S714)。关于数据处理单元108修正非正常数据的过程,将会参照图10而具体说明。
[0080]图8为用于说明图7的S706的示例性实施例的顺序图。
[0081]首先,数据判别单元102计算输入数据内的分隔符的个数(S802)。分隔符是指用于分隔输入数据的各个数据字段的文字、记号、符号等,例如可以是逗号“,”。
[0082]然后,数据判别单元102将包含于输入数据中的分隔符的个数与包含于元数据中的数据字段的个数进行比较(S804)。
[0083]如果包含于输入数据中的分隔符的个数与包含于元数据中的数据字段的个数一致(假设输入数据的数据字段后端也存在分隔符),则数据判别单元102将输入数据判别为正常数据(S806)。然而并不是局限于此,数据判别单元102也可以在包含于输入数据中的分隔符的个数比包含于元数据中的数据字段的个数少一个的情况下(假设分隔符只存在于输入数据的数据字段之间)将输入数据判别为正常数据。
[0084]如果包含于输入数据中的分隔符的个数与包含于元数据中的数据字段的个数不一致,就将输入数据判别为非正常数据(S808)。在此,虽然是对数据判别单元102将包含于输入数据中的分隔符的个数与包含于元数据中的数据字段的个数进行比较而判断输入数据究竟是正常数据还是非正常数据的情形进行了说明,然而这只不过是一个实施例。数据判别单元102例如还可以通过将包含于输入数据中的数据字段的个数与包含于元数据中的数据字段的个数进行比较而判断输入数据究竟是正常数据还是非正常数据。
[0085]图9为用于说明图7的S706的另一示例性实施例的顺序图。
[0086]首先,数据判别单元102按包含于输入数据的记录中的每一数据字段分别判断包含于元数据中的每一数据字段各自的数据模式是否匹配(S902、S904)。
[0087]如果包含于输入数据的记录的数据字段中存在与包含于元数据的数据模式相匹配的数据字段,则数据判别单元102将除了匹配的数据字段以外的输入数据的数据字段设定为新的比较对象(S906)。
[0088]在此过程中,数据判别单元102判断是否存在剩余的比较对象(S908)。如果存在剩余的比较对象,则数据判别单元102判断除了已经匹配的数据字段以外的输入数据的数据字段中是否存在包含于元数据的数据模式所匹配的数据字段。即,从步骤S904开始再次重复执行。
[0089]如果不存在剩余的比较对象,则数据判别单元102将输入数据判别为正常数据(S910)。
[0090]另外,在步骤S904中,当包含于输入数据的记录的数据字段中不存在包含于元数据的数据模式所匹配的数据字段时,数据判别单元102将输入数据判别为非正常数据(S912)。
[0091]图10为用于说明图7的S714的示例性实施例的顺序图。
[0092]首先,数据处理单元108获取存储于第二存储单元106的非正常数据,并提取存储于第一存储单元104的正常数据内的特定数据模式和每一数据字段各自的特定数据值(S1002)。如上所述,输入数据的各个数据字段中包含有具备特定模式的数据。例如,输入数据的记录起始部分(关于“制作时间”的数据字段)可以恒具有“YYYYMMDDhhmmss”之类的包含14个数字的数字串形态的模式。数据处理单元108可从正常数据内提取任意的特定数据模式。而且,正常数据内的各个数据字段中可存在不同个数的数据值,且数据处理单元108可按正常数据内的每一数据字段分别提取一个以上的特定数据值(例如,“韩国”、“美国”、“日本”;“男性”、“女性” ;“URL监控变更措施”、“相关部件盈余份量确保”等)。
[0093]然后,数据处理单元108读取非正常数据的一部分(S1004),然后检索非正常数据内的数据字段中是否存在与提取的特定数据模式相匹配的数据字段(S1006)。
[0094]如果没有发现与提取的特定数据模式相匹配的数据字段,则数据处理单元108将一直到发现匹配的数据字段为止继续追加检索非正常数据的范围(S1008)。
[0095]如果发现与提取的特定数据模式相匹配的数据字段,则数据处理单元108将直到与提取的特定数据模式相匹配的下一数据字段为止的数据设定为一个虚拟记录(S1010)。例如,当在非正常数据内发现5次“YYYYMMDDhhmmss”模式时,可将发现“YYYYMMDDhhmmss”模式的数据字段作为基准而将相关非正常数据设定为5个虚拟记录。数据处理单元108可以以虚拟记录单位依次修正非正常数据。
[0096]然后,数据处理单元108通过考虑正常数据的每一数据字段各自的数据个数而检索虚拟记录内的数据字段当中存在从正常数据提取的特定数据值的数据字段(S1012、S1014)。例如,假设包含于正常数据的第一数据字段中的数据个数为2个,包含于第二数据字段中的数据个数为5个,而包含于第三数据字段中的数据个数为4个,则数据处理单元108首先可以判别数据个数最少的第一数据字段所包含的数据是否包含于虚拟记录。然后,数据处理单元108可依次判别数据个数较多的第三数据字段、第二数据字段所包含的数据是否包含于虚拟记录。对于数据个数较少的数据字段而言,与虚拟记录内的数据字段之间的匹配可能会相对容易。对于数据个数较多的数据字段而言,误差发生可能性相对较高,且在匹配方面也可能需要相对较多的时间。因此,数据处理单元108可从数据个数较少的数据字段起分别依序而执行与虚拟记录之间的匹配作业。
[0097]然后,数据处理单元108修正判别为修正对象的数据字段所包含的数据(S1016)。数据处理单元108将判别为修正对象的数据字段所包含的数据内的特定字符串或字符删除,或者置换为已设定的字符串或字符,从而可以修正数据。数据处理单元108可利用普遍公知的文本变换技术方法而将成为问题的特殊字符、记号、大小写字母等变换为其他字符、
记号等。
[0098]然后,数据处理单元108判别得到修正的虚拟记录是否为正常数据(S1018)。8口,数据处理单元108每当修正一个虚拟记录时判别修正的虚拟记录是否为正常数据。数据处理单元108可基于所述的元数据而判别修正的虚拟记录是否为正常数据。例如,数据处理单元108可将包含于元
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1