数据处理系统及方法_2

文档序号:9547229阅读:来源:国知局
可能对本发明的主旨造成不必要的混乱,则省略其详细说明。另外,后述的术语为考虑到在本发明中的功能而定义的术语,其可能因使用者、运用者的意图或惯例等而不同。因此,要将贯穿整个说明书的内容作为基础而对其进行定义。
[0045]本发明的技术思想由权利要求书确定,以下的实施例只是用于将先进的本发明技术思想有效地说明给本发明所属技术领域中具有普通知识的人员的一种方式而已。
[0046]图1为表示根据本发明的一个实施例的数据处理系统100的详细构成的模块图,图2为根据本发明的一个实施例的输入数据150的示例,图3为根据本发明的一个实施例的正常数据和非正常数据的示例。
[0047]如图1所示,根据本发明的一个实施例的数据处理系统100包括数据判别单元102、第一存储单元104、第二存储单元106以及数据处理单元108。
[0048]数据判别单元102接收输入数据150以及与输入数据150的结构有关的元数据160,并基于元数据160而判别输入数据150究竟是正常数据还是非正常数据。其中,输入数据150是成为分析对象的数据,例如可以是特定系统的日志数据、关于故障发生状况的数据等。数据判别单元102例如可从数据处理系统100内部的管理服务器(未图示)、数据处理系统100外部的对象系统(未图示)等接收输入数据150。
[0049]参照图2和图3,可以使输入数据150以记录(record)单位构成,且输入数据150的各个记录可具有多个数据字段(data field) ο在此,各个数据字段例如可包括相当于制作时间(time)、故障内容(content)、进行状态(process)、处理结果(result)等的数据。各个数据字段例如可包括如下数据:制作时间-“20131129153000” ;故障内容-“H/W故障”;进行状态-“终止”;处理结果-“通过监控强化/磁盘性能分析进行频繁的媒体错误原因分析”等。各个数据字段的数据可通过分隔符(例如逗号等)而分隔。数据判别单元102可以以记录单位依次接收输入数据150。并且,数据判别单元102可以以输入数据150的记录单位判别输入数据150究竟是正常数据还是非正常数据。
[0050]其中,正常数据是指符合已设定的数据结构的数据,非正常数据是指不符合已设定的数据结构的数据。图3的(a)为表示正常数据示例的图,图3的(b)为表示非正常数据示例的图。如图3所示,正常数据符合已设定的数据结构,因此可以以正常形态得到存储和加载。然而,非正常数据(图2所示的①、②以及图3的(b)所示的①、②)却由于包含在数据内的特殊字符(例如,“,”)、换行符(例如,“/11”)等而具有与已设定的数据结构不符的数据结构,因此可以以非正常形态得到存储和加载。具体地说,对于图2和图3的①而言,数据“由于推送请求引起的CPU使用量过多而导致CPU运行队列超负荷”与数据“EBD注册请求”之间用到分隔符“,”,从而在意想不到的部分发生了分列(数据字段)的现象。对于图2和图3的②而言,数据“〇发生原因:基于服务使用量增加的表空间临界值超额使用现象”与数据“〇措施内容:在表空间添加30GB原始设备”之间用到换行符“/n”,从而在意想不到的部分发生了分行(记录)的现象。从图3的(b)可知,这样的非正常数据具有不同于正常数据的结构,且可以以非正常形态得到存储和加载。
[0051]为了这样判别输入数据150究竟是正常数据还是非正常数据,数据判别单元102不仅接收输入数据150,而且还可以一并接收与输入数据150的结构有关的元数据160。通常,元数据为关于数据的结构化的数据,即用于说明其他数据的数据,其表示为了从大量的信息中有效地觅得所寻找的信息并利用而根据预定的规则赋予给内容(此处为输入数据150)的数据。根据本发明的实施例的元数据160包括关于输入数据150的结构的信息。具体而言,元数据160可包括如下信息中的一种以上的信息:与输入数据150的每一记录各自的数据字段的个数有关的信息;与用于分隔包含于输入数据150的记录中的各个数据字段的分隔符的个数有关的信息;与输入数据150的每一数据字段各自的数据模式(datapattern)有关的信息。即,通过元数据160而可以得知对应于输入数据150的每一记录分别需存在几个数据字段、对应于输入数据150的每一记录分别需存在几个分隔符、以及对应于输入数据150的每一数据字段分别要具备哪种模式等。
[0052]数据判别单元102将包含于元数据160中的数据字段的个数或分隔符的个数中的一个与包含于输入数据150的记录中的数据字段的个数或分隔符的个数中的一个进行比较,从而可以判别输入数据150的各个记录究竟是正常数据还是非正常数据。例如,假设元数据160中每一记录各自的数据字段的个数被设定为4个,则数据判别单元102计算包含于输入数据150的记录中的数据字段的个数,然后与包含于元数据160中的数据字段的个数(4个)进行比较,从而可以判别各个记录究竟是正常数据还是非正常数据。如果由数据判别单元102计算出的包含于输入数据150的记录中的数据字段的个数与包含于元数据160中的数据字段的个数一致,则数据判别单元102可将输入数据150的记录判别为正常数据。然而,如果由数据判别单元102计算出的包含于输入数据150的记录中的数据字段的个数与包含于元数据160中的数据字段的个数不一致,则数据判别单元102可将输入数据150的记录判别为非正常数据。而且,数据判别单元102还可以在计算包含于输入数据150的记录中的分隔符的个数之后与包含于元数据160中的分隔符的个数进行比较,据此判别各个记录究竟是正常数据还是非正常数据。
[0053]进而,数据判别单元102还可以按包含于输入数据150的记录中的每一数据字段分别判断包含于元数据160中的每一数据字段各自的数据模式是否匹配,据此判别输入数据150的各个记录究竟是正常数据还是非正常数据。如上所述,元数据160中可包含有与每一数据字段各自的数据模式有关的信息。例如,正常数据的记录起始部分(关于“制作时间”的数据字段)可以恒具有“YYYYMMDDhh_ss”之类的包含14个数字的数字串形态的模式(其中,Y表示年(year)、Μ表示月(month)、D表示日(day)、h表示时(hour)、m表示分(minute)、s表示秒(second) )D并且,与“故障内容”、“进行状态”以及“处理结果”有关的数据字段可具有字符串形态的模式,尤其是关于“进行状态”的数据字段可具有包含2个(“结束”)或3个(“进行中”)字符的字符串形态的模式。正是这样,元数据160中包含有与每一数据字段各自的数据模式有关的信息。数据判别单元102可按包含于输入数据150的记录中的每一数据字段分别判断包含于元数据160中的每一数据字段各自的数据模式是否匹配,然后可在所有模式按数据字段分别匹配的情况下将相关记录判别为正常数据。然而,如果包含于输入数据150的记录中的数据字段中哪怕有一个与包含于元数据160中的每一数据字段各自的数据模式不相匹配,则数据判别单元102可将相关记录判别为非正常数据。通过这样的过程,数据判别单元102能够以输入数据150的记录单位判别相关输入数据150究竟是正常数据还是非正常数据。然而,在此说明的针对输入数据150的正常数据和非正常数据的判别方法只不过是一个实施例,数据判别单元102并非一定要用如上所述的方法将输入数据150判别为正常数据或非正常数据。数据判别单元102可通过多种多样的方法而将输入数据150判别为正常数据或非正常数据。
[0054]然后,数据判别单元102将通过如上所述的过程而判别的正常数据存储于第一存储单元104,并将非正常数据存储于第二存储单元106。S卩,数据判别单元102可在数据输入步骤中将输入数据150分类为正常数据和非正常数据,然后将正常数据和非正常数据分别存储于单独的存储单元。
[0055]第一存储单元104作为用于存储正常数据的处所,可从数据判别单元102接收正常数据并将其依次存储和加载。此时,第一存储单元104可按记录单位分别存储和加载正常数据。而且,如后所述,第一存储单元104还可以从数据处理单元108接收修正的非正常数据,并将其依次存储和加载。
[0056]第二存储单元106作为用于储存非正常数据的处所,可从数据判别单元102接收非正常数据,并将其依次存储和加载。数据处理单元108可将存储于第二存储单元106的非正常数据进行修正而变换为正常数据,然后再将其存储于第一存储单元104。S卩,第二存储单元106起到临时保管非正常数据的作用。
[0057]数据处理单元108修正存储于第二存储单元106的非正常数据以使其具有与正常数据相同的结构,并将修正的非正常数据存储于第一存储单元104。
[0058]首先,数据处理单元108提取存储于第一存储单元104的正常数据的数据字段内的特定数据模式。如上所述,输入数据的各个数据字段中包含有具备特定模式的数据。例如,输入数据的记录起始部分(关于“制作时间”的数据字段)可以恒具有“YYYYMMDDhhmmss
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1