数据处理系统及方法_3

文档序号：9547229阅读：来源：国知局

”之类的包含14个数字的数字串形态的模式。数据处理单元108可从正常数据内提取任意的特定数据模式。
[0059]数据处理单元108可利用提取的数据模式而使非正常数据内的数据字段得到匹配。例如，数据处理单元108可在读取非正常数据的过程中直到发现与模式“YYYYMMDDhhmmss”匹配的部分的数据为止读取非正常数据。数据处理单元108例如可利用数字串或字符串匹配算法等而使提取的模式与非正常数据内的数据字段相匹配。数据处理单元108可将非正常数据内的数据字段中与提取的数据模式相匹配的数据字段作为基准而将非正常数据分隔为多个虚拟记录。例如，当在非正常数据内发现5次“YYYYMMDDhhmmss”模式时，可将发现到“YYYYMMDDhhmmss”模式的数据字段作为基准而将相关非正常数据分隔为5个虚拟记录。由于非正常数据不同于正常数据而可能在其中包含有意想不到的分隔符(“，”等特殊字符)，因此非正常数据的记录内的数据字段可能与正常数据的记录内的数据字段不相匹配。因此，在本发明的实施例中，使数据处理单元108可利用从正常数据中提取的数据模式而将非正常数据分隔为多个虚拟记录。即，数据处理单元108可将非正常数据内被发现提取的特定模式的位置(数据字段)作为基准而将非正常数据分隔为多个虚拟记录，并以虚拟记录单位依次修正非正常数据。
[0060]然后，数据处理单元108为了修正各个虚拟记录而可以利用正常数据的特定数据值。数据处理单元108可按正常数据内的每一数据字段分别提取一个以上的特定数据值。正常数据内的各个数据字段中可存在不同个数的数据值。例如，第一数据字段作为关于“国籍”的数据，可包括含有“韩国”、“美国”以及“日本”的3个数据。并且，第二数据字段作为关于“性别”的数据，可包括含有“男性”和“女性”的2个数据。而且，第三数据字段作为关于“处理结果”的数据，可包括含有“URL监控变更措施”、“相关部件盈余份量确保”等的20个数据。
[0061]数据处理单元108可按正常数据内的每一数据字段分别提取数据值(例如，从第一数据字段中提取“韩国”、“美国”以及“日本”;从第二数据字段中提取“男性”和“女性”；从第三数据字段中提取“URL监控变更措施”以及“相关部件盈余份量确保”等)，并使提取的数据值与虚拟记录内的数据字段分别得到匹配。例如，可判别正常数据的第一数据字段内的“韩国”、“美国”以及“日本”中的某一个是否包含于非正常数据内的数据字段，并可将包含“韩国”、“美国”以及“日本”中的某一个的非正常数据内的数据字段视为与正常数据相匹配。然后，数据处理单元108可将匹配的数据字段视为正常，并只对未匹配的数据字段进行修正作业。S卩，数据处理单元108可将虚拟记录内的数据字段中存在所提取的特定数据值的数据字段排除在外，并将其余的数据字段作为修正对象而进行修正作业。例如，假设一个虚拟记录内存在10个数据字段，则有可能出现如下情况:第1?5、7?8、10个数据字段中存在从正常数据提取的特定数据值，然而第6、9个数据字段中却并不存在从正常数据提取的特定数据值。在此情况下，数据处理单元108可以只将不存在从正常数据提取的特定数据值的第6、9个数据字段作为修正对象而进行修正作业。在此，虽然是对数据处理单元108利用包含于正常数据的数据字段中的所有数据值而对虚拟记录的每一数据字段分别判别是否为修正对象的情形为例进行了说明，然而这只不过是一个实施例，数据处理单元108也可以只利用包含于正常数据的数据字段中的数据的一部分数据值而对虚拟记录的每一数据字段分别判别是否为修正对象。例如，数据处理单元108可按正常数据的每一数据字段分别利用出现次数较多的一个以上的特定数据值而判别虚拟记录的每一数据字段各自是否为修正对象。
[0062]并且，在将从正常数据提取的特定数据值匹配于虚拟记录内的数据字段的过程中，数据处理单元108可通过考虑正常数据的每一数据字段各自的数据个数而判别每一数据字段各自是否为修正对象。例如，假设包含于正常数据的第一数据字段中的数据的个数为2个，且包含于第二数据字段中的数据的个数为5个，而包含于第三数据字段中的数据的个数为4个，则数据处理单元108首先可以判别数据的个数最少的第一数据字段所包含的数据是否包含于虚拟记录。然后，数据处理单元108可依次判别数据的个数较多的第三数据字段、第二数据字段所包含的数据是否包含于虚拟记录。对于数据的个数较少的数据字段而言，与虚拟记录内的数据字段之间的匹配可能会相对容易。对于数据的个数较多的数据字段而言，误差发生可能性相对较高，且在匹配方面也可能需要相对较多的时间。因此，数据处理单元108可从数据的个数较少的数据字段起分别依序而执行与虚拟记录之间的匹配作业。
[0063]通过这样的过程，数据处理单元108可确定包含于虚拟记录内的数据字段中成为修正对象的数据字段。根据本发明的实施例，可利用正常数据的数据模式和数据值而有效地探寻非正常数据内的出错位置。
[0064]然后，数据处理单元108可修正判别为修正对象的数据字段所包含的数据。相关数据字段内可包含有意想不到的特殊字符(例如，“，”)、换行符(例如，“/11”)等。数据处理单元108可将判别为修正对象的数据字段所包含的数据内的特定字符串(包括数字串)或字符(包括数字)删除，或者置换为已设定的字符串或字符，据此修正数据。数据处理单元108可利用普遍公知的文本变换技术方法而将成为问题的特殊字符、记号、大小写字母等变换为其他字符、记号等。数据处理单元108可利用多种多样的数据变换技术方法而修正判别为修正对象的数据字段所包含的数据，其并不是局限于特定的数据变换技术方法而执行数据变换。
[0065]数据处理单元108可通过如上所述的过程而修正虚拟记录，且每当修正一个虚拟记录时判别修正的虚拟记录是否为正常数据。如果修正的虚拟记录被判别为正常数据，则数据处理单元108可将判别为正常数据的虚拟记录存储于内部数据库(未图示)。数据处理单元108对其余的虚拟记录也可以通过如上所述的过程而进行修正作业，然后将判别为正常数据的虚拟记录依次存储于内部数据库。此时，如果修正的虚拟记录被判别为不是正常数据，则数据处理单元108可将目前为止修正的虚拟记录全部重新修正。即，数据处理单元108可通过回溯(backtracking)过程跟踪出错部分而从相关部分开始重新进行以上的修正作业。由于在数据的修正作业过程中可能因未来得及发现的错误而导致生成错误的结果，因此数据处理单元108可再一次验证修正的虚拟记录，从而将非正常数据彻底变换为正常数据。
[0066]在此，数据处理单元108可基于所述的元数据而判别修正的虚拟记录是否为正常数据。例如，数据处理单元108可将包含于元数据中的数据字段的个数或分隔符的个数与包含于虚拟记录中的数据字段的个数或分隔符的个数进行比较，或者按包含于虚拟记录中的每一数据字段分别判断包含于元数据中的每一数据字段各自的数据模式是否匹配，据此判别虚拟记录究竟是正常数据还是非正常数据。然而，判别虚拟记录究竟是正常数据还是非正常数据的方法并不局限于此，数据处理单元108可通过多种多样的方法而判别虚拟记录是否为正常数据。
[0067]另外，当修正的虚拟记录全部被存储于数据处理单元108内的数据库时，即在修正的虚拟记录全部被判别为正常数据的情况下，数据处理单元108可将修正的非正常数据存储于第一存储单元104。此时，数据处理单元108可将修正的非正常数据以记录(或者虚拟记录)单位依次存储于第一存储单元104。
[0068]图4为概略地表示根据本发明的一个实施例的数据输入过程的图。
[0069]参照图4，根据本发明的实施例的数据处理系统100在发现非正常数据的情况下将相关非正常数据临时存储于第二存储单元106，然后继续进行数据输入。在此过程中，正常数据被存储于第一存储单元104，且如果正常数据的输入完毕，则进行存储于第二存储单元106的非正常数据的修正作业。即，根据本发明的实施例，在数据输入过程中将非正常数据临时存储于第二存储单元106并继续进行针对正常数据的输入，从而可以预先防止基于非正常数据的输入错误的数据处理时间的延迟。据此，可防止因非正常数据而导致数据的存储和加载作业中断的情况，且不需要将过去已存储的正常数据无效化。而且，可以改善不必要的存储、加载反复作业。
[0070]图5为表示将根据本发明的一个实施例的非正常数据修正为具有与正常数据相同的结构的结果的图。
[0071]图5的(a)为表示所述的非正常数据的示例的图。如上所述，对于第一个记录①而言，由于特定数据字段内包含作为分隔符的“，”而使数据字段发生意想不到的分隔现象，于是被判别为不符合已设定的数据结构的非正常数据。对于第二个记录②而言，由于特定数据字段内包含用于分行的换行符而导致发生行在错误的部分处被分隔的现象，于是被判别为不符合已设定的数据结构的非正常数据。
[0072]图5的(b)为表示将(a)的非正常数据进行修正而变换为正常数据的结果的图。对于第一个记录①而言，将数据“由于推送请求引起的CPU使用量过多而导

完整全部详细技术资料下载

当前第3页1 2 3 4 5