用于检测异常的数据记录的方法和设备的制作方法

文档序号:6461513阅读:227来源:国知局

专利名称::用于检测异常的数据记录的方法和设备的制作方法
技术领域
:本发明涉及数据库系统,更具体地涉及用于检测异常的数据记录的方法和i殳备。
背景技术
:在数据库应用系统中,经常需要测试针对数据库中已有的数据记录,该应用系统是否能够正常运行。在数据记录的数量很大的情况下,m^对每一个^i:据记录都进行测试。因此需要选择一部分代表性的数据记录来进行测试。例如,在数据迁移中,根据迁移规则将一个系统(以下称为源系统)中的数据导入另一个系统(以下称为目的系统)中。但是在数据迁移期间,由于时间和/或资源有限,几乎不可能写出完全正确的迁移规则。因此,在许多情况下,即^^格遵循迁移规则来迁移数据,仍然不能保证目的系统可以利用迁移的数据正确地工作。为了^£目的系统是否可以利用导入的数据正确地工作,需要在导入后从用户侧进行数据测试。但是,在实际应用中,导入的数据中含有大量数据记录,而且涉及大量不同的用户账号。因此m^登录每个用户账号来测试所有的数据记录。在此情况下,需要从导入的数据中选择一部分数据记录进行测试。传统上,一种选择待测试的数据记录的方法是由熟悉系统的人员直接选择待测试的数据记录。另一种选择待测试的数据记录的方法是由熟悉系统的人员根据数据记录所代表的含义将数据记录划分为若干组,然后从每一组采样一个要测试的数据记录。在数据记录的数量很大的情况下,上述的方法效率4艮低。因此,需要提高选择待测试的数据记录的效率
发明内容考虑到现有技^M!"在的问题,本发明的一个目的是提供一种能够提高选择待测试的数据记录的效率的方法和设备。根据本发明的一个实施例,提供了一种用于检测异常的数据记录的方法。该方法包括下列步骤根据挖掘规则从已IHE数据记录集合中挖掘数据规则;以及根据挖掘出的数据规则对未^£数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。根据本发明的另一个实施例,提供一种用于检测异常的数据记录的设备,该设备包括挖掘装置,被配置为根据挖掘规则从已mst数据记录集合中挖掘数据规则;和检验装置,被配置为根据挖掘出的数据规则对未IHE数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。本发明的用于检测异常的数据记录的方法和设备可以应用于待测试的数据记录的选择。可以将检测出的异常的数据记录直接作为待测试的数据记录,也可以对检测出的异常的数据记录再进行人工的筛选以选择待测试的数据记录。无论在哪一种情况下利用本发明都可以提高选择待测试的数据记录的效率。参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其他目的、特点和优点。图1示出了可用于实现本发明的分布式lt据处理系统;图2示出了可用于实现本发明的数据处理系统;图3示出根据本发明的一个实施例的用于检测异常的数据记录的方法;图4示出根据本发明的另一个实施例的用于检测异常的数据记录的方法;图5示出了根据本发明的一个实施例的用于检测异常的数据记录的i殳备;以及图6示出了根据本发明的另一个实施例的用于检测异常的数据记录的设备。具体实施例方式现在参考附图,特别是图1,描述可用于实现本发明的分布式数据处理系统100。分布式数据处理系统100包含网络102,网络102是用于为分布式数据处理系统100内连接到一起的计算机之间提供通信链接的媒介。在所描述的例子中,服务器104与存储器106—起连接到网络102。此外,客户端108、110和112也被连接到网络102。分布式数据处理系统100可包括另外的服务器、客户端以及其他未显示的设备。在所描述的例子中,分布式数据处理系统100是因特网,网络102表示使用TCP/IP协议^NMc此通信的网络以及网关的集合。当然,分布式数据处理系统100还可被实现为不同类型的网络。图1只是示例。在不偏离本发明精神和范围的条件下,可对图1所示的系统作出许多更改。本发明可被实现为如图1所示的服务器104的数据处理系统。该数据处理系统可以是包括连接到系统总线的多个处理器的对称对处理器(SMP)系统。亦可使用单处理器系统。本发明还可被实现为图1中客户端的数据处理系统。现在参考图2,举例说明可用于实现本发明的数据处理系统的框图。数据处理系统250是客户端计算机的例子。数据处理系统250使用外围组件互联(PCI)本地总线结构。虽然所描述的例子使用PCI总线,其他总线结构,如微通道和ISA,也可^L4吏用。处理器252和主内存254通过PCI桥258被连接到PCI本地总线256。对于处理器252,PCI桥258也可包括集成的内存控制器和高速緩存器。对PCI本地总线256的另外的连接可通过直接组件互联或通过内插板来接通。在所描述的例子中,局域网(LAN)适配器260、SCSI主机总线适配器262以及扩展总线接口264通过直接组件连接被连接到PCI本地总线256。相比之下,音频适配器266、图形适配器268以及音频/视频适配器(A/V)269通过插入扩展槽的内插板,被连接到PCI本地总线256。扩展总线接口264为键盘和鼠标适配器270、调制解调器272以及另外的内存274提供连接。在所描述的例子中,SCSI主机总线适配器262为硬盘276、磁带278、CD-ROM280以及DVD282提供连接。典型的PCI本地总线实现将支持三个或四个PCI扩展槽或内插连接器。操作系统运行在处理器252上并被用于对在图2中的数据处理系统250内的不同组件进行协调和提供控制。该操作系统可以是市场上可获得的^作系统。在本发明的实施例中,数据库可以包括一个或多个表,每个表的每一行称为一个数据记录,每一列称为一个字段列。假设一个表包括m行n列,其中m和n是自然数,则该表包括m个数据记录和n个字段列,其中每个数据记录包括n个字段。在本发明的实施例中,已J^ii数据记录是指已经确定能够在数据库应用系统中正常运行的数据记录,一般是已经在该数据库应用系统中运行it^目当长一段时间而没有出错的数据。如何获取已!Hit数据记录是本领域技术人员>^的,因此无需在此详细说明。未!Hi数据记录是指未确定是否能够在系统中正常运行的数据记录.例如,未验证数据记录可以是从外部导入到系统中的数据记录,例如是通过数据迁移导入的数据记录,或者是通过其他方式导入的数据记录。图3示出了根据本发明的一个实施例的用于检测异常的数据记录的方法。方法从步骤301开始。在步骤302中,根据挖掘规则从已J3Hit数据记录集合中挖掘数据规则。已验证数据记录集合是由一个或多个已验证数据记录构成的集合。已JiHt数据记录集合可以包含不同表中的数据记录。数据规则是指数据记录的规律或者特点。这种规律或者特点可以是任何规律或者特点。例如,某一个字段的所有数据都是数字型,这就是一个数据规则。从数据记录集合中挖掘数据规则就是寻找该数据记录集合中每个数据记录都满足的数据规则。可以认为数据规则由三部分组成对象、属性和值。例如对于如下的数据规则字段A不允许为空,该数据规则的对象是字段A;属性是是否允许为空;值是否。数据规则中的属性可以有很多种。属性可以是与字段的数据类型有关的,也就是说该属性只适用于特定数据类型的字段,也可以与字段的数据类型无关,也就是说该属性对任何数据类型的字段都适用。数据类型可以包括字符型、数值型、时间型、图像型、视频型等。数据类型也可以是更具体的数据类型,例如字符型可以包括VARCHAR,CHAR,TEXT等类型。数值型可以包括INT、LONG、FLOAT、BIGINT、DOUBLE和DECIMAL等类型。时间型可以包括DATE、TIME、DATETIME、MONTH和YEAR等类型。这里所述的数据类型的名称只是示例,在不同的数据库系统中相同的数据类型可以有不同的名称,都在本发明的保护范围内。可以利用本领域技术人员所熟知的方法来判断字段的数据类型,此处不再详细描述。数据规则中一个属性所对应的对象可以是一个字段,也可以是多个字段,其中多个字段可以是同一表中的字段,也可以是不同表中的字段。对应于一个字段的属性可以包括字段是否允许为空;字符型的字段的长度范围;字符型的字段的最大子串和/或最大子串的位置,其中最大子串是指一组字符串中共同包含的最大的子串;字符型的字段的字符类型,其中字符类型可以是数字、英文字母等;数值型的字段的数值范围;数值型的字段的精度范围;时间型的字段的时间范围。对应于多个字段的属性可以是多个字段之间是否满足函数关系。上述函数关系选自包括以下的组两个数值型的字段之间的正比关系;两个数值型的字段之间的反比关系;一个数值型的字IS^另外两个数值型的字段的和的关系;一个数值型的字"RA另外两个^t值型的字段的差的关系;一个凝:值型的字私lL另外两个数值型的字段的积的关系;以及一个数值型的字段是另外两个数值型的字段的商的关系。以上所述的范围可以既包括上限也包括下限,也可以只包括上限或者只包括下限。挖掘规则规定了所^t;掘的数据规则的对象和属性,以下简称为挖掘规则规定了所JMt掘的对象和所JMt掘的属性。例如一个挖掘规则可以规定挖掘数值型字段A的数值范围,即所^t:掘的对象是数值型的字段A,所JMt掘的属性是数值范围。不同的挖掘规则可以组合。例如,一个挖掘规则规定挖掘数值型的字段A是否为空,另一个挖掘规则规定挖掘数值型的字段A的数值范围,则这两个挖掘规则可以组合成一个挖掘规则,即,挖掘数值型的字段A是否为空以及其数值范围。又例如,一个挖掘规则规定挖掘数值型的字段A的数值范围,另一个挖掘规则规定挖掘数值型的字段B的数值范围,则这两个挖掘规则可以组合成一个挖掘规则,即,挖掘字段A和B的数值范围。在步骤302中,可以有多个挖掘规则。下面举例说明在步骤302中,对于一些属性,如何挖掘数据规则。如果属性是字^1否允许为空,则对已msL数据记录集合的每个数据记录的该字段进行判断.如果有一个或多个数据记录的该字段为空,则判断该字段允许为空,否则判断该字段不允许为空。如果属性是字符型的字段的长度范围,则判断已mt数据记录集合中该字段的最大长度和最小长度。当然也可以只判断最大长度,或者只判断最小长度。如果属性是字符型的字段的长度范围字符型的字段的最大子串和/或最大子串的位置,则可以利用本领域中/>知的确定最大子串和最大子串的位置的方法来确定字段的最大子串和最大子串的位置。如果属性是数值型的字段的数值范围,则判断已Ji^数据记录集合中该字段的最大值和最小值,当然也可以只判断最大值或者只判断最小值。如果属性是数值型的字段的精度范围,则判断已验证数据记录集合中该字段的最高精度和最低精度,当然也可以只判断最高精度或者只判断最低精度。如果属性是时间型的字段的时间范围,则判断已lHi数据记录集合中该字段的最早时间和最晚时间,当然也可以只判断最早时间或者只判断最晚时间。通过上面的示例性i兌明,本领域的普通技术人员通过常规的编程可以实现挖掘数据规则的具体算法,这些编程和算法没有必要在此详细描述。在步骤303中,根据在步骤302中挖掘出的数据规则对未^£数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。这种检验包括搜索未5Hit数据记录集合中的数据记录,并将数据记录与挖掘出的数据规则进行比较。这种搜索和比fcl本领域普通技术人员基于其知识和技能能够实现的,因此无需在此详细说明。未J^ii数据记录集合包含至少一个未验证数据记录,也可以包含已IHt数据记录。例如,当一个或多个未IHit数据记录被添加到已IHEjt据记录集合中时,该集合就成为未mt数据记录集合。未IHi数据记录集合可以包含不同表中的数据记录。方法在步骤304结束。图4示出了根据本发明的另一个实施例的检测异常的数据记录的方法。方法从步骤401开始。在步骤402中,获取已m^数据记录集合。在步骤403中,获取未B数据记录集合。在一个实施例中,该方法还包括通过数据迁移将笫一数据记录集合导入到已验证数据记录集合所属的数据库中以形成未!Hi数据记录集合(图4中未示出)。在数据迁移的情况下,可以预先将已!Hit数据记录集合进行^^,数据迁移后的数据记录可以与备份的已JiHit数据记录集合中的数据记录混合在一起形成未验证数据记录集合。混合的方式可以是将第一数据记录集合中的一个表中的数据记录经过数据迁移后直接添加到已^数据记录集合中的相对应的表中.在数据迁移的情况下,也可以将第一数据记录集合进行数据迁移后放在单独的表中作为未JiHi数据记录集合,而不结合到已mi数据记录集合的表中,此时不需要对已^数据记录集合进行R。当然,已JWt数据记录集合和未mit数据记录集合不限于以上述方式获得的数据记录集合。例如,可以从一个数据库获得已4Hi数据记录集合,从另一个数据库获得未J3^数据记录集合。例如,本领域普通技术人员可以通过编程,实现直接输入或者通过菜单选择来获取已验证数据记录集合或未^£数据记录集合的界面。该界面与显示器、键盘和/或鼠标等一起构成已!HiE数据记录集合获取装置或未mi数据记录集合获取装置,可供^^作者获取已验证数据记录集合或未mt数据记录集合。"获取"的动作可以是移动或者拷贝数据记录集合,或者只是从现有的数据记录集合中进行选择,即指定哪一个数据集合作为已mt数据记录集合,哪一个数据记录集合作为未msE数据记录集合。在步骤404中,获取挖掘规则。可以以各种方式获取挖掘规则。在一个实施例中,挖掘规则可以存储在挖掘规则存储装置中,通过读M储在挖掘规则存储装置中的挖掘规则就可以获取挖掘规则。在另一个实施例中,可以通过接收操作者输入的挖掘规则来获取挖掘规则。例如,本领域普通技术人员可以通过编程,实现直接输入或者通过菜单选择来输入挖掘规则的界面。该界面与显示器、键盘和/或鼠标等一起构成挖掘规则输入装置,可供^Mt者输入挖掘规则。也可以由以上两种方式的结合来获取挖掘规则。例如,当未从挖掘规则输入装置接收到挖掘规则时,从挖掘规则存储装置读取挖掘规则作为获取的挖掘规则,当接收到从挖掘规则输入装置输入的挖掘规则时,从挖掘规则输入装置接收挖掘规则作为获取的挖掘规则。或者,将从挖掘取的挖掘规则。或者,从挖掘规则存储装置读取所要挖掘的数据规则的对象,从挖掘规则输入装置读取所要挖掘的数据规则的属性,将对象和属性结合就可以得到挖掘规则。在一个实施例中,在获取所要挖掘的数据规则的对象时,可以只接收或读取字段的数据类型,此时认为所要挖掘的对象是所有该数据类型的字段,通过判断每个字段的数据类型就可以获取作为要挖掘的对象的具体的字段。在一个实施例中,可以只接收或读取所JNt:掘的属性,此时认为所JNt:掘的对象是所有适用的字段,通过判断已m^数据记录集合的各字段的数据类型,找出所有匹配的字段作为所要挖掘的数据规则的对象。例如,接收或读取的属性是数值范围,但是没有接收或读取所要挖掘的对象,此时认为该挖掘规则应用于所有数值型的字段.在一个实施例中,可以针对特定数据类型的字段预定所要挖掘的属性。此时,可以只接收或读取所^:掘的对象,通过判断作为所JNt:掘的各个字段的数据类型就可以获取所要挖掘的属性。此时,也可以不接收或读取所要挖掘的对象,而认为所要挖掘的对象是所有适用的字段,通过判断已mt数据记录集合的各字段的数据类型,找出所有匹配的字段作为所JNt:掘的数据规则的对象。在步骤405中,根据获取的挖掘规则从已JIHE数据记录集合中挖掘数据规则。在步骤406中,根据挖掘出的数据规则对未IHE数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。在步骤407中,对检测出的异常的数据记录进行测试。在一个实施例中,也可以对检测出的异常数据进行进一步的人工筛选,然后将经itA工筛选的数据记录作为待测试的数据进行测试。在确定出待测试的数据记录后,可以根据待测试的数据记录构造测试例,并利用测试例对待测试的数据记录进行测试。可以利用本领域公知的各种方法利用上面的方法所得到的异常的数据记录构造测试例,以及利用测试例对异常的数据记录进行测试,在此不再进行详细描述。方法在步骤408结束。上述的各个步骤不限于按照图示的顺序执行。某些步骤可以并行或者按照别的顺序来执行。例如。步骤403可以在步猓405和步骤406之间执行。图4与图3相比,增加了获取已IHE数据记录集合的步骤402、获取未^it数据记录集合的步骤403、获取挖掘规则的步骤404、以及测试数据记录的步骤407。需要注意,包括全部上述步骤的方法只不过是本发明的一种优选实施方式,上面所述增加的步骤并不是必需的,也不是必需同时增加。在一个实施例中已^it数据记录集合和未4Hi数据记录集合可以是默认的,则无需获取已lHi数据记录集合和未I^E数据记录集合的步骤。在一个实施例中,挖掘规则可以是预定的,即所要挖掘的对象和属性都是预定的,因此不需要获取挖掘规则的步骤。例如可以预定对特定数据类型的字段挖掘特定的属性。测试步骤也不是所述方法必需的步骤。只是在直接对异常的数据记录进行测试的时候,测试步骤才可以直接与本发明的其他步骤结M来。在实践中,完全可以在得到异常的数据记录之后就结束本发明的方法,获得异常的数据记录就可以实现本发明的目的。例如,可以由人工对异常的数据记录进行进一步筛选,再对筛选后得到的数据记录进行测试。例如,挖掘规则可以是预定的。例如,可以预先确定对于特定类型的字段应用特定的挖掘规则。下面结合一个更具体的例子来介绍本发明的实施例。表1-2分别给出了一个商品管理系统的商品表、库存记录表的结构。表l商品表的结构<table>tableseeoriginaldocumentpage12</column></row><table>表2库存记录表的结构字M称字段类型说明IDVARCHAR(16)库存记录IDMERIDBIGINT商品IDTOPBIGINT商品库存上限BOTTOMBIGINT商品库存下限TOTALBIGINT总存量表1和表2只是方便理解,实现本发明不需要预先获得表l和表2。表3-4给出了商品表和库存记录表中目的系统原有的数据记录。表3商品表中原有的数据记录IDMERNONAMESPECDEFPRICE001200707061139mouseLenovo201485002ME20070704001515refrigeratorH4546512435740003ME20070705001753notebookT60卯OO表4库存记录表中原有的数据记录<table>tableseeoriginaldocumentpage13</column></row><table>可以根据挖掘规则对表3和4中的数据进行以下的数据挖掘对于所有字符型的字段列挖掘字段的长度范围;对于所有数值型的字段挖掘字段的数值范围。挖掘规则可以从挖掘规则存储装置中读取,也可以由操作者输入。例如,判断表3中的NAME字段的数据类型是字符型,因此对该字段挖掘字段的长度范围。在对NAME字段进行挖掘的过程中,确定表3中每个数据记录的NAME字段的长度,即5、12、8,由此NAME字段的长度范围为5-12。因此,针对NAME字段挖掘出的数据规则为NAME字段的长度范围为5-12。类似地,对其他字段进行挖掘。可以得到如表5和6中所示的数据规则表5针对商品表挖掘的数据规则<table>tableseeoriginaldocumentpage14</column></row><table>表7-8给出了导入到商品表和库存记录表中的数据记录。表7导入到商品表中的数据记录<table>tableseeoriginaldocumentpage14</column></row><table>根据表5-6中所示的挖掘出的数据规则,对表7-8中的数据记录进行检验.可以得到表9-10中所示的异常数据记录。表9商品表中的异常的数据记录<table>tableseeoriginaldocumentpage15</column></row><table>表10库存记录表中的异常的数据记录<table>tableseeoriginaldocumentpage15</column></row><table>在得到表9和10所示的异常的数据记录后,可以直接对这些数据记录进行测试,也可以对这些数据记录再进行人工的筛选,再对筛选后得到的数据记录进行测试。图5示出了根据本发明的一个实施例的用于检测异常的数据记录的设备500,设备500包括挖掘装置501和检验装置502.挖掘装置501被配置为根据挖掘规则从已!Hit数据记录集合中挖掘数据规则.检验装置502被配置为根据挖掘出的数据规则对未#^数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。对于上述各装置的操作的具体内容,可以参见前面对根据本发明的实施例的方法的说明。图6示出了根据本发明的另一个实施例的用于检测异常的数据记录的设备600。设备600包括已J!Ht数据记录集合获取装置601,被配置为获取已g数据记录集合;未^数据记录集合获取装置602,被配置为获取未!Hit数据记录集合;挖掘规则获取装置603,被配置为获取挖掘规则;挖掘装置604,被配置为根据获取的挖掘规则从已mi数据记录集合中挖掘数据规则;检验装置605,被配置为根据挖掘出的数据规则对未JiHi数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录;以及测试装置606,被配置为对异常的数据记录进行测试。在一个实施例中,设备600还可以包括数据迁移装置(图6中未示出),该数据迁移装置被配置为通过数据迁移将第一数据记录集合导入到数据库中作为未miE数据记录集合。对于上述各部件进行的操作的具体内容,可以参见前面对本发明的实施例的方法的说明。图6与图5相比,增加了已a^数据记录集合获取装置601、未a^E数据记录集合获取装置602、挖掘规则获取装置603、以及测试装置606。需要注意,包括全部上述装置的设备只不过是本发明的一种优选实施方式,上面所述增加的装置并不是必需的,也不是必需同时增加。例如,挖掘规则可以是预定的,即所要挖掘的对象和属性都是预定的,因此无需挖掘规则获取装置。如果已lHi数据记录集合和未mt数据记录集合是默认的,则无需已m^数据记录集合获取装置和未IHE数据记录集合获取装置。测试装置也不是必需的。只是在直接对异常的数据记录进行测试的时候,测试装置才可以直接与本发明的其他装置结M来。在实践中,利用抬,验装置获得异常的数据记录就可以实现本发明的目的。例如,可以由人工对异常的数据记录进行进一步筛选,再对筛选后得到的数据记录由测试装置进行测试。在本发明的实施例中,已IHE数据记录集合和未IHE数据记录集合可以位于相同的物理介质上,也可以位于不同的物理介质上。已^i^数据记录集合和未J^数据记录集合也分别可以被分布式地存储。对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在^计算设备(包括处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的,因此在这里省略了详细说明。因此,基于上述理解,本发明的目的还可以通it^E任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备可以是/i^p的通用设备。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者设备的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质,因此也没有必要在此对各种存储介质一一列举。在本发明的设备和方法中,显然,各部件或各步骤是可以分解、组合和/或分解后重新组合的。这些分解、组合和/或重新组合应视为本发明的等效方案。以上描述了本发明的优选实施方式。本领域的普通技术人员知道,本发明的保护范围不限于这里所公开的具体细节,而可以具有在本发明的精神实质范围内的各种变化和等效方案。权利要求1.一种用于检测异常的数据记录的方法,所述方法包括下列步骤根据挖掘规则从已验证数据记录集合中挖掘数据规则;以及根据挖掘出的数据规则对未验证数据记录集合中的数据记录进行检验,将不符合所述挖掘出的数据规则的数据记录确定为异常的数据记录。2.如权利要求l所述的方法,还包括获取挖掘规则的步骤。3.如权利要求1所述的方法,其中,所述挖掘规则规定了所要挖掘的对象和属性,所要挖掘的属性选自包括以下的组字段是否允许为空;字符型的字段的长度范围;字符型的字段的最大子串和/或最大子串的位置;字符型的字段的字符类型;it值型的字段的lt值范围;数值型的字段的精度范围;时间型的字段的时间范围;以及多个字段之间是否满足函数关系。4.如权利要求3所述的方法,其中所述函数关系选自包括以下的组两个数值型的字戟:之间的正比关系;两个翁:值型的字段之间的反比关系;一个数值型的字^l:另外两个数值型的字段的和的关系;一个数值型的字段是另外两个数值型的字段的差的关系;一个翁:值型的字段是另外两个数值型的字段的积的关系;以及一个数值型的字私l另外两个数值型的字段的商的关系。5.如权利要求1-4任一个所述的方法,还包括获取已a^数据记录集合的步骤以;5J^取未J^ii数据记录集合的步骤。6.如权利要求5所述的方法,还包括通过数据迁移将第一数据记录集合导入到已£数据记录集合所属的数据库中以形成未msE数据记录集合的步骤。7.如权利要求1-4任一个所述的方法,还包括对所述异常的数据记录进行测试的步骤。8.—种用于检测异常的数据记录的设备,所述设备包括挖掘装置,被配置为根据挖掘规则从已IHE数据记录集合中挖掘数据规则;和检验装置,被配置为根据挖掘出的数据规则对未J^it数据记录集合中的数据记录进行检验,将不符合所述挖掘出的数据规则的数据记录确定为异常的数据记录。9.如权利要求8所述的设备,还包括挖掘规则获取装置,该挖掘规则获取装置被配置为获取挖掘规则。10.如权利要求8所述的设备,其中,所述挖掘规则规定了所要挖掘的对象和属性,所要挖掘的属性选自包括以下的组字^A否允i午为空;字符型的字段的长度范围;字符型的字段的最大子串和/或最大子串的位置;字符型的字段的字符类型;数值型的字段的^t值范围;数值型的字段的精度范围;时间型的字段的时间范围;以及多个字段之间是否满足函数关系。11.如权利要求10所述的设备,其中所述函数关系选自包括以下的组两个数值型的字段之间的正比关系;两个数值型的字戟:之间的反比关系;一个数值型的字&t另外两个lt值型的字段的和的关系;一个数值型的字段是另外两个数值型的字段的差的关系;一个数值型的字^A另外两个数值型的字段的积的关系;以及一个数值型的字段是另外两个数值型的字段的商的关系。12.如权利要求8-11任一个所述的设备,还包括第一数据记录集合获取装置和第二数据记录集合获取装置,该第一数据记录集合获取装置被配置为获取已m^数据记录集合,该第二数据记录集合获取装置被配置为获取未msE数据记录集合。13.如权利要求12所述的设备,还包括数据迁移装置,该数据迁移装置被配置为通过数据迁移将第一数据记录集合导入到已m^数据记录集合所属的数据库中以形成未B数据记录集合。14.如权利要求8-11任一个所述的设备,还包括测试装置,该测试装置被配置为对所述异常的数据记录进行测试。全文摘要本发明提供了一种检测异常的数据记录的方法和设备。该方法包括下列步骤根据挖掘规则从已验证数据记录集合中挖掘数据规则;以及根据挖掘出的数据规则对未验证数据记录集合中的数据记录进行检验,将不符合挖掘出的数据规则的数据记录确定为异常的数据记录。文档编号G06F17/30GK101546312SQ20081008456公开日2009年9月30日申请日期2008年3月25日优先权日2008年3月25日发明者刘鹤辉,俊朱,李中杰,宁段,谈华芳申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1