检验数据库中与人相关的数据的方法

文档序号:8207727阅读:527来源:国知局
检验数据库中与人相关的数据的方法
【专利说明】检验数据库中与人相关的数据的方法
[0001]本发明涉及出于标识出存储在数据库中的数据中的输入错误和/或欺诈尝试的目的而检验存储与人相关的数据的数据库中的内容(诸如,名称、年龄、出生日期、性别、肖像、指纹和/或其他生物统计数据)。
[0002]发明概述
[0003]为此,本发明提供一种自动检验数据库中与一组人有关且包括针对每一个人的诸如年龄、名称、性别等多个数据项的某些项的方法,该方法包括:
[0004].为每一个人确定将该人的某些数据项彼此相关联的多个相关性;
[0005].对于被检验的每一数据项,至少取决于该被检验的数据项与同一人的第一其他数据项的第一相关性以及该被检验的数据项与同一人的第二其他数据项的第二相关性来计算置信分数;以及
[0006].将该分数与阈值进行比较,以便确定该被检验的数据项是有效还是无效的步骤。
[0007]本发明还提供如上定义的方法,其中所存储的针对每一人的数据首先包括性别和出生日期,且其次包括肖像和指纹,并且其中该方法为每一人建立性别和年龄与肖像以及与指纹之间的相关性。
[0008]本发明还提供如上定义的方法,其中所存储的针对每一人的数据包括名称,并且其中该方法为每一人建立与从国家数据获得并表示对于那个人的出生年份而言那个人的名称的频率的统计数据相对应的相关性。
[0009]本发明还提供如上定义的方法,允许获得与从国家数据导出的、表示在考虑那个人的出生年份和性别的情况下那个人的名称的频率的统计数据相对应的相关性值。
[0010]附图简述
[0011]图1是具有用三角形表不男人及用圆形表不女人的人口的点云的图表,其中每一个体的以年为单位的年龄沿着横坐标轴绘制,并且以毫米为单位的指纹脊宽在纵坐标轴上绘制;
[0012]图2是示出分别构成针对男性的置信区和怀疑区的中间区域和底部区域的图1的图表;
[0013]图3是示出分别构成针对女性怀疑区和置信区的顶部区域和中间区域的图1的图表;
[0014]图4是示出构成年龄置信区的中间区域以及构成年龄怀疑区的顶部区域和底部区域的图1的图表;以及
[0015]图5是示出每年美国出生的男孩名称为Jacob (雅各布)的频率的图表,其中出生年份沿着横坐标轴绘制,且每千人的频率在纵坐标轴上绘制。
[0016]发明的详细描述
[0017]本发明所基于的概念是:为每一人确定多个相关性,每一相关性与关于该人的某些数据项相关联;以及组合这些相关性,以便单独地并直接地标识出看起来不一致的每一数据项,而非只标识出其数据看上去不一致的每一人。
[0018]这通过为被检验的每一数据项(名称、出生日期或性别)估计其与关于同一人的至少两个其他不同数据项的一致性来实现。因此,数据项的置信分数通过以下方式来确定:执行将该数据项的相关性值与第一其他数据项组合以及将该数据项的相关性值与第二其他数据项组合的计算。
[0019]随后,将被检验的每一数据项的分数与阈值进行比较,以便确定所检验的项应该被认为是有效的还是可疑的,以在项目是可疑的情况下生成警报消息。
[0020]在下面的示例中,本发明用于检验数据库中存储的一组人或个体的性别、年龄和名称以及附加数据,该附加数据尤其包括每一个人的指纹和肖像。
[0021]具体地,在个体的指纹的各脊的宽度和那个个体的性别之间存在相关性,并且在正被讨论的个体的那些脊的宽度和年龄之间存在另一相关性。这在Miroslav Kralik和Vladimir Novotny 的名为“Epidermal ridge breadth, an indicator of age and sex in
paleodermatoglyphics (表皮脊宽--古皮肤纹理学中年龄和性别的指示符)”的论文中详细描述,该论文可在以下地址获得:
[0022]http://www.staff, amu.edu.pl/ ?anthro/pdf/ve/vol011/01kralik.pdf
[0023]以类似的方式,存在将个体的肖像和该个体的性别相关联的相关性以及将该个体的肖像和年龄相关联的另一相关性。这具体在Andrew Gallagher和Tsuhan Chen的名为“Estimating age, gender, and identity using f irstname pr1rs (预先使用名称来估计年龄、性别和身份)”的论文中详细描述,该论文可从以下地址访问:
[0024]http://chenlab.ece.Cornell.edu/people/Andy/projectpage_names.html
[0025]如图1所示,人口中针对男人的指纹脊宽一般来说比针对女人的要大,并且在该人口中指纹脊宽也随着个体年龄而增大。
[0026]因此,在该图表中定义与针对男性的置信区相对应的中间区域以及与针对男性的怀疑区相对应的底部区域是可能的。
[0027]如图2所示,男性置信区对应于覆盖(由三角形表示的)大多数男人的条带,且男性怀疑区是位于男性置信区下面的区域并实际上不包括男性个体。
[0028]在图2中男性置信区由圆环中的男性符号标识,并且该男性置信区可通过以下方式来指定:首先定义男性的值的平均曲线(对应于图1中的较高曲线),并在该平均曲线的任一侧上定义两条包络线,用以包含例如95%的男性人口。
[0029]以类似的方式,如在图2中由被打叉的男性符号标识的男性怀疑区可通过以下方式来确定:定义位于针对男性的平均曲线下面但仅在男性个体的2%上面的上限曲线。男性怀疑区随后由位于以这种方式定义的曲线下面的任何区域构成。
[0030]因此确定数据库中被记录为男人的人的性别和那个人的指纹之间的相关性(写为Cge)是可能的:一种可能性包括确定由那个人的年龄并由那个人的指纹的脊宽来定义的点位于男性置信区中还是正相反位于怀疑区中。
[0031]如果该点位于男性置信区内,则可将值I赋予Cge,并且如果该点位于怀疑区中则可将值O赋予该相关性。如果该点位于置信区之外并位于怀疑区之外,则可赋予中间值(例如 0.5) ο
[0032]另一解决方案可包括计算由年龄和指纹脊宽定义的点与针对男性的平均曲线(图1中的较高曲线)之间的距离,并赋予Cge位于O到I的范围内的值,该值随着该距离的值的减小而增大。
[0033]以类似的方式来定义女性置信区和怀疑区是可能的。
[0034]如图3中图解地示出的,女性置信区(其由圆环中的女性符号标识)是位于该图的中间位置处的条带,并且包围针对女人的平均曲线(即图1中的较低曲线),以覆盖较大比例(诸如95% )的女性个体。
[0035]由被打叉的女性符号标识的女性怀疑区是位于该置信区之上的顶部区域,以便覆盖非常小比例(诸如,例如2% )的女性个体。
[0036]至于男性,有可能针对宣称是女性并落在女性置信区内的所有个体,赋予Cge值I,并且针对被记录为女人但位于女性怀疑区中的各个个体,赋予Cge值O。如果点位于置信区之外并在怀疑区之外,则中间值(例如,0.5)被赋予Cge。
[0037]再一次,另一可能性可包括:为被记录为女人的给定个体确定与那个女人的年龄和指纹脊宽相对应的点和针对女人的平均曲线(其是图1中低的曲线)之间的距离。赋予Cge的处于范围O到I的值随后随着该正被讨论的距离的值的减小而增大。
[0038]如上所提及的,在所考虑的各个个体的指纹脊宽和年龄之间也存在相关性(写为Cae) ο该相关性使得有可能在图1的图表上定义关于年龄的置信区以及两个怀疑区。
[0039]在图4中由圆环中的字母A标识的年龄置信区是覆盖所考虑的人口中的大多数个体(男人和女人)的中间条带。该中间条带可通过以下方式来定义:最初计算针对所有个体的平均曲线,该平均曲线对应于图1中的较高曲线和较低曲线间的平均;并随后确定位于该平均曲线之上和之下的两条包络线,以便覆盖例如95%的个体。
[0040]由图4中
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1