用于在非-计量相似性空间中群集模板的方法和设施的制作方法

文档序号:6454697阅读:224来源:国知局
专利名称:用于在非-计量相似性空间中群集模板的方法和设施的制作方法
技术领域
本发明总体涉及生物计量(biometric)的匹配,尤其涉及用于 进行高效生物计量匹配的群集(cluster)的生物计量模板。
背景技术
常规的生物计量匹配算法通常需要对所有模板进行穷举搜索以 发现配对。此穷举搜索是固有的无效率的。为了减少搜索时间,已经 釆用了平行处理和分级过滤方法。
分级过滤方法使用复合滤片,该复合滤片使用不同的生物计量特 征以逐渐减少需要通过随后的匹配算法来搜索的候选模板数量。通过 根据生物计量中的总数特征,第 一滤片使用最快但是最缺乏准确性的 匹配算法。随后的滤片使用逐渐增加的准确性,但是愈加緩慢,匹配 算法用于将生物计量候选模板的组减少到最终的匹配组。
分级过滤方法的问题在于不同的特征被用于过滤最终的匹配组。 因为过滤算法需要更多的候选模板通过到下一级别,此不一致性造成 了无效性。
生物计量搜索空间还能够被群集使用以在匹配方法中寻找更高 效率。也就是,根据生物计量模板的某些特征的集合将生物计量^f莫板 群集在一起。但是,现有的使生物计量搜索空间群集的努力多数是失 败的。这可能是由于生物计量空间趋向于是非-计量的,意思为由于模 糊匹配算法用于比较特征,三角不等式规则无效。传统的群集算法, 例如K方法以及自编制图是根据距离和相似性的测量。
现有的生物计量群集技术的无效的另一个原因是一组特征被用 于群集,另一不同组的特征被用于匹配,这导致了不一致性。例如, 匹配方法过程中,初始过滤可以基于某些测量,即探针模板包括特定易见特征(gross feature )。于是模板的数据库根据特定特征被粗滤。 随后,针对不同特征的额外的匹配算法被施用到余下的模板(即,那 些被保留随后进行粗过滤的模板)以试图产生匹配。此方法的问题在 于粗过滤既可能是超过的也可能是不足的。也就是说,它可能滤出一 些有活力的匹配候选,或可能包括许多潜在的配对,这些配对,通过 粗过滤阶段,匹配方法的总效率不足以提高。
生物剂量群进所需要的是比常规的诸如那些实施分级过滤和无 效群集计数等的群集算法或过滤算法更加有效的方法或装置。

发明内容
本发明提供将生物计量模板分区为群集的改良方法,以及探针模 板到分区为群集的生物计量模板的图库(gallery)的改良匹配方法。
根据一个方面,群集生物计量模板包括最初测定来自生物计量模 板图库的一组信用模板(fiduciary template)。如果需要,所述信用 模板组可以根据从图库的任意选择而被确定或可以通过人工手段制 造。还可以确定复合候选组来优化组内分散。于是从生物计量模板图 库来确定群集种模板(cluster seed template)。群集种模板的成员个 数优选为在数量上比信用模板多。 一旦信用模板和群集种模板被鉴 定,通过比较群集种模板和信用模板的成员来形成相似性向量。单个 的相似性向量指示了给定群集种模板与各自的信用模板的相似性。然 后,根据多个相似性向量来将图库分区为群集,且利用图库的剩余部 分(剩余的不是信用模板也不是群集种模板)来对所述群集进行增殖 (populate )。
能够通过将分级机实施到多个相似性向量而进行分区。分级机的 一个例子是实施有监督的机器学习算法,用相似性向量来训练该算 法,所述相似性向量例如多决策树分级系统。在这个实施例中,可以 通过访问探针模板以及测定叶节点来调节匹配,根据多决策树分级系 统所述探针模板被分配到所述叶节点。于是,探针模板的群集邻域被 确定为被分配到叶节点的那些生物计量模板图库的成员。随后搜索此群集邻域以鉴别与探针模板相应的配对。
本发明能够用于任何非-计量相似性或不相似性空间,这些空间 可以包括生物计量或非生物计量空间。生物计量空间的一个例子是指 紋信息。
根据本发明的另一方面,相同的相似性计量被用于将图库分区为 群集,以及将探针匹配到所述如此群集的图库。这可以包括访问分区 为群集的生物计量模板图库,所述分区是根据特定相似性计量。探针 模板是能够使用的(例如,通过扫描个体的指紋等)。之后,根据探 针模板来过滤图库,使用相同的特定相似性计量,该计量被用于将图 库分区为群集,其提供了用于探针模板的群集邻域。群集邻域中的模 板之后进行穷举搜索以确定一个或多个用于探针模板的潜在配对。
本发明能够以各种形式实施,包括商业方法、计算机实施方法、 计算机程序产品、计算机系统和网络、用户界面、操作程序界面等。


通过参考以下附图,本发明的这些和其它详细特征在下面的说明
书中被更加详细的描述,其中
图1A-D是说明根据本发明实施方式使非计量相似性空间群集的 示意图。
图2是说明根据本发明的非计量相似性空间群集的实施例的框图。
图3是说明根据本发明用于使非计量相似性空间群集的方法的 实施例的流程图。
图4是说明识别系统的框图,该识别系统搜索被分区为群集的非 计量相似性空间。
图5是说明根据本发明用于搜索非计量相似性空间并报告搜索 结果的方法的实施例的流程图。
具体实施方式
在下文的说明书中,处于解释的目的,对诸如流程图和系统构造 等许多细节进行陈述以便提供对本发明的一个或多个实施方式的理 解。但是,对于本领域技术人员来说显而易见的是这些细节对于实施 本发明来说并非必不可少的。
下文的说明书提供了群集一个非计量空间的具体实施例,尤其是 根据指紋数据的实施例。
即使指紋数据已经被描述,这是为了易于说明并且是仅有的 一个 非计量空间的实施例,该非计量空间能够被群集并根据本发明被描
述。其它生物计量数据包括,但不限于视黄酮、声音、DNA、面部 特征、膜片、指节,且静脉也被群集并根据本发明而被搜索。此外, 本发明能够被施用到任何一个数据计量类型,包括非生物计量数据, 诸如群居网络分析或文档检索应用。
本发明还能够用于各种用途。对群集的图库的匹配能够被用于识 别个体,或用于验证或"印证"个体。位置应用包括,但不限于机场安 全、边缘交叉、办公建筑和出售终端。
为了在包括图库模板的N维非计量空间(生物计量相似性)进 行群集,作为根据每个模板相对于群集的位置或其距群集中心的距离 的代替,本发明使用模板相对相似性,相对于一定数量的随机选取的 信任模板。这套相似性随后形成向量,此向量能够被用于测定群集的 成员个数。对于给定探针,位置和群集成员个数能够被随后确定,搜 索将目标锁定在与给定探针相应的群集或群集的邻域。
在一个实施方式中,群集方法最初确定来自图库模板的一组信任 模板。 一套群集种模板也由图库中确定,且优选地该套模板具有很大 程度上与图库模板组相关的成员个数。类似地,通过比较群集种模板
组的成员和图库模板组而形成向量。每种相似性向量指示了给定数量 的群集种模板相对于各自的信用模板的相似性。这些相似性向量之后
被用于确定包括图库的所有这些模板的成员个数。
能够使用常规技术来建立待群集的图库模板。例如,标准扫描和 特征提取能够被实施用来获得对应于给定个体指紋数据的数字图表,所述这些个体能够根据手指类型、存在的图案、细节和/或其它特征而 被组织。对给定人的整套数据可以被称为轮廓。当然,图库的数据不 必单独收集,因为这类信息的数据库易于得到和访问。
图1A-D是说明根据本发明 一个实施方式使非计量相似性空间群 集的示意图。信用模板组优选由随机选自图库的模板组成。它也能够 用人工方法得到。许多候选信用组被测试以找到最大组内分散的一 组,其很可能产生信用的最多正交组并因此得到最好的群集结果。组 内分散能够通过增加一个组中的个体的信用模板之间的配对距离而 相互近似。这能够对于一系列候选信用模板中的每一个来实施。之后, 带有最大距离之和的候选组被选出,因为该组被认为具有最优化的分 散。
图1A-D目的是概念性地说明非计量空间的群集。由于必要性, 图1A中的点显示为具有如所示出的空间分布。但是,应当理解的在 于在非计量空间中三角不等式无效。也就是说,在非计量空间中,给 定点(A)和两个其它给定点(B、 C)之间的距离不必要导致两个其 它点(BC)之间独立小于这些距离之和(AB+AC)。
图1A是说明在非计量相似性空间100中的一组信用模板F (G 到fn)的示意图。信用组F中的模板(n)的数量是能够在群集前以 实验方式测定的参数。在确定数量中,本质上是效率和准确性之间的 交易。所述数量将依赖于被群集的生物计量和模板的类型。
另一个远离信任模板组F的随机模板组也选自图库以作为一组 群集种模板或群集点(C,在图1A中以104指出)。C的成员个数的 选择优选是随机的,成员个数数目远大于F的数目。通过从图库随机 选择其分布,应当类似于图库的选择。这意味着在图库被密集增殖的 区域中,与图库被稀疏增殖的区域相比,C应当形成更多的群集。
随后,通过比较群集种模板组数量和信任模板组来形成相似性向 量。每个相似性向量指示给定群集种模板组与各自的信用模板组的相 似性。任意一个群集种模板L (Cx)的位置可以根据相似性向量Wm fCc,i^来定义,如下式所描述的其中,s!是对于n信用模板的每一个的相似性或是在Cv和W之 间的距离测量,这个距离是通过根据所采用的任何的生物计量匹配算 法而产生的。本发明的一个有用的特征是无论所釆用的算法类型,都 能够实现匹配效率的优点。可以釆用的算法的例子包括,但不限于 Bozorth, NEC, Cogent, SAGEM和Identix。
确定群集种模板位置后,空间被分区或群集。图1B是概念性说 明非计量相似性空间100的分区边界的示意图。
通过将分类器施用到相似性向量上而实施分区,诸如实施有监督 的机器学习算法,该算法用相似性向量组来进行训练。
分类器的一个例子实施多决策树分级系统,所述分类器诸如随机 Forests ,如Salford Systems, of San Diego, CA发售的,或学习 Forests ,如Unisys, of Blue Bell, PA开发的。对于多决策树分级系 统,每个C成员被分配到图表群的每个决策图表的叶节点上。
群集边界106被指示为离散的、静态的线条。但是,许多分类器 能够提供"模糊,,边界,使得一些模板残留在多级群集中。
通过确定图库中残留的模板的群集成员个数,群集被完全增殖。 如图1C中所示,非计量相似性空间100如之前所述方法被分区,被 用于从群集种模板中确定群集边界106的方法被用于从图库中的残留 模板中确定群集。分类系统通常在群集阶段使用所学到的对来自图库 的群集进行增殖。当多决策树分级系统被实施时,图库的残留模板通 过寻找某些叶节点而被增殖,在该叶节点处,图库中的每个模板通过 使用测试模型中的分类系统而被分配。
一旦图库这样被群集,能够找到与探针的配对(例如,由被寻找 的人的配对所得到的模板)。图ID说明了探针模板110的实施例。 首先,确定探针模板的位置和群集成员个数。若非群集或群集邻域需 要被搜索,如搜索邻域112所表示的。
多决策树分级系统,能够通过测试多决策树与探针模板来提供匹 配阶段其被分配到的叶节点。被分配到这些节点的每一个的图库成员随后形成群集或图库亚组,该图库应当以穷尽的搜索方式寻找最好的 配对。图库亚组甚至能够被分级,根据被分配给每个图库入口的叶的 数量,如此近似的配对能够被首先测试,且如果较低分级的群集成员 没有导致可接受的配对,则能够尽早的摒弃穷尽式搜索。
此方法的一个有用的特征在于,被用于形成群集的相同的相似性 计量也能够被用于测定配对。在通常的常规系统中,第一相似性计量 被用于进行粗略群集以形成一组残留的模板,随后更精确的第二计量 被用于该残留的模板。通过比较,根据本发明的这个方面,相同的计 量被用于群集和匹配。例如,第一类的相似性计量被用于群集,优选 用于匹配。所得的群集是重叠的,所以所述群集不应当引起假性的非 配对。
图2是说明本发明的非计量相似性空间群集应用200的框图。
非计量相似性空间群集(NSSC)应用200在存储上在常规操作 系统上不分区,并通过完成计算机命令来实施所描述的功能性。技术 人员将易于识别不同的替代程序语言并执行能够得到的平台,且本发 明不限定任何特定的执行环境。
即使NSSC应用200优选地作为软件来提供,其可选的能够是硬 件、固件、或任何软件、硬件和固件的组合。即使一模块细目分类(one modular breakdown),皮描述,其仅是通过实施例的方式,皮描述,因 为NSSC应用200的功能性能够以任何数量的比较设计来提供,该设 计具有更高、更少或不同方式命名的组成模块。
在一个实施方式中,计算机系统包括固定在常规计算机系统存储 器中的NSSC应用200,且NSSC应用200包括由处理器来执4亍的命 令。可替代的事实方式包括产品制造,其中所述命令被储存在计算机 可读的存储介质中。该介质能够是任何类型的,包括但不限于磁存 储介质(例如,软盘、硬盘)、光存储介质(例如,CD、 VCD)等。 仍旧是另 一个实施方式包括才艮据NSSC应用200描述的方法来实施的 计算机以及相应的流程图。
NSSC应用200包括数据模块202、模板管理模块204、相似性向量测定模块206和群集成员个数确定模块208。
数据库模块202存储并保持模板的图库,所述模板包括非计量相 似性空间。例如,数据库模块202能够存储数百、数千或数百万与唯 一个体的指紋相对应的模板。即使数据库模块202被显示为残留在 NSSC应用200的模块中,应但被理解的在于这样的大数据库能够被 分别存储用于NSSC应用200的访问,且这样的说明仅是说明数据能 够由NSSC应用200来访问。
模板管理模块204与数据库模块202相联并提供用于最终将非计 量相似性分区为群集的模板的确定和管理,包括信用模板和群集种模 板。
相似性向量确定模块206与模板管理模块204相联并通过比较信 用模块和群集种模块组的数量来形成相似性向量。
群集成员个数确定模块208与数据库模块202以及相似性向量相 联,并通过处理相似性向量而将非计量相似性空间分区为群集,随后 将从相似性向量学习到的应用到(优选但非必要的所有)的图库中的 模板的残留,其提供了完整的群集图库,所述图库能够被搜索,如下 文被进一步描述的。
NSSC应用200的功能性现在参考图3做进一步的描述,其是说 明用于根据本发明来使非计量相似性空间群集的方法300的例子的流 程图。
所说明的方法300以来自图库模板的信用模板组的确定302开 始,诸如指紋的完整数据库或基于模板的其它生物计量信息。确定302 优选地使组内扩散最大化。这能够通过随机性地确定来自图库的候选 组完成,并使用信用模板组,所述模板组带有单个模板之间的最高总 数的成对距离。
群集种模板于是也被从图库确定304。优选地,群集种模板也随 即选自图库中的模板。因为群集种模板的成员个数尺寸相对于信用模 板是很大的,任意选择对于确保很好的分散是充分的。另外的用于信 用模板的技术,诸如以上所述的那些,能够被用于确保分散。于是通过比较群集种模板的个体与每一个信用模板,相似性向量 形成。每个相似性向量基本上指示给定群集种模板与各自的信用模板 组的相似性。基本上,此相似性向量定义了群集种模板的位置(相似 性)vis4-vis分别地各个个体的信用模板。任何群集种模板的位置能
够根据以上所描述的相似性向量等式而定义。
于是,相似性向量被处理为分区308所述非计量相似性为群集, 并最终确定用于图库中的模板的参与模板的群集成员个数。
即使各种分类器能够被实施用于进行分区308, —种方法使用有 机器监督的学习算法,其以相似性向量组来训练,并优选地实施多级 决策分级系统。
通过确定用于图库中剩余的群集成员个数进行群集的增殖310, 优选地使用相同的方法,所述方法被用于分区308。多决策树分类系 统被实施,能够通过寻找叶节点来进行图库剩余的增殖,所述叶节点 处图库的每个模板通过使用测试模型中的分级系统来分配。
一旦方法300被完成,图库被分区为群集并能够确定与模板探针 的匹配(例如,从待匹配或鉴定的主题)。根据本发明的另一个方面, 被用于使图库群集的相同的计量也能够被用于匹配阶段。
图4是说明用于搜索非计量相似性空间的系统400的框图,该系 统400包括识别应用410。
如采用NSSC应用,识别应用410在常规操作系统的存储中不分 区并通过计算机命令来实施所述的功能性,且该识别应用410优选地 提供为软件。即使一个模块细目分类被描述,识别应用410的功能性 能够以任何数量的比较设计来提供,该设计具有更高、更少或不同方 式命名的组成模块。识别应用410的功能性能够在上下文中以计算机 系统的方式来提供,该计算机系统包括应用、产品制造(例如,存储 介质),其存储相应的软件或计算机执行的方法。
定居在计算机系统上的识别应用410还连接到扫描仪430,该扫 描仪430被用于从目标手机信息。例如,所述扫描仪能够是常规指紋 扫描设备,该设备结合CDD或其他图像波或设备,用于捕获与目标指紋相对应的图样。或者,扫描仪430能够是用于从目标收集生物计 量信息的任何设备,包括如上所述的各种可替代的生物计量例子。
识别应用410还能够与模板图库相联,诸如储存在数据库442 中的模板。NSSC应用440优选地使用上述的用于将图库分区为群集 的计量。即使所示出的网络连接在识别应用410和数据库442之间, 这仅仅是系统400构造的一个例子。网络能够是私人的局域网,或能 够实施包括国际互联网的公共组成部分。代替互联网连接,数据库可 替代地是能够访问的,从单机型系统内,诸如那些将数据库保持在安 全检查站的位置上的系统。
识别应用400包括特征提取模块412,数字转换模块414,模板 探针识别模块416、群集成员个数确定模块418、搜索和报告模块420, 和数据库管理模块422。
数据库管理模块422管理数据,该数据将通过所述系统处理并与 数据库422相联,所述数据库422因此而存储图库。根据图库尺寸和 特定应用,数据库管理模块422还能够在任何给定时间存储所有或部 分图库。
特征提取模块412使用常规技术来从被扫描的图像提取信息以 建立至少一个与所述目标相对应的模板。对于指紋扫描,这可以包括 确定来自扫描图像的图样和细节。模板探针模块416存储与所述目标 相应的模板探针。
群集成员个数确定模块418确定模板探针属于哪一个群集,并且 搜索并报告模块420,于是根据成员个数确定来搜索图库。所述搜索 因此被限制为所述群集,该群集的模板探针被确定为成员(或相对小 的与确定的群集相对应的群集的邻域)。所述报告可以是单独最好的 配对的回复,或是其它类型的报告包括但不限于潜在配对的分级列 表。
图5是说明了根据本发明的用于搜索非计量相似性空间并报告 搜索结果的方法的例子。
方法500包括对非计量相似性空间的访问,所述相似性空间以图库为形式,所述图库被分区为群集。获得探针模板504,诸如通过扫 描和处理所获得的数据以建立所述的模板探针。
随后确定探针模板的群集成员个数506。多层决策图表分类系 统,确定506通过用探针模板测试多决策树来提供以寻找所述探针模 板被分配到的所述叶节点。
于是根据确定的探针模板的群集成员个数搜索图库508。仅是用 于模板探针的群集或群集的邻域需要被搜索。根据例子继续多决策树 分级系统,图库成员被分配到各个被确定的节点506以上形成了群集 或图库的亚组,应当对所述图库进行穷举性的搜索寻找最好的配对。 图库亚组还能够根据被分配到每个图库入口的叶的数量进行分级,如 此更加可能的配对被首先检测出来,且穷举性的检索能够被尽早的放 弃,如果群集中的较低的分级成员不能产生可接受的配对。
最后,根据搜索508所确定的匹配被报告510,诸如在用于用户 浏览的显示或打印输出中。
应当认识到的是本发明不限于多决策树分类系统。例如,根据方 法的神经系统、在输出层中的哪个节点的确定被激活,也能够被用于 确定群集成员个数。
因此,本发明的事实方式产生并提供了分区的非计量相似性空 间,诸如那些根据生物计量信息的空间,用于更加有效的匹配。即使 本发明已经参考其某些实施方式而被相当的详细描述,本发明能够以 各种方式实施而不偏离发明的主旨和范围。因此,以下权利要求不能 被限制于本文所包含的事实方式的说明。
权利要求
1. 一种用于使生物计量模板群集的方法,所述方法包括从生物计量模板的图库确定一组信用模板;从生物计量模板的所述图库中确定一组群集种模板,所述群集种模板组的成员个数与所述信用模板组相比在数量上相当大;通过比较群集种模板组和信用模板组的成员来形成多个相似性向量,其中所述相似性向量中的单个向量指示所述群集种模板组的给定成员与所述信用模板组的相应成员的相似性;以及根据所述多个相似性向量而将生物计量模板的所述图库分区为群集。
2. 如权利要求l所述的方法,还包括使用所述图库中的剩余模板而非使用所述信用模板和所述群集 种模板来使所述群集增殖。
3. 如权利要求l所述的方法,其中通过将分类器施用到所述多 个相似性向量来进行所述分区,以及所述分类器实施以所述多个相似 性向量训练的有监督的机器学习算法。
4. 如权利要求l所述的方法,其中通过将分类器施用到所述多 个相似性向量来进行所述分区,以及所述分类器实施多决策树分类系 统。
5. 如权利要求4所述的方法,还包括访问探针模板并确定一组叶节点,其中,所述探针模板根据所述 多决策树分类系统而被分配到所述叶节点组;确定群集邻域用于将成为生物计量模板的图库中的那些被分配 到叶节点组的成员的探针模板;以及搜索所述群集邻域以确定所述图库是否包括与所述探针模板相 对应的配对。
6. 如权利要求l所述的方法,还包括 访问探针模板;确定所述探针模板的群集邻域,所述群集邻域与所述图库的所述 分区相对应;以及搜索所述群集邻域以确定所述图库是否包括与所述探针模板相 对应的配对。
7. —种用于使生物计量模板群集的系统,所述系统包括 用于从生物计量模板图库确定一组信用模板的装置;用于从所述生物计量模板图库中确定一组群集种模板的装置,所述群集种模板组的成员个数与所述信用模板组相比在数量上相当大; 用于通过比较上述群集种模板组与上述信用模板组的成员来形 成多个相似性向量的装置,其中所述相似性向量中的单个向量指示所 述群集种模板组的给定成员与所述信用模板组的相应成员的相似性; 以及用于根据所述多个相似性向量而将所述生物计量模板图库分区 为群集的装置。
8. 如权利要求7所述的系统,还包括用于使用所述图库中的剩余模板而非使用所述信用模板和所述 群集种模板来使所述群集增殖的装置。
9. 如权利要求7所述的系统,其中通过将分类器施用到所述多 个相似性向量来进行所述分区,以及所述分类器实施以所述多个相似 性向量训练的有监督的机器学习算法。
10. 如权利要求7所述的系统,其中通过将分类器施用到所述多 个相似性向量来进行所述分区,以及所述分类器实施多决策树分类系 统。
11. 如权利要求10所述的系统,还包括用于访问探针模板并确定一组叶节点的装置,其中所述探针模板 根据所述多决策树分类系统而被分配到所述叶节点组;确定群集邻域的装置,其中所述群集邻域用于将成为生物计量模 板的图库中的那些被分配到叶节点组的成员的探针模板;以及用于搜索所述群集邻域以确定所述图库是否包括与所述探针模 板相对应的配对的装置。
12. 如权利要求7所述的系统,还包括 用于访问探针模板的装置;用于确定对于所述探针模板的群集邻域的装置,所述群集邻域与 所述图库的所述分区相对应;以及用于搜索所述群集邻域以确定所述图库是否包括与所述探针模 板相对应的配对的装置。
13. —种用于使生物计量模板群集的设施,所述装置包括 模板管理模块,其从生物计量模板图库确定一组信用模板,并从所述生物计量模板图库确定一组群集种模板,所述群集种模板的成员 个数与信用模板组相比在数量上相当大;相似性向量测定模块,其与所述模板管理模块相联,所述相似性 向量测定模块通过比较所述群集种模板组与所述信用模板组的成员 而形成多个相似性向量,其中所述相似性向量中的单个向量指示所述 群集种模板组的给定成员与所述信用模板组的相应成员的相似性;以 及群集成员个数确定模块,其与相似性向量确定模块相联,且根据所述多个相似性向量而将所述生物计量模板的图库分区为群集。
14. 如权利要求13所述的设施,其中所述群集成员个数确定模 块使用所述图库中的剩余模板而非使用所述信用模板和所述群集种 模板来使所述群集增殖。
15. 如权利要求13所述的设施,其中所述群集成员个数确定模 块通过将分类器施用到所述多个相似性向量而对所述图库进行分区, 以及其中所述分类器实施以所述多个相似性向量训练的有监督的机 器学习算法。
16. 如权利要求13所述的设施,其中所述群集成员个数确定模 块通过将分类器施用到所述多个相似性向量而对所述图库进行分区, 以及其中所述分类器实施多决策树分类系统。
17. 如权利要求16所述的设施,还包括模板探针模块,其访问探针模板并确定一组叶节点,其中所述探 针模板根据所述多决策树分类系统而被分配到所述叶节点组;其中所 述群集成员个数确定模块确定对于探针模板的群集邻域,所述探针模板是所 述生物计量模板图库中被分配到所述叶节点组的那些成员;以及搜索模块,其搜索群集邻域以确定所述图库是否包括与所述探针才莫板相对应的配对。
18. 如权利要求13所述的设施,还包括模板探针模块,其访问探针模板,其中所述群集成员个数确定模 块确定对于所述探针模板的群集邻域,所述群集邻域与所述图库的所 述分区相对应;以及搜索模块,其搜索群集邻域以确所述定图库是否包括与所述探针模板相对应的配对。
19. 一种用于使探针模板与生物计量模板的图库相匹配的方 法,所述方法包括访问所述探针模板;访问生物计量模板的图库,其中所述图库根据特定相似性计量而 被分区为群集;使用所述特定相似性计量根据所述探针模板过滤所述生物计量 模板的图库以对于所述探针模板确定群集邻域,所述群集邻域限定来 自所述图库的剩余组的生物计量模板,所述剩余组的生物计量模板与 所述探针模板的潜在配对相对应;以及搜索群集邻域以确定所述图库是否包括与所述生物计量探针模 板相对应的配对。
全文摘要
通过确定信用模板和群集的种模板来执行对生物计量模板的群集化,所述信用模板和群集的种模板皆来自生物计量模板图库。相似性向量通过比较群集的种模板和信用模板的成员而形成。随后,根据相似性向量所述图库被分区为群集,且所述群集由图库的剩余部分增殖。通过分类器进行所述增殖,所述分类器执行以所述相似性向量训练的有监督的机器学习算法,诸如多决策树分类系统。配对可以通过下述方式而适应访问探针模板;确定对于探针模板的群集邻域;以及搜索所述群集邻域,以确定图库是否包括与所述探针模板相对应的配对。相同的相似性计量既可以用于将图库分区为群集,也可以用于将探针模板配对于如此群集的图库。
文档编号G06K9/00GK101438296SQ200780015845
公开日2009年5月20日 申请日期2007年4月30日 优先权日2006年5月1日
发明者G·C·巴克尔 申请人:尤尼西斯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1