参考光谱信息的管理和搜索的制作方法

文档序号:6532678阅读:194来源:国知局
参考光谱信息的管理和搜索的制作方法
【专利摘要】一个处理应用接收与多个已知参考样品相关的峰信息。该处理应用将一个光谱分区为多个不同大小的范围区段,使得与这些已知参考样品相关的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。为了鉴别一个参考样品库中潜在地是一个受测的未知样品的良好匹配的一组候选参考样品,该处理应用将与该未知样品相关的峰与该多个不同大小的范围区段进行比较。基于该未知样品中的峰和一个相对应的参考样品中的峰的范围区段匹配的数目越大,该未知样品与该相对应的参考样品匹配的可能性越大。
【专利说明】参考光谱信息的管理和搜索
[0001]背景
[0002]已知可以对样品进行光谱分析以鉴别它的类型。例如,一种受测的未知样品的光谱分析可以包括鉴别一个或多个峰值波长值。该未知样品的峰值波长与一种已知参考样品的峰特征信号(signature)的仔细匹配可以表明该未知样品是否可能是与该参考样品相同的物质。
[0003]在现代多通道仪器中,在其中搜索一种未知样品并且将其与一种已知样品进行匹配的一个参考数据库可能要求大量的处理和存储资源。例如,接收对于一个未知样品的每个测量的包括连续的一千个或更多个数据点的光谱分析并不少见。
[0004]此外,在常规谱图搜索应用中,一个参考数据库包括多于10,000组的光谱信息(对于每个参考样品一组光学信息)并不少见。
[0005]一个对应参考样品的每组光谱信息可以由定义峰、谷等等的一千个或更多个数据点组成。将一个未知样品中的光谱信息(例如,一千个或更多个数据点)与多于10,000组的光谱信息(例如,一千个或更多个数据点)中的一个对应的组进行匹配可能是在计算上有挑战性的。例如,当一个2000点未知光谱在一个具有10,000个参考谱(其中每一个包含2000个信息通道)的库中进行搜索时,如果没有规定使用一种计算上有效的搜索方法学,则必须执行20,000,000次或更多次的操作(逐点比较)。
[0006]一种更有效地进行该搜索方法学的方法是在分析之前将光谱数据压缩为一种二进制格式。根据常规光谱学,将一个光谱二进制化的一种之前方法是关于一个峰的存在或不存在进行评价。当将两个光谱进行比较时,如光谱A和光谱B,一种方法将是查找光谱A的一个峰表并且给其中光谱B在那个峰的η个波数(或其他合适单位,例如像素、m/z等等)内也含有一个特征的任何位置指定一个为一的值。将一个零值分配给其中光谱B不含有一个峰的光谱A的峰表的任何位置。这种方法由Clerc等人在1980年代进行了描述。
[0007]尽管这种常规方法提供总体的相似度排行,但它不提供任何种类的概率性解释。还值得注意(并且由Clerc所指出)的是,根据这种常规方法,候选匹配的得分取决于该搜索的方向(结果是非对称的)。例如假设光谱A包含10个峰,光谱B包含12个峰,并且发现这些峰中的8个是共有的。由于基于存在的峰的数目将对应的得分进行归一化,因此可以产生8/10或8/12的值。
[0008]实施例的简要说明
[0009]如以上所讨论的,基于光谱分析将一种未知样品与在一个数据库中的一种已知参考样品进行匹配的常规技术可能是具有挑战性的,由于必须进行比较以精确地鉴别一个适当的匹配的数据点的量。在许多情况下,不希望要求冗长的计算来确定与一个未知样品匹配的一个或多个参考样品以鉴别该未知样品的类型。
[0010]此外,常规的光谱匹配技术典型地不足以快速鉴别匹配,因为此类技术仅提供表明多个可能参考样品中的哪一个与该未知样品匹配的一个清单。该候选物的常规排序清单可能是误导性的。例如,根据常规清单,不知道一个清单中的一个第一候选参考样品(即,第一已知样品)是否是比该清单中的一个第二候选参考样品(即,第二已知样品)更可能为一个与该受测样品的匹配。换句话说,常规技术典型地不提供表明一个清单中的多个候选物中的哪一个更可能是与一个受测的未知样品的适当匹配的任何有用的概率信息。
[0011]与常规技术相比,总体上,在此的实施例包括将与一个或多个参考样品相关的光谱处理信息转化为一种更紧凑的形式。另外,在此的实施例包括一种搜索一个光谱库的计算上有效的方法学。例如,至少部分基于一种管理光谱库中的信息的独特方式(例如,压缩数据),更少的数学操作对于进行光谱搜索以鉴别更可能与该未知样品匹配的参考样品的一个可管理的子集是必需的。注意到如在此所讨论的处理很好地适合于用于任何类型的光谱学应用中,其中光谱峰提供关于一种受测的未知样品的身份的线索。
[0012]更确切地说,根据一个实施例,一种处理应用接收指定在一个库中的多个参考样品中的每一个参考样品的一个相对应组的峰的信息。该处理应用(例如,光谱数据处理器)将一个光谱分区以包括多个不同宽度的区段,在本文件的剩余部分被称为范围区段。该光谱可以被分区,使得该多个参考样品中的每个峰驻留在该多个不同大小的范围区段的一个或多个中。
[0013]在一个实施例中,将该光谱分区为多个不同大小的范围区段包括定义该多个不同大小的范围区段中的每一个的宽度和/或边界,使得与这些参考样品相关的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。为了鉴别候选参考匹配,总体上,该处理应用将与一个未知样品相关的峰与该多个不同大小的范围区段进行比较、映射、索引等等。将该受测的未知样品中的峰与这些范围区段中的一个或多个进行匹配使得一个分析器能够鉴别作为该受测的未知样品的良好匹配的候选物的参考样品。换句话说,在该受测的未知样品与一个对应的参考样品之间共享的共同范围区段的数目越大,该受测的未知样品更可能与该对应的参考样品相匹配。
[0014]根据一个实施例,注意到如在此所讨论的这些技术可以包括将一种未知样品与一个池中的所有可能的参考样品进行分析和/或比较。对于该池中的一个或多个参考样品中的每一个,在此的实施例可以进一步包括产生对于任何或所有参考样品中的每一个的一个相对应的P值(例如,概率信息)。如在此所讨论的,进一步分析该概率信息使得能够鉴别该未知样品与一个参考样品的良好或最好的可能的匹配。
[0015]与另一个实施例相关联,对于被鉴别为一个候选匹配的每个对应的参考样品,如在此所讨论的处理应用产生概率信息。该概率信息可以表明信息,如该对应的候选参考样品与该受测的未知样品相对接近的匹配的程度。因此,在此的实施例可以包括其中鉴别潜在的候选物的一个多步骤过程,并且然后可以在该组候选物上进行一个另外的分析以鉴别概率匹配。
[0016]在此的某些实施例包括至少部分基于二进制定点算法而产生概率信息。
[0017]根据另外的实施例,如果一个对应的候选参考样品具有与该受测的未知样品匹配的合理良好的机会,那么可以进行另外的处理以确定这些候选参考样品中的哪一个是与该受测的未知样品的最好匹配。
[0018]将该未知样品与一个对应的参考样品之间的峰进行比较可以包括基于将与该未知样品相关的峰索引到该多个不同大小的范围区段中,鉴别为该未知样品的候选匹配的多个参考样品的一个子集。如在此讨论的索引可以包括鉴别该未知样品的峰驻留在多个范围区段的哪一个中的实例技术中的任一者。
[0019]通过另外的非限制性实例,将该光谱分区以包括不同大小的范围区段可以包括根据一个超几何分布模型来选择该不同大小的范围区段的边界。
[0020]进行一个搜索和/或产生该概率信息可以包括执行一个超几何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品是否匹配或匹配程度的概率信息。
[0021]根据又另一个实施例,该超几何分布使用与参考样品相关的峰信息的集合特性(例如,已知样品和对应的峰数据)。如在此讨论的分析可以包括计算一个对应的峰匹配是一个随机事件的概率。
[0022]根据另外的实施例,如在此所讨论的处理应用可以被配置为产生该未知样品的一串符号。经由该串中的符号如逻辑符号或零,该未知样品的串表明该未知样品的一个对应的峰驻留在该多个不同大小的范围区段的哪一个中。该未知样品的串还可以表明该未知样品的一个对应的峰不驻留在该多个不同大小的范围区段的哪一个中。
[0023]该处理应用还可以产生一个多个参考样品的库中的每个参考样品的一个对应串的符号。一个对应的串表明该对应的参考样品的一个峰驻留在该多个不同大小的范围区段的哪一个中。该参考样品的对应的串还可以表明该对应的参考样品的一个峰不驻留在该多个不同大小的范围区段的哪一个中。
[0024]根据另外的实施例,该处理应用至少部分基于该未知样品的一个二进制串和与这些参考样品相关的对应的二进制串之间的相似度来获得概率信息。也就是说,总体上,在该未知样品的二进制串和与一个对应的参考样品相关的对应的二进制串之间的匹配的数目越大,那么该未知样品与该相对应的参考样品匹配的可能性越大。
[0025]将与一个未知样品相关的峰索引至该多个不同大小的范围区段可以包括,对于该多个参考样品中的每个对应的参考样品:产生一个值,k,该值k表明该未知样品的一个峰落入其中该对应的参考也包括一个峰的一个区段中的发生次数;产生一个值,N,表明一个光谱被划分为的多个不同大小的区段的总数;产生一个值,n,表明该对应的参考样品中存在的峰的总数;并且产生一个值,m,表明该未知样品中存在的峰的总数。
[0026]基于如以上所讨论的数据,在此的实施例包括基于以下实例方程式产生这些对应的参考样品中的每一个的概率信息(例如,一个P值):
【权利要求】
1.一种方法,包括: 接收多个参考样品中的每一个参考样品的一组峰; 将一个光谱分区以包括多个不同大小的范围区段,该多个参考样品中的每一个峰驻留在该多个不同大小的范围区段之一中;并且 将与一个未知样品相关的峰的位置索引至该多个不同大小的范围区段。
2.如权利要求1所述的方法,其中,将这些峰进行比较包括: 基于将与该未知样品相关的峰的位置索引至该多个不同大小的范围区段,鉴别为该未知样品的候选匹配的多个参考样品的一个子集。
3.如权利要求1所述的方法,其中,将该光谱分区为多个不同大小的范围区段包括: 定义该多个不同大小的范围区段中的每一个的宽度,使得这些参考样品中的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。
4.如权利要求1所述的方法,进一步包括: 对于该多个参考样品中的一个对应的参考样品,产生该对应的参考样品是该未知样品的一个匹配的概率信息。
5.如权利要求4所述的方法,进一步包括: 至少部分基于二进制定点算法来计算该概率信息。
6.如权利要求1所述的方法,进一步包括: 接收与该多个参考样品中的每一个相关的光谱信息,该光谱信息包括扫描该光谱的分析;并且 处理该光谱信息以鉴别该多个参考样品中的每一个的组峰。
7.如权利要求1所述的方法,其中,将该光谱分区包括: 根据一个超几何分布模型选择这些不同大小的范围区段的边界。
8.如权利要求1所述的方法,进一步包括: 执行一个超几何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品匹配的概率信息。
9.如权利要求1所述的方法,进一步包括: 鉴别该未知样品的一个峰和与一个给定的参考样品相关的一个峰驻留在该多个范围区段的一个具体范围区段内;并且 计算在该未知样品中的峰和该给定的参考样品中的峰与该具体范围区段之间的一个匹配是一个随机事件的概率。
10.如权利要求1所述的方法,进一步包括: 计算一个概率值,以便检验在该参考样品与一个给定的参考样品之间的一个观察到的峰匹配偶然发生的零假设。
11.如权利要求1所述的方法,其中,将与该未知样品相关的峰和该多个范围区段进行比较包括: 鉴别该未知样品的一个峰; 鉴别该多个不同大小的范围区段中的该未知样品的峰位于其中的一个范围区段;并且 鉴别该多个参考样品中的包括在该已鉴别的范围区段中的峰的一个具体参考样品。
12.如权利要求2所述的方法,其中,将与一个未知样品相关的峰索引至该多个不同大小的范围区段包括: 对于该多个参考样品中的每一个对应的参考样品: 产生一个值,k,表明该未知样品的一个峰落入其中该对应的参考也包括一个峰的一个区段中的发生次数; 产生一个值,N,表明该多个不同大小的区段的数目; 产生一个值,n,表明于该对应的参考样品中存在的峰的总数;并且 产生一个值,m,表明于该未知样品中存在的峰的总数。
13.如权利要求12所述的方法,进一步包括: 基于以下方程式产生这些对应的参考样品中的每一个的概率信息:
14.如权利要求1所述的方法,其中,将峰进行比较包括: 产生一个第一二进制串,该第一二进制串表明该未知样品的一个峰驻留在该多个不同大小的范围区段的哪一个中;并且 产生一个第二二进制串,该第二二进制串表明一个参考样品的一个峰驻留在该多个不同大小的范围区段的哪一个中;并且 基于在该第一二进制与该第二二进制串之间的相似度来获得概率信息。
15.—种系统,包括: 一个处理器;以及 一个连接到该处理器的硬件存储资源,该硬件存储资源存储指令,当由该处理器执行时,这些指令使该处理器进行以下操作: 接收多个参考样品中的每一个参考样品的一组峰; 将一个光谱分区以包括多个不同大小的范围区段,该多个参考样品中的每一个峰驻留在该多个不同大小的范围区段之一中;并且 将与一个未知样品相关的峰与该多个不同大小的范围区段进行比较。
16.如权利要求15所述的系统,其中,将这些峰进行比较包括: 基于将与该未知样品相关的峰索引至该多个不同大小的范围区段,鉴别为该未知样品的候选物匹配的多个参考样品的一个子集。
17.如权利要求16所述的系统,其中,该处理器进一步执行以下操作: 产生该多个参考样品中的一个对应的参考样品是该未知样品的一个匹配的概率信息。
18.如权利要求15所述的系统,其中,将一个光谱分区为多个不同大小的范围区段包括: 定义该多个不同大小的范围区段中的每一个的宽度,使得这些参考样品中的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。
19.如权利要求15所述的系统,其中,该处理器进一步执行以下操作: 至少部分基于二进制定点算法来计算该概率信息。
20.具有存储在其上的指令的计算机可读存储硬件,这些指令当由一个处理装置执行时,使该处理装置进行以下操作: 接收多个参考样品中的每一个参考样品的一组峰; 将一个光谱分区以包括多个不同大小的范围区段,该多个参考样品中的每一个峰驻留在该多个不同大小的范围区段之一中;并且 将与一个未知样品相关的峰与该多个不同大小的范围区段进行比较。
21.—种方法,包括: 接收多个参考样品中的每一个参考样品的一组峰; 将一个光谱分区以包括多个不同大小的范围区段,该多个参考样品中的每一个峰驻留在该多个不同大小的范围区段之一中;并且 存储区段信息,该区段信息表明对于该分区的光谱产生的多个不同大小的范围区段。
22.如权利要求21所述的方法,进一步包括: 存储峰信息,该峰信息表明该多个参考样品中的峰驻留在该多个不同大小的范围区段的哪一个中。
23.如权利要求21所述的方法,其中,将该光谱分区为多个不同大小的范围区段包括: 定义该多个不同大小的范围区段中的每一个的宽度,使得这些参考样品中的基本上相等数目的峰落入该多个不同大小的范围区段的每一个中。
24.如权利要求21所述的方法,其中,将该光谱分区包括: 根据一个超几何分布模型选择这些不同大小的范围区段的边界。
25.—种方法,包括: 接收范围区段信息,该范围区段信息表明一个光谱已经被分区为的多个不同大小的范围区段; 接收表明与多个参考样品中的每一个相关的一组峰的峰信息,该峰信息进一步表明这些峰中的每一个驻留在该多个不同大小的范围区段的哪一个中;并且 将与一个未知样品相关的峰的位置索引至该多个不同大小的范围区段。
26.如权利要求25所述的方法,进一步包括: 基于将与该未知样品相关的峰的位置索引至该多个不同大小的范围区段,鉴别为该未知样品的候选匹配的多个参考样品的一个子集。
27.如权利要求25所述的方法,其中,定义该多个不同大小的范围区段中的每一个的宽度,使得这些参考样品中的基本上相等数量的峰落入该多个不同大小的范围区段的每一个中。
28.如权利要求25所述的方法,进一步包括: 对于该多个参考样品中的一个对应的参考样品,产生该对应的参考样品是该未知样品的一个匹配的概率信息。
29.如权利要求28所述的方法,进一步包括: 至少部分基于二进制定点算法来计算该概率信息。
30.如权利要求25所述的方法,进一步包括: 执行一个超几何概率函数来产生表明该未知样品与该多个参考样品中的一个对应的样品匹配的概率信息。
【文档编号】G06K9/62GK104185848SQ201380005162
【公开日】2014年12月3日 申请日期:2013年1月17日 优先权日:2012年1月31日
【发明者】克莱格·M·加德纳, 罗伯特·L·格林 申请人:赛默科技便携式分析仪器有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1