利用基质辅助激光解吸/离子化飞行时间质谱仪进行时间对强度分布分析的制作方法

文档序号:18512682发布日期:2019-08-24 09:14阅读:242来源:国知局
利用基质辅助激光解吸/离子化飞行时间质谱仪进行时间对强度分布分析的制作方法

本申请要求2016年8月22日提交的第62/377,768号美国临时专利申请的优先权,其全部内容兹通过引用并入本案。



背景技术:

基质辅助激光解吸/离子化飞行时间质谱仪(maldi-tofms)是光谱仪的一个例子,用于检测样本的属性。例如,样本可以是人血,并且检测到的属性可以是被抽血的人的疾病或其他医学病症。除了疾病诊断之外,光谱仪还有其他应用。

然而,在临床环境中使用maldi-tofms进行疾病诊断存在挑战。一个挑战是质量分析数据的再现性差。诸如,在癌症诊断或疾病状态检查的情况下,当诊断需要除质荷比信息之外的强度信息时,每个质荷比的强度的再现性可能是诊断准确性的关键因素。

再现性差的另一个原因可能来自maldi-tof在离子光学中的固有特性。maldi-tofms可以以高灵敏度相对迅速地分析样本。在某些情况下,maldi-tofms可能是相对较差的定量分析工具,因为所有离子化粒子在室入口处不具有相同的初始速度并且/或由于粒子的不同入射角而不在室中行进相同的距离。因此,随着时间的推移可能存在不可避免的数据散布,从而降低了数据再现性。

在某些情况下,在样本发生maldi-tofms离子化后,数据被校准并调整为质荷比(m/z),其可以表示为具有统计变化的质量峰值。当光谱仪测量离子化粒子的飞行时间时,可利用二次等式将测量的飞行时间转换为质荷比。不幸的是,由于光谱仪的瑕疵,离子化粒子的飞行时间存在某些偏差。因此,相同类型的离子化粒子可具有统计学分布的飞行时间测量结果。对于针对来自参考库的匹配布型而优化的光谱仪数据,飞行时间测量结果的统计变化应具有最小化的标准误差。当利用二次等式将飞行时间测量结果转换为质荷比时,飞行时间测量结果的标准偏差受到影响,这可能使得难以使属性与样本关联(例如,在maldi-tofms中难以用人血液样本产生诊断)。



技术实现要素:

实施例涉及设备、方法或计算机程序。在实施例中,可以接收样本的光谱仪测试数据来进行处理。光谱仪测试数据可包含以穿过光谱仪的飞行管的离子化粒子的时间和强度为单位的飞行时间数据。光谱仪测试数据可以与参考库匹配,以确定样本的特征信息。参考库可包含以光谱仪过去检测到的预存参考样本的离子化粒子的时间和强度为单位的光谱仪样本数据。光谱仪参考数据具有匹配运算与接收到的光谱仪测试数据关联的已知特征。

附图说明

示例性图1示出根据实施例的疾病诊断实验室。

示例性图2是根据实施例的maldi-tofms系统的示意图。

示例性图3是根据实施例将样本处理单元、maldi-tofms单元和诊断单元包含在一个系统中的集成系统的系统图。

示例性图4是根据实施例包含集成于一个系统中的样本处理单元和maldi-tofms单元,而诊断单元作为独立单元提供的集成诊断系统的系统图。

示例性图5示出根据实施例的maldi板,在该maldi板上,激光脉冲照射样本板上的样点(spot)。

示例性图6是根据实施例的maldi-tofms的硬件图。

示例性图7示出根据实施例对maldi室中的样本施照的激光脉冲。

示例性图8示出根据实施例通过激光辐照导致样本粒子离子化。

示例性图9、10a-b和11a-b示出根据实施例的假设匹配分析。

具体实施方式

生物标志物是存在于血液、其他体液或组织中的生物分子,其是正常过程或异常过程的或者病症或疾病的标志。例如,糖蛋白ca-125是指示存在癌症的生物标志物。因此,通常测量并且评估生物标志物,以认定特定疾病的存在或进展或者观察身体对疾病或病症的治疗的反应好不好。生物标志物在蛋白质、肽、脂质、聚糖或代谢物中的存在或其数量水平的变化能够由质谱仪测量。

在众多类型的质谱仪中,基质辅助激光解吸/离子化飞行时间质谱(maldi-tofms)是采用软离子化技术的分析工具(例如示例性图1-8)。maldi-tofms可在实验室环境下用于快速并且准确地分析生物分子并将其应用扩展到临床领域,诸如,微生物检测和诸如癌症的疾病诊断。例如,如图6所示,样本可埋置于基质607中,激光器601可以对样本发射激光脉冲。基质607可以吸收来自激光器601的能量,并且样本的分子可以是离子化分子615a-c。然后,靠近基质607的电极605产生的电场可使离子化分子615a-c加速进入飞行管603内。离子化粒子615a-c可以飞过飞行管603并且可以检测器613检测到的离子化粒子615a-c的飞行时间测量结果的分布方式,检测离子化粒子615a-c。在实施例中,在与参考库匹配(例如,由图3和4所示的诊断单元303和403)之前,不将飞行时间测量结果(例如,图11b中所示的分布布型1109和1111)转换为质荷比对强度(m/z)。

影响数据再现性的因素可以是maldi-tofms系统的测量灵敏度或测量过程。虽然maldi-tofms能够以高灵敏度快速分析样本,但可能存在定量分析复杂化问题,因为由于离子化过程中的瑕疵,检测到的分布布型的相对标准偏差(rsd)可能较高。在实施例中,可以使数据更可再现的方式校准、标准化、归一化并且/或者以其他方式操控光谱仪数据。

示例性图1示出根据实施例的疾病诊断实验室,其中样本处理设施101包含彼此分开的多个样本处理工具、maldi-tofms系统102和诊断软件系统103。例如,为了提取用于卵巢癌诊断的聚糖,将患者的血清加入到多孔板111内,以进行样本接收过程和蛋白质变性过程112,然后是采用酶的去糖基化过程113。然后,进行蛋白质去除过程114、干燥及离心过程、聚糖提取过程115和点样(spotting)过程116。maldi-tofms系统102分析所点样本,以产生至少一个聚糖布型。诊断软件103将该样本的聚糖布型与一个或多个预存聚糖布型进行比较,以认定存在卵巢癌和卵巢癌的进展。示例性图2是根据实施例的maldi-tofms系统的示意图。

示例性图3是根据实施例将样本处理单元、maldi-tofms单元和诊断单元包含在一个系统中的集成系统的系统图。样本可以由所选模块进行组合处理。在样本制备系统301中,在自动样本制备单元311中,根据诊断或筛选目的,样本经过预定的预设工序。在实施例中,对于聚糖提取,可选择多个处理模块,多个处理模块用于样本接收、蛋白质变性、去糖基化、蛋白质去除、干燥、离心、固相提取和/或点样。在样本制备后,样本装载器312将样本装载到板306上,并在样本干燥器307中干燥。

然后,根据实施例,可将样本提供给具有离子飞行室321和/或高电压真空发生器322的maldi-tofms单元302。maldi-tofms中的处理单元323可以认定离子化粒子(例如图6所示离子化粒子615a-c)的飞行时间和检测器检测到的相应强度分布。出于疾病诊断的目的,根据实施例,可以重新组织这样获取的飞行时间和强度数据,以建立标准飞行时间列表,在标准飞行时间列表中引入飞行时间分布中心,该中心是强度平衡并且均衡之处。标准飞行时间列表可基于机器准确性和其他相关考虑因素。对每次激光照射存储的光谱数据也可用于建立标准飞行时间列表。然后,诊断单元303可将来自患者样本的光谱与预存的光谱进行比较,并分析两个光谱的布型差异。然后,诊断单元可以认定存在疾病及其进展。

示例性图4是根据实施例包含集成于一个系统中的样本处理单元和maldi-tofms单元,而诊断单元403作为独立单元提供的集成诊断系统的系统图。示例性图4示出根据实施例样本制备单元401和maldi-tof402集成在一起,而诊断单元403作为独立单元分开布置的集成疾病诊断系统。

在实施例中,诊断单元可以使用参考库。参考库可与诊断单元安置在一起,也可与诊断单元分开。诊断单元可与光谱仪安置在一起,也可与光谱仪分开。在实施例中,参考库可存储于储存装置、基质辅助激光解吸/离子化飞行时间质谱仪(maldi-tofms)、位于光谱仪中的数据储存装置、与光谱仪分开的数据储存装置、通过网络与光谱仪通信的数据储存装置、云储存系统和/或通过互联网连接与光谱仪通信的数据储存装置。

实施例涉及设备、方法或计算机程序。在实施例中,可以接收样本的光谱仪测试数据进行处理(例如,在诊断单元103、303和/或403处)。光谱仪测试数据可以包含以离子化粒子穿过飞行管的时间和强度为单位的飞行时间数据。可将光谱仪测试数据与参考库匹配来确定样本的特征信息。参考库可包含以光谱仪过去检测到的预存参考样本的离子化粒子的时间和强度为单位的光谱仪样本数据。光谱仪参考数据具有匹配运算与收到的光谱仪测试数据关联的已知特征。

在实施例中,光谱仪测试数据是质谱仪测试数据并且/或者该光谱仪是质谱仪。在实施例中,光谱仪是基质辅助激光解吸/离子化飞行时间质谱仪(maldi-tofms)。

在实施例中,样本包含生物分子并且/或者样本的特征信息包含样本的生物分析信息。生物分析信息可以是人、动物、植物和/或生物体的医学诊断。

示例性图5示出根据实施例的maldi板,在该maldi板上,激光脉冲照射样本板上的样点。

示例性图6-7示出根据实施例的光谱仪硬件。激光器601(例如,图6)可对靶707发射激光脉冲701(例如,图7)。靶707可包含样本材料709(例如,人血液和/或其他物质)。样本材料709可吸收来自激光脉冲701的能量并产生具有代表样本材料709的特征和/或属性的离子化粒子715a-e。在实施例中,激光701可以以大约30度的角度投射到样本709上,但是也可以采用所有其他角度。

如图6所示,电极605可产生较接近靶607的电场609。响应于激光器601在靶607处产生的任何离子化粒子615a-c都可被磁性地吸入飞行管603。实际上,离子化粒子615a-c被加速进入飞行管603中并沿着飞行管603的长度611投射并且被检测器613接收。离子化粒子615a可具有比离子化粒子615b-c大的质量。因此,较小的离子化粒子615b-c可在飞行管603中比较大的离子化粒子615a更快地行进。如在检测器613所做的测量,在来自激光器601的一个或多个激光脉冲的定时,检测器613都测量每个离子化粒子615a-c的飞行时间。本领域普通技术人员明白可以使用检测器613之外的不同类型的检测器。

由于来自激光器601的每个激光脉冲可以产生较大量的离子化粒子,因此检测器613可以有效测量由一个或多个时间同步激光脉冲产生的所有离子化粒子的飞行时间测量结果的统计分布(例如,图9、10a-b和11a-b)。离子化粒子615a-c可具有相同或基本相同的动能,因为,与它们在进入飞行管603之前被电极605加速。穿过电极605的范围后,离子化粒子615a-c可以进入基本上没有电场的飞行管603。飞行管603可具有预定长度611。一旦离子化粒子615a-c进入没有电场的飞行管603,离子化粒子615a-c可取决于其质量具有不同速度。与较小的离子化粒子615b-c相比,较大的离子化粒子615a穿过飞行管603花费较长的时间。

示例性图8示出根据实施例通过辐照激光束801导致样本807离子化。激光束801可以照射样本807。样本807可汽化为离子化粒子(例如,离子化粒子815或817)。当样本807吸收激光801并且部分样本807离子化时,一些能量传递到离子化粒子815或817。电压施加到电极803和805,将离子化分子815或817吸入819飞行管中(例如,图6所示的飞行管603)。

在实施例中,匹配过程包括在不将飞行时间数据转换为质荷比对强度布型的情况下,分析飞行时间数据。在实施例中,匹配运算可以处理飞行时间数据,以最小化峰值散布,而当将飞行时间数据转换为质荷比对强度布型时,二次运算不必要地散布峰值。在实施例中,峰值散布的最小化可以最小化飞行时间数据的相对标准偏差。根据实施例,最小化的相对标准偏差可以最大化光谱仪的再现性或准确性中的至少一个。在实施例中,匹配过程利用飞行时间数据来最小化相邻峰值之间不希望的重叠。在实施例中,匹配过程利用飞行时间数据来优化光谱仪的分箱(binning)和/或校准准确性。在实施例中,匹配可以确定样本的特征信息。

在实施例中,可以由人工智能和/或深度学习算法确定匹配。在实施例中,匹配可以优化诊断、筛选或认定医学病症中的至少一个。在实施例中,匹配可以包括如果存在非常相似的飞行时间布型,则判定将光谱仪测试数据与光谱仪参考数据进行匹配。在实施例中,可根据预定阈值执行对非常相似的飞行时间布型进行匹配的判定。在实施例中,可根据动态阈值执行对非常相似的飞行时间布型进行匹配的判定。根据实施例,可利用人工智能和/或深度学习算法确定动态阈值。

在实施例中,离子化粒子可以由激光器产生,该激光器配置成照射靶区,以使放置于靶区中的样本离子化。飞行管的第一端可靠近至少一个电极,该电极配置成使离子化粒子加速进入飞行管中。飞行管的第二对置端可靠近检测器,该检测器测量离子化粒子通过飞行管的飞行时间和离子化粒子的强度。

在实施例中,以时间和强度为单位的飞行时间数据优化对离子化粒子的属性变化的隔离。根据实施例,每个离子化粒子的属性可包含通过至少一个电极的每个离子化粒子的加速效率。根据实施例,每个离子化粒子的属性可包含进入飞行管的至少一个离子化粒子的延迟。根据实施例,每个离子化粒子的属性可包含飞行管内的至少一个离子化粒子的飞行路径的变化。

在实施例中,以时间和强度为单位的飞行时间数据可补偿样本中的物理变化。在实施例中,以时间和强度为单位的飞行时间数据可以优化数据再现性。在实施例中,以时间和强度为单位的飞行时间数据可以将诊断准确性提高到最高。

实施例涉及在匹配分析之前不将飞行时间测量结果转换为质荷比对强度布型(m/z),而使飞行时间测试数据预定质量范围和/或分箱(bin)(例如,与已知特征关联的)最佳地一致。因此,在实施例中,利用飞行时间对强度布型,而不利用转换的质荷比对强度布型,测试数据可与参考库中的准确匹配项最佳地一致。因此,在实施例中,光谱仪能够根据血液样本更准确地诊断疾病(或其他应用)。根据实施例,飞行时间数据及其相应的散布可以直线地而非二次方地增加,并且因此可以相对于任何比质量,产生更对称的时间范围。根据实施例,因为这些范围可更加对称或者至少与指数速率相比,其至少是增大的,所以与高质量和低质量的固定质量分箱校准质量值相比,固定时间分箱可更准确地校准长时间和短时间的飞行时间值。在实施例中,与比质荷比对强度布型相比,飞行时间对强度布型可具有更理想的相对标准偏差(rsd)。

示例性图9、10a-b和11a-b示出根据实施例的假设匹配分析。

例如,根据实施例,当它们所代表的峰值被隔开和/或不同时,例如图9中的匹配分析#1所示,质量分箱可能更有效。在该示例中,测试样本布型峰值901与库样本的质量分箱903匹配。

然而,当质量峰值更靠近在一起和/或它们的相应分箱重叠时,可能会出现问题。该问题示于图10a和10b中的匹配分析#2和匹配分析#3。图10a中的匹配分析#2示出两个相近峰值1005和1007之间重叠的质量分箱1001和1003。在该示例中,峰值1005可以准确地与分箱1001关联,因为质量对强度峰值1005与分箱1001相交。然而,在该示例中,峰值1007可以与分箱1001和1003两者进行匹配,因此可能产生不准确的诊断分析。同样地,图10b中的测试样本#3可能产生不准确的诊断分析,因为峰值1009与分箱1001和1003两者相交。

在实施例中,如果将飞行时间测试数据转换为质荷比数据,则在不进一步采用数据截断估计技术的情况下,有效地区分用哪个质荷(m/z)比峰值进行校准可能具有挑战性,这反过来可能具有降低诊断准确性的效果。

示例性图11a-b示出根据实施例在示例匹配分析#4中与参考分箱(例如,分箱1101和1103)关联的飞行时间测试数据(例如,峰值1105和1107)。与其布型被表达为质荷比对强度的匹配分析#1、#2和#3不同,将匹配分析#4表达为飞行时间对强度布型。根据实施例,由于匹配分析#4是飞行时间对强度布型,所以用于确定峰值1105和1107的实际分布1109和111分别具有最小相对标准偏差,因为飞行时间数据不受二次函数的影响,二次函数具有不必要的散布分布1109和1111。在实施例中,由于分布1109和1111未不必要地散布,所以明显地,关联峰值1105和1107可分别与分箱1101匹配,而不与分箱1103匹配。

实施例涉及使用时间对强度分析而不是质量对强度分析。实施例可以使用均匀间隔的时间特征。在实施例中,量纲效应(例如,室的直径和长度)和/或优化技术可使用在组间和组内(例如,聚类、归类和分类)具有交叉验证约束的深度学习技术。

实施例可以涉及数据操控,用于补偿maldi-tof中的瓶颈效应和非直线或非均匀的行进路径。在实施例中,可以以足以使数据可再现的方式采集并且处理数据,这样其能够用于准确诊断。

在maldi-tof系统中,进入飞行时间(tof)室的离子不能均匀地进入室。进入tof室的离子不会以相同的距离行进到检测器,因为在到达检测器之前,离子可能以某个角度进入tof室或以其他方式沿着室壁反弹。这些因素的组合可能导致不一致的质量布型。为了补偿这些限制,实施例可以将tof室的长度视为检测器处测量的室中的任意粒子的最小行进距离。可基于粒子在内室的弹性平面上未经历反弹、经历一次反弹、二次反弹和/或更多次反弹的假设估计室的有效长度(例如,粒子的预期平均行进距离)。

最大有效长度可用作时间范围或被视为相同质量的质量范围。如果我们假设大多数粒子在室中没有经历反弹,则任何离子粒子的最大可能行进长度可以是l*[1+(d/l)^2]^(1/2),而如果在室内只经历一次反弹并且经历一次以上反弹的离子粒子的数量小到足以忽略不计,则粒子的最大可能行进长度可以是l*[1+4*(d/l)^2]^(1/2)。如果(例如)室的直径仅比室长度小2.5%,则在该时间范围内测量的任何强度信号被认为是离子粒子中具有相同质量的离子粒子的时间散布δt如果没有反弹则是1.00031,而如果有一次反弹则是1.00125。

实施例可以将一起移动的离子看作分组,使得以(m/z)c=∑(m/z)j*ij计算质量中心(例如,代表性质量),其中代表性质量(m/z)c是质量的加权平均值,每个质量(m/z)j具有其自己的强度ij。所有质量被看作相同质量的质量的容许质量范围δm可以是2*t*δt,其中(δt)^2小到足以忽略不计。这可相当于说δm/m=2*δt/t。由于在没有电场的室中(1/2)*m*v^2=z*u,且v=l/t,因此可以假设l/t[=sqrt(2*u/(m/z))]对于相同的m/z彼此相等。对于假设所有粒子来自相同质量粒子的任何质量范围,代表性质量mc[(m/z)c=∑(m/z)j*ij/∑ij]可以是由满足l/t=le/(t+δt)的量纲等价范围界定的粒子组的加权平均质量,其中le是有效室长度并且等于粒子在漂移室中的实际行进距离。

室长度l是任意粒子在室中的最短行进距离,而有效管长度le是l*sqrt(1+β(d/l)^2),其中d是室的内径,β是行进最短长度l的粒子的量纲常数为0,对于无反弹和穿过中心的粒子(例如,通过管入口的中心中的缝隙进入并到达室环的检测平面的边缘的粒子),量纲常数为1/4,无反弹并且穿透边缘的粒子(例如,粒子进入管边缘的缝隙的粒子)的量纲常数为1,一次反弹的粒子的量纲常数为4,等等。可能希望将室设计成粒子漂移,而不在室的壁上反弹,可以假量纲常数β在1/4和1之间。因为le/l=(t+δt)/t=sqrt(1+β(d/l)^2),所以t+δt=t*sqrt(1+β(d/l)^2)。与t=l/sqrt(2*u/(m/z))结合可得到t+δt=l*sqrt[(1+β(d/l)^2)(m/z)/(2*u)]。

实施例涉及数据操控,以补偿质量确定和校准中的固有不一致性。校准质量数据中可能存在复杂性。因为质荷比取决于时间的二次函数(m/z=k*t^2),所以相对质量散布δ(m/z)/(m/z)可以是相对时间散布的两倍(δt/t),并且质量散布δ(m/z)随着质荷比(m/z)在给定时间间隔或范围δt内变大而增大,[(m/z)=k*t^2其中k=2*u/(l^2),δ(m/z)=2*k*t*δt=2*sqrt[k*(m/z)]*δt。δ(m/z)/(m/z)=2*k*t*δt/(k*t^2)=2*δt/t]。

为了消除质量数据的这种不均匀间隔和不对称性质,实施例可以利用飞行时间对强度数据而不利用质荷比对强度数据进行施照。在某些情况下,质量分箱技术或质量校准可产生不充分并且/或不准确的结果,因为其是任意选择的并且分箱有时于相邻峰之间重叠。实施例可利用基于深度学习过程的算法确定最佳质量分箱数或时间分箱数,以用于质量的确定和校准。

在实施例中,可以以足以使数据可再现的方式采集并且/或处理数据,这样其能够用于准确诊断。例如,质谱可表示为曲线图,其中x轴表示样本的质荷比,y轴表示强度或相对强度与在给定时间或给定时间分箱(转换为质量)到达传感器的粒子数之比。假定通过质谱仪的大多数离子具有+1的电荷,可以认为质荷比(m/z)代表穿过飞行时间(tof)室的离子的质量。当离子化分子一路穿过室并击中传感器时,机器可以计算分子到达传感器花费多长时间。该时间信息可用于计算传感器检测到的离子质量。该质量可根据势能等于动能的能量守恒定律确定。

例如,下面是势能和动能的公式:

ep=zu

通过将这些等式合并,我们可以得到下面的关系:

在实施例中,从maldi-tofms获得的m/z对强度数据本质上可不一致。这是因为在由激光器或其他光源离子化后,进入飞行时间(maldi-tofms中的“tof”)的粒子在进入时实际上可能不具有均匀的初始速度。另外,它们可不同时进入tof室。tof室的入口可由缝隙构成,粒子通过该缝隙进入。因为有如此多的粒子进入一系列窄缝隙,所以粒子不沿缝隙的轴线均匀地排列直线。

在实施例中,代替相似直线竞走的同等开始位置,可能存在粒子在缝隙周围聚集的瓶颈效应(例如,相似于大量跑步者如何沿着狭窄的道路不均匀地开始马拉松比赛)。进入速度和进入定位的这种差异影响maldi-tof结果,因为如前所述,m/z可以由下面的等式确定:

l表示tof管的长度,t表示粒子到达检测器花费的时间。不一致的粒子速度和/或不一致的粒子开始位置(瓶颈效应引起的)可能影响t。粒子在入口处的角度影响粒子在室中的行进长度。离子化粒子(即使是同一样本)也不可能以均匀时间到达检测器,因为理论上如此。在实施例中,maldi-tofms数据可不呈现为不同峰值或隔开峰值,而是呈现为m/z值范围内的峰值沿x轴的散布。上述瓶颈效应可能是为什么与一致可再现方式能够获得的相异峰值不同,m/z对强度和时间对强度产生质量或时间的散布的核心原因之一。通过将穿过tof室行进的离子看作离子分组移动而不是单独离子移动,实施例消除这种固有数据差异。

在实施例中,支持该概念的潜在假设可以是每个离子分组维持由如下表示的平衡状态:

1)对于质量m,(m/z)c=∑(m/z)j*ij/∑ij,其中代表性质量(m/z)c是每个质量的质量加权平均值,(m/z)j具有自己的强度ij。

2)对于一般情况,∑[m(i,j)*i(j)]=m(i,c)*∑i(j),其中m(i,c)表示离子分组的质量中心i,m(i,j)表示质量i周围的第j个质量粒子,并且i(j)表示质量i周围的第j个粒子的强度。

在实施例中,通过产生如下,可对m(i,c)求解:

m(i,c)=∑[m(i,j)*i(j)]/∑i(j)

利用该质量中心信息,实施例可对每个质量获得标准形式的质量分布。该数据可以由maldi-tofms操作获取,在该maldi-tofms操作中,激光器逐次地、逐点地和/或逐样本地照射样本。通过将各种操作类型的每个质量的标准质量分布进行组合,可将标准质量分布布型构建为离散或连续分布布型。该标准(离散或连续)质量布型可产生较高的诊断准确性,因为根据实施例,在不截断数据的情况下,消除或调整maldi-tofms的许多固有不准确性。

仅tof室的长度不足以表示上述等式中的l:

m/z=2*u/(l2)*t2

该等式可依赖于tof室的长度准确地反映粒子穿过tof室到达检测器的距离的假设。换句话说,在这种假设下,进入飞行时间管的粒子直接向检测器行进。

由于粒子的初始速度不均匀、瓶颈效应和粒子的不同入射角,粒子通常不从入口缝隙直线地穿过tof室到达检测器。相反,粒子可在到达检测器之前倾斜地进入缝隙并且甚至通常从tof室壁反弹多次。

因此,tof室的长度不是离子化粒子行进距离的综合测量值,而是其能够行进的最小距离。在实施例中,表示行进距离的等式是:

l*√1+β*(d/l)2

其中β是常数,表示每个粒子前往检测器的途中经历的反弹(β=0,行进距离为l,β=1/4、1、4等等)。此假设/等式可提高数据准确性,因为与假设的l=飞行时间管长度的假设相比,其可更准确地描述粒子在质谱中经过的一个或多个可能路径。该等式仅表示指出消除离子或粒子在tof室中前往检测器的非直线路径的方式的一些实施例,因为从本公开能够设想其他实施例。

改进的(或有效)离子路径等式可用于消除离子的非直线行进路径,通过更准确地确定确切质量或代表性质量,消除瓶颈效应的离子分组假设和/或质量强度效应的考虑改善数据分析,因此其改善数据再现性和诊断准确性。与仅直线路径的假设相比,与该离子路径等式和相似概念有关的实施例可以更准确地描述粒子在tof室中可经历的实际路径。与该离子分组假设有关的实施例可消除当离子进入tof室时离子不相同的开始位置。实施例可包含质量产量密度(样本的深度)效应/强度效应分布布型,其还提高数据再现性和诊断准确性。根据实施例,这些数据操控技术既可应用于测试样本,又可应用于数据库中用于参考(比较)的样本,以将两者之间的数据标准化和归一性提高到最高。根据实施例,这样最大化的数据归一性可减少外部因素并可提高数据再现性和诊断准确性。

在maldi-tof中,任何比质量都可能不会以相同的m/z值重复。测量的质量值随测量而不同。为了消除这些变化的m/z峰值,出现于特定范围内的质量峰值(围绕每个质量的几个分箱或每个质量水平的ppm范围)可聚合成代表性质量(有时是质量的中心),并且然后利用一个或多个已知质量的一种或多种校准物质进行校准或调整。在实施例中,为了更加准确,除了标准参考校准物质之外,还可利用dna测序数据库对样本计算理论上可获得的蛋白质质量,并且还可用于标准校准基础。

例如,每个质量等级的百万分率(ppm)范围意味着,例如,10,000道尔顿质量的1000ppm指将10,000*(1-1000*10-6)道尔顿与10,000*(1+1000*10-6)道尔顿范围内的质量计为相同质量。

然而,ppm质量校准技术或其他任意质量间隔存在固有缺陷,并且因此可能由于几个主要原因而产生不准确的数据再现性。例如,(1)较高质量可产生较宽质量散布,(2)附近峰值的分箱可重叠,并且/或(3)用于校准m/z的分箱本征上具有任意性质。

较高的质量可产生较宽的质量散布。maldi-tofms检测器最初不可将数据作为m/z的函数记录可加剧这种现象。相反,maldi-tofms检测器记录粒子的飞行时间,并且然后根据下面的公式将此时间转换为m/z:

其中

通过这种关系,m/z与t2有关,这是二次关系。例如,如果粒子花费1秒钟通过tof室,则其相应的m/z为作为比较示例,如果另一个粒子花费2秒钟通过tof室,则其相应的m/z为同样,对于3秒通过tof,m/z是因为m/z是平方地增大(作为时间的函数)而非线性地增大,所以质量的散布也可呈指数增大(而不是保持相对一致或线性地增大)。

结果,峰值周围的质量分布通常可以是不对称的,因为对于相同的时间散布,较大的质量通常可比较小的质量具有较大的散布。因此,在校准不同质量的粒子的质量时,固定的ppm范围方面不具有相同的效果。

无论是利用ppm分箱还是利用时间分箱来校准质量,无论使用何种范围或判据都可能存在缺陷,因为其可被任意选择。除了经验信息,指出100ppm或86ppm是否是较好的校准分箱范围的信息有限。实施例涉及利用优化的间隔和/或散布计算来减轻任意校准中固有的不确定性,其中利用最高独立性约束优化质量间隔。实施例可采用基于深度学习的算法(例如,人工智能),从而利用算法来确定理想质量或时间分箱,以实现最佳数据再现性和诊断准确性。根据实施例,最佳质量和/或时间分箱可因样本与样本、疾病与疾病以及其他参数而不同。根据实施例,可优化系统以针对每个单独样本/情况选择理想的校准分箱,并且可优化系统以选择一般的理想校准分箱以及其他迭代。根据实施例,可以在测试样本和与其进行比较的数据库样本之间归一化选择的校准分箱。

由于瓶颈效应和引入数据不稳定的其他因素,自然可以看到质量在成分的质量中心周围的散布。在实施例中,当将样本的质量布型数据与用于诊断分析的其他样本中的质量布型数据进行比较时,要做第一件事情是对于其他参考样本数据的相应质量,找到测试样本的标准质量。根据实施例,如果质量匹配不准确,则分析就可能不准确。在实施例中,我们能够将测试样本的每个质量与参考标准化参考质量匹配,但是通常希望测试样本的所有质量与其他样本的参考数据库的相应质量准确匹配是不可能的,也是不切实际的,因为数据布型中质量(或物质)的校准或调整能够同时改变其他质量值,或者用于匹配的某些质量不能用于理论质量信息。在实施例中,此时我们可以尽可能多地开发样本的标准质量列表。在实施例中,第i个质量m(i)的质量中心mc(i)可以与理论质量一起用于确认和进一步校准。

实施例涉及考虑到质量的密度(强度)效应,而非忽略它们。数据匹配问题的另一个来源是仪器本身。由于maldi-tofms的固有特性,每当激光照射在样本上时,数据布型都可不同。由于仪器的几何形状和进入没有电场的室内的粒子的非均匀动能等,相同质量(物质)的每个粒子不会一致地到达检测器。maldi-tofms可以将每个质量的每次激光照射的强度值(将代表性质量周围的质量修改为代表性质量)累加或均化为代表性质量的方式显示数据。在该过程中,所看到的质量值可以是忽略质量的强度效应(密度效应)的质量值,其中强度与该物质或质量的粒子数成比例。同时,可以忽略与激光照射关联的质量和强度分布效应,这可能导致关于一个或多个质量的数量或模式的不正确信息。

即使质量校准期间有小的改变也可对诊断的准确性有不利影响。为了解决该问题,实施例建议使用由质量和强度的原始离散值创建的连续分布概念。强度可视为出现次数。可对每个质量创建概率密度函数,并且连续质量分布布型可用于与其他样本的一个或多个数据布型进行比较。这仅是标准质量分布的可能迭代之一。每个质量可具有其自己的标准质量分布,并且可将样本的质量分布数据布型存储为库db的一部分。总之,每个标准质量的质量密度函数(分布)、每个标准质量的相应强度密度函数(分布)和强度对标准质量分布布型可以构建为每个样本的库。

根据实施例,这些连续分布布型可用于较大数据的再现性和更准确诊断。

在实施例中,假定通过质谱仪的离子的大部分电荷是+1,则质荷比可表示通过室的离子的质量。当离子化分子通过室并击中传感器时,可以测量该质量。机器计算分子到达传感器花费多长时间。

在飞行时间质谱中,势能等于动能(根据能量守恒定律)。

质荷比与时间的平方相关。根据实施例,假定maldi-tof测量离子化分子行进的时间,使用质荷比可能是误导性的。例如,如果m/z=1,m/z=4,则行进的时间量等于1秒和2秒。如果m/z=81,m/z=85,则这两个单元的行进时间是9秒和因此,在质量-强度布型中,每个峰值都可以是不对称的。根据实施例,看到时间对称征的机会比看到质量对称征的机会更多。实施例涉及能够解释质量分布的集中趋势的布型的对称征,这反过使分析更简单并且/或更快捷。

实施例涉及布型中的部分信号噪声可能来自相邻质量粒子之间的重叠效应。根据实施例,重叠可能是不可避免的,因为相同质量的粒子不能以相同的动能(相同的速度)进入没有电场的漂移区,并且/或者它们的轨迹可能不同。在实施例中,即使对粒子施加的势能相同(=z*u),粒子的飞行距离仍将介于没有电场的漂移室的长度l与l*√1+β*(d/l)2之间,其中是与每个粒子的反弹次数和粒子的进入角关联的常数{β=0(最小行程长度l,1/4(中心进入,边缘到达,无反弹),1(边缘进入,边缘到达,无反弹)和4(最大长度,有一次反弹)。在实施例中,如果室内表面可以认为是完全弹性的,并且因此可以认为最多仅一次反弹(换句话说,一次以上反弹到内室上的粒子的数量可忽略不计,并且粒子在检测器中的轨迹可忽略不计)。因此,根据实施例,相对散布δt/t可以是β*(d/l)2,这又可以是tof系统的最大质量间隔。

对所公开的实施例进行各种修改和变更对于本领域技术人员明显且显而易见。所公开的实施例旨在覆盖明显且显而易见的修改和变更,只要这些修改和变更在所附权利要求及其等同的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1