使用流式细胞术数据的人工神经网络分析进行癌症诊断的系统和方法与流程

文档序号:19418907发布日期:2019-12-14 01:13阅读:2320来源:国知局
使用流式细胞术数据的人工神经网络分析进行癌症诊断的系统和方法与流程

交叉引用

本专利申请是于2017年2月28日提交的美国专利申请序列号15/445,913的继续申请,其通过引用整体并入本文。



背景技术:

在人的一生中,大约三分之一的女性和二分之一的男性会罹患癌症。仅在美国,每年就有超过560,000人死于该疾病。早期检测和治疗是目前减少癌症死亡的主要方法,特别是在转移前检测到癌症的情况下。对于几乎所有类型的癌症,如果疾病在晚期发现,则5年相对存活率显著降低。此外,晚期癌症治疗的经济成本可能带来额外的负担。到2020年,癌症治疗费用在美国预计达到每年2070亿美元。因此,癌症的早期检测对于提高癌症存活率和降低治疗成本非常重要。

然而,早期检测的方法通常缺乏灵敏度并且产生许多假阳性和假阴性。假阴性导致错失早期介入的机会,假阳性导致额外的不必要的测试,其中可能包括活检以及其他痛苦、有压力和昂贵的程序。由登记为假阳性的测试受试者承担的整体健康负担可能超过那些从癌症早期检测中受益的患者所获得的益处。对于疾病发病率较低的筛查试验尤其如此。此外,传统的筛查试验如结肠镜检查往往是侵入性的;因此,个体经常抗拒接受它们。因此,需要癌症诊断测试产生明确的结果,成本低且微创,并具有很少的假阴性和很少的假阳性。这样的测试对于复发测试、验证或确认测试以及其他需要在进行昂贵且侵入性的后续程序之前验证癌症的初始指征的情况是有用的。在考虑确认测试时,众所周知,高达95%的活检返回阴性结果(意味着痛苦、昂贵的过程未确认癌症的先前指征)。因此,可以确认活检的必要性或消除活检的必要性的简单、非侵入性、廉价的测试对患者和医疗保健系统来说非常有价值。

目前,称为液体活检的诊断类型正在被研究作为通过分析血液样品或其他容易获得的体液来确定测试受试者中癌症的存在的技术。正在研究血液样品的许多不同特性。这包括脱氧核糖核酸(dna)、核糖核酸(rna)、蛋白质、微小rna、外来体和其他潜在的癌症生物标志物的分析。然而,这些液体活检方法中有许多依赖于昂贵的分析技术,如dna或rna测序。

这些测试通常需要广泛的多重化水平,这使得它们成本昂贵、难以操作,也难以解释。骨髓衍生的抑制细胞(mdsc)是已知与恶性实体瘤的存在高度相关的细胞类型,并且它们在血液中以较低水平存在。研究表明,mdsc在肿瘤环境中聚集,起到抑制对肿瘤的免疫应答的作用。它们在外周循环中的存在被认为是由于这些未成熟细胞从肿瘤溢出进入脉管系统。大量工作已经显示,与癌症相关的mdsc群的移动可以使用流式细胞术(flowcytometry)检测,这是一种廉价、广泛使用且可靠的细胞群分析方法。然而,常规流式细胞术数据分析方法在应用于血液样品中的mdsc时不够准确,无法将mdsc用作公众的癌症检测筛选测试的唯一生物标志物。流式细胞仪(flowcytometer)可以处理悬浮在液体培养基中的含有数十万或更多细胞的样品,并提供样品中每个单个细胞的详细区分信息。流式细胞术数据分析的常规方法依赖于被称为门控的技术。门控是将阈值截止值顺序地应用于多维数据集的一维或二维投影的方法,以分离一个或多个特定群,并计数分离的群中的细胞数。虽然这种方法适用于进行研究和一些诊断应用,但对于癌症检测而言,这种分析方法可能是劳动密集型的、主观的,并导致流式细胞仪输出数据的表示非常粗糙,通常会掩盖或忽略大量关于所有细胞群的相对分布和分离的细胞群的分布形状的可用信息。因此,需要可用于可靠地、经济地且以所需的特异性和灵敏度来鉴别指示癌症的靶细胞的流式细胞仪分析方法。



技术实现要素:

本文描述了涉及流式细胞术数据分析的方法,该方法使用流式细胞仪输出数据来分类细胞群的特性。本文描述了涉及流式细胞术的方法,该方法消除了对细胞群的大多数手动或自动门控的需要。本文描述了涉及流式细胞术数据分析的方法,该方法通过与包括髓样细胞和淋巴样细胞在内的其他细胞群协同分析靶细胞群如mdsc来诊断癌症。本文描述了流式细胞术数据分析的方法,该方法包括多维数据空间中细胞群的计算上有效的表示,其中数据空间的轴是流式细胞仪的测量通道或其变换。该方法可进一步包括神经网络分析,其基于多维数据空间中的靶细胞的分布的学习特性对样品进行分类。本文描述了涉及流式细胞术数据分析的方法,该方法可以在靶细胞分布的整体上进行,因此可以检测通过常规流式细胞术数据门控无法检测到的样品之间的区别。如本文所述的数据分析方法可用于通过检测细胞群和亚群分布差异来进行癌症检测,该差异包括例如存在于从健康受试者和患有癌症的受试者获取的外周血样品中的mdsc亚群的差异。通过提供区分各种细胞类型和检测细胞群差异的灵敏和特异性的方法及设备,可以开发用于受试者或各种患者的早期癌症检测的癌症诊断设备和测定。

在各种实施方案中,特定细胞群检测基于用于分析流式细胞术数据的神经网络。使用本文公开的神经网络分析多维流式细胞术数据的技术包括自动门控,并为以更高的准确度鉴别特定细胞群及其分布提供了新的范例。

在一个方面,本文提供了用于将人工神经网络应用于来自受试者的生物样品中的多个感兴趣事件以生成所述受试者的癌症的医学诊断和治疗推荐的系统和方法,包括:(a)通过计算机执行来自所述受试者的所述生物样品的分析,所述分析包括:1)用流式细胞仪仪器获得所述多个感兴趣事件中的每一个的多个事件特征的测量,2)使用四个或更多个流式细胞仪测量通道来定义特征坐标空间,所述特征坐标空间包括四个或更多个轴,每个轴对应于所述四个或更多个流式细胞仪测量通道中的不同通道,其中所述四个或更多个流式细胞仪测量通道中的每一个产生所述多个事件特征的测量,和3)使用所述多个感兴趣事件的所述多个事件特征的测量来定义所述多个感兴趣事件在所述特征坐标空间中的位置,以形成指示感兴趣事件群的所述特征坐标空间中的分布;(b)通过所述计算机将人工神经网络检测结构应用于指示所述感兴趣的事件群的所述特征坐标空间中的分布,所述检测结构采用人工神经网络来将指示所述感兴趣事件群的所述特征坐标空间中的分布与指示参考事件群的参考特征坐标空间中的分布相关联;(c)通过计算机确定所述生物样品是否含有指示所述受试者的癌症的细胞,从而诊断所述受试者的癌症;(d)通过所述计算机鉴别指示癌症的细胞的特征性细胞特征;以及(e)通过所述计算机自动生成包含所述受试者的癌症的医学诊断和治疗推荐的报告,其中所述生成基于癌细胞特征。

在一些实施方案中,所述自动生成的报告的治疗推荐包括有效量的治疗剂,所述有效量的所述治疗剂施用于所述受试者以治疗所述受试者的癌症。在其他实施方案中,所述人工神经网络包括卷积神经网络。在其他实施方案中,所述方法和系统进一步包括将降维算法应用于所述特征坐标空间,以:(a)生成计算坐标空间,和(b)将所述多个感兴趣事件中的每一个从所述特征坐标空间中的位置映射到所述计算坐标空间中的对应位置。在其他实施方案中,所述计算坐标空间生成有小于特征坐标空间的维度数的维度数。

在一些实施方案中,所述降维算法包括主成分分析。在其他实施方案中,所述多个感兴趣事件包括一个或多个细胞,所述多个事件特征包括一个或多个细胞特征,并且所述感兴趣事件群包括一个或多个感兴趣的细胞群。在其他实施方案中,所述一个或多个细胞特征选自形态学特征、细胞标志物、蛋白质浓度、脂质含量、轴向光损失、光学相位、光学损失及其组合;并且其中所述一个或多个感兴趣的细胞群选自多形核骨髓衍生的抑制细胞(pmn-mdsc)、单核细胞mdsc(m-mdsc)、早期mdsc(e-mdsc)、粒细胞mdsc(g-mdsc)及其组合。在其他实施方案中,所述人工神经网络包括附加测试结果作为输入,其中所述附加测试是前列腺特异性抗原(psa)测试;前列腺特异性膜抗原(psma)测试;癌胚抗原(cea)测试;癌抗原125(ca-125)测试;外周血单个核细胞(pbmc)-嗜中性粒细胞比率测试;另一种蛋白质、核酸或其他生物标志物测试;x射线;或计算机断层成像(ct)扫描。

在一些实施方案中,治疗所述受试者的癌症的所述治疗剂包括放疗、化疗、免疫疗法、靶向疗法、激素疗法、干细胞疗法或其组合。在其他实施方案中,指示所述感兴趣事件群的所述特征坐标空间中的分布由以下形成:(a)将所述特征坐标空间的每个轴分为多个段,从而将所述坐标空间分为多个超体素(hypervoxel);和(b)对于所述多个超体素中的每个超体素,确定包括定位所述超体素中的所述感兴趣事件的事件特征值的感兴趣事件数目的计数。

本文还包括用于将人工神经网络应用于来自受试者的多个生物样品中的第一多个和第二多个感兴趣事件以生成所述受试者的癌症的医学诊断和治疗推荐的系统和方法,包括:(a)通过计算机执行来自所述受试者的多个生物样品的分析,所述分析包括:1)用流式细胞仪仪器获得所述第一多个感兴趣事件中的每一个的第一多个事件特征的第一生物样品的测量,2)使用四个或更多个流式细胞仪测量通道来定义第一特征坐标空间,所述第一特征坐标空间包括四个或更多个轴,每个轴对应于所述四个或更多个流式细胞仪测量通道中的不同通道,其中所述四个或更多个流式细胞仪测量通道中的每一个产生所述第一多个事件特征的测量,3)使用所述第一多个感兴趣事件的所述第一多个事件特征的测量来定义所述第一多个感兴趣事件在所述第一特征坐标空间中的位置,以形成指示第一感兴趣事件群的所述第一特征坐标空间中的第一分布,4)用流式细胞仪仪器获得所述第二多个感兴趣事件中的每一个的第二多个事件特征的第二生物样品的测量值,5)使用多个流式细胞仪测量通道来定义第二特征坐标空间,所述第二特征坐标空间包括多个轴,每个轴对应于所述多个流式细胞仪测量通道中的不同通道,其中所述多个流式细胞仪测量通道中的每一个产生所述第二多个事件特征的测量,和6)使用所述第二多个感兴趣事件的所述第二多个事件特征的所述测量值来定义所述第二多个感兴趣事件在所述第二特征坐标空间中的位置,以形成指示第二感兴趣事件群的所述第二特征坐标空间中的第二分布;(b)通过所述计算机将人工神经网络检测结构应用于指示所述第一感兴趣事件群的所述第一特征坐标空间中的分布,所述检测结构采用人工神经网络来将指示所述第一感兴趣事件群的所述第一特征坐标空间中的分布与第一参考事件群的分布相关联;(c)通过所述计算机将人工神经网络检测结构应用于指示所述第二感兴趣事件群的所述第二特征坐标空间中的分布,所述检测结构采用人工神经网络来将指示所述第二感兴趣事件群的所述第二特征坐标空间中的分布与第二参考事件群的分布相关联;(d)通过所述计算机确定所述生物样品是否含有指示所述受试者的癌症的细胞,从而诊断所述受试者的癌症;(e)通过所述计算机鉴别指示癌症的细胞的特征性细胞特征;以及(f)通过所述计算机自动生成包含所述受试者的癌症的所述医学诊断和治疗推荐的报告,其中所述生成基于癌细胞特征。

在一些实施方案中,本文提供的方法和系统进一步包括使用附加测试结果执行算法计算以改善医学诊断结果。在其他实施方案中,治疗所述受试者的癌症的治疗剂包括放疗、化疗、免疫疗法、靶向疗法、激素疗法、干细胞疗法或其组合。在其他实施方案中,指示所述第一事件群的所述第一特征坐标空间中的分布由以下形成:(a)将所述第一特征坐标空间的每个轴分为多个段,从而将所述第一特征坐标空间分为第一多个超体素;(b)对于所述第一多个超体素中的每个超体素,确定包括定位所述超体素中的所述第一感兴趣事件的事件特征值的第一感兴趣事件数目的计数;(c)将所述第二特征坐标空间的每个轴分为多个段,从而将所述第二特征坐标空间分为第二多个超体素;以及(d)对于所述第二多个超体素中的每个超体素,确定包括定位所述超体素中的所述第二感兴趣特征的事件特征值的第二感兴趣事件数目的计数。在其他实施方案中,指示所述第一事件群分布的所述第一特征坐标空间中的分布包括细胞群分布。

在一些实施方案中,本文提供了用于训练改善的人工神经网络以生成受试者的癌症的医学诊断和治疗推荐的系统和方法,包括:(a)在远程站点处接收受试者样品;(b)用流式细胞仪仪器从所述样品获得流式细胞仪数据;(c)将所述流式细胞仪数据传输至中央储存库;(d)将受试者状态从所述远程站点传输至所述中央存储库;(e)通过计算机使用人工神经网络对中央站点处的所述流式细胞术数据执行分析,以确定所述流式细胞术数据的分类;(f)将所述分类传输至所述远程站点,其中所述分类包括所述受试者的癌症的医学诊断;(g)通过所述计算机自动生成包括所诊断的受试者的癌症的医学诊断和治疗推荐的报告,其中所述生成基于所述医学诊断;以及(h)向所述诊断的受试者施用有效量的治疗剂,以治疗所述诊断的受试者的癌症。

在一些实施方案中,所述系统和方法进一步包括:(a)使用所述受试者状态和所述流式细胞术数据增广训练数据集和目标数据集,和(b)使用增广的训练数据集和增广的目标数据集训练改善的人工神经网络。在其他实施方案中,所述流式细胞术数据获自mdsc细胞群。在其他实施方案中,治疗所述受试者的癌症的所述治疗剂包括放疗、化疗、免疫疗法、靶向疗法、激素疗法、干细胞疗法或其组合。

本文还包括计算机实现的系统,包括:数字处理设备,其包括:至少一个处理器,被配置用于执行可执行指令的操作系统,存储器,以及包括可由所述数字处理设备执行的指令的计算机程序,以创建将人工神经网络应用于来自受试者的生物样品中的多个感兴趣事件的应用程序,从而生成所述受试者的癌症的医学诊断和治疗推荐,其包括:(a)所述多个感兴趣事件中的每一个的多个事件特征的测量,所述测量用流式细胞仪仪器获得;和(b)执行来自所述受试者的生物样品的分析的软件模块,所述分析包括:1)使用四个或更多个流式细胞仪测量通道来定义特征坐标空间,所述特征坐标空间包括四个或更多个轴,每个轴对应于所述四个或更多个流式细胞仪测量通道中的不同通道,其中所述四个或更多个流式细胞仪测量通道中的每一个产生所述多个事件特征的测量,2)使用所述多个感兴趣事件的所述多个事件特征的测量来定义所述多个感兴趣事件在所述特征坐标空间中的位置,以形成指示感兴趣事件群的所述特征坐标空间中的分布,和3)将人工神经网络检测结构应用于指示所述感兴趣事件群的所述特征坐标空间中的分布,所述检测结构采用人工神经网络来将指示所述感兴趣事件群的所述特征坐标空间中的分布与指示参考事件群的参考特征坐标空间中的分布相关联;(c)确定所述生物样品是否含有指示所述受试者的癌症的细胞的软件模块,从而诊断所述受试者的癌症;(d)鉴别指示癌症的细胞的特征性细胞特征的软件模块;以及(e)自动生成包含所述受试者的癌症的所述医学诊断和治疗推荐的报告的软件模块,其中所述生成基于癌细胞特征。

附图说明

专利或申请文件包含至少一幅彩色附图。专利局将在请求并支付必要费用的情况下提供带有彩色附图的本专利或专利申请公开的副本。

本公开内容的新颖特征在所附权利要求书中具体阐述。通过参考以下对其中利用了本公开内容原理的说明性实施方案加以阐述的详细描述及其附图,将会获得对本公开内容的特征和优点的更好的理解,在这些附图中:

图1是提出的从多能干细胞发育骨髓衍生的抑制细胞(mdsc)包括亚型mdsc的图示。

图2a是图示了患有癌症的受试者相比于无癌症的受试者具有显著更高的循环mdsc百分比的图。

图2b是将mdsc百分比与癌症阶段相联系的图,并显示随着癌症进展,循环mdsc的百分比增加。

图2c是报告了每微升血液中mdsc数目增加的显著趋势的图。

图3是流式细胞仪的简化示意图。细胞可以用一种或多种荧光探针标记,并在流体流中以单行通过激光光源。荧光检测器测量标记的细胞发射的荧光。

图4a和图4b是色密度流式细胞术图的示例。在密度图上,每个圆点或点代表单个细胞,事件数目的增加用绿色/黄色/红色表示。这些报告基于细胞的光散射性质来区分细胞。fsc-前向散射;ssc-侧向散射;fitc-异硫氰酸荧光素(荧光标记)。

图5a图示了人工神经网络(ann)中人工神经元的示例。

图5b图示了具有三层的简化人工神经网络(ann)的示例。

图6a图示了用于超体积分布分析的主神经网络的示例。

图6b图示了用于超体积分布分析的主要神经网络,其包括预训练的主网络。

图7图示了在3d数据空间中用三种生物标志物标记的细胞的分布图的示例。

图8a图示了2维的细胞事件位置的示例。

图8b图示了2维的细胞事件分布的示例。

图9图示了3d物体的3d卷积神经网络数据分析流程的示例。

图10图示了创建物体的投影视图并使用多个卷积神经网络进行分析的示例。

图11图示了用于处理较高维数据空间的多个降维子集的卷积神经网络架构的示例。

图12图示了用于分析流式细胞术数据的计算系统的示例。

图13图示了使用本文公开的方法的诊断测试系统的整体系统操作。

图14图示了用于分析附加诊断指示物和除了流式细胞术数据之外的输入类型的增强的神经网络。

图15a和图15b图示了衍生自流式细胞术数据的超体素数据空间的降维。

图16a和图16b图示了来自流式细胞术数据的超体素计数群。

具体实施方式

在生物学研究中表征细胞和细胞群是理解疾病存在和进展的重要步骤。使用流式细胞术来研究细胞,例如癌症研究。本公开内容针对于用于检测外周血中感兴趣细胞的方法和系统。该技术可用于多种条件,例如癌症检测、疾病诊断、疾病分期等。

靶细胞

在各个方面,本文提供了通过分析感兴趣的细胞的特征并将其与靶细胞的特征比较来鉴别感兴趣的细胞和任选地将感兴趣的细胞表征为靶细胞的系统和方法。细胞的特征可以包括细胞的特性,如细胞形态学,以及细胞内和/或与细胞相关的一种或多种生物标志物的存在、缺失或相对量。生物标志物涵盖广泛的生物化学实体,如核酸、蛋白质、脂质、碳水化合物、小代谢物以及细胞遗传学和细胞动力学参数。感兴趣的细胞的特征可用于诊断或以其他方式表征潜在靶细胞从其分离的患者的疾病或病况。如本文所用,分离的细胞是指使用任何分离方法与生物样品中的其他物质隔开的细胞。分离的细胞可以以来自生物样品的富集部分存在,因此其用途并不意味着限于纯化的细胞。在一些实施方案中,分析分离的细胞的形态学。在一些实施方案中,分析包括确定细胞内或细胞表面是否存在生物标志物。在一些实施方案中,分析包括确定细胞内或与细胞相关的生物标志物的水平。对于指示癌症的靶细胞,细胞特征的分析可用于许多方法,包括诊断癌症、确定癌症的阶段、确定癌症的类型以及监测具有给定治疗的癌症的进展。其中一些方法可涉及监测靶细胞特征的变化,其包括生物标志物的增加和/或减少以及/或者形态学的任何变化。

在一些实施方案中,在受试者的生物样品的一部分中分析感兴趣的细胞的特征,其中生物样品已被处理以富集靶细胞。在一些情况下,富集的部分缺少靶细胞,并且富集部分中靶细胞特征的缺失表明这种缺失。靶细胞包括肿瘤相关细胞,如骨髓衍生的抑制细胞(mdsc)和其他骨髓衍生的细胞,以及淋巴细胞,如自然杀伤细胞、t淋巴细胞、b淋巴细胞和其他淋巴细胞。

靶细胞群和群分布

所鉴别的靶细胞聚集形成靶细胞群,并形成靶细胞群分布。这些群可以被认为是点云,其显示特征形状并在多维空间中具有聚集位置。在本文公开的多维空间中,轴由流式细胞术测量通道定义,其流式细胞术测量通道是流式细胞术中的信号测量来源。在流式细胞术中测量的信号可以包括但不限于光学信号和生物标志物测量。光学信号的示例性通道包括但不限于以下一种或多种:前向散射通道、侧向散射通道和激光荧光通道。生物标志物测量的示例性通道包括但不限于以下生物标志物中的一种或多种:b7-h4、ccr2、cxcr4、cxcr2、cd1d、cd1d1、cd3、cd11a、cd11b、cd11c、cd14、cd15、cd16、cd16a、cd16b、cd16、cd19、cd21、cd31、cd32、cd32a、cd32b、cd32b/c、cd32c、cd33、cd34、cd35、cd38、cd39、cd40、cd44、cd45、cd49d、cd56、cd62l、cd62b、cd66b、cd80、cd86、cd115、cd117、cd124、cd162、cd172a、cd192、cd301a、cd301a/b、cd301b、补体成分c5ar1、emr1、f4/80、半乳凝素-3、gp130、gf-1、hla-dr-、icam-1/cd54、il1ri、il4rα、il-6rα、lox-1、ly6、m-csfr、一氧化氮、kit、lin-、mhci、pd-l1、tie2、转铁蛋白r、vegfr1、vegfr2、精氨酸酶i、b7-h4、clec5a、hla-dr、mrp-14、nf-kbp50、ship-1、stat1、stat3、lox1和整联蛋白α4β1。

所有流式细胞术仪器通道或通道的子集可用于多维空间中的轴。当其单个细胞成员的通道值改变时,特别是当群中的大量细胞改变了通道值时,可以认为细胞群在多维通道空间中已经改变。例如,当在不同时间从同一个体获取样品时,可以看到表示细胞群的点云在二维(2d)点图或强度图上的位置变化。类似地,表示细胞群的点云可以在多维空间中移动、平移、转动或以其他方式改变形状。虽然常规门控提供门区域内的总细胞计数,但多维空间中的某些细胞群点云的位置和其他空间参数除了提供总细胞计数外还提供可用于区分正常受试者(例如,无癌症的受试者)和癌症患者(例如,患有癌症的受试者)的其他信息。

骨髓衍生的抑制细胞

在多维流式细胞仪通道空间中形成分布的示例性细胞群是骨髓衍生的抑制细胞(mdsc)。mdsc是一组具有免疫抑制能力的病理激活的未成熟髓样细胞。mdsc通常被定义为未成熟髓样细胞(例如未成熟髓样细胞和祖髓样细胞),不同于终末分化的成熟髓样细胞。mdsc在形态学和表型上类似于单核细胞,如单核细胞mdsc(m-mdsc)和多形核(pmn)嗜中性粒细胞,如多形核mdsc(pmn-mdsc)。它们在功能上基于对t细胞功能的抑制和活力而定义,但它们可以表现出较宽的表型、功能和形态异质性。

外周血中mdsc群体的扩充已显示与肿瘤生长有关。mdsc亚群的绝对和相对分布可用于提供癌症的存在、缺失或阶段的指示。例如,早期mdsc(e-mdsc)、pmn-mdsc和m-mdsc可以形成可用于癌症诊断的亚群分布。

图1示出了衍生自多能干细胞中的髓样细胞和淋巴细胞的一种提议的发育树。mdsc被认为与粒细胞和单核细胞发育序列不同,在获得免疫抑制功能的同时仍然保持未成熟。e-mdsc亚群被认为在粒细胞发育序列中较早分支,并可从分支较晚的pmn-mdsc亚群分离。一旦偏离标准发育序列,它们就停止了向成熟髓样细胞的分化。循环mdsc的增加已显示与临床癌症阶段和转移性肿瘤负荷正相关(图2a、图2b和图2c)。肿瘤细胞产生的因子通过刺激髓细胞形成和抑制成熟髓样细胞的分化来促进mdsc的扩充。mdsc还显示被激活的t细胞产生的因子激活。

流式细胞术

本文提供了通过分析感兴趣细胞的特征来鉴别感兴趣的细胞和任选地将感兴趣的细胞(例如,感兴趣的事件)表征为靶细胞的系统和方法。在一些情况下,感兴趣的细胞是mdsc细胞。在一些情况下,使用骨髓衍生的抑制细胞的一种或多种生物标志物来区分该细胞与另一种肿瘤衍生的细胞或非肿瘤衍生的细胞。在一些情况下,使用流式细胞术来测量细胞的特征,如细胞内和/或与细胞相关的一种或多种生物标志物的存在、缺失或相对量,或通过区分感兴趣的靶细胞的物理或功能特性。

使用如本文所述的系统和方法鉴别的感兴趣的细胞包括与疾病或非疾病状态有关的细胞类型。示例性的细胞类型包括但不限于包括癌症干细胞在内的所有类型的癌细胞、心肌细胞、树突细胞、内皮细胞、上皮细胞、淋巴细胞(t细胞、nk细胞和b细胞)、肥大细胞、嗜酸性粒细胞、嗜碱性粒细胞、嗜中性粒细胞、自然杀伤细胞、红细胞、肝细胞、包括单核白细胞在内的白细胞,以及干细胞如造血、神经、皮肤和单核细胞干细胞。在一些情况下,感兴趣的细胞是淋巴系或衍生细胞、成髓细胞系或衍生细胞、神经干细胞系或衍生细胞、内胚层干细胞系或衍生细胞、间充质干细胞系或衍生细胞中的至少一种。在一些情况下,感兴趣的细胞是疾病状态细胞,如癌细胞。在一些情况下,感兴趣的细胞是循环细胞,如循环肿瘤细胞(ctc)。

在一些情况下,通过细胞形态学、细胞体积、细胞大小和形状、细胞组分(如总dna、新合成的dna)的量、基因表达为特定基因的信使rna的量、特定表面受体的量、细胞内蛋白质的量、细胞中的信号传导事件或结合事件中的至少一种的变化来鉴别感兴趣的细胞。在一些情况下,感兴趣的细胞通过存在或缺失诸如蛋白质、脂质、碳水化合物和小代谢物等生物标志物来鉴别。

使用如本文所述的方法和系统测量的细胞内和/或与细胞相关的生物标志物的非限制性示例是b7-h4、ccr2、cxcr4、cxcr2、cd1d、cd1d1、cd3、cd11a、cd11b、cd11c、cd14、cd15、cd16、cd16a、cd16b、cd16、cd19、cd21、cd31、cd32、cd32a、cd32b、cd32b/c、cd32c、cd33、cd34、cd35、cd38、cd39、cd40、cd44、cd45、cd49d、cd56、cd62l、cd62b、cd80、cd86、cd115、cd117、cd124、cd162、cd301a、cd301a/b、cd301b、补体成分c5ar1、emr1、f4/80、半乳凝素-3、gp130、gf-1、hla-dr-、icam-1/cd54、il1ri、il4rα、il-6rα、lox-1、ly6、m-csfr、一氧化氮、kit、lin-、mhci、pd-l1、tie2、转铁蛋白r、vegfr1、vegfr2和整联蛋白α4β1。备选地或组合地,通过流式细胞术测量信号传导蛋白。例如,信号传导蛋白包括但不限于激酶、激酶底物(例如,磷酸化底物)、磷酸酶、磷酸酶底物、结合蛋白(如14-3-3)、受体配体和受体(例如,细胞表面受体酪氨酸激酶和核受体)。

在一些情况下,测量生物标志物的存在。或者,测量生物标志物的缺失。在一些情况下,测量生物标志物的相对量。例如,确定mdsc上表面标志物如cd11b、cd15、cd66或cd14的存在。在一些情况下,确定mdsc上表面标志物cd14、hla-dr或cd15的缺失。有时,mdsc的表面标志物的表达是相对量的,如对于hla-dr。

在一些情况下,通过血液抽取、骨髓抽取或组织提取从受试者获得细胞。通常,细胞从受试者的外周血获得的。有时,使用密度离心将血液样品离心,以获得单核细胞、红细胞和粒细胞。在一些情况下,用抗凝剂处理外周血样品。在一些情况下,将外周血样品收集在或转移至含有抗凝剂的容器中。抗凝剂的非限制性示例包括肝素、肝素钠、草酸钾、edta和柠檬酸钠。有时用红细胞裂解剂处理外周血样品。

备选地或组合地,通过多种其他技术获得细胞,并包括诸如骨髓、实体瘤、腹水、洗涤物等来源。在一些情况下,使用外科手术从受试者获取组织。组织可以是固定的或不固定的、新鲜的或冷冻的、完整的或解聚的。例如,组织的解聚可以机械地或酶促地发生。在一些情况下,对细胞进行培养。培养的细胞可以是发育的细胞系或衍生自患者的细胞系。细胞培养的过程是本领域公知的。

如本文所述的系统和方法可涉及分析来自受试者的一种或多种样品。样品可以是允许分析不同离散细胞群的任何合适的类型。样品可以是允许分析单个细胞群的任何合适的类型。样品可以从受试者一次或多次获得。可以从个体的不同位置(例如,血液样品、骨髓样品和/或组织样品)、在个体的不同时间(例如,用于诊断疾病或监测病理病况复发的一系列样品)或其任何组合获得多个样品。基于样品类型、位置和取样时间的这些和其他可能的取样组合允许检测病理前或病理细胞的存在并监测疾病。

当样品作为一系列(例如,在治疗后获得的一系列血液样品)获得时,该样品可以以固定间隔获得,间隔由最近的一个或多个样品的状态、由个体的其他特性或其某种组合来确定。例如,样品可以以大约1、2、3或4周的间隔,以大约1、2、3、4、5、6、7、8、9、10或11个月的间隔,以大约1、2、3、4、5或大于5年的间隔,或其某种组合获得。

为了使用本文所述的方法和系统制备用于分析的细胞,可以在单细胞悬浮液中制备细胞。对于贴壁细胞,机械或酶消化和适当的缓冲液均可用于从细胞所粘附的表面去除细胞。然后可将细胞和缓冲液汇集至样品收集管中。对于悬浮生长的细胞,可将细胞和培养基汇集至样品收集管中。可以通过在合适的缓冲液中离心来洗涤贴壁细胞和悬浮细胞。可以将细胞沉淀重新悬浮在适当体积的合适缓冲液中,并使其通过细胞过滤器来确保单个细胞在合适缓冲液中的悬浮。然后可以在对所制备的样品使用流式细胞术系统执行方法之前将样品涡旋。

一旦收集了细胞样品,就可以对它们进行加工和储存以供以后使用、加工并立即使用或者仅立即使用。在一些情况下,加工包括各种处理、分离、纯化、过滤或浓缩方法。在一些情况下,使用新鲜或冷冻保存的血液、骨髓、外周血、组织或细胞培养物样品进行流式细胞术。

当储存样品供以后使用时,可以通过在细胞制备管如bdvacutainercpttm(becton,dickinsonandcompany)中收集样品,并在收集4小时或类似的时间内离心管而使其稳定化。使用该程序可以保持mdsc与非mdsc嗜中性粒细胞之间的分离,非mdsc嗜中性粒细胞可以在较长时期内被激活,从而改变其密度并在随后的离心过程中与mdsc混合。

在一些情况下,通过流式细胞术测量的细胞数目为约1,000个细胞、约5,000个细胞、约10,000个细胞、约40,000个细胞、约100,000个细胞、约500,000个细胞、约1,000,000个细胞或多于1,000,000个细胞。在一些情况下,通过流式细胞术测量的细胞数目为至多约1,000个细胞、至多约5,000个细胞、至多约10,000个细胞、至多约40,000个细胞、至多约100,000个细胞、至多约500,000个细胞、至多约1,000,000个细胞或多于1,000,000个细胞。

细胞通常用荧光团缀合的抗体标记,所述抗体识别与细胞相关的生物标志物。细胞可以是固定的或活细胞。在一些情况下,荧光团缀合的抗体识别细胞表面抗原。在一些情况下,荧光团缀合的抗体识别细胞内生物标志物。通常,对于标记细胞内标志物的通过荧光团缀合的抗体,细胞被固定并被透化。

通常,流式细胞术涉及使单个细胞通过一个或多个激光束的路径。通过光电倍增管检测光束的散射和附接至细胞或在细胞内发现的任何荧光分子的激发,以产生可读的输出。滤光器和分束器通常将各种散射光引导至检测器,检测器生成与所接收的光信号强度成比例的电子信号。可以收集数据,将其存储在计算机存储器中,并基于荧光和光散射性质分析细胞特性。在一些情况下,流式细胞术涉及单个样品的分析或涉及高通量筛选,例如,96孔或更大的微量滴定板。

如图3所示,细胞可以用一种或多种荧光团标记,然后用一种或多种激光激发,从而以一种或多种荧光团发射频率来发射光。在一些情况下,当细胞同时通过多个激光束时测量荧光。可以同时使用几种检测元件,例如荧光团缀合抗体或荧光标记,因此,当一个细胞通过激光束时进行的测量可以由散射光强度以及来自每个荧光团的光强度组成。例如,使用至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或更多种荧光标记。在一些情况下,使用荧光标记的组合。单个细胞的表征可以包括一组测量的光强,其可以表示为多维空间(例如,特征坐标空间)中的坐标位置。坐标轴的数目(空间的维度)通常是所使用的荧光团的数目加上一个或多个前向散射或侧向散射测量。

可以使用符合本申请的几种类型的荧光团。非限制性示例是alexa-fluor染料(例如,alexa350、alexa405、alexa430、alexa488、alexa500、alexa514、alexa532、alexa546、alexa555、alexa568、alexa594、alexa610、alexa633、alexa647、alexa660、alexa680、alexa700、和alexa750)、apc、级联蓝、级联黄和r-藻红蛋白(pe)、dylight405、dylight488、dylight550、dylight650、dylight680、dylight755、dylight800、fitc、太平洋蓝、percp、罗丹明、德克萨斯红、cy5、cy5.5和cy7。

在荧光测量之外备选地或组合地,流式细胞术可以测量细胞大小、细胞体积、细胞形态学、细胞粒度、细胞组分(如总dna、新合成的dna)的量、基因表达为特定基因的信使rna的量、特定表面受体的量、细胞内蛋白质的量或者细胞中的信号传导或结合事件。在一些情况下,通过基于荧光水平通过流式细胞术进行的细胞分析与其他流式细胞术可读输出(如粒度或细胞大小)的测定相结合,以提供多种元件的激活水平与通过单个细胞流式细胞术可测量的其他细胞质量之间的相关性。

在一些情况下,流式细胞术数据呈现为单参数直方图。备选地或附加地,流式细胞术数据表示为称为细胞图的参数的二维(2d)绘图。通常在细胞图中,描绘两个测量参数,如一个在x轴上,一个在y轴上。在一些情况下,所描绘的参数包括侧向散射信号(ssc)、前向散射信号(fsc)和荧光中的至少一种。在一些情况下,细胞图中的数据显示为点图、伪彩色点图、等高线图或密度图中的至少一种。例如,关于感兴趣的细胞的数据由感兴趣的细胞在等高线图或密度图中的位置确定。等高线图或密度图可以表示许多共享特性如特定生物标志物的表达的细胞。

流式细胞术数据通常通过门控进行分析。细胞的亚群通常被门控或在图中划分。门控可以手动或自动执行。举非限制性示例而言,手动门控可以采用多边形、正方形或将细胞图分成象限或者其他分段测量的形式。在一些情况下,操作者可以创建或手动调整划界,以生成新的细胞亚群。备选地或组合地,门控自动执行。门控可以在一些部分手动执行或在一些部分自动执行。

在本文公开的方法和设备的一些情况下,使用计算平台执行门控。计算平台可以配备有用户输入和输出特征,其允许对感兴趣的细胞进行门控。计算平台通常包括已知组件,如处理器、操作系统、系统存储器、存储器存储设备、输入-输出控制器、输入-输出设备和显示设备。在一些情况下,计算平台包括非暂时性计算机可读介质,在其上具有用于执行各种计算机实现的操作的指令或计算机代码。

在一些情况下,门控涉及使用散射信号,例如前向散射(fsc),以区分亚细胞碎片与感兴趣的细胞。在一些情况下,从多个细胞或细胞簇门控出单个细胞。在一些情况下,样品中的细胞可以从基于细胞活力的分析中单独门控。例如,使用门控通过细胞染色来在群体中选择活细胞并排除死亡或垂死的细胞。示例性的染色剂是4′,6-二脒基-2-苯基吲哚(dapi)或hoescht染色剂(例如,hoescht33342或hoescht33258)。在一些情况下,将门控应用于至少一种荧光标记以鉴别感兴趣的细胞。在一些情况下,将门控应用于不同的荧光标记组合以鉴别感兴趣的细胞。在一些情况下,门控细胞的子集以供进一步分析或鉴别与相同状态相关的细胞。

在一些情况下,通过在同一图上叠加一个参数的直方图来进行一组流式细胞术样品的变化的比较。例如,阵列式流式细胞术实验包含参考样品,实验样品与其进行比较。然后可以将该参考样品置于阵列的第一位置,随后的实验样品遵循按顺序的对照。参考样品可包括正常细胞和/或与病况相关的细胞(例如,肿瘤细胞)。

在一些情况下,在分析数据之前,确定感兴趣的细胞群以及表征这些群的方法。例如,细胞群是同质的或谱系门控的,以这样的方式对于感兴趣的靶标产生被认为是同质的不同集合。样品水平的比较的示例是鉴别受试者的肿瘤细胞中的生物标志物谱,以及这些谱与非病变细胞中的生物标志物谱的相关性。在一些情况下,映射异质群体中的单个细胞。这种情况的示例是在某些条件下对混合骨髓细胞进行映射,并随后用谱系特异性标记对计算鉴别的细胞簇进行比较。

在流式细胞术之外备选地或组合地,通过其他分光光度手段鉴别靶细胞,包括但不限于至质谱细胞术、细胞离心涂片或免疫荧光。免疫荧光可用于通过使用识别与细胞相关的抗原的抗体来鉴别细胞表型。可以以多种方式实现抗体-抗原相互作用的可视化。抗体可以与能够催化生色反应的酶如过氧化物酶缀合。或者,抗体可以标记到荧光团,如荧光素或罗丹明。

本文所述的方法适用于可确定细胞的细胞生物标志物谱与来自个体的样品中的疾病易感性、诊断、预后和/或疗程的确定之间的相关性的任何状况。细胞上的细胞表面生物标志物的鉴别可用于对受试者中的一种或多种细胞进行分类。在一些情况下,分类包括将细胞分类为与临床结果相关的细胞。临床结果可以是病况的预后和/或诊断,以及/或病况的分期或分级。在一些情况下,细胞的分类与患者对治疗的反应相关。在一些情况下,细胞的分类与最小残留疾病或出现的耐药性相关。或者,细胞的分类包括将反应与潜在药物治疗相关联。

通常,如本文所述的方法和系统用于疾病的诊断。在一些情况下,疾病是癌症,如乳腺癌、宫颈癌、卵巢癌、结直肠癌、黑素瘤、肉瘤、子宫内膜癌、膀胱癌、肾癌、胃癌、甲状腺癌、恶性淋巴瘤、肺癌、前列腺癌、肝癌和胰腺癌。在一些情况下,将对应于疾病状态的靶细胞的第一生物标志物谱与对应于非疾病状态的第二生物标志物谱进行比较。

流式细胞术数据分析

在各种实施方案中,本文所述的系统、方法、介质和网络包括使用流式细胞术仪器(也称为流式细胞仪)收集流式细胞术数据。流式细胞术是分析流体中粒子的物理和化学特性的技术,该流体中的粒子在流中通过至少一个激光束。使用流式细胞术分析细胞特性的一种方法是用荧光团标记细胞,然后用至少一种激光激发荧光团从而以荧光团发射频率发射光。当细胞同时通过一个或多个激光束时,测量荧光。当细胞通过液体流中的激光束时,可分析每秒多达数千个细胞。可以测量细胞的特性,如它们的粒度、大小、荧光响应和内部复杂性。流式细胞术仪器的示例性布局如图3所示。

流式细胞仪仪器

流式细胞仪仪器通常包括三个主要系统:流体、光学和电子学。流体系统可将流体流中的细胞运输通过激光束,细胞在该激光束处被照射。光学系统可以由激光组成,当流中的细胞通过激光并散射来自激光的光时,激光照射流中的细胞。当荧光团存在于细胞上时,其将以其特征频率发出荧光,然后通过透镜系统来检测荧光。前向散射方向和侧向散射方向上的光强度可用于确定细胞的大小和粒度(即,内部复杂性)。光学滤波器和分束器可将各种散射光信号引导至适当的检测器,检测器生成与接收到的光信号的强度成比例的电子信号。从而数据可以在每个细胞上收集,可以存储在计算机存储器中,然后可以基于这些细胞的荧光和光散射性质分析它们的特性。电子系统可以将检测到的光信号转换成可由计算机处理的电子脉冲。可以鉴别和测量整个细胞样品内不同子集的数量和信号强度的信息。

目前,除了具有6种侧向和前向散射性质之外,还可以同时对用至多17种或≥17种荧光标记进行标记的样品进行流式细胞术检测。因此,数据可包括至多17个或至少17、18、19、20、21、22或23个通道。因此,单次样品运行可以产生较大的数据集以供分析。

流式细胞术数据可以以单参数直方图或以参数的二维绘图的形式呈现,该二维绘图通常被称为细胞图,其显示两个测量参数,一个在x轴上,一个在y轴上,细胞计数作为密度(点)图或等高线图。图4a和图4b示出了二维图和一些门的示例。在一些实施方案中,参数是侧向散射(ssc)强度、前向散射(fsc)强度或荧光。ssc和fsc强度信号可分类为面积、高度或宽度信号(ssc-a、ssc-h、ssc-w和fsc-a、fsc-h、fsc-w),并表示由流式细胞仪电子器件测量的光强度脉冲的面积、高度和宽度。前向和侧向散射信号的面积、高度和宽度可以提供关于细胞在通过测量激光器时的大小和粒度或内部结构的信息。在进一步的实施方案中,使用由前向和侧向散射强度的各种特征以及特定通道中的荧光强度组成的参数作为直方图或细胞图的轴。在一些应用中,生物标志物也表示维度。细胞图以各种形式显示数据,如点图、伪彩色点图、等高线图或密度图。

通过检测生物标志物和光强度散射参数,可以将数据用于计数特定群体中的细胞。当生物标志物的荧光发射光的强度达到特定阈值水平时,将检测到该生物标志物。

门控

流式细胞术数据可以使用称为门控的程序进行分析。门是操作者在细胞图上绘制的区域,以选择性地聚焦于感兴趣的细胞群。例如,参考图4a和图4b,绘制了感兴趣的区域。

门控通常使用光散射强度性质开启。这允许通过相对大小将亚细胞碎片与感兴趣的细胞区分开,由前向散射指示。该第一步有时被称为形态学。可能进行的下一步是分离出无法根据其进行准确鉴别的双联体和细胞丛,仅留下单体。门控的第三步可以选择出活细胞,并排除群体中死亡或垂死的细胞。这通常使用细胞图进行,其中前向散射作为x轴,dapi(4′,6-二脒基-2-苯基吲哚)染色强度作为y轴。dapi对细胞核染色,细胞核仅在死亡或垂死的细胞中可进入,因此显示显著dapi染色的细胞可能不被选择。随后的门控可以涉及使用直方图或细胞图,将其重复应用于不同的标志物组合,以最终仅选择具有鉴别该细胞群的所有感兴趣的标志物的那些细胞群。

门区域可以采用多边形、正方形的形式,将细胞图分成象限或分部,以及多种其他形式。在每种情况下,操作者可以决定将针对每个标记分离阳性和阴性群体的阈值位于何处。存在起因于样品队列中的个体差异、采集后样品制备的差异以及其他来源的许多变化。因此,本领域公知,即使在高技能操作者之间,流式细胞术数据门控的结果也存在显著变化。

自动分析

在各种实施方案中,本文所述的系统、方法、介质和网络包括使用或分析来自流式细胞术仪器的多维流式细胞术数据。在一些实施方案中,多维流式细胞术数据处于至少两个、三个、四个、五个、六个或七个维度。多维流式细胞术数据可包括以下一种或多种:前向散射(fsc)信号、侧向散射(ssc)信号或荧光信号。信号的特性(例如,振幅、频率、振幅变化、频率变化、时间依赖性、空间依赖性等)也可以按维度来处理。在一些实施方案中,荧光信号包括红色荧光信号、绿色荧光信号或两者。在实施方案中可以包括具有其他颜色的任何荧光信号。

在一些实施方案中,本文所述的系统、方法、介质和网络包括鉴别多维流式细胞术数据中的门区域。很难定义标准操作程序来指导人类操作者进行手动门控。手动门控的主观性经常导致不同操作者甚至是由于单个操作者在不同时间的表现不同而引入的偏差。自动门控最大限度地减少由于个体间变化和单个操作者随时间的表现变化而导致的门控结果变化。流式细胞术数据分析的计算机化算法相比于人类专家得出的结果实现更加一致的门控结果。在一些实施方案中,试图使用监督算法模拟手动门控决策。一旦进行配置,监督门控算法相比于人类操作者进行的门控产生具有大幅减小的可变性的结果。不同算法之间的门控结果的变化通常超过10%,因此一些实施方案考虑不同算法的集合以产生更好的门控结果。

用于流式细胞术数据分析的人工神经网络

人工神经网络(ann)是一种可以学习输入数据集和目标数据集之间的关系的计算系统。ann是人类神经系统的一部分的简化数学表示,旨在捕获其“学习”和“泛化”能力。ann是人工智能领域的主要基础。由于ann可以模拟其中变量之间的关系未知或非常复杂的高度非线性系统,因此在研究中得到了广泛应用。使用数据集和目标训练来ann。数据集通常分为训练集、测试集和一些情况下的验证集。指定包含数据集中每个样品的正确分类的目标。特别地,可以在输入数据集上训练称为前馈反向传播分类器的神经网络类型,以根据目标将输入样品分类为属于预定义的类别。将来自多个类别的样品集重复呈现给ann分类器输入,并且对于训练过程中呈现的每个样品,将ann生成的输出与期望目标进行比较。计算目标与输入样品集之间的差异,并使用反向传播算法修改ann,以使输出更接近于期望的目标值。在大量训练迭代之后,ann输出将与输入训练集中每个样品的期望目标密切匹配。

随后,当训练过程中未使用的新样品被呈现给ann时,ann可以生成输出分类值,该输出分类值指示新样品最可能属于哪种类别。ann据称能够从其训练“泛化”到新的、以前未见过的输入样品。ann的这一特征允许将它们用于对几乎任何输入数据进行分类,这些输入数据与其应该分配的类别具有可数学公式化的关系。

神经网络由一系列神经元层组成。ann中的典型神经元如图5a所示。如图5b所示,存在输入层,向其呈现数据;一个或多个内部层或“隐藏”层;以及输出层。神经元可以通过具有权重的连接而连接至其他层的神经元,该权重是控制连接强度的参数。每层的神经元数目可能与待解决问题的复杂性有关。层中所需的神经元的最小数目可以由问题复杂性决定,并且最大数目可以受到神经网络泛化能力的限制。过多的神经元数目可以改善训练集的表现,但可能导致关于新样品的表现较差。具体示例中的实际数目通常通过试错过程遵循本领域公知的一般规则来确定。输入神经元可以从呈现的样品接收数据,并通过连接权重将该数据传输到第一隐藏层,该连接权重在训练期间进行修改。第一隐藏层可以处理数据并通过第二加权连接集将其结果传输到下一层。每个后续层可以将来自先前层的结果“汇集”成更复杂的关系。

虽然传统的软件程序需要编写特定的指令来执行功能,但ann可以通过用已知的样品集训练它们并允许它们在训练过程中自我修改来进行编程,从而提供诸如分类值等期望输出。训练后,当向它们呈现新的样品数据时,它们可以泛化它们在训练期间学到的知识,以便能够对新的以前未见过的数据进行分类。

ann已被应用于医学中的许多问题,包括图像分析、生化分析、药物设计和诊断。ann最近开始用于医学诊断问题。ann能够鉴别患者数据与疾病之间的关系,并仅根据输入到ann的客观数据生成诊断。输入数据通常会由症状、生化分析和其他特征如年龄、性别、病史等组成。输出将由诊断组成。在医学诊断中使用ann的一些示例包括(来自j.appl.biomed.11:47-58,2013doi10.2478/v10136-012-0031-xissn1214-0287):

然而,一般情况下,这些方法将症状、生化分析和诸如年龄、性别、病史等的其他特征用作诊断输入数据,与医疗专业人员使用的诊断数据相同。本文公开了新方法,其将未处理的数据作为多维空间的特征呈现给ann,并根据输入样品在该多维空间的分布对输入样品进行分类。

通过分析超体积中的数据分布进行分类

流式细胞仪以对于在特定流式细胞仪配置中使用的每个荧光通道的每个细胞测量的荧光强度的测量的形式输出数据。这些通道值可以表示在激光侧向散射、前向散射以及一种或多种免疫荧光标记方面测量的细胞值。由流式细胞仪产生的数据可以包括在每个流式细胞仪通道中对每个测量的事件或细胞的测量。使用这些测量通道值作为由流式细胞仪的各种物理特征和荧光通道定义的轴上的位置,每个细胞可以在如此定义的数据空间中具有指定位置。如图7中的3个维度所示,细胞位置聚集形成由一个或多个细胞群组成的点云或云。类似地,在较高维数据空间中具有位置的细胞群将形成具有较高维度形状的分布,这些分布难以图示,但在数学上很容易检测。

超空间是具有4个或更多维度的坐标空间,每个维度具有由超空间的基向量定义的相关坐标轴。超空间的每个坐标轴可以细分为若干段。这些段可以在轴的不同区域具有相等的长度或具有不同的长度,以在超空间的不同区域中实现不同的分辨率和不同大小的超体素。不同的轴可以具有相同大小的段或不同大小的段,这使不同的轴能够具有不同的分辨率。超空间可以具有称为超体积的区域。超体积可以分为称为超体素的子体积。超体素的每个边缘对应于一个超空间坐标轴上的段。当超空间的超体积被分成超体素时,该超体积中的每个点都有落入超体积中的一个超体素的位置。对于在超空间坐标系的每个轴上具有将点置于已分为超体素的超体积中的值的点,该点将位于特定的超体素中。流式细胞术数据的每个通道可以用作超空间的一个轴,其可以被分成若干超体素。在一个实施方案中,每个轴被分成少量的多个段,例如4至8个。例如,具有3个轴,每个轴被分成8个段的3d空间将具有8x8x8=512个体素。该3d空间中的任何点都将位于其中一个体素中。类似地,具有7个轴,每个轴被分成8个段的超空间将具有87或2,097,152个超体素,并且该空间中的任何点将位于其中一个超体素中。如果多个点在同一个超体素中,则会有与该超体素相关的点计数。

通常将流式细胞术数据记录为对多个(例如,大量)感兴趣事件中的每个事件在多个通道上的同时测量的集合。事件可以对应于可以悬浮以通过流式细胞术分析的任何类型的颗粒。在一些实施方案中,多个感兴趣的事件可包括一个或多个细胞。在一些实施方案中,可以在生物样品中检测多个感兴趣的事件。当事件是用多个抗体-荧光团缀合物标记的活细胞时,可以认为每个细胞处于多维超空间中的特定位置,其中超空间的轴是测量通道,并且细胞的位置由每个通道中的测量幅度给出。可以确定每个超体素中有多少个细胞的计数。每个超体素的所有计数的集合提供了包含测量样品的细胞群集合的超空间分布的详细描述。可以设计神经架构,其使用该超体素计数的集合作为输入。

数据可以以二维矩阵的形式表示,其中用于训练、验证或测试的各个样品处于列中,并且特征以行形式表示。流式细胞术数据可以以标准格式fcs文件的形式从流式细胞仪导出。可以使用流式细胞术数据分析程序来仅选择活细胞。这可以手动或自动完成。在windows或macos操作系统下在pc上运行的合适的和可商购的流式细胞术数据分析程序包括flowjo,llc的flowjotm,denovosoftware的fcsexpresstm或beckmancoulterlifesciences的kaluzaanalysissoftwaretm

具有不同轴的多个超空间可以从单个个体的样品构建。例如,如果将血液样品用作原始样品来源,则可将其分为第一子样品和第二子样品,第一子样品用一组抗体-荧光团缀合物染色,该抗体-荧光团缀合物被设计用于使用流式细胞术鉴别骨髓衍生的抑制细胞(mdsc)以产生第一填充的超空间,并且第二子样品用一组抗体-荧光团缀合物染色,该抗体-荧光团缀合物被设计用于使用流式细胞术鉴别淋巴细胞以产生第二填充的超空间。这两个填充的超空间可以同时表示为神经网络架构的两个不同的输入层和第一隐藏层,如图6a所示。可以对另外的子样品进行染色,以鉴别任何感兴趣的细胞群,从而创建可以用作神经网络架构的输入的多个超空间。

健康供体中的mdsc群可能由于慢性病况而增加,但这通常会导致淋巴细胞群同时增加。然而,在癌症患者中,增加的mdsc群将抑制t细胞群。因此,通过允许神经网络同时具有mdsc和淋巴细胞超空间细胞群,作为输入可用的分布可以增强神经网络区分癌症阳性和阴性个体的能力。

当存在多个输出分类时,例如,当存在多个待分类的癌症类型时,在神经网络分类应用的预处理步骤中通常使用线性判别分析(lda)作为降维技术。一般的lda方法与主成分分析非常相似,但代替找到使所有样品方差最大化的组分轴(pca),lda找到使多个分类例如正常和患有各种类型的癌症的癌症患者之间的分离最大化的轴。lda的目标是将特征空间(n维样品的数据集)投影到较小的子空间k(其中k≤n-1),同时维持分类判别信息。通常,降维降低了给定分类任务的计算成本,但其还有助于通过使参数估计中的误差最小化来避免过度拟合。

线性判别分析(lda)和主成分分析(pca)都是常用于降维的线性变换技术。pca是“无监督”算法,因为它“忽略”分类,其目标是找到使数据集方差最大化的方向(所谓的主成分)。与pca形成对比,lda是“监督的”,并计算将代表使多个分类之间的分离最大化的轴的方向(“线性判别”)。通常将lda和pca结合使用,其中首先对整体数据集计算pca以降低维度,然后计算lda。

在对数据集进行pca后,以五个步骤执行lda。首先,计算每个分类(正常和癌症患者)的平均向量mi(i=1,2)。对于将7个流式细胞仪通道作为轴(维数),这将是2x7矩阵,其行是7个通道,并且其列是7个通道中每个通道的平均值。如果要使用两个以上的分类,例如,如果要使用人工神经网络来区分正常和癌症类型,或癌症阶段,则每个期望的分类将有一列。通常,lda计算如下进行。类内散射矩阵sw通过下式计算:

其中每个分类的散射矩阵由下式给出

并且mi是平均向量

类间散射矩阵sb通过下式计算:

其中m是总体平均值,mi和ni是各个分类的样品均值和大小。

下一步是求解矩阵的特征值问题

以获得线性判别式。我们接下来选择由此获得的特征向量的最高方差值,获得特征向量矩阵w,我们将其用于将原始样品集变换为新的数据空间

y=x×w

其中x是包含样品数据的矩阵,y是包含经变换的样品的矩阵。对于每个样品,样品中的所有事件都由此变换到新的数据空间中。每个样品在相同的新数据空间中生成变换矩阵。然后用这些样品替换原始流式细胞仪数据空间中的样品数据,训练人工神经网络,并使用相同的基向量w变换待测试的后续样品。

在另一个实施方案中,可以使用主成分判别分析(dapc)优化要由人工神经网络分析的超空间的轴。dapc描述于atutorialfordiscriminantanalysisofprincipalcomponents(dapc)usingadegenet2.0.0,thibautjombart,caitlincollins,其并入本文作为本公开内容的参考。dapc类似于主成分分析(pca),因为其从一组物理上有意义的轴生成,如使用流式细胞仪通道生成的轴,是使沿轴的方差最大化的一组优化的正交轴。dapc与pca的不同之处在于,pca对单一观察群体进行操作,而dapc对多个相似但有区别的群体例如正常群体和癌症阳性群体的集合进行操作,并生成一组正交轴,其使得群体之间的方差最大化。dapc本身需要先前的组是定义的。然而,当群体未知或不确定时,需要鉴别有意义的聚类。这可以使用聚类算法k均值实现,该算法找到给定数目(称为k)的组,使方差最大化。通常,总方差=(组间方差)+(组内方差),或者指示x作为数据矩阵:

var(x)=b(x)+w(x)

主成分分析(pca)关注于var(x)。即,其仅描述了全局多样性,而忽略了群体之间的差异。相反,dapc在使w(x)最小化的同时优化b(x)。其找到综合变量,即判别函数,其优化显示组间差异,同时使组内差异最小化。dapc本身需要先前的组是定义的。然而,组通常是未知的或不确定的,并且在描述聚类之前需要鉴别遗传聚类。这可以使用k均值聚类算法来实现,该算法找到组的集合k,从而使组之间的差异b(x)最大化。为了鉴别聚类的最佳数目,随着k值的增加顺序运行k均值,并使用贝叶斯信息准则(bic)比较不同的聚类解。在运行k均值之前,使用传统的pca变换数据。该变换减少了变量的数目,从而加速了聚类算法。在确定用于使正常样品和癌症患者样品的训练集之间的组差异最大化的最佳主成分之后,可以将样品观测值从其原始坐标映射到dapc衍生的组差异最大dapc主成分,从而提供优化的输入数据空间,在该数据空间上训练人工神经网络。类似地,在提交给训练的人工神经网络进行测试之前,必须将测试样品映射到dapc衍生的主成分中。

在一个实施方案中,使用核线性判别分析(klda)来预处理样品信息,以增强不同种类的样品如正常测试受试者种类(正常)和已知的癌症患者种类(癌症)之间的区别。如果线性分类器无法容易地区分两个样品类别,klda首先通过使用核将样品数据变换到可以在其中线性区分群体的更高维空间中,然后将该空间的维数降低到降维空间中,其中轴是特征值(主成分)最大,种类之间差异最大的特征向量。首先,加载原始标记的训练数据集x:

x={n_样品,m_特征,c种类}

对于每个种类,在x中计算成对平方欧几里德距离以产生成对距离向量d成对。然后将每个成对距离向量d成对转换为成对距离xsq_dists(1:n类)的方形矩阵。接下来,计算每个xsq_dists的对称核矩阵。

选择的核取决于数据集的性质。最常见的核是多项式核、双曲正切(s形(sigmoid))核和径向基函数核。在一个实施方案中,选择rbf核:

然后使核矩阵居中:

k居中=k-1nk-k1n+1nk1n

其中1n=nxn,其中所有值为1/n。

然后,对于每个种类计算特征向量k居中及其特征值:

k居中特征向量,特征值对=(e1,λ1,e2,λ2,...ed,λd)

然后,对于每个种类,通过减小特征值对特征向量排序,并选择具有最大特征值的特征向量以形成每个类的dxd方形矩阵wdxd(其中每列代表特征向量)。使用wdxd将样品变换到新子空间。这可以总结为下式:

其中x为表示一个样品的dx1维向量,并且x′为新数据空间中变换后的dx1维样品。

在将所有类的样品数据变换到更高维数据空间中之后,我们接下来继续在非核化lda中进行,以找到表示数据的最佳减小数据空间。在继续计算时,我们计算每个种类的d维均值m′向量(即,每个种类的数据集的每个维度的均值)。然后,这些均值将用于计算类内和类间散射矩阵。类内散射矩阵由下式给出:

其中每个类的类内散射矩阵由下式给出

并且类间散射矩阵由下式给出

m′为总体均值,并且m′i和ni为各类的样品均值和大小。然后,由下式给出的矩阵求解广义特征值问题

将所得特征向量按特征值递减排序,并选择特征值最大的k个特征向量,其中k<d,以形成特征向量矩阵w,其中每列为特征向量。然后使用特征向量矩阵w将原始样品集变换到新的数据空间

y=x×w

然后可以用事件填充该变换的数据空间,从而产生超体素数据分布,该分布可用于训练人工神经网络以区分标记的类。

当要测试新样品时,可以类似地将其变换到由此衍生的数据空间中并由人工神经网络测试。

在一些实施方案中,可以组合从单独的流式细胞仪测量产生的单个超空间,以允许神经网络更容易地比较用不同染色集测量的细胞群分布。例如,mdsc测量超空间可以有7个轴,每个轴被分成8段。这产生了87(2,097,152)个超体素,这是很大但在计算上不难处理的数据量。淋巴细胞测量超空间可以有6个轴,每个轴分成8段。这产生86(262,144)个超体素。其中一个轴(ssc-a)可用于两个超空间,留下12个独特轴。由于812大致等于6.8710,因此与分别处理两个单个超空间相比,这将需要远远更多的处理能力和内存。为了缓解该问题,可以执行降维。在一些实施方案中,本文所述的系统、方法、介质和网络包括执行降维算法。可以在分析过程中的任何时间执行降维。在一些实施方案中,在分析开始时执行降维。在一些实施方案中,在分析的中间步骤执行降维。

降维的一种方法是主成分分析(pca)。pca以可变性递减的顺序鉴别线性独立的轴,其可以代替原始轴。可变性低于所选阈值的轴可以丢弃,产生更小的超空间维数,同时仍保留细胞分布和超体素计数中存在的大部分信息。因此,例如,独特的mdsc超空间轴可以例如从6维减少到4维,并且淋巴细胞超空间的独特轴从5维减少到4维,从而产生在同一空间中同时包含淋巴细胞计数和mdsc计数的9维超空间。如果分辨率从每轴8个分区减少到5个,则该空间中超高体素的总数目将为59(1,953,125),这在计算上更容易处理。

图15a和图15b示出了对流式细胞术数据的两个集合的组合群体的降维,以允许ann在单个数据空间中直接比较两个群体的关系,如果简单地连接两个数据空间的维度,这将是非常大的。声明数组hs[r(m+n-s)]1502,以包含来自两个组合数据空间的超体素计数分布。hs[r(m+n-s)]的维度为m+n-s,其中m是待组合的第一数据空间的维度,n是待组合的第二数据空间的维度,s是冗余维度,即在两个数据集中均有出现的维度。在mdsc和淋巴细胞数据空间的情况下,仅ssc-a在两个数据空间中均有使用,并且s=1。例如,第一数据空间ds1可以是有7个维度的mdsc数据空间,包括一个物理测量(ssc-a)和6个荧光通道测量。对于具有m个维度的ds1数据空间中的k个样品中的每一个,声明数据空间ds1k[rm]1503。加载先前已经减少到选定的m列的样品1504。使用ds1数据空间中的第k个样品中的各个事件值来填充ds1k[rm]数据空间中的超体素1505,并进行保存。ds1k[rm]填充数据空间中的值也输入hs[r(m+n-s)]中相应的超体素1506。对于1到k样品,声明、填充并保存单独的ds1k[rm]数据空间,并将ds1k[rm]中的样品超体素计数添加到hs[r(m+n-s)]数据空间中的相应超体素。在该程序结束时,具有k+1个数据空间,k个ds1k[rm]单个样品超体素计数数据空间和一个hs[r(m+n-s)]超体素计数数据空间。

对于第二数据空间ds2,遵循类似的程序1509-1514,第二数据空间ds2可以是例如淋巴细胞样品集,其具有来自相同k个样品的流式细胞术数据并以n个维度表示,其中n是例如,6个维度,包括一个物理测量(ssc-a)和5个荧光通道测量。在这些步骤结束时,组合数据空间hs[r(m+n-s)]由第一数据空间中的所有k个样品和第二数据集中的所有k个样品的超体素计数填充。

对组合数据空间hs[r(m+n-s)]执行主成分分析(pca)1515,并且保留前m+n-s个pca生成的基向量1516。通过对组合的总数据集执行pca,我们获得了pca基向量,其定义了整个数据集的最大可变性轴。转到图15b,对ds1中的每个样品声明新数组pds1k[r(m+n-s)]1517。这些数组将使用刚刚生成的pca基轴,并将在使用新基向量将从两个源数据空间映射的超体素计数组合成每个样品的组合数组时使用。对于ds1中的每个样品,样品原始轴超体素分布数组ds1k[rm]中的超体素计数映射到pds1k[r(m+n-s)]中的相应超体素1518。在ds1中的所有k个样品已被映射之后,ds2遵循类似的程序1520-1522。在该过程结束时,我们在pca衍生的基向量中得到2xk个超体素计数分布,每个数据空间中的每个样品具有一个。

从m+n-spca衍生的基向量1523中选择前j个基向量。为了实现降维,j必须小于m+n-s。

声明数组pdsk[r(j)]1524,以用于使用pca衍生的基向量组合两个数据空间。对于ds1中的每个样品k,对于每个超体素,通过将>j的pdsk轴合并,将pds1k[r(m+n-s)]中的超体素计数映射到pdsk[r(j)]1525。对于ds2中的每个样品k,对于每个超体素,通过将>j的pdsk轴合并,将pds2k[r(m+n-s)]中的超体素计数映射到pdsk[r(j)]1526。获得的结果将是新pca轴中的k个超体积事件分布(数组)pds1[r(j)]到pdsk[r(j)],每个样品具有一个,其中使用pca导出的基向量将每个pds1k[r(m+n-s)]和pds2k[r(m+n-s)]超体素分布数组两者的计数映射到单个新的降维数据空间pdsk[r(j)]。

上面的示例中描述的降维和数据空间组合对两个数据空间进行了组合,但是可以使用类似的程序来组合任何数目。

这种组合的超空间可以作为除了原始mdsc和淋巴细胞超空间之外的第三输入来输入到神经网络,从而允许神经网络访问全分辨率mdsc和淋巴细胞超空间,并且访问对于比较mdsc和淋巴细胞群的群体分布进行优化的合成超空间。

pca还可以用于变换单个超空间的表示,以确保数据在坐标系中表示,其中轴是线性独立的(例如,坐标空间)。这将最大限度地减少冗余信息,为神经网络提供更清晰的信号,从而改善神经网络表现。

流式细胞仪通常将通道数据输出为0和1023之间的值,指示该通道中事件的强度。该输出数据可以表示对于特定流式细胞仪配置中使用的每个荧光通道的每个事件测量的荧光强度的测量值。这些通道值可以表示对于激光侧向散射、前向散射以及一种或多种免疫荧光标记方面的事件(通常是细胞)测量的值。数据可以是矩阵的形式,其中每行代表单个事件,通常是固定细胞的或活细胞,并且每列是流式细胞仪通道。单个事件,如流式细胞仪测量的靶细胞,可以由单个行表示,并且可以在用于该测试的每个通道中具有值。当每个通道用作超空间中的轴时,靶细胞可以在该空间的特定超体素中具有定义的位置。如果其他靶细胞对每个流式细胞仪通道具有相似的测量值,则它们可以位于相同的超体素中。可以对位于每个超体素中的细胞数进行计数,并且每个超体素中所有细胞的所有计数的集合可以解释为超空间中细胞群的分布。

在一些实施方案中,获取至多13个测量值,其包括前向散射面积、高度和宽度的值,它们是细胞大小的量度;侧向散射面积、高度和宽度的值,它们是细胞粒度或复杂性的量度;以及七种另外的激光频率的测量值,在一些实施方案中,它们是7种抗原-免疫荧光缀合物的免疫荧光反应的测量,这些抗原-免疫荧光缀合物在测量中与细胞表面上的特定分化复合物(cd)结合。数据维度的总结在下面列出。

1fsc-a:前向散射面积

2fsc-h:前向散射高度

3fsc-w:前向散射宽度

4ssc-a:侧向散射面积

5ssc-h:侧向散射高度

6ssc-w:侧向散射宽度

7cd11b分化复合物,在许多白细胞,包括单核细胞、嗜中性粒细胞、自然杀伤细胞、粒细胞和巨噬细胞的表面上表达。

8cd14,主要由巨噬细胞和嗜中性粒细胞(以低10倍的程度)表达。

9hla-dr(人白细胞抗原-抗原d相关)mhcii类细胞表面受体,由人白细胞抗原复合物编码。

10cd33,在髓系细胞上表达。

11cd3、cd19和cd56标志物的谱系组合,用于标记t细胞、b细胞、nk细胞及其前体。

12dapi(4′,6-二脒基-2-苯基吲哚二盐酸盐),是与dna结合的细胞渗透性荧光染料。用于在琼脂糖凝胶中进行dna染色和分析凋亡过程中dna的变化。

13cd15:cd15抗体,识别在人髓单核细胞上表达的cd15抗原。其存在于嗜中性粒细胞、嗜酸性粒细胞和一些单核细胞上,但不存在于嗜碱性粒细胞或淋巴细胞上。

可以使用其他标志物,但为了说明该方法而描述了上述集。使用流式细胞仪仪器中的光传感器进行每个通道的测量。光电传感器的输出是电脉冲,其振幅和持续时间由模数转换器(adc)测量。处理adc信息,以对于每个通道产生0到1023(210个可能值)的值。每个细胞产生13个这样的通道测量。然后补偿数据值,以解释不同通道之间的“交叉对话”或“溢出”。在流式细胞仪中,通过带通滤波器选择适当的激发和发射波长范围。然而,当发射光谱重叠时,可能检测到来自多于一个荧光团的荧光。为了校正改光谱重叠,使用荧光补偿过程。这确保在特定检测器中检测到的荧光来自正在测量的荧光团。

将13个补偿通道数据从流式细胞仪导出为标准fcs文件格式的数据文件,其包含由流式细胞仪测量的每个事件的通道数据以及用于样品测量的配置和设置数据。并非所有事件都是细胞,因为许多事件由细胞碎片、死细胞或其部分以及其他碎片组成。

在一个实施方案中,流式细胞术数据分析技术人员通过在二维点图上显示所有事件的数据来起始门控,其中前向散射面积(fsc-a)用作x轴或水平轴,并且侧向散射面积(ssc-a)用作y轴或垂直轴。较大的物体在图上将出现在更靠右侧,更具复杂性或颗粒性的物体将朝向图的顶部定位。使用由技术人员手工绘制的或由定制计算机软件自动生成的“逗号”形多边形来对事件进行门控,排除小的、非颗粒状碎片、溶解的红细胞和细胞片段。在一个实施方案中,这被称为“形态学”门。

如此对形态学进行门控的事件被提取并显示在第二个图上,即“单体(singlet)”图。单体图的x轴再次使用fsc-a,但垂直轴使用前向散射高度(fsc-h)。如本领域公知的,单个细胞将具有相似的面积和高度信号,因为它们通常是球形的。因此,它们将在从原点开始并从原点以45°角投影的线附近找到。双联体细胞(两个细胞彼此粘附)和更大的细胞丛将从该45°线位移,因为它们具有不相似的尺寸。在45°线周围绘制多边形门,包括单个细胞而排除双联体和丛。

然后使用单体门提取单个细胞,并显示在第三个图即“活-死”图上。活-死图再次使用fsc-a作为x轴,并使用dapi通道信号作为y轴。dapi是用于染色细胞核中的dna的荧光染料。在活细胞中,细胞膜保持完整,dapi染色无法穿透而对核dna染色。因此,在活-死图上,活细胞将沿图的底部定位,因为它们的dapi摄取很低(基本上不存在)。包围活细胞的矩形门由技术人员手工绘制或由定制计算机软件自动生成。

该细胞组,即已被门控了(选择了)形态学、单体和存活的“活”组随后以诸如逗号分隔变量(csv)等标准格式作为单个文件导出为矩阵或电子表格,该文件具有表示从0到1023的流式细胞仪通道值的列,其中每行代表单个活细胞事件的所有测量值。

在一个实施方案中,调整样品体积和流式细胞术设置,以对每个样品至少产生40,000个活细胞读数。

然后,每个文件被截短以获取前40,000行(即,活细胞事件),或者如果可用,则从更大的集合中随机选择40,000个事件。

在一些实施方案中,手动或自动门控将继续经过活门。骨髓衍生的抑制细胞(mdsc)群包括三个亚群:(1)e-mdsc(早期mdsc),(2)pmn-mdsc(多形核mdsc)和(3)m-mdsc(单核细胞mdsc)。如本领域公知的,每个这样的亚群可以通过随后的门控步骤分离,并且通常在mdsc群体的研究中定期进行。例如,可以通过在谱系标志物作为x轴,并且cd14标志物作为y轴的图上显示活细胞群来分离e-mdsc。象限内(谱系标志物阴性和cd14标志物阴性)的群体可以通过门控选择,然后显示在随后的图例如图7中,hla-dr标志物为x轴,cd11b为y轴,cd33标志物为z轴。最后一个图右下方的群体可能是emdsc群体。

类似地,可以通过在x轴上具有ssc-a和y轴上具有cd14的图上绘制活细胞群来分离pmn-mdsc群。cd14阴性的细胞可以通过门控进行选择,然后显示在图中,其中使用cd33作为x轴,使用cd11b作为y轴。可以用多边形门选择在该图的右上象限内显示的群体,然后提取并显示在最终图上,其中cd15作为x轴,ssc-a作为y轴。pmn-mdsc群可以显示在该图的中间右侧。

类似地,可以通过在以hla-dr作为x轴和cd14作为y轴的图上绘制活细胞群来分离m-mdsc群。m-mdsc群将显示在左上象限内。

在一些试图量化mdsc群体和亚群中的细胞水平的研究中,对门控的emdsc、pmn-mdsc和m-mdsc细胞群进行计数,并将这些细胞群记录为例如活细胞群的百分比。细胞计数的三个值可以用作三元组,以指示所测量的患者或正常样品的mdsc细胞群状态。正常个体(例如,正常或健康受试者)与处于不同癌症阶段的癌症患者之间的细胞群计数之间的差异可以解释为受测个体癌症状态的指示。图2a至图2c显示确实存在趋势,但是分布有所重叠,并且难以或无法单独使用常规门控来区分正常个体和癌症患者。

从以上对常规门控的描述可以看出,可以认为其基本上是从多维数据结构到13维空间中细胞群分布的二维“轮廓”的一系列投影,该空间的轴是由流式细胞仪测量的通道。考虑到如果仅测量三个通道,例如cd14、cd15和cd33,每个细胞可以以在三维(3d)空间中的位置表示,其中x轴对应于cd14通道值,y轴对应于cd15通道值,z轴对应于cd33值,则可以容易地看出这一点。具有不同标志物的平均值的不同细胞群可以聚集在该三维空间中的三维“点云”中。然后可以将3维空间中的真实值投影到一系列二维“点图”上,这将是真实点云的轮廓。可以为二维轴选择三个值中的两个的任意组合,诸如cd14与cd15,cd14与cd33,或cd15与cd33。每个这样的投影将提供数据的一个视图,就像从前面、侧面和顶部拍摄三维物体一样。然而,可以看出,在该程序中丢失了信息。这三张照片不会透露物体底部是否有结构。

流式细胞术数据的常规门控类似于对具有更高维度的数据分布进行二维“快照”。本主题利用如下前提:如果同时使用数据并且如果使用将保留在较高维空间中的细胞群分布的结构的数据表示,则可以从流式细胞术数据衍生出附加信息。

在一些实施方案中,数据以数组表示,该数组记录较高维空间的每个体素中的细胞数目。

该方法可以从二维图开始进行证明,100个细胞事件均来自相同的被测的正常或患者样品。假设我们有5个正常个体和5个癌症患者,每个患者贡献了100个细胞。假设x轴上具有0到1023的hla-dr标志物值,y轴上具有同样为0到1023的cd14标志物值。为了说明目的,我们将然后通过将每个轴分成4个分区,将绘图区分为4乘4(或16)个区域。在每个轴上,第一段从0到255,第二段从256到511,第三段从512到783,并且第四段从784到1023。该区域被命名为hla-dr0到hla-dr3,cd140到cd143。假设存在与16个区域中的每个区域相关联的初始化为零的计数变量,表示将有多少个细胞测量事件位于该区域中,这可以通过将细胞事件的通道值除以256并使用结果的整数部分来确定。作为示例,考虑对于hla-dr(x)轴的值为577,并且对于cd14(y)轴的值为802的细胞事件。在将通道值除以256并取整数部分后,细胞事件将位于[2,3]区域,如图8a和图8b所示。

再次参见图8a和图8b,我们将向表示位于[2,3]区域中的所有细胞事件的计数的变量添加一个计数的增量。对于每个细胞事件重复该过程,在该过程结束时,我们具有由与16个区域中的每个区域相关联的计数值表示的100个细胞事件。所有这些计数的总和将为100。具体而言,我们不对特定区域中的细胞事件的值求和;相反,我们简单地计数具有将其置于该区域中的通道标志物值的细胞数。点云中心的区域将具有高计数值,如果在这些区域中没有标绘细胞事件,则其他区域将具有零的计数。

在我们处理了所有100个细胞之后,我们然后将2维4×4矩阵值变换成1维16×1列向量,其中我们的每个患者(例如,癌症患者)或正常样品用一列表示。在聚集16×1列向量中的所有10个列向量之后,矩阵的每一行代表所有10个正常/患者共同的特征,即每个正常/患者落入该特定体素的细胞数目。例如,如果我们通过将第二列移到第一列的下方,第三列移到第二列的下方以及第四列移到第三列的下方,将4×4计数矩阵转置为16×1计数向量,则在第9行中将找到落入[2,3]区域的每个正常/患者的计数。

现在,我们具有以16×10的特征行与样品列的表示对我们的10个样品的二维数据分布的表示,这是许多神经网络架构和训练函数的规范表示。

类似地,可以添加附加通道标记、前向散射和侧向散射通道值的附加维度。例如,如果选择7个通道,并且保留4×4分辨率,则可以将4×4×4×4×4×4×47维超体积变换为16,384行的列向量,每行表示落在由该行表示的超体素中的细胞事件的计数。此外,可以独立地为每个轴指定分辨率。例如,cd14和cd33可能只需要高与低的值来提供足够的分辨率,因此沿cd14和cd33轴仅需要2个分区的分辨率,而hla-dr可能需要8个分区来提供足够的分辨率。这样的具有8×2×2×4×4×4×4维度的超体积可以变换为8,192行的列向量。可以定制使用的适当数目的维度,以及每个维度所需的分辨率,以满足特定分析问题的要求。轴上的分辨率对于轴的一部分可以是粗略的,并且对于另一部分可以是精细的,以使在感兴趣的区域中的分辨率最大化而不需要整个轴具有精细的分辨率。如果不希望对具有位于特定范围之外的值的细胞数目进行计数,则轴可以只在该轴的一部分上接受细胞计数。可以任意定位分区,以满足特定分析的要求。

然后可以使用样品列矩阵的特征行来训练神经网络,以基于其细胞群在超空间中的分布来区分正常个体和癌症患者。如果使用常规门控模糊或不可见的细胞群分布的特征显示正常个体与癌症患者之间存在系统差异,则神经网络可以利用这些特征来辅助分类。

图16a图示了在多维空间中填充超体素的一个实施方案。加载从流式细胞仪以csv格式输出的流式细胞术样品数据以供处理1601为原始样品通道值数组1602。通过在原始样品通道数组1602数组的中仅选择感兴趣的列来排除任何不期望的通道1603,从而产生过滤后的原始样品通道值数组1604。当从流式细胞仪数据分析软件如flowjotm导出样品时,每个样品中的事件数变化很大。所有样品应具有相同数目的事件,用于ann训练、验证、测试和初始测试(测试新的、以前未见过的样品)。这可以通过仅选择前n个事件1605或通过从所有事件中随机选择n个事件1606来实现,从而产生具有预定数目的过滤后的原始样品通道值1607的数组。通道值通常导出为0到1023之间的整数。用流式细胞仪中的10位模数转换器表示从模拟传感器值转换的数字值。该数目必须除以一个因子,这将导致数组具有可管理的维度。如果不执行该降低,则将需要大小为10237(大约1021)的数组,这远远超出当前或可预见的计算机能力。对于每轴8段的分辨率,将原始通道值除以1281608以产生0到7之间的通道值。将这样计算的每个值增加11609,产生在1到8范围内的所有值,以对应于在该实施方案中从1开始而不是从0开始的数组索引。这产生索引样品集1610,其对于每个事件具有根据原始测量值在1和8之间的流式细胞仪通道的索引。

声明超维数组1611,其具有维度(每个轴的分辨率)(维度数)),在本示例中为87。对于索引样品集中的每一行,使用列的索引值作为索引来鉴别超维数组中特定的超体素,并且存在与该超体素相关联的计数,该计数在每次确定索引样品集中的事件位于该超体素中时递增1612。这产生超体积事件分布,其中每个超体素具有表示落在该位置中的事件数目的计数1613。然后将该超体积事件分布重塑1614为列向量1615,该列向量1615表示该样品的流式细胞仪事件的分布。

在以下称为超体积分布分析的上述流式细胞术数据分析方法可用于任何流式细胞术数据分析。然而,在一个实施方案中,使用该方法来区分健康供体和癌症患者作为诊断测试。此外,在另一个实施方案中,训练ann以区分不同类型的癌症,使得代替将ann分类结果指示为“正常”或“癌症”的两个输出,ann还可具有多个输出,一个输出指示“正常”,并且另外的输出各自对应于由神经网络鉴别的一种癌症类型。此外,ann可以被训练以鉴别癌症的阶段,使得其可以有多个输出,一个输出指示“正常”测试受试者,以及另外的输出,一个输出指示所鉴别的一种或多种癌症类型和阶段的每种类型的每个阶段。

神经网络可以根据训练函数来训练。适用于训练神经网络的训练函数包括levenberg-marquardt、bfgs拟牛顿、弹性反向传播、量化共轭梯度、具有powell/beale重开始的共轭梯度、fletcher-powell共轭梯度、polak-ribiére共轭梯度、一步正割和可变学习速率反向传播。

一旦网络进行了训练,其可用于癌症检测或筛选、癌症类型确定、癌症阶段确定、癌症复发监测、癌症治疗有效性评估或癌症诊断确认测试。对单个受试者的定期测试可用于监测受试者癌症状态随时间的变化。

在医学应用中使用ann的一个障碍是ann需要基于大量样品进行训练。优选地,取决于应用,每个类别应该至少有100个示例来训练ann进行分类。如果ann进行训练的样品数目太少,则将无法学习每个特征的全部范围,并且在后续试验中将表现不佳。通常难以获得足够数量的样品用于训练、验证和训练后的测试。缓解该问题的一种方法是利用数据增广形式。如本领域公知的,可以通过对原始数据执行某些最小变换来增广有限数目的样品。例如,当在图像识别中训练神经网络时,可以通过使每个图像平移和/或旋转多个旋转角度以及多个平移距离和方向来处理图像集。

当输入是超维点云的形式时,采用数据增广的一种方法是随机选择样品的子集以形成多个相似但不相同的点云以供训练。以mdsc样品为例,在无数据增广的情况下,将进行确定的活细胞事件的数目足够小以使得绝大多数样品具有该数目。该数目将被选择为尽可能大,而不排除太多样品。使用本文所述方案满足该标准的典型活细胞事件计数对于mdsc将为40,000,对于淋巴细胞将为25,000,并且对于lox1将为30,000。然而,经过少至10,000个活细胞事件训练后的灵敏度和特异性结果将会在用40,000个活细胞事件达到的结果的1%到2%之内。此外,许多样品将具有远高于40,000的活细胞事件计数。因此,当样品数量有限时,每个样品可以被分成若干个子样品,这些子样品将相似但不相同,从而用于训练。

生物样品可在收集后随时间改变。例如,血液样品中的嗜中性粒细胞在储存于收集管中时可以随时间的推移而被激活。激活的嗜中性粒细胞相比于未激活的嗜中性粒细胞密度降低,因此更难以使用离心与mdsc亚群分离。可通过使用含有凝胶的细胞制备管如bdvacutainercpttm(becton,dickinsonandcompany)并在收集后4小时内离心该管来减轻该影响。或者,可通过在训练集上训练多个神经网络来补偿生物样品随时间变化的影响,在该训练集中将正常样品和癌症患者样品在预定温度如4摄氏度下保持预定的时间段,例如1小时、2小时、4小时、8小时、12小时、24小时和36小时。随后,当要测试样品时,可以使用选择的适当神经网络测试样品,因为该神经网络在收集后在处理前储存了与新测试样品相似的时间量的样品上进行了训练。

通常,类似神经网络的集合将比任何单个神经网络表现得更好。其中一个原因是神经网络倾向于在训练过程中找到误差函数的局部最小值而不是全局误差最小值。然后,它们将对与它们在训练期间进行了优化的样品相似的新测试样品表现良好,但对于其他样品表现不佳。前馈分类器神经网络通常将为其训练的每个输出类别输出值。如果神经网络已经对两个输出类别“正常”和“癌症”进行了训练,其将输出两个值,一个为“正常”输出,一个为“癌症”输出。这两个值之和将为100%。较高的值表示分类结果,并且其值指示神经网络在该结果中的“置信度”。如果分析第一测试样品的第一神经网络的输出为例如正常的置信度=40%且癌症的置信度=60%,并且分析同一测试样品的第二神经网络的输出为正常的置信度=99%且癌症置信度=1%,则第二网络更可能是正确的,因为其检测在特定测试样品中比第一网络概括更佳的一个或多个特征。

用于集合神经网络架构的一种架构如图6b所示。在第一训练数据集上预先训练预训练网络1到n。然后将它们合并到主神经网络中,如图所示。然后在第二训练集上训练主神经网络,该第二训练集同时呈现给主网络和预训练网络。主网络照常接受训练,但是预训练网络保留它们在预训练中接收的训练参数。主网络将学习到,当向其呈现具有某些特性的新样品时,最准确的分类结果将是其自身对输入样品的训练并且通过学习以向给出了该样品类型的最准确的输出的特定预训练网络给予最多权重的结果。因此,主网络将受益于来自多个专用网络的输入以及来自其自身对训练集和来自预训练网络的输出的组合的训练的输入。

当主网络被训练时,训练数据集(根据所利用的训练算法可包括训练、验证和测试子集)必须与用于训练预训练网络的训练集不同。这是因为本文公开的神经网络配置对在其训练集中使用的样品数据具有极高的准确度。它们有效地“记忆”它们先前训练过的任何样品,并且一个或多个预训练网络对任何先前见过的样品具有接近100%的准确度。因此,主网络将忽略实际的样品超体积输入数据,并仅依赖于预训练网络的输出。

使用卷积神经网络的流式细胞术数据分析

在一些实施方案中,本文所述的系统、方法、介质和网络包括使用卷积神经网络进行数据分析。卷积神经网络(cnn)是已被证明在诸如图像识别和分类等领域非常有效的神经网络类别。除了在机器人和自动驾驶汽车中为视觉提供动力外,cnn还在鉴别面部、物体和交通标志方面取得了成功。cnn主要用于2d图像识别,但也有一些工作使用cnn进行3d空间识别来完成。cnn的名称来源于“卷积”算子。卷积的主要目的是从输入图像提取特征。卷积通过使用小方块的输入数据学习图像特征来保持像素之间的空间关系。典型的应用将包括许多称为核的小矩阵,其具有例如5x5像素的维度,用于100x100像素图像。每个核以z字形图案步进跨过整个图像,并且在每步中,核矩阵乘以下方的图像数据。每个核都是可训练的,并且随着时间的推移,它们会收敛于核矩阵元素值,该值当与下方的图像值卷积时成功地鉴别图像中的原始特征。每个核学习鉴别不同的原始特征。每个卷积的输出被前馈到下一层,即称为修正线性单元(relu)的非线性层。第三层是池化层。池化层将核鉴别的原始特征聚集为更复杂、更高阶的特征。cnn通常会具有顺序的多个卷积+relu+池化层,在输出处具有最终完全连接的分类层,如本领域容易理解的。

当cnn用于3d形状识别时,核可以是立方矩阵而不是方形矩阵。类似地,每个relu和池化层可以是3维而不是2维的。可以将cnn扩展到请问的任意维度,但步和卷积计算的数目随着维度的增加而呈指数增长。在超过4或5维之后,根据输入超空间的分辨率和核的大小,所需的计算可能变得非常耗时。

为3d形状识别开发的卷积神经网络架构可适于在3d空间上操作,该3d空间具有由流式细胞仪数据事件或细胞计数填充的体素。为了说明,本文的一些描述使用三维形状识别来解释自动操作;然而,该技术可以很容易地扩展到更高维度的形状识别。图9示出了用于形状识别的3dcnn的示例。使用活细胞的流式细胞术测量或其他离散事件来生成测量事件的3d点云901。在一个实施方案中,使用点位置生成32x32x32体素占用空间902,其中每个体素都标记有测量的流式细胞仪的给定通道的活细胞或其他事件的数目,导致它们位于由作为流式细胞仪通道值的表示的轴形成的3d空间的特定体素中。在一个实施方案中,32个7x7x7核或过滤器903与占用空间902卷积,以在训练期间学习占用空间902中的指示性占用分布。第一核集合903的输出完全连接到第一14x14x14最大池化层904。第二集合的14个5x5x5核905与最大池化层904卷积,并完全连接到第二6x6x6最大池化层906。第三集合的6个3x3x3核907与最大池化层906卷积,并完全连接到分类层908。卷积的核输出可以由relu非线性层处理,或者可以替代地使用其他非线性函数如双曲正切(tanh)或s形(sigmoid)。

在一些实施方案中,算法可选地将描述转换为标准医学三维成像格式,如nifti或其他标准3d数据表示格式。

cnn可以在低维低分辨率数据空间如3维16x16x16分辨率数据空间中预训练。可以一次一个地向数据空间和cnn添加另外的维度,同时继续训练cnn,保留从较低维度预训练中学习的值。这使训练工作最小化,而训练工作在例如每轴具有16个分区和4个维度的超空间中将非常耗时。例如,维度为84的核以2个像素的步幅逐步通过具有164个超体素的超空间将需要390,625步。每步需要84或4,096次浮点计算。降维数据集的预训练可以大大减少训练所需的时期数。为了提高计算速度,可以使用本地网络化计算机系统或在线计算服务如amazonwebservices高性能计算(awshpc)执行计算,该计算服务允许同时使用数千个xeon处理器和数千个图形处理单元(gpu)进行计算。使用诸如awshpc等在线服务可以允许超空间中的维数增加到5个或更多个维度。

参考图10,在一些实施方案中,可以是使用至少两个深度卷积神经网络的集合避免直接进入四维、五维或更高维度处理的计算成本,其中每个集合着眼于更高维度结构的不同的三维“投影”。如上所述,从已经变换成3d体素计数的流式细胞术数据生成七个三维数据空间。从流式细胞仪数据产生的7个或更多维度中每次取3个3d数据空间的轴。第一数据空间1001使用轴ssc-a、cd11b和cd14。第二数据空间1003使用轴cd11b、cd14和hla-dr。每个下一个数据空间都会消除一个先前使用的轴,并添加一个新轴。单独的3d卷积神经网络处理来自每个3d数据空间的数据。集成或池化层1015集成来自每个卷积神经网络的结果,并在输出1017和1018处产生作为分类置信度值的最终结果,指示网络分类结果。

图11示出了采用七个卷积神经网络的示例;每个网络处理流式细胞术数据占用空间的4维投影。该方法是在流式细胞术数据包括多于5种标志物/维度的情况下的高分辨率多维表示的替代。

在一些实施方案中,本文所述的系统、方法、介质和网络包括执行降维(例如,降维算法)。可以在分析过程中的任何时间执行降维。在一些实施方案中,在分析开始时执行降维。在一些实施方案中,在分析的中间步骤执行降维。

在一些实施方案中,卷积神经网络包括多维核,其具有与进行卷积的超空间相同的维度。在一些实施方案中,卷积神经网络包括多层网络。在一些实施方案中,鉴别细胞群分布包括使多维流式细胞术数据旋转。在一些实施方案中,鉴别细胞群分布包括创建多维流式细胞术数据的2维投影视图。在一些实施方案中,鉴别细胞群分布包括创建多维流式细胞术数据的3维投影视图。在一些实施方案中,鉴别细胞群分布包括池化多个旋转视图。

在一些实施方案中,鉴别细胞群分布包括双通道方法。双通道方法包括在第一分辨率环境中鉴别包含感兴趣特征的位置的第一通道。双通道方法包括在第二分辨率环境中执行分类的第二通道,其中该第二分辨率高于该第一分辨率。

在一些实施方案中,鉴别细胞群分布包括基于以下一种或多种来鉴别初步门控区域:形态学、单体和cd14标志物。

在一些实施方案中,鉴别细胞群分布包括训练步骤。训练步骤包括比较处于至少两种不同生物状况的样品。至少两种不同的生物状况包括健康状态和癌症状态。在一些实施方案中,训练步骤包括将细胞群分布与手动门控区域相关联。在一些实施方案中,训练步骤进一步包括使用临床数据用手动门控区域验证鉴别的细胞群分布。

在一些实施方案中,在具有多个处理器的计算平台上鉴别细胞群分布。在一些实施方案中,处理器包括计算机处理器、图形处理单元、基于fpga的处理器和/或asic。在一些实施方案中,计算平台包括客户端-服务器计算平台,例如microsoftcntk,其具有三维功能且基于客户端-服务器。在一些实施方案中,计算平台包括客户端-服务器计算平台,例如,amazonwebservices高性能计算,其允许同时使用数千个处理器和/或gpu且基于客户端-服务器。一些实施方案使用数十个或更多个服务器,每个服务器具有多个处理器。

在一些应用中,从患有癌症的受试者获取样品。该癌症可选自乳腺癌、宫颈癌、卵巢癌、结直肠癌、黑素瘤、肉瘤、子宫内膜癌、膀胱癌、肾癌、胃癌、甲状腺癌、恶性淋巴瘤、肺癌、前列腺癌、肝癌和胰腺癌。

在各种实施方案中,本文所述的系统、方法、介质和网络包括基于由轴定义的多维数据空间中的细胞群分布来选择细胞群,所述轴是流式细胞仪仪器的测量通道。待选择的细胞群可包含骨髓衍生的抑制细胞(mdsc)。待选择的细胞群可取决于选自以下的至少一种、两种或三种细胞标志物的存在:ccr2、cxcr4、cxcr2、cd1d、cd1d1、cd11a、cd11b、cd11c、cd14、cd15、cd16、cd16a、cd16b、cd16低、cd31、cd32、cd32a、cd32b、cd32b/c、cd32c、cd33、cd34、cd38、cd39、cd44、cd45、cd49d、cd62l、cd62b、cd80、cd115、cd162、cd301a、cd301a/b、cd301b、补体成分c5ar1、emr1、f4/80、半乳凝素-3、gp130、gf-1、hla-dr-、icam-1/cd54、il1ri、il4rα、il-6rα、lox-1、m-csfr、一氧化氮、kit、lin-、mhci、pd-l1、tie2、转铁蛋白r、vegfr1、vegfr2和整联蛋白α4β1。

在一些实施方案中,待选择的细胞群可取决于选自以下的至少一种、两种或三种细胞标志物的存在:cd86、b7-h4、cd11c、cd14、cd21、cd23、cd34、cd35、cd40、cd117、hla-dr和ly6。

在一些实施方案中,待选择的细胞群可取决于骨髓衍生的抑制细胞(mdsc)的存在,所述mdsc选自多形核mdsc(pmn-mdsc)、粒细胞mdsc(g-mdsc)、单核细胞mdsc(m-mdsc)和早期mdsc(e-mdsc)。

在一些实施方案中,待选择的细胞群取决于骨髓衍生的抑制细胞(mdsc)的细胞标志物的存在,所述mdsc选自cd14-/cd11b+/cd15+、cd14-/cd11b+/cd66+、cd11b+/cd14+/hla-dr(低)或-/cd15-和cd11b+/cd14+/hla-dr(低)或-/cd15-(其中(低)指示低细胞群,+指示高细胞群,并且-或-指示阴性细胞群)。

在一些实施方案中,待选择的细胞群取决于骨髓衍生的抑制细胞(mdsc)的细胞标志物的存在,所述mdsc选自cd14-/cd11b+/cd15+/lox-1、cd14-/cd11b+/cd66+/lox-1、cd11b+/cd14+/hla-dr(低)或-/cd15-和cd11b+/cd14+/hla-dr(低)或-/cd15-。在一些实施方案中,待选择的细胞群取决于骨髓衍生的抑制细胞(mdsc)的细胞标志物的存在,所述mdsc选自cd14+/cd124+、cd15+/cd124+、lin-/hla-dr-/cd33+、cd14+/hla-dr(低)/-、cd15+/cd14-/cd11b+、cd15+/fsc低/ssc(高)、cd15-/cd14+/cd33高/hla-dr低、cd15+/cd33高、cd14-/cd15-/cd33(高)和lin-/hla-dr(低)/cd11b+(其中(高)指示高细胞群)。在一些实施方案中,待选择的细胞群取决于骨髓衍生的抑制细胞(mdsc)的细胞标志物的存在,所述mdsc选自b淋巴细胞、t淋巴细胞、自然杀伤细胞(nk细胞)及其组合。

在一些实施方案中,待选择的细胞群取决于成髓细胞谱系细胞的存在,所述成髓细胞谱系细胞选自嗜酸性粒细胞、嗜碱性粒细胞、嗜中性粒细胞及其组合。

在一些实施方案中,待选择的细胞群取决于神经干细胞谱系细胞的存在,所述神经干细胞谱系细胞选自神经元、星形胶质细胞、少突胶质细胞及其组合。

在一些实施方案中,待选择的细胞群取决于内胚层干细胞谱系细胞的存在,所述内胚层干细胞谱系细胞选自肝干细胞、肝细胞、胰腺干细胞、胰岛细胞、肠干细胞、肠细胞及其组合。

在一些实施方案中,待选择的细胞群取决于间充质干细胞谱系细胞的存在,所述间充质干细胞谱系细胞选自脂肪细胞、基质细胞、成纤维细胞、成肌细胞、骨骼肌细胞、心肌细胞、平滑肌细胞、成骨细胞、成软骨细胞、软骨细胞、骨细胞及其组合。

在一些实施方案中,待选择的细胞群取决于循环肿瘤细胞(ctc)的存在,所述ctc选自传统ctc、细胞角蛋白阴性(ck-)ctc、凋亡ctc、小ctc及其组合。

增强的神经网络架构

本文所述的系统和方法可以单独使用或与其他诊断方法组合使用以改善表现。可以将上述分析mdsc或mdsc和t细胞超体积分布的方法与附加测试的结果相结合,该测试如前列腺特异性抗原(psa)测试、psma-(前列腺特异性膜抗原)、cea-(癌胚抗原)测试、ca-125-(癌抗原125)测试、pbmc与嗜中性粒细胞比率测试或者其他蛋白质、核酸和其他生物标志物测试。附加测试的结果可以用作神经网络的附加输入,或者可以执行算法计算,该算法计算利用流式数据超体积分布神经网络的mdsc或mdsc和淋巴细胞样品测试结果输出结合附加测试结果来改善诊断结果。任何常规癌症诊断或筛选测试中的一种或多种的结果都可以与神经网络样品测试输出相结合,或者可以用作神经网络的另一输入,以改善测试输出表现。

3d卷积神经网络是本领域公知的。它们常用于三维空间的形状识别,并且可以在诸如自动驾驶汽车和机器人技术等应用中用于包括三个空间维度加时间维度的四维空间中。

使用卷积神经网络的肺结节检测已被广泛研究。诸如x射线图像等2d图像和诸如计算机断层成像(ct)扫描等3d图像都已被用作输入。已经显示这些系统表现良好,但可能难以区分恶性肿瘤和良性结节。

如图14所示,流式细胞术数据的神经网络超体素分布分析可与其他形式的诊断数据相结合,以改善灵敏度和特异性。mdsc数据1401和淋巴细胞数据1403分别由mdsc层1402和淋巴细胞层1404处理。层1402和1404可以由如图6b所示的包括预训练神经网络的主网络代替。次要参数1405如被测受试者的年龄和性别、从样品采集到离心或其他处理的时间、流式细胞术仪器参数以及与测试条件密切相关的其他数据可以在1406提供给神经网络。附加测试结果1407如psa检测结果、psma-(前列腺特异性膜抗原)、cea-(癌胚抗原)、ca-125-(癌抗原125)或者其他蛋白质、核酸和其他生物标志物也可在1408提供给神经网络。

2d图像数据1409如肺部x射线或其他x射线或者其他2d图像数据可提供给2d卷积神经网络输入1410。可训练2dcnn1410以识别在x-射线、皮肤照片或其他2d图像数据中在诊断上有用的特征。cnn1410的输出可以用作集成层1413的附加输入,以帮助测试样品分类。

3d图像数据1411如计算机断层成像(ct)扫描或mri、nmi成像或者其他3d图像数据可提供给3d卷积神经网络输入1412。可训练3dcnn1412以识别ct扫描、mri图像、nmi图像或者其他3d图像数据中在诊断上有用的特征。cnn1412的输出可以用作集成层1413的附加输入,以帮助测试样品分类。

网络

在各种实施方案中,本文所述的任何系统或组件包括和/或可操作地连接到计算机网络。在一些情况下,计算机网络包括可操作地连接到一个或多个流式细胞术数据存储系统的一个或多个计算机。流式细胞术数据存储系统保留在本地站点获取的所有样品的存档,其中可操作的连接可以是无线的或物理的。在许多实现方案中,计算机网络包括通过物理或无线方式连接的多个计算机和/或设备。网络的计算机可以距获取设备远程定位。在一些情况下,计算机网络包括一个或多个获取计算机,用于控制流式细胞术样品的获取。在示例性实施方案中,计算机网络被配置用于控制本地获取的流式细胞术数据的获取,其中可以保存或直接从获取流式细胞仪仪器导出数据。在一些情况下,网络包括用于查看所获取的数据的一个或多个显示器。在一些实施方案中,一个或多个显示器是网络的查看终端的组件。查看终端可以距获取设备远程定位。在各种实现方案中,计算机包括软件。在一些实施方案中,计算机网络包括互联网。在一些实施方案中,计算机网络包括web浏览器。

多个客户端位置终端可以执行本文所述的任何方法。中央系统服务器管理操作并分布和更新在终端处使用的卷积神经网络模型软件或其他神经网络模型软件。中央系统服务器将从客户终端接收和存储流式细胞术数据、患者状态和测试结果数据。来自所有客户端的流式细胞术数据可用于在服务器处连续地重新训练卷积或其他神经网络模型。对模型的改善可能导致将更新的卷积或其他神经网络模型分布到客户终端。以这种方式,系统可用的所有数据的整体可用于优化深度学习卷积或其他神经网络图像分析模型。

在一些实施方案中,计算系统包括一个或多个客户端系统和服务器。每个客户端系统都通过互联网连接到服务器。在一些实施方案中,任何感兴趣的流式细胞术数据及其分类结果由客户端系统传输到服务器。从正常和癌症患者上传至少一些最有趣的流式细胞术数据。在一些实施方案中,服务器具有多核gpu或非常强大的神经网络训练硬件配置。维持关于患者的随访信息,并且如果他们的病况发生变化,则使用该信息改进中心模型的分类能力。例如,如果患者在随后的血液测试中从正常变为i期癌症,先前的流式细胞术数据可以开始形成新的分类,例如“现在具有阳性诊断的先前正常的患者”。

当中心模型得到充分改善时,其可以在必要时在获得fda批准后作为下一代分布给客户端系统。

来自患者样品的mdsc枚举

在一些实施方案中,使用mdsc进行分析。过程如下。该过程开始于用磷酸盐缓冲溶液(pbs)中的2%胎牛血清(fbs)以1∶1稀释血液。优选的实施方案使用来自收集的10毫升(ml或ml)样品的5毫升血液。然后,将3.5mlficollplaqueplus分配到15ml过滤管中。接下来,小心地用pbs将10ml稀释的血液分层。然后在室温下以1,200引力常数(xg)旋转10分钟(min)。使用1-ml移液管端头在过滤器顶部附近刮擦白细胞(wbc)并将液体倒入新的15-ml管中来收集外周血单核细胞(pbmc)层。该过程进一步用2%fbs填充具有细胞的新15-ml管至顶部,在40xg离心下以1700转每分钟(rpm)旋转5min,将上清液倒入废物中,并将沉淀重新悬浮于1ml磁性激活细胞分选(macs)缓冲液中。用macs缓冲液将管填充至顶部,并在40xg离心下以1700rpm旋转5min。该过程进一步将上清液倒入废物中,并将沉淀重新悬浮在1mlmacs缓冲液中。然后,通过将90微升(μl或μl)pbs和100μl台盼蓝分配到管中,使用新的1.5-mleppendorf管来制备pbmc的列举。然后,将10μl细胞混合物添加至管中并倒置数次,随后将10μl加载到细胞数器中,进行重复并对两个读数求平均。在一些实施方案中,读数将最终平均数乘以10以说明稀释,其中细胞数器补偿稀释的其他部分。对所需体积的mac缓冲液进行测定,以达到每ml5.0×106个pbmc的细胞浓度(参见下面的示例性计算)。该过程可将100μl细胞混合物分配到mdsc和mdsc阴性管中,快速涡旋,在40℃下储存>15min,并用pbs将管填充至顶部,并在40℃离心下以1700rpm将样品离心5min。最后,丢弃上清液至废液,用125ul的dapi缓冲液重新悬浮每个管,并运行流式细胞术。

在一些实施方案中,样品计算为:v1×c1=v2×c2。例如,如果细胞数器中的活细胞数目为8.1×105,则(8.1×105)×10=8.1×106,其中乘以10说明稀释。每毫升1ml×8.1×106个细胞等于zml×5.0×106。则z等于1.62。最后,z减去1.0ml以确定当前悬浮在0.62ml中。这意味着,该过程可以向当前的细胞样品添加0.62ml,以达到期望的浓度。如果z小于1,则v1×c1=v2×c2以一定速度(例如,至多1000rpm、1100rpm、1200rpm、1300rpm、1400rpm、1500rpm、1600rpm、1700rpm或1800rpm)再次旋转下降一段时间(例如,1min、2min、3min、4min、5min、6min、7min、8min、9min或10min),然后丢弃上清液并重新悬浮在适量的mac缓冲液中。

数字处理设备

在一些实施方案中,本文所述的平台、系统、介质和方法包括数字处理设备或其使用。在进一步的实施方案中,数字处理设备包括执行设备功能的一个或多个硬件中央处理单元(cpu)或通用图形处理单元(gpgpu)。在更进一步的实施方案中,数字处理设备进一步包括被配置用于执行可执行指令的操作系统。在一些实施方案中,数字处理设备可选地连接到计算机网络。在进一步的实施方案中,数字处理设备可选地连接到互联网,以使得其访问万维网。在更进一步的实施方案中,数字处理设备可选地连接到云计算基础设施。在其他实施方案中,数字处理设备可选地连接到内联网。在其他实施方案中,数字处理设备可选地连接到数据存储设备。

根据本文的描述,举非限制性示例而言,合适的数字处理设备包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、亚笔记本计算机、上网本计算机、上网平板计算机、机顶盒计算机、媒体流设备、手持式计算机、因特网设备、移动智能电话(例如,iphone或android电话)、平板计算机(例如,ipad)、个人数字助理、视频游戏主机和载具。本领域技术人员将认识到,许多智能电话都适于在本文所述的系统中使用。本领域技术人员还将认识到,具有可选的计算机网络连通性的选定的电视机、视频播放器和数字音乐播放器适于在本文所述的系统中使用。合适的平板计算机包括本领域技术人员已知的具有小册子、平板和可转换配置的那些平板计算机。

在一些实施方案中,数字处理设备包括被配置用于执行可执行指令的操作系统。例如,操作系统是包括程序和数据在内的软件,其管理设备的硬件并为应用程序的执行提供服务。本领域技术人员将认识到,举非限制性示例而言,合适的服务器操作系统包括freebsd、openbsd、linux、macosxwindows本领域技术人员将认识到,举非限制性示例而言,合适的个人计算机操作系统包括macos和类似unix的操作系统,如在一些实施方案中,操作系统由云计算提供。本领域技术人员还将认识到,举非限制性示例而言,合适的移动智能电话操作系统包括os、researchinblackberrywindowsos、windowsos、本领域技术人员还将认识到,举非限制性示例而言,合适的媒体流设备操作系统包括applegooglegoogleamazon本领域技术人员还将认识到,举非限制性示例而言,合适的视频游戏控制台操作系统包括xboxmicrosoftxboxone、wii

在一些实施方案中,该设备包括存储和/或存储器设备。存储和/或存储器设备是用于暂时地或永久地存储数据或程序的一个或多个物理设备。在一些实施方案中,该设备是易失性存储器,并需要电力来维护存储的信息。在一些实施方案中,该设备是非易失性存储器,并在数字处理设备未通电时保留存储的信息。在进一步的实施方案中,非易失性存储器包括闪存。在一些实施方案中,非易失性存储器包括动态随机存取存储器(dram)。在一些实施方案中,非易失性存储器包括铁电随机存取存储器(fram)。在一些实施方案中,非易失性存储器包括相变随机存取存储器(pram)。在其他实施方案中,该设备是以下存储设备,举非限制性示例而言,包括cd-rom、dvd、闪存设备、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。在进一步的实施方案中,存储和/或存储器设备是如本文所公开的那些设备的组合。

在一些实施方案中,数字处理设备包括显示器,以向用户发送视觉信息。在一些实施方案中,显示器是阴极射线管(crt)。在一些实施方案中,显示器是液晶显示器(lcd)。在进一步的实施方案中,显示器是薄膜晶体管液晶显示器(tft-lcd)。在一些实施方案中,显示器是有机发光二极管(oled)显示器。在各种进一步的实施方案中,oled显示器上是无源矩阵oled(pmoled)或有源矩阵oled(amoled)显示器。在一些实施方案中,显示器是等离子显示器。在其他实施方案中,显示器是视频投影仪。在更进一步的实施方案中,显示器是如本文所公开的那些设备的组合。

在一些实施方案中,数字处理设备包括输入设备,以从用户接收信息。在一些实施方案中,输入设备是键盘。在一些实施方案中,输入设备是指点设备,举非限制性示例而言,包括鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触控笔。在一些实施方案中,输入设备是触摸屏或多点触摸屏。在其他实施方案中,输入设备是麦克风,以捕获语音或其他声音输入。在其他实施方案中,输入设备是视频像机或其他传感器,以捕获运动或视觉输入。在进一步的实施方案中,输入设备是kinect、leapmotion等。在更进一步的实施方案中,输入设备是诸如本文所公开的那些设备的组合。

参考图12,在特定实施方案中,示例性的数字处理设备801被编程或以其他方式配置用于执行流式细胞术数据分析。设备801可以调节本公开的数据分析的各个方面,例如,卷积神经网络。在该实施方案中,数字处理设备801包括中央处理单元(cpu,本文也称为“处理器”和“计算机处理器”)805,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。数字处理设备801还包括存储器或存储器位置810(例如,随机存取存储器、只读存储器、闪存)、电子存储单元815(例如,硬盘)、用于与一个或多个其他系统通信的通信接口820(例如,网络适配器),以及外围设备825,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器810、存储单元815、接口820和外围设备825通过诸如母板的通信总线(实线)与cpu805通信。存储单元815可以是数据存储单元(或数据储存库)以存储数据。数字处理设备801可借助于通信接口820可操作地耦合到计算机网络(“网络”)830。网络830可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,网络830是电信和/或数据网络。网络830可以包括一个或多个计算机服务器,其可以实现分布式计算,如云计算。在一些情况下,网络830可以借助于设备801实现对等网络,对等网络可以使耦合到设备801的设备能够充当客户端或服务器。

继续参考图12,cpu805可以执行一系列机器可读指令,该指令可以体现在程序或软件中。该指令可以存储在存储器位置,如存储器810中。指令可以指向cpu805,且可以随后编程或以其他方式配置cpu805以实现本公开内容的方法。由cpu805执行的操作的示例可以包括提取、解码、执行和回写。cpu805可以是电路如集成电路的一部分。设备801的一个或多个其他组件可以包括在电路中。在一些情况下,该电路是专用集成电路(asic)或现场可编程门阵列(fpga)。

继续参考图12,存储单元815可以存储文件,如驱动程序、库和保存的程序。存储单元815可以存储用户数据,例如用户偏好和用户程序。在一些情况下,数字处理设备801可以包括一个或多个外部的附加数据存储单元,如位于通过内部网或因特网进行通信的远程服务器上。

继续参考图12,数字处理设备801可以通过网络830与一个或多个远程计算机系统通信。例如,设备801可以与用户的远程计算机系统通信。远程计算机系统的示例包括个人计算机(例如,便携式pc)、平板或平板型pc(例如,ipad、galaxytab)、电话、智能电话(例如,iphone、支持android的设备、)或个人数字助理。

本文所述的方法可以通过存储在数字处理设备801的电子存储位置上,例如存储器810或电子存储单元815上的机器(例如,计算机处理器)可执行代码来实现。机器可执行代码或机器可读代码可以以软件的形式提供。在使用过程中,代码可以由处理器805执行。在一些情况下,代码可以从存储单元815检索,并存储在存储器810上以供处理器805迅速存取。在一些情况下,可以排除电子存储单元815,并且将机器可执行指令存储在存储器810上。

非暂时性计算机可读存储介质

在一些实施方案中,本文公开的平台、系统、介质和方法包括一个或多个非暂时性计算机可读存储介质,该计算机可读存储介质被变成具有包括可由可选地联网的数字处理设备的操作系统执行的指令的程序。在进一步的实施方案中,计算机可读存储介质是数字处理设备的有形组件。在更进一步的实施方案中,计算机可读存储介质可选地可从数字处理设备移除。在一些实施方案中,举非限制性示例而言,计算机可读存储介质包括cd-rom、dvd、闪存设备、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些情况下,该程序和指令永久地、基本上永久地、半永久地或非暂时地编码在所述介质上。

计算机程序

在一些实施方案中,本文公开的平台、系统、介质和方法包括至少一个计算机程序或其使用。计算机程序包括可在数字处理设备的cpu中执行的指令序列,该指令序列被编写用于执行指定任务。计算机可读指令可以实现为执行特定任务或实现特定抽象数据类型的程序模块,如函数、对象、应用程序编程接口(api)、数据结构等。鉴于本文提供的公开内容,本领域技术人员将认识到,计算机程序可以用各种语言的各种版本编写。

计算机可读指令的功能可根据需要在各种环境中进行组合或分布。在一些实施方案中,计算机程序包括一个指令序列。在一些实施方案中,计算机程序包括多个指令序列。在一些实施方案中,从一个位置提供计算机程序。在其他实施方案中,从多个位置提供计算机程序。在各种实施方案中,计算机程序包括一个或多个软件模块。在各种实施方案中,计算机程序部分地或整体地包括一个或多个web应用程序、一个或多个移动应用程序、一个或多个独立应用程序、一个或多个web浏览器插件、扩展、加载项或附加项,或其组合。

web应用程序

在一些实施方案中,计算机程序包括web应用程序。鉴于本文提供的公开内容,本领域技术人员将认识到,在各种实施方案中,web应用程序使用一个或多个软件框架和一个或多个数据库系统。在一些实施方案中,在诸如.net或rubyonrails(ror)等软件框架上创建web应用程序。在一些实施方案中,web应用程序使用一个或多个数据库系统,举非限制性示例而言,该数据库系统包括关系型数据库系统、非关系型数据库系统、面向对象数据库系统、关联数据库系统和xml数据库系统。在进一步的实施方案中,举非限制性示例而言,合适的关系型数据库系统包括sqlserver、mysqltm本领域技术人员还将认识到,在各种实施方案中,web应用程序是用一种或多种语言的一个或多个版本编写的。web应用程序可以用一种或多种标记语言、表示定义语言、客户端脚本语言、服务器端编码语言、数据库查询语言或其组合来编写。在一些实施方案中,web应用程序在某种程度上以诸如超文本标记语言(html)、可扩展超文本标记语言(xhtml)或可扩展标记语言(xml)等标记语言编写。在一些实施方案中,web应用程序在某种程度上以诸如层叠样式表(css)等表示定义语言编写。在一些实施方案中,web应用程序在某种程度上以诸如异步javascript和xml(ajax)、actionscript、javascript或等客户端脚本语言编写。在一些实施方案中,web应用程序在某种程度上以诸如动态服务器网页(asp)、perl、javatm、javaserverpages(jsp)、超文本预处理器(php)、pythontm、ruby、tcl、smalltalk、或groovy等服务器端编码语言编写。在一些实施方案中,web应用程序在某种程度上以诸如结构化查询语言(sql)等数据库查询语言编写。在一些实施方案中,web应用程序集成了诸如lotus等企业级服务器产品。在一些实施方案中,web应用程序包括媒体播放器元素。在各种进一步的实施方案中,媒体播放器元素使用许多合适的多媒体技术中的一种或多种,举非限制性示例而言,包括html5、javatm

移动应用程序

在一些实施方案中,计算机程序包括提供给移动数字处理设备的移动应用程序。在一些实施方案中,在制造移动数字处理设备时为其提供移动应用程序。在其他实施方案中,经由本文描述的计算机网络向移动数字处理设备提供移动应用程序。

鉴于本文提供的公开内容,使用本领域已知的硬件、语言和开发环境,通过本领域技术人员已知的技术来创建移动应用程序。本领域技术人员将认识到,移动应用程序是用若干语言编写的。举非限制性示例而言,合适的编程语言包括c、c++、c#、objective-c、javatm、javascript、pascal、objectpascal、pythontm、ruby、vb.net、wml以及带有或不带有css的xhtml/html或其组合。

合适的移动应用程序开发环境可从若干来源获得。举非限制性示例而言,可商购的开发环境包括airplaysdk、alchemo、celsius、bedrock、flashlite、.netcompactframework、rhomobile和worklightmobileplatform。其他开发环境可免费获得,举非限制性示例而言,包括lazarus、mobiflex、mosync和phonegap。此外,移动设备制造商分发软件开发工具包,举非限制性示例而言,包括iphone和ipad(ios)sdk、androidtmsdk、sdk、brewsdk、ossdk、symbiansdk、webossdk和mobilesdk。

本领域技术人员将认识到,可以使用若干商业论坛来分发移动应用程序,举非限制性示例而言,包括appstore、play、chromewebstore、appworld、用于palm设备的appstore、用于webos的appcatalog、用于移动设备的marketplace、用于设备的ovistore、apps和dsishop。

独立应用程序

在一些实施方案中,计算机程序包括独立应用程序,该独立应用程序是作为独立计算机进程运行的程序,而不是现有进程的附加项,例如,不是插件。本领域技术人员将认识到,独立应用程序通常是编译的。编译器是将用编程语言编写的源代码变换为二进制目标代码如汇编语言或机器代码的计算机程序。举非限制性示例而言,合适的编译编程语言包括c、c++、objective-c、cobol、delphi、eiffel、javatm、lisp、pythontm、visualbasic和vb.net或其组合。通常至少部分地执行编译以创建可执行程序。在一些实施方案中,计算机程序包括一个或多个可执行的编译的应用程序。

web浏览器插件

在一些实施方案中,计算机程序包括web浏览器插件(例如,扩展等)。在计算中,插件是将特定功能添加到更大的软件应用程序中的一个或多个软件组件。软件应用程序的制造商支持插件,以使第三方开发人员能够产生扩展应用程序的能力、支持轻松添加新功能以及减小应用程序的大小。当受到支持时,插件可以实现定制软件应用程序的功能。例如,web浏览器中经常使用插件来播放视频、生成交互性、扫描病毒以及显示特定文件类型。本领域技术人员将熟悉若干web浏览器插件,包括player、在一些实施方案中,工具栏包括一个或多个web浏览器扩展、加载项或附加项。在一些实施方案中,工具栏包括一个或多个浏览器栏、工具带或桌面带。

鉴于本文提供的公开内容,本领域技术人员将认识到,可获得若干插件框架,该插件框架支持用各种编程语言开发插件,举非限制性示例而言,该编程语言包括c++、delphi、javatm、php、pythontm和vb.net或其组合。

web浏览器(也称为因特网浏览器)是设计用于与网络连接的数字处理设备一起使用的软件应用程序,用于在万维网上检索、呈现和遍历信息资源。举非限制性示例而言,合适的web浏览器包括internetchrome、opera和kdekonqueror。在一些实施方案中,web浏览器是移动web浏览器。移动web浏览器(也称为微浏览器、迷你浏览器和无线浏览器)被设计用于在移动数字处理设备上使用,举非限制性示例而言,包括手持式计算机、平板计算机、上网本计算机、亚笔记本计算机、智能电话、音乐播放器、个人数字助理(pda)和手持式视频游戏系统。举非限制性示例而言,合适的移动web浏览器包括浏览器、rim浏览器、blazer、浏览器、用于移动设备的internetmobile、basicweb、浏览器、operamobile和psptm浏览器。

软件模块

在一些实施方案中,本文公开的平台、系统、介质和方法包括软件、服务器和/或数据库模块或其使用。鉴于本文提供的公开内容,使用本领域已知的机器、软件和语言,通过本领域技术人员已知的技术创建软件模块。这里公开的软件模块以多种方式实现。在各种实施方案中,软件模块包括文件、代码段、编程对象、编程结构或其组合。在进一步的各种实施方案中,软件模块包括多个文件、多个代码段、多个编程对象、多个编程结构或其组合。在各种实施方案中,举非限制性示例而言,一个或多个软件模块包括web应用程序、移动应用程序和独立应用程序。在一些实施方案中,软件模块在一个计算机程序或应用程序中。在其他实施方案中,软件模块在多于一个计算机程序或应用程序中。在一些实施方案中,软件模块托管在一个机器上。在其他实施方案中,软件模块托管在多于一个机器上。在进一步的实施方案中,软件模块托管在云计算平台上。在一些实施方案中,软件模块托管在一个位置中的一个或多个机器上。在其他实施方案中,软件模块托管在多于一个位置中的一个或多个机器上。

数据库

在一些实施方案中,本文公开的平台、系统、介质和方法包括一个或多个数据库或其使用。鉴于本文提供的公开内容,本领域技术人员将认识到,许多数据库适合存储和检索流式细胞术信息。在各种实施方案中,举非限制性示例而言,合适的数据库包括关系型数据库、非关系型数据库、面向对象数据库、对象数据库、实体关系模型数据库、关联数据库和xml数据库。进一步的非限制性示例包括sql、postgresql、mysql、oracle、db2和sybase。在一些实施方案中,数据库是基于互联网的。在进一步的实施方案中,数据库是基于网络的。在更进一步的实施方案中,数据库是基于云计算的。在其他实施方案中,数据库基于一个或多个本地计算机存储设备。

系统操作

图13示出了使用人工神经网络利用本文公开的方法进行癌症诊断的系统的一个实施方案。首先,必须使用样品的训练数据库对系统进行训练。因此,从一组正常样品受试者和一组已知癌症患者获取一组血液样品1301。可以将这些样品根据需要分类尽可能多的类别,只要每个类别中有足够数目的样品供ann以足够的精度进行训练,以满足系统的灵敏度和特异性目标。可以通过在训练集中使用每个类别之间增加的样品数目重复训练系统直至随着添加更多样品灵敏度和特异性不再显著提高,从而确定所需的样品数目。在该类型的ann应用中,所需的样品数目可能在50到150之间。

获得的样品集可以根据上文公开的染色方案或适于制备mdsc样品并且在期望时进行淋巴细胞流式细胞术分析(例如,如本领域已知的)的类似方案进行离心和染色1302。在流式细胞仪仪器如bdbiosciencesfacscelestatm或其他流式细胞仪上对样品进行流式细胞术分析1303a。流式细胞仪将输出fcs格式或其他适当格式的数据文件1303b,该文件然后使用流式细胞术数据分析软件处理1304。合适的和可商购的在windows或macos操作系统下在pc上运行的流式细胞术数据分析程序包括flowjo,llc的flowjotm、denovosoftware的fcsexpresstm或beckmancoulterlifesciences的kaluzaanalysissoftwaretm。如上所述,手动地或优选地自动对fcs文件进行门控以产生事件的活细胞子集。然后将活细胞群以标准格式(如逗号分隔变量(csv))导出到数据储存库1305。

然后,软件算法1307将预定数目的活细胞事件(如10,000至50,000个活细胞事件)转换为如上所述的超体素计数。超体素计数最初存储在超维数组中,然后对于所使用的每个样品数据空间(例如,7-dmdsc、6-d淋巴细胞或者其他细胞群)转换为列向量1308。该软件可以用任何适当的软件语言编写,如c、c++、python、ruby或其他语言,或者可以在诸如matlab等开发sdk环境中开发,如本领域公知的。然后,将如此由数据空间中的每个样品生成的列向量保存在数据储存库中1306,并且连接创建二维矩阵,其行为每个超体素,列为每个样品。可以为每个样品添加附加数据,如年龄、性别、采集状况等。还制备目标载体,其鉴别用于训练的每个样品的癌症状态或正常状态。

如此获得的样品数据库被分成至少三个样品子数据库。第一样品子数据库用于训练多个主ann1310。第二样品子数据库用于对训练的主ann进行最终评估和排序。当已经对足够数目的(通常为3至20个)主ann进行了训练,使其如通过在评估样品子数据库上对其进行测试所确定的达到期望的灵敏度和特异性时,将其并入主ann集合中1311,然后在第三样品子数据库上进行训练。一旦主ann被训练到期望的特异性和灵敏度,就将其保存1312在存档1306中。

ann可能需要得到美国食品药品监督管理局(u.s.fda)的批准。在适当时,将经训练的ann部署1315到远程测试个人计算机(pc)1324,以便在诸如医院和诊所等远程位置进行现场测试,并安装在网络服务器1325上用于在线测试。

在期望进行该诊断测试的远程站点,从测试受试者获得血液样品1316。这些样品可以在远程诊所在本地离心染色1317,或者可以将样品运送到集中位置以供处理(未示出)。对样品进行流式细胞术1318,并保存流式细胞仪数据1319,输出为逗号分隔值(csv)格式1320,变换1322并转置1323,并在本地pc上使用先前训练和部署进行测试1324,或者,csv文件被上传到网络服务器1325,以便在线进行测试。然后,从本地pc1326或从网络服务器1327提供测试结果。

无论是在本地还是在线进行测试,样品数据都被上传到存档1306。当确认的诊断可用于样品时,该样品被包括在扩展的数据集中,该扩展的数据集用于使用持续增加的数据集来持续重新训练神经网络。由于样品大小的增加,ann表现将持续改善。当表现充分改善时,新的ann可以被“冻结”并重新部署作为测试网络的下一版本1315。

实施例

实施例1-mdsc检测

通过流式细胞术和卷积神经网络在患有癌症的患者中鉴别mdsc群体。

采集患有癌症的患者的外周血样品。将血液样品离心以使细胞沉淀。在磷酸盐缓冲溶液(pbs)中将细胞重新悬浮至107个细胞/ml(细胞每毫升)的浓度。

然后用抗人单克隆抗体标记细胞。使用的抗体包括抗谱系-fitc(异硫氰酸荧光素),包括抗cd3、抗cd14、抗cd16、抗cd19、抗cd20和抗cd56、抗cd33-pe、抗hla-dr-ecd、抗cd11b-pe-cy5、抗cd14-pe、抗cd15-pe-cy5、抗cd33-pe-cy7。然后通过流式细胞术分析细胞,获得至少4×104个事件以供分析。

在初始fsc/ssc判别之后,将门设置在dr-/lin-细胞上。然后对亚群进行门控以鉴别mdsc,包括cd14-、cd11b+、cd15+、cd66+、cd14+、cd15-及其组合。

使用matlab2016b矩阵计算软件执行计算。使用matlab神经网络工具箱和并行计算工具箱进行原理计算证明。贝叶斯正则化反向传播产生最佳结果。该模型使用15个正常个体(例如,健康受试者)和25个癌症患者(例如,患有癌症的受试者)进行训练。该模型自动使用模型集(16个正常个体和25个癌症患者)中的剩余样品进行自我测试。

在一些实施方案中,考虑附加的技术要素。例如,考虑更多维度(例如,以ssc-a开始);选择更高的分辨率或者一个或多个选定的轴;在关键区域使用聚焦分辨率获得更高分辨率;创建集合架构;通过主成分分析执行输入向量的降维;利用k均值聚类;利用自组织映射;训练和测试特定癌症类型以获得最佳分析架构。

测试结果

在模型测试集中,该模型具有81.2%的特异性和80.0%的灵敏度(13/16正常正确,20/25癌症正确)。对于模型集的所有81个样品,该模型具有90.3%的特异性和90.0%的灵敏度(28/31正常正确,45/50癌症正确)。将模型冻结,并用于测试留出的4个癌症和3个正常。100%(7/7)测试正确。因此,对于未用于训练模型的新样品,其具有84.2%(16/19)的特异性和82.7%(24/29)的灵敏度。对于总样品集(81个模型集+7个留出集(34个正常,54个癌症)总计=88个样品),该模型具有91.2%(31/34)的特异性和90.7%(49/54)的灵敏度。

从31个健康供体(例如,健康受试者)和50个癌症患者(例如,患有癌症的受试者)获得血液样品(例如,生物样品),分别如表1和表2所示。

表1.健康/正常供体

表2.癌症患者

通过要求(1)活细胞计数为40,000或更大(2)正确染色和(3)正确补偿来鉴别来自健康供体和癌症患者的样品。所有符合这些标准的样品均被用于训练或测试。手动门控流式细胞术数据以产生如上所述的活细胞群。从流式细胞术输出fcs文件可获得13个通道的数据。这些通道是fsc-a、fsc-h、fsc-w、ssc-a、ssc-h、ssc-w、cd11b、cd14、hla-dr、cd33、谱系、dapi和cd15。在这13个中,选择6个用于进行第一配置的测试。这6个是cd11b、cd14、hla-dr、cd33、谱系和cd15。如上所述,将每个轴分成4个分区。这导致4×4×4×4×4×4超体积。累计计数,指示每个样品中的40,000个细胞中有多少落在每个超体素中。然后将每个超体素中的4×4×4×4×4×4超体积计数值变换为每个样品的4,096×1列向量。在总共81个健康供体和癌症患者样品中,随机选择50%或约40个进行训练,而留出81个样品的其余部分用于测试。此外,手动留出3个健康供体和4个癌症患者样品进行最终确认测试。使用的神经网络架构是监督式学习的神经网络前馈架构,其使用levenberg-marquardt反向传播、贝叶斯正则化反向传播和量化共轭梯度反向传播的训练函数。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1