一种细胞分类器的构建方法、装置及系统与流程

文档序号:15400114发布日期:2018-09-11 17:17阅读:202来源:国知局
本申请涉及细胞分类
技术领域
,特别是涉及一种细胞分类器的构建方法、装置及系统。
背景技术
:随着医疗卫生和人们健康需求的发展,疾病预防和检测正引起广泛的关注与研究。而细胞检测可以为一些重大疾病,如癌症和自身免疫性疾病提供诊断依据,因此细胞检测成为研究领域的热门话题。细胞分类作为细胞检测的重要分支,已经具备了丰富的理论基础和实践经验,一些典型的分类模型和特征提取方法已经得到了广泛的应用。例如,传统的流式细胞仪可以快速测量、存贮、显示悬浮在液体中的分散细胞的一系列重要的生物物理、生物化学方面的特征参量,并可以根据预选的参量范围把指定的细胞亚群从中分选出来,在临床医学中得到了广泛应用。但是,由于传统流式细胞仪使用的标记物是荧光基团,其发射光谱比较宽,通道之间容易发生光谱重叠,在后续的数据处理部分要进行复杂的补偿计算,这在一定程度上限制了流式细胞仪的检测通道的数量,进而影响细胞分类精度。随着疾病预防和检测领域对细胞分类精度的需求不断提升,一种精度更高的细胞分类技术亟待出现。技术实现要素:本申请实施例中提供了一种细胞分类器的构建方法、装置及系统,以利于解决现有技术中细胞分类精度较低的问题。第一方面,本申请实施例提供了一种细胞分类器的构建方法,所述方法包括:通过质谱细胞术对m个单细胞样本点进行分析,获得m个单细胞样本点的高维数据;对所述m个单细胞样本点的高维数据贴标签,获得n组带有标签的高维数据,其中,同一组高维数据的标签标识的细胞类型相同;通过svm对所述n组高维数据进行两两分类训练,构建n(n-1)/2个分类器。可选地,所述对所述m个单细胞样本点的高维数据贴标签,包括:对所述m个单细胞样本点的高维数据进行降维可视化处理,获得可视化图像;对所述可视化图像内的数据进行聚类处理,获得p个聚类区域;将所述聚类区域与n个经不同标记物染色后的染色区域进行对比,其中,每一种标记物的染色区域对应一种细胞类型;若所述染色区域与所述聚类区域相匹配,则为相应的聚类区域对应的高维数据添加标签,其中,若第一染色区域与第一聚类区域相匹配,则为所述第一聚类区域对应的高维数据添加第一标签,所述第一标签表征所述第一染色区域对应的细胞类型。可选地,所述第一染色区域与第一聚类区域相匹配,具体包括:所述第一聚类区域包含所述第一染色区域。可选地,所述方法还包括:若所述聚类区域与所述染色区域不匹配,则调整聚类参数,对所述可视化图像内的数据重新进行聚类处理。第二方面,本申请实施例提供了一种细胞分类器的构建装置,所述装置包括:分析模块,用于通过质谱细胞术对m个单细胞样本点进行分析,获得m个单细胞样本点的高维数据;贴标签模块,用于对所述m个单细胞样本点的高维数据贴标签,获得n组带有标签的高维数据,其中,同一组高维数据的标签标识的细胞类型相同;训练模块,用于通过svm对所述n组高维数据进行两两分类训练,构建n(n-1)/2个分类器。可选地,所述贴标签模块,具体包括:可视化模块,用于对所述m个单细胞样本点的高维数据进行降维可视化处理,获得可视化图像;聚类模块,用于对所述可视化图像内的数据进行聚类处理,获得p个聚类区域;对比模块,用于将所述聚类区域与n个经不同标记物染色后的染色区域进行对比,其中,每一种标记物的染色区域对应一种细胞类型;标记模块,用于若所述染色区域与所述聚类区域相匹配,则为相应的聚类区域对应的高维数据添加标签,其中,若第一染色区域与第一聚类区域相匹配,则为所述第一聚类区域对应的高维数据添加第一标签,所述第一标签表征所述第一染色区域对应的细胞类型。可选地,所述第一染色区域与第一聚类区域相匹配,具体包括:所述第一聚类区域包含所述第一染色区域。可选地,所述装置还包括:参数调整模块,用于若所述聚类区域与所述染色区域不匹配,则调整聚类参数,对所述可视化图像内的数据重新进行聚类处理。第三方面,本申请实施例提供了一种细胞分类器的构建系统,包括:处理器;用于存储处理器的执行指令的存储器;其中,所述处理器被配置为执行上述第一方面任一项所述的方法。在本申请实施例中,将质谱细胞术这种单细胞识别准确率更高的技术与svm这种机器学习的方法相结合,建立了高准确率、自动化的细胞分类器,不仅可以实现高准确率的细胞识别,而且可以实现识别过程的自动化。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种细胞分类器的构建方法的流程示意图;图2为本申请实施例提供的一种高维数据贴标签的流程示意图;图3为本申请实施例提供的一种细胞聚类示意图;图4为本申请实施例提供的一种经cd33染色的染色示意图;图5为本申请实施例提供的一种经cd34染色的染色示意图;图6为本申请实施例提供的一种roc曲线示意图;图7为本申请实施例提供的另一种roc曲线示意图;图8为本申请实施例提供的一种细胞分类器的构建装置的结构示意图。具体实施方式为了使本
技术领域
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。可理解,细胞的特征是由细胞表面不同的标志蛋白以及细胞内部不同的信号分子、效应分子来特异性的识别的。传统的流式细胞仪因为使用的标记物是荧光基团,其发射光谱比较宽,通道之间容易发生光谱重叠,在后续的数据处理部分要进行复杂的补偿计算,这在一定程度上限制了传统流式细胞仪的检测通道的数量。目前,传统的流式细胞仪只能进行十几种参数分析,由于其测量的单细胞参数较少,限制了后续的细胞分类识别的精度。质谱细胞术是一种新型单细胞分析技术,该技术集成了质谱和细胞仪的原理,可在单细胞中同时测量几十种甚至上百种特征标记物,不仅能进行高速的分析,而且具有质谱分析的高精确度与高识别能力。由于质谱细胞术较之传统荧光流式细胞仪测量的参数多且通道之间没有干扰,并且不需要进行补偿计算,因此可以作为单细胞分析的一个理想选择。但是,由于质谱细胞数据的高维特点,使得传统的流式分析方法不能完全满足分析需求。基于此,本申请实施例提供了一种基于质谱细胞术和svm的细胞分类器的构建方法,基于该方法构建的细胞分类器可以实现高维数据的自动分类,下面首先对质谱细胞术和svm的工作原理进行简单介绍。质谱细胞术:将细胞表面或内部的信号分子、效应分子用金属标签抗体进行标记,再将细胞送入质谱细胞仪,生成单细胞队列,逐个进行icp质谱检测,从而对单个细胞中的各金属标签进行定量,进而得知细胞中各目标蛋白的含量。具体来讲,首先,结合不同过渡元素同位素的抗体被用来标记细胞表面或细胞内的目标表位,使每个细胞都有不同的质量;其次,这些细胞再被喷射成单细胞的液滴进入电感耦合等离子体(icp-ms),使每个细胞汽化并引起它的原子成分的电离;最后,产生的元素离子被一个tof质量分析器取样和量化。每个过渡元素同位素记录仪的信号被整合成到达探测器的每个细胞的离子成分的信息,从而求得每个细胞的元素质量谱。其中,整合的每个细胞的元素记录信号可以用传统的二维示意图分析或者更加先进的方法,比如感应磷酸化的热图和树图分析。目前,tof的取样分辨率使测量能够达到每秒1000个细胞。svm:(supportvectormachine,svm)支持向量机,也称支持向量网络,是二十世纪九十年代中期vapnik等人基于统计学习理论发展出来的一种新的通用学习方法。svm是建立在vc维理论和结构风险最小化原理(srm)基础上的,能很好的克服维数灾难和过拟合等问题,拥有出色的学习性能。相较其他学习算法,svm在非线性、小样本和高维模式识别等问题中具有突出的优势。它可以根据有限的样本信息在正确学习特定样本子集和无错误地识别任意样本子集之间寻求最佳的折衷,以期获得最好的推广泛化能力。其泛化能力优于神经网络等传统学习方法。图1为本申请实施例提供的一种细胞分类器的构建方法的流程示意图,如图1所示,其主要包括以下步骤。步骤s101:通过质谱细胞术对m个单细胞样本点进行分析,获得m个单细胞样本点的高维数据。需要指出的是,本申请实施例的高维数据中的高维是一种相对概念,例如,传统流式细胞仪只能测量十几种单细胞参数,而通过质谱细胞术可以同时测量几十种甚至上百种单细胞参数,因此,通过质谱细胞术获得的单细胞数据相对传统流式细胞仪测量的单细胞数据是一种高维数据。表一为本申请实施例提供的一个健康人类骨髓高维数据样本集的参数,样本中包括41个参数,也就是说,每一个单细胞样本点的高维数据对应该41个参数值。表一:部分参数解释:cd为细胞的膜型cd分子等免疫分子;cell_length是细胞离子云高斯峰的长度,不是细胞的物理长度,其用于判断是单细胞还是成对细胞;dna1是用金属嵌入剂标记的dna,用于识别碎片、单细胞或成对细胞;dna2同dna1一样,只是用了不同的同位素进行标记;cd3(1)、cd3(2)、cd3(3)、cd3(4)是用四种不同的镉同位素标记的cd3分子;igd是免疫球蛋白d,是表达于成熟的b淋巴细胞表面的一种跨膜型抗体;igm是免疫球蛋白m;pstat5是磷酸化转录激活因子5;t.ikb.a是一种核因子;cxcr4是cd184分子;hla-dr是mhc-ⅱ类分子,也是一种膜型的免疫分子,表达于b细胞、单核细胞、活化t淋巴细胞、祖细胞等。步骤s102:对所述m个单细胞样本点的高维数据贴标签,获得n组带有标签的高维数据,其中,同一组高维数据的标签标识的细胞类型相同。由于svm是一种有监督的机器学习方法,学习的过程中需要用到原始数据的数据标签,而步骤s101中获得的高维数据并没有标签文件,因此需要对该高维数据贴标签。可理解,给高维数据贴标签相当于给每个高维数据添加细胞类型信息。图2为本申请实施例提供的一种高维数据贴标签的流程示意图,如图2所示,其主要包括以下步骤。步骤s1021:对所述m个单细胞样本点的高维数据进行降维可视化处理,获得可视化图像。为了便于后续数据处理,首先需要对m个单细胞样本点的高维数据进行降维可视化处理。在一种可选实施例中,可以采用非线性的降维算法(t-sneorbarnes-hutsne)对高维单细胞数据进行降维可视化。步骤s1022:对所述可视化图像内的数据进行聚类处理,获得p个聚类区域。在对高维数据进行降维可视化处理后,可以通过k-means聚类算法对可视化图像内的数据进行聚类。在实际应用场景中,可以根据需要调节参数,进而将细胞聚成不同的类别数。参数不同,细胞被聚成的类别数不同,细胞聚类的精细度也不同。具体聚成多少类,根据聚类区域与染色区域对比结果来确定(即聚类区域与染色区域是否匹配来判定)。其中,若存在两个或两个聚类方案均满足聚类区域和染色区域相匹配,则选择聚类区域较多的聚类方案,这样做的目的是如果聚类类别比较少,那么稀有的细胞集群会被聚类到细胞含量较多的集群中,例如干/祖细胞等稀有细胞。为了得到稀有细胞集群的正确标签,我们采取的聚类策略是,在满足聚类区域和染色区域相匹配的条件下,尽可能将细胞聚成较多的类。步骤s1023:将所述聚类区域与n个经不同标记物染色后的染色区域进行对比。在图3所示的实施例中,将细胞聚成了35类,即获得35个聚类区域,同时得到n个经不同标记物染色后的染色图,染色图中被着色的数据点组成染色区域。由于每一种标记物对应一种细胞类型,因此每个染色图中染色区域对应的细胞类型相同。例如,图4所示的染色区域为经cd33染色的单核细胞,图5所示的染色区域为经cd34染色的干/祖细胞。需要指出的是,此处的染色区域的数量n及其对应的细胞类型与后续步骤中构建的分类器将要分类的细胞相对应,本领域技术人员可以根据实际需要进行相应选择,本申请实施例对此不做具体限定。在本申请实施例中,构建成熟b细胞、不成熟b细胞、t细胞、祖细胞、单核细胞、红细胞六种细胞的分类器,因此需要将聚类区域与6个经相应标记物染色后的染色区域进行对比。表二为细胞染色所用部分典型标记物与细胞类型对照表。表二:细胞类型典型标记物cd20+bcells(成熟b细胞)cd19+cd20+cd20-bcells(不成熟b细胞)cd19+cd20-tcells(t细胞)cd3+progenitors(祖细胞)cd34+monocytes(单核细胞)cd33+erythrocytes(红细胞)cd61-其中,+表示标记物表达阳性,-表示标记物表达阴性。步骤s1024:若所述染色区域与所述聚类区域相匹配,则为相应的聚类区域对应的高维数据添加标签,其中,若第一染色区域与第一聚类区域相匹配,则为所述第一聚类区域对应的高维数据添加第一标签,所述第一标签表征所述第一染色区域对应的细胞类型。可理解,若染色区域与聚类区域相匹配,说明聚类结果合适,则为相应的聚类区域对应的高维数据添加标签。例如,图3中的聚类区域21、22与图4中经cd33染色的染色区域相匹配,则将聚类区域21、22对应的高维数据的添加表征单核细胞的标签;图3中的聚类区域18与图5中经cd34染色的的染色区域相对应,则将聚类区域18对应的高维数据添加表征干/祖细胞的标签。相反,若染色区域与聚类区域不匹配,说明聚类结果不合适,则需要调整聚类参数,对所述可视化图像内的数据重新进行聚类处理。具体实现中,所述第一染色区域与第一聚类区域相匹配,可以理解为所述第一聚类区域包含所述第一染色区域。在一种可选实施例中,在健康人类骨髓高维数据样本集识别出了成熟b细胞、不成熟b细胞、t细胞、祖细胞、单核细胞、红细胞六种细胞,即获得6组带有相应标签的高维数据。步骤s103:通过svm对所述n组高维数据进行两两分类训练,构建n(n-1)/2个分类器。svm是建立在vc维理论和结构风险最小化原理(srm)基础上的,能很好的克服维数灾难和过拟合等问题,拥有出色的学习性能。相较其他学习算法,svm在非线性、小样本和高维模式识别等问题中具有突出的优势。基于此,本申请实施例通过svm对上述步骤中获得的n组高维数据进行分类训练。另外,由于svm是两两分类器,若要对n种细胞分类,则需要构建n(n-1)/2个分类器。具体实现中,在进行机器学习之前,为了保证后续处理方便,也为了程序运行时收敛加快,需要对数据进行归一化处理。数据归一化的方法很多,在一种可选实施例中,采用标准正态归一化方法或者z-score标准化方法。其表达式为:其中,x为原始数据,μ为该数据所在列的所有样本数据的均值,δ为该数据所在列的所有样本数据的标准差,x*为归一化处理之后的数据。经过处理之后的数据每一列都符合标准正态分布,即均值为0,标准差为1。数据的训练可以使用matlabr2015b版本中的fitcsvm函数,并用for循环来实现不同折数的交叉验证。训练得到的模型svmmodel用来进行后续测试。测试使用的函数为predict,得到预测的标签及score值,即对该预测结果的评分。score值在后面对预测结果的评估中要用到。对结果的评估可以使用perfcurve函数。首先需要求出tp、tn、fp、fn等参数,然后根据这几个参数求得灵敏度sensitivity、特异性specificity、精确率precision、召回率recall、准确率accuracy、f1-score,根据precision、recall两个参数画出precision-recall曲线(查准率与查全率曲线),根据sensitivity、1-specificity两个参数画出roc曲线(受试者工作特征曲线或感受性曲线),并计算出roc曲线下方的面积auc。f1-score为precision和recall的调和平均数,是一个综合的评价指标。当f1的值较高时,说明两者达到一个较好的平衡,实验结果比较理想。正常情况下,precision-recall曲线右上角有一个拐点,拐点越向右上角,证明模型分类效果越好。roc曲线左上角有一个拐点,拐点越向左上角,证明模型分类效果越好。或者,auc(roc曲线下方的面积)(0~1之间)值越大,也证明模型分类效果越好。将auc的值作为一个评估指标是因为有时候从roc曲线上并不能直观的看出哪个分类器效果更好,而作为一个数值,则是值越大,分类效果越好。为了便于本领域技术人员更好地理解本技术方案,以下结合具体实施例进行详细说明。如前所述,在步骤s102中识别出了成熟b细胞、不成熟b细胞、t细胞、祖细胞、单核细胞、红细胞六种细胞,训练时,每种细胞选择5000个样本点。表3为样本数据集信息。表三:细胞类型标签号样本点个数cd20+bcells(成熟b细胞)15000cd20-bcells(不成熟b细胞)25000tcells(t细胞)35000progenitors(祖细胞)45000monocytes(单核细胞)55000erythrocytes(红细胞)65000具体实现中,采用线性核函数进行数据归一化,基于10折交叉验证,使用fitsvm对数据集的数据进行训练。因为一共有六种细胞,两两分类,因此一共要建立15个分类器。表四为6种不同类型细胞两两之间的分类结果。表五为6种不同类型细胞两两之间分类结果的各评估指标的值。表四:表五:图6为表三所示的第1类细胞与第2类细胞的分类结果的roc曲线。图7为表三所示的第2类细胞与第4类细胞的分类结果的roc曲线。在上述分类结果中,可以看到1v2、1v3、1v4、1v5、1v6,即成熟b细胞与不成熟b细胞、t细胞、祖细胞、单核细胞、红细胞之间,2v3、2v4、2v5、2v6,即不成熟b细胞与t细胞、祖细胞、单核细胞、红细胞之间,3v4、3v5、3v6,即t细胞与祖细胞、单核细胞、红细胞之间,4v5、4v6,即祖细胞与单核细胞、红细胞之间,5v6,即单核细胞与红细胞之间的两两分类结果都比较好,表明这些分类器能将这6种类型的细胞很好地区分开。在本申请实施例中,将质谱细胞术这种单细胞识别准确率更高的技术与svm这种机器学习的方法相结合,建立了高准确率、自动化的细胞分类器,不仅可以实现高准确率的细胞识别,而且可以实现识别过程的自动化。在上述方法实施例的基础上,本申请还提供了一种细胞分类器的构建装置,图8为本申请实施例提供的一种细胞分类器的构建装置的结构示意图,如图8所示,其主要包括以下模块。分析模块801,用于通过质谱细胞术对m个单细胞样本点进行分析,获得m个单细胞样本点的高维数据;贴标签模块802,用于对所述m个单细胞样本点的高维数据贴标签,获得n组带有标签的高维数据,其中,同一组高维数据的标签标识的细胞类型相同;训练模块803,用于通过svm对所述n组高维数据进行两两分类训练,构建n(n-1)/2个分类器。在一种可选实施例中,所述贴标签模块,具体包括:可视化模块,用于对所述m个单细胞样本点的高维数据进行降维可视化处理,获得可视化图像;聚类模块,用于对所述可视化图像内的数据进行聚类处理,获得p个聚类区域;对比模块,用于将所述聚类区域与n个经不同标记物染色后的染色区域进行对比,其中,每一种标记物的染色区域对应一种细胞类型;标记模块,用于若所述染色区域与所述聚类区域相匹配,则为相应的聚类区域对应的高维数据添加标签,其中,若第一染色区域与第一聚类区域相匹配,则为所述第一聚类区域对应的高维数据添加第一标签,所述第一标签表征所述第一染色区域对应的细胞类型。在一种可选实施例中,所述第一染色区域与第一聚类区域相匹配,具体包括:所述第一聚类区域包含所述第一染色区域。在一种可选实施例中,所述装置还包括:参数调整模块,用于若所述聚类区域与所述染色区域不匹配,则调整聚类参数,对所述可视化图像内的数据重新进行聚类处理。在本申请实施例中,将质谱细胞术这种单细胞识别准确率更高的技术与svm这种机器学习的方法相结合,建立了高准确率、自动化的细胞分类器,不仅可以实现高准确率的细胞识别,而且可以实现识别过程的自动化。在上述方法实施例的基础上,本申请还提供了一种细胞分类器的构建系统,所述系统包括处理器、存储器及通信单元。这些组件通过一条或多条总线进行通信。其中,所述通信单元用于建立通信信道,从而使所述存储设备可以与其它设备进行通信,接收其他设备发送的用户数据或者向其他设备发送用户数据。所述处理器,为存储设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(integratedcircuit,简称ic)组成,例如可以由单颗封装的ic所组成,也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说,处理器可以仅包括中央处理器(centralprocessingunit,简称cpu)。在本申请实施方式中,cpu可以是单运算核心,也可以包括多运算核心。所述存储器,用于存储处理器的执行指令,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。当存储器中的执行指令由处理器执行时,使得系统能够执行上述方法实施例中的部分或全部步骤。具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:rom)或随机存储记忆体(英文:randomaccessmemory,简称:ram)等。本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。以上所述的本申请实施方式并不构成对本申请保护范围的限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1