基于病理图像的肿瘤突变负荷(TMB)分类方法与系统与流程

文档序号:23340368发布日期:2020-12-18 16:36阅读:255来源:国知局
基于病理图像的肿瘤突变负荷(TMB)分类方法与系统与流程
本发明涉及图像处理
技术领域
,特别涉及一种基于病理图像的肿瘤突变负荷分类方法。
背景技术
:在免疫治疗时代,肿瘤突变负荷(tmb)被定义为每百万碱基中被检测出的,体细胞基因编码错误、碱基替换、基因插入或缺失错误的总数,是一个重要的生物标志物。现有研究表明,由于pd-1、pd-l1、ctla-4等免疫检查点抗体对患者生存的帮助而被fda批准于nsclc、黑色素瘤和肝癌等多种肿瘤的免疫治疗,tmb作为重要的泛癌种生物标志物可以使更多患者从免疫治疗中获益;基于临床试验checkmate-227和checkmate-026中tmb在免疫治疗的疗效预测能力的验证,tmb正式进入2019版nsclc《nccn》指南,成为临床诊疗常规的一部分。测定tmb的原始数据主要通过全外显子测序(wes)等二代测序手段获取,然而这套流程在应用上有很多不便。首先,检测成本过高,通常情况下,测定tmb评分所需要的费用是病理诊断费用的几十到几百倍;其次,检测周期过长,tmb评分的平均测定时间为2至3周,特别是wes测试可能需要长达一个月的时间,这超出了美国病理学家学院推荐的治疗决策的窗口;再次,组织样本依赖性高,获得tmb评分需要足够数量和质量的组织样本,这个进一步限制患者获取tmb评分。以上不利条件严重限制了tmb的临床应用。此外,在临床试验实际操作过程中,获得tmb评分的失败率在checkmate-227中为42%,在checkmate-568中为34%。因此,低成本、快速、不依赖于额外样本的tmb评分测定方法具有重大的临床应用价值,基于病理图像的tmb分类方法就是其中一个具有潜力的方向。技术实现要素:本发明提供一种基于病理图像的肿瘤突变负荷(tmb)分类方法,其包括以下步骤:步骤1、根据至少一分类阈值将已知病理图像按照tmb分为多个类型;步骤2、将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;步骤3、采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;步骤4、通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;步骤5、对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及步骤6、以所述分类模型对所述多张目标图块中的每一张进行分类,以获取所述多张目标图块中的每一张的tmb分类结果,并且根据所有所述目标图块的tmb分类结果,通过多数投票法获取所述目标病例的目标病理图像的tmb分类结果。上述的基于病理图像的肿瘤突变负荷(tmb)分类方法,其中,所述步骤3具体包括以下步骤:步骤31、分割所述初步训练集,以构建初步训练子集和初步测试子集;步骤32、采用弱分类器对所述初步训练子集和所述初步测试子集进行训练;步骤33、采用一致性过滤原则过滤掉被所述分类器预测为假阳性样本的已知图块;以及步骤34、将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。上述的基于病理图像的肿瘤突变负荷(tmb)分类方法,其中,所述步骤5具体包括:将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。上述的基于病理图像的肿瘤突变负荷(tmb)分类方法,其中,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用relu激活函数,所述第二全连接层采用sigmoid激活函数。上述的基于病理图像的肿瘤突变负荷(tmb)分类方法,其中,所述分类模型的感受野介于46×46像素和60×60像素之间。本发明还提供一种基于病理图像的肿瘤突变负荷(tmb)分类系统,其包括:tmb分类模块,用于根据至少一分类阈值将已知病理图像按照tmb分为多个类型;初步训练集构建模块,用于将所述已知病理图像切割为多张已知图块,再将所述多张已知图块重新拼接为所述已知病理图像,按照所述多个类型对所述多张已知图块进行标注,以构建初步训练集;图块清洗模块,用于采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集;分类模型构建模块,用于通过所述最终训练集对卷积神经网络进行训练,以构建分类模型;目标图像预处理模块,用于对目标病例的目标病理图像进行预处理,以获得多张目标图块;以及目标图像分类模块,用于以所述分类模型对每一张所述目标图块进行分类,以获取每一张所述目标图块的tmb分类结果,并且根据所有所述目标图块的tmb分类结果,通过多数投票法获取所述目标病例的目标病理图像的tmb分类结果。上述的基于病理图像的肿瘤突变负荷(tmb)分类系统,其中,所述图块清洗模块包括:初步训练集分割模块,用于分割所述初步训练集,以构建初步训练子集和初步测试子集;分类器训练预测模块,用于采用弱分类器对所述初步训练子集和所述初步测试子集进行训练;图块过滤模块,用于采用一致性过滤原则过滤掉被所述分类器预测为假阳性样本的已知图块;以及最终训练集构建模块,将过滤后的所述已知图块进行反色,并随机划分为所述最终训练集的最终训练子集和最终测试子集。上述的基于病理图像的肿瘤突变负荷(tmb)分类系统,其中,所述目标图像预处理模块中的对目标病理图像进行预处理具体包括将所述目标病理图像切割为多张目标图块,并且对所述多张目标图块进行反色。上述的基于病理图像的肿瘤突变负荷(tmb)分类系统,其中,所述分类模型依次包括四对卷积层和最大池化层、一层第一全连接层,以及一层第二全连接层;其中,所述四对卷积层和所述第一全连接层均采用relu激活函数,所述第二全连接层采用sigmoid激活函数。上述的基于病理图像的肿瘤突变负荷(tmb)分类系统,其中,所述分类模型的感受野介于46×46像素和60×60像素之间。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。附图说明图1是本发明的基于病理图像的tmb分类方法流程图。图2是本发明实施例的基于病理图像的tmb分类方法的工作流程图。图3a、图3b分别是已知肺鳞癌、肺腺癌的tmb散点图。图4是本发明实施例的已知病理图像的癌灶区域图块标注示意图。图5是本发明实施例的已知病理图像的预处理过程示意图。图6是本发明实施例的卷积神经网络分类模型的结构示意图。附图标记s1-s6:步骤1:目标图块2-1、2-2、2-3、2-4:卷积层3-1、3-2、3-3、3-4:最大池化层4-1、4-2:全连接层具体实施方式下面结合附图对本发明的结构原理和工作原理作具体的描述:发明人注意到,病理图像被广泛应用于临床病理学的病理诊断和计算机辅助诊断(cad),主要应用了形态学的观察方法。从肿瘤进化学、肿瘤生态学和中心法则的角度来看,肿瘤细胞与免疫细胞等多种细胞的空间结构,肿瘤细胞及其微环境相关细胞的形态等病理影像特征与肿瘤细胞的基因组内在特征一定具有普遍的内在联系,相关专家提出的肿瘤进化和肿瘤特征的分类框架为其奠定了理论基础。也就是说,病理图像的癌变组织部分的形态可能蕴含着tmb信息,尽管模式难以确定。而深度学习是端到端的学习,可以自动提取特征。在图像领域应用最广泛的卷积神经网络(cnn)尽管最早用于处理自然图像,但后来在遥感、医学等领域也大获成功。cnn也经常被用于病理图像分类和分割。虽然目前几乎还没有利用cnn从病理图像中提取tmb特征的工作,但是近两年的研究发现cnn可以从病理图像中提取某些其他基因特征。比如nicolas等人发现inceptionv3可以以较高的准确性从nsclc的病理影像中预测出egfr等驱动基因突变的信息,而jakob等人发现用resnet18可以很好的预测微卫星不稳定性(msi)状态。综上,本发明提供的基于病理图像的肿瘤突变负荷分类方法与系统,在很大程度上能够缓解tmb传统测定方法的检测成本高、检测周期长和组织样本依赖性高的问题,用深度学习方法预测tmb具有很大的研究价值与应用前景。图1是本发明的基于病理图像的tmb分类方法流程图,图2是本发明实施例的基于病理图像的tmb分类方法的工作流程图。请同时参照图1及图2。本发明的分类模型是针对某一类型肿瘤的病理图像的分析工具,对所采用的训练数据也是采用该类型肿瘤的已知病例的病理图像,例如,针对肺癌病例的目标病理图像,采用已知的肺癌病理图像数据作为分类模型的训练数据,针对胃癌病例则采用已知的胃癌病理图像数据等。于本发明的实施例中,是针对肺癌病例的病理图像构建的分类模型,因此,发明人选取癌症基因组图谱(tcga)项目中的肺鳞癌与肺腺癌项目的病例数据作为训练分类模型的数据集,具体的,于本实施例中,发明人使用ucscxena浏览器从gdctcga肺鳞癌(lusc)和肺腺癌(luad)中心检索体细胞突变(snp和小indel),总共采用了1411个样本的muse变体聚集和掩蔽结果,其中包括490例肺鳞癌病例和559例肺腺癌病例。如图1所示,本发明提供的基于病理图像的tmb分类方法包括以下步骤:步骤s1、根据至少一分类阈值将已知病理图像按照tmb分为多个类型。为了对tmb进行分类,需要选择至少一个分类阈值来区分tmb高低水平,并依据所述分类阈值将tmb划分为两个或者多个类型。以下的实施例中,如无特别指明,均采用将已知病理图像按照tmb分为两个类型(高tmb和低tmb)进行举例。目前临床实践和研究中,tmb的突变类型主要限定为外显子组非同义突变。其计算公式为:tmb=nmut/nmb其中nmut为一个区域内外显子组非同义突变的个数,nmb为该区域的长度即megabase值。于本实施例中,发明人过滤了原始数据中的变体类型,仅使用位于外显子区域的变体而不是同义突变效应变体或位于剪接区域的变体来计算tmb,并且删除了过滤器标签没有标记为pass的变体。为了从实际数据中挖掘tmb的分类阈值,本发明使用了分段回归或“断枝分析”来通过找到一个拐点来确定所述分类阈值。具体的,对于上述的490例肺鳞癌病例和559例肺腺癌病例,分别以倒序对病例的tmb值进行排序,并且绘制成散点图,应用分段回归来拟合两条直线,最后确定曲线的拐点。根据上述拐点所对应的tmb值作为分类阈值,并依据此tmb值将已知病理图像划分为两种类型,即高tmb与低tmb。图3a、图3b分别是已知肺鳞癌、肺腺癌的tmb散点图。如图3a及图3b所示,上述的490例肺鳞癌病例和559例肺腺癌病例中的47例肺鳞癌病例和109例肺腺癌病例属于高tmb,其余的443例肺鳞癌病例和450例肺腺癌病例属于低tmb;具体的,图3a中肺鳞癌的拐点对应的y坐标值为10.77,图3b中肺腺癌的拐点对应的y坐标值为9.62,即肺鳞癌与肺腺癌的tmb的分类阈值分别是10.77、9.62。非小细胞肺癌(例如肺鳞癌、肺腺癌)的癌灶区域包含的间质组织和杂质较多,癌细胞的分布较不集中,用人工截取癌灶区域图像的方法极其容易引入大量噪声影响实验结果,因此需要更严格的图像预处理方法。图4是本发明实施例的已知病理图像的预处理过程示意图,所述图像预处理方法具体包括步骤s2与步骤s3。步骤s2、将已知病理图像切割为多张已知图块,再将多张已知图块重新拼接为已知病理图像,按照步骤s1中的类型对多张已知图块进行标注,以构建初步训练集。于本实施例中,在上述的490例肺鳞癌病例和559例肺腺癌病例选择采用了60例肺鳞癌病例包含108张全切片病理图像(wsi),其中10例16张wsi的病例属于高tmb,60例肺腺癌病例包含110张wsi,其中10例15张wsi的病例属于高tmb。图5是本发明实施例的已知病理图像的癌灶区域图块标注示意图。如图5所示,于本实施例中,本发明提供一种图块标注方法,包括:首先在20x(物镜倍数)视野下的wsi被切割成多个图块,并选择以256px*256px作为图块大小;然后在20x视野中拼回原wsi图像,并作为待标注对象;最后对癌灶区域图块进行标注,例如标注为绿色。在所述图块标注方法中,能够通过rgb色值的方差大小来识别并过滤空白图块。通过与病理学家的合作,于本实施例中,对60例肺鳞癌病例的108张wsi共标注80485张癌灶区域图块和267138张非癌灶区域图块,对60例肺腺癌病例的110张wsi共标注86135张癌灶区域图块和253645张非癌灶区域图块。步骤s3、采用多分类投票法对所述初步训练集进行清洗,以构建最终训练集。于本实施例中,由于在图块级别进行了癌灶区域和非癌灶区域的标注,虽然提高了标注速度,但是图块也不可避免地存在噪音,成为影响最终实验结果的潜在不利因素。为了解决这个问题,本发明采用多分类器投票法用于对已标注图块的初步数据集的数据进行过滤与清洗。具体包括如下步骤:步骤s31、将已标注的图块数据集(初步训练集)划分为5份,其中每4份作为训练集,用来过滤另1份的结果;步骤s32、基于多分类器投票法的最佳实践,于本实施例中选用弱分类器,具体的,采用mobilenet、nasnetmobile两个轻量级分类器分别对已标注的图块进行5次训练和预测以实现对全集的预测,最后与原标注进行比较,预测不正确的数据即视为所述分类器认为的噪声数据;步骤s33、采用一致性过滤原则,过滤掉被mobilenet、nasnetmobile两个分类器预测为假阳性样本的图块,经过实验,于本实施例中过滤掉了80485张肺鳞癌癌灶区域图块中的15622张和86135张肺腺癌癌灶区域图块中的28977张。步骤s34、采用过滤后的癌灶区域图块(64863张肺鳞癌癌灶区域图快与57158张肺腺癌癌灶区域图快)作为预测tmb分类的图块数据(最终训练集),这些图块用tmb水平的groundtruth进行标注并进行数据增强后(将图块反色),在图块级别以4:1划分最终训练子集与最终测试子集。步骤s4、以所述最终训练子集与最终测试子集对卷积神经网络(cnn)进行训练,并构建tmb分类模型;由上述步骤s31-s34得到肺鳞癌和肺腺癌两种类型的最终训练集,因而可藉此训练两种分类模型,分别用于肺鳞癌和肺腺癌的tmb分类。发明人尝试了alexnet,vgg和resnet等经典的基于cnn的图像分类模型后,发现肺鳞癌和肺腺癌数据的过拟合现象非常严重。经过分析,上述模型的提出主要是用来提取自然图像的特征而不是病理图像。相对而言,上述模型更注重图像中主体与环境之间的联系。因此,上述模型的感受野非常大,并且所得特征图中的每个特征包含广泛的信息,甚至是全局特征。例如,alexnet的pool5层输出的特征图上的像素的感受野为195×195像素,vgg16的最大感受野为212×212像素,resnet50的最大感受野可达到483×483像素。对于tmb分类任务,过大的感受野所引起的特征消失会使模型忽略癌灶区域细节的形态学信息,因此发明人选择了更小的感受野。图6是本发明实施例的卷积神经网络分类模型的结构示意图。发明人在测试了不同的超参数后,最终将感受野限定在46×46像素和60×60像素之间。与此对应地,如图6所示,cnn分类模型包含4对卷积层2-1、2-2、2-3、2-4和最大池化层3-1、3-2、3-3、3-4,并依次连接一个包含256个神经元的全连接层4-1和一个仅包含1个神经元的全连接层4-2,其中卷积层2-1、2-2、2-3、2-4和全连接层4-1都采用relu激活函数,全连接层4-2使用sigmoid作为激活函数,这样,对目标图块1处理分析后,以全连接层4-2的输出作为分类的标准。在锁定了较小的感受野范围之后,为了更精细地控制感受野并设计精准的对比实验,发明人主要使用改变卷积核大小的方法来改变感受野。尽管感受野的大小可以通过调整cnn模型的深度和卷积核的大小,但是模型参数的数量会随着模型深度变化而发生显著变化,从而极大地影响实验效果,如发生过拟合或欠拟合问题。因此,本发明主要使用改变卷积核大小的方法来区分对比实验中的模型。在卷积层数和感受野范围固定的前提下,通过提取属于前3个卷积层的3个卷积核中的若干个并将它们的大小从3×3改为5×5来设计8个模型。这些模型如表1所示。模型id卷积核1卷积核2卷积核3卷积核4感受野rf463×33×33×33×346×46rf485×53×33×33×348×48rf503×35×53×33×350×50rf525×55×53×33×352×52rf543×33×35×53×354×54rf565×53×35×53×356×56rf583×35×55×53×358×58rf605×55×55×53×360×60表1在用肺鳞癌和肺腺癌数据集训练表1中的8个模型之后,每个模型的准确度和auc显示如表2所示。模型idacc(肺鳞癌)auc(肺鳞癌)acc(肺腺癌)auc(肺腺癌)rf460.86930.91180.93220.8355rf480.88190.88300.93570.8357rf500.84590.91100.93540.8480rf520.85700.85650.89490.7976rf540.88650.89860.92670.8526rf560.86200.83340.93780.8502rf580.87410.88150.93810.8407rf600.81950.79570.93540.8349表2根据上述实验结果中的预测准确度和auc值,于本实施例中,肺鳞癌的最佳感受野确定为54×54像素,对应在cnn分类模型上为第三个卷积层的卷积核大小为5×5,其他卷积层全为3×3;肺腺癌的最佳感受野确定为58×58像素,对应在cnn分类模型上为第二和第三个卷积层的卷积核大小为5×5,其他卷积层全为3×3。步骤s5、对目标病例的目标病理图像进行预处理,以获得多张目标图块;对目标病理图像的预处理与构建训练集时对已知病理图像的预处理类似,即在20x(物镜倍数)视野下的wsi被切割成多个图块,并选择以256px*256px作为图块大小,并且对切割后的目标图块进行反色。步骤s6、以分类模型对多张目标图块中的每一张进行分类,以获取多张目标图块中的每一张的tmb分类结果,并且根据所有目标图块的tmb分类结果,通过多数投票法获取目标病例的目标病理图像的tmb分类结果;于本实施例中,通过投票法获得目标病理图像的tmb分类结果,以图块tmb分类结果对目标病例相对于目标病理图像tmb水平进行投票,以具有最大票数的图块tmb分类结果最为目标病例的目标病理图像的tmb分类结果。本发明的实施例根据不同癌种(肺鳞癌和肺腺癌)确定了感受野不同的cnn分类模型,将标注好的数据集放入训练之后,其预测的结果即为对应图块的tmb高低水平的分类结果,并将得到的所有癌灶区域图块输入到对应的cnn模型进行预测,对结果采用多数投票法,确定病例的tmb分类。目前通常使用基因panel来获得大多数临床参考的tmb评分,但是以这种方式获得的tmb(paneltmb)是wes获得的tmb(westmb)的近似值。为了评估本发明提出的模型的有效性,本发明使用了目前fda批准的两个panel:fm1和mskccimpact468来进行对照实验。首先,从tcga-lusc和tcga-luad项目中提取了这两个panel中的基因,并计算了这些panel的tmb分数;其次,同样使用分段回归来找到paneltmb的拐点值作为分类阈值;最后,比较本发明实施例所训练的cnn分类模型预测的tmb分类精度和panel方法预测的tmb分类精度。上述的对照实验结果如表3所示,用于估测tmb的panel方法的分类准确度和auc值低于本发明实施例训练的cnn分类模型预测的相应分数。fm1mskccimpact468cnn分类模型acc(肺鳞癌)0.7070.7240.887auc(肺鳞癌)0.5530.5060.894acc(肺腺癌)0.7090.6910.938auc(肺腺癌)0.6360.6400.840表3综上所述,本发明提供的基于病理图像的肿瘤突变负荷分类方法与系统,建立了从数据预处理到tmb水平预测的一站式工作流程,其在测定时间周期、测定成本、样品获得难度等指标上均优于基于wes的tmb分数测定方法,并在准确率上优于基于panel的tmb估测方法;采用的病理图像的标注方法可以显著提高癌灶区域标注效率,在标注速度和精度之间取得了良好的平衡;以及采用的病理图像的数据清洗方法同样基于深度学习,可以有效过滤噪声过多的癌灶区域图块,并提高最终的tmb分类效果。当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1