基于组织病理图像深度域适应的TMB分类方法及系统与流程

文档序号:29208100发布日期:2022-03-12 02:47阅读:284来源:国知局
基于组织病理图像深度域适应的TMB分类方法及系统与流程
基于组织病理图像深度域适应的tmb分类方法及系统
技术领域
1.本发明涉及计算机视觉中的图像分类技术领域和医学病理图像领域,并且特别涉及一种基于组织病理图像深度域适应的tmb分类方法及系统。


背景技术:

2.tmb值表示定量的基因组突变的数目,目前已经成为免疫治疗研究和靶向药药性测量的一个重要指标,是研究人员进行癌症病理研究和靶向药研发的重要参考依据。
3.目前tmb定量分析方法主要还是采取测量癌细胞的基因组的方法,这种方法虽然能准确地计算出tmb的数值,但在实际应用中,时间、经济成本总体较为昂贵。通过计算机建模,采用深度学习等方法对病理图像中的生物标记物进行预测可有效解决这一现实困境。但由于样本数据的缺乏及不同医院所使用的制片手法不同等因素,如何提高模型的泛化能力,使用有限的数据达到适宜于研发使用的效果,仍然是一个亟待解决的问题。


技术实现要素:

4.针对以上问题,本发明提供一种基于组织病理图像深度域适应的tmb分类方法,包括:从tcga数据和已知临床数据中选取已标注病理图像,划分入第一图像集和第二图像集;对该第一图像集的病理图像进行切分,得到多个具有感兴趣区域特征的第一图像块,构建为第一训练数据集,训练深度学习识别网络获得感兴趣区域识别模型;以该感兴趣区域识别模型获取该第二图像集的病理图像的感兴趣区域,并切分得到多个带有tmb类型标签的第二图像块,构建为第二训练数据集,训练深度学习分类网络获得tmb分类模型;获取目标病理图像的感兴趣区域,以该tmb分类模型对该感兴趣区域进行分类,得到该目标病理图像的tmb类别。
5.本发明所述的tmb分类方法,其中该深度学习分类网络具有域适应结构,并采用domain loss损失函数作为域间损失函数;以该第二图像集中tcga数据集病理图像切分得到的第二图像块为训练该深度学习分类网络的源域数据;以该第二图像集中已知临床病理图像切分得到的第二图像块为训练该深度学习分类网络的目标域数据。
6.本发明所述的tmb分类方法,其中通过该感兴趣区域识别模型对该目标病理图像进行识别,以获取该感兴趣区域。
7.本发明所述的tmb分类方法,其中对该已标注病理图像进行切分的过程包括:获取该已标注病理图像的组织掩码及癌灶区概率热图,获取该已标注病理图像的癌灶区掩码;使用滑窗根据该癌灶区掩码在该已标注病理图像进行滑动切分,并去除背景,得到该第一图像块。
8.本发明还提出一种基于组织病理图像深度域适应的tmb分类系统,包括:第一模型训练模块,用于训练感兴趣区域识别模型;其中,对已标注病理图像进行切分,得到多个具有感兴趣区域特征的图像块,构建为第一训练数据集,训练深度学习网络获得该感兴趣区域识别模型;第二模型训练模块,用于训练 tmb分类模型;其中,以该感兴趣区域识别模型
对未标记病理图像进行切分,得到多个带有tmb类型标签的图像块,构建为第二训练数据集,训练具有域适应结构的深度学习分类网络获得该tmb分类模型;图像分类模块,用于获取目标病理图像的感兴趣区域,并以该tmb分类模型对该感兴趣区域进行分类,得到该目标病理图像的tmb类别。
9.本发明所述的tmb分类系统,其中该具有域适应结构的深度学习分类网络采用domain loss损失函数作为域间损失函数。
10.本发明所述的tmb分类系统,其中该图像分类模块包括目标图像预处理模块,用于通过该感兴趣区域识别模型对该目标病理图像进行识别,以获取该感兴趣区域。
11.本发明所述的tmb分类系统,其中该第一模型构建模块包括:图像切分模块,用于切分该已标注病理图像以获取该具有感兴趣区域特征的图像块;其中获得该已标注病理图像的组织掩码及癌灶区概率热图,获取该病理图像的癌灶区掩码;使用滑窗根据该癌灶区掩码在该已标注病理图像进行滑动切分,并去除背景,得到该具有感兴趣区域特征的图像块。
12.本发明还提出一种计算机可读存储介质,存储有计算机可执行指令,当该计算机可执行指令被执行时,实现如前所述的基于域适应的tmb图像分类方法。
13.本发明还提出一种数据处理装置,包括如前所述的计算机可读存储介质,当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时,对目标病理图像进行基于深度域适应的tmb分类。
附图说明
14.图1是本发明的深度学习分类模型架构图。
15.图2是本发明的基于组织病理图像深度域适应的tmb分类方法流程图。
16.图3是癌灶区识别的切片图像。
17.图4是本发明的域适应模块结构图。
18.图5a是本发明的tcga数据集的auc实验结果图。
19.图5b是本发明的临床数据集的auc实验结果图。
20.图6是本发明的数据处理装置示意图。
具体实施方式
21.为让本发明能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
22.目前,进行tmb图像分类模型训练的样本数据来源较为困难,获取到大量的临床数据进行建模并不容易,因此,目前绝大多数的tmb预测手段所使用的数据集均来源于tcga官方数据集,但是,由于人种不同而带来的潜在基因学表达上的差异以及各大医院对病例学切片所使用的制片手段的不同,这些潜在的差异使得现有的研究工作出现一种域偏移(domain shift)的问题,导致使用tcga的数据训练得到的模型,应用到临床数据上会出现效果不佳的问题。对于这一问题本发明提出了一种基于域适应算法的tmb图像分类方法及系统,主要研究了从tcga到lc上的域适应网络,基于两组数据集在标签空间具有相似性,在这种情况下,本发明使用的源域为tcga数据,而目标域为临床数据。如果对于所有以分布而形成的样本空间为输入的函数f,而两个分布生成的足够多的样本在f上的对应的像的均值
都相等,那么可以认为这两个分布是同一个分布,但是对于两个域来说,它们具有相同的标签空间,但是却又存在数据空间分布的差异,可以通过降低域间的差异来提高分类效果的准确性。如图1所示,通过使用tcga数据集及临床少量数据集进行训练,使得算法模型在临床数据上能够得到一个更好效果,辅助医生进行病理诊断,为临床医生进行下一步的免疫治疗措施提供辅助决策。
23.具体来说,如图2所示,本发明的基于组织病理图像深度域适应的tmb 分类方法具体包括:
24.步骤s1、获取训练样本,训练样本从tcga官方数据集和医院收集到的临床患者切片(已标注)中选取,将获得的训练样本(已标注病理图像)分为两个图像集,例如是识别训练图像集和分类训练图像集,以分别用于训练识别病理图像癌灶区(感兴趣区域)的识别模型,和训练对目标病理图像进行tmb 分类的分类模型;
25.步骤s2、对识别训练图像集中的病理图像进行切分,得到多个具有感兴趣区域特征(癌灶区特征)的图像块,构建为用于感兴趣区域识别的训练数据集,训练深度学习识别网络获得感兴趣区域识别模型;
26.步骤s3、以步骤s2得到的感兴趣区域识别模型,对分类训练图像集中的病理图像进行感兴趣区域识别,获得分类训练图像集中的病理图像的癌灶区;通过感兴趣区域的癌灶区识别后,切分得到小分辨率的图像,每张小分辨率图像具有和病理图像大图对应的高tmb(tmb-high)特征标签和低tmb (tmb-low)特征标签;由于原始的切片图像大多以100000
×
100000为主,图像的像素很大,为了能够得到感兴趣区域的有效信息且适合网络的输入,需要生成适合网络训练的图像块,图像块的生成过程主要包含掩码的生成、补丁图像中心坐标的筛选和补丁的获取,首先由一张切片生成组织掩码,然后通过感兴趣区域识别模型生成概率热图,获取癌症区域的掩码,然后使用滑窗对得到的掩模在原图上的位置进行滑动切分,去除背景,得到256
×
256的小分辨率且标签与大图1致的小图,构建出适合网络输入的tmb图像数据集,示例图像如图3所示;
27.步骤s4、构建包含域适应结构的深度学习分类模型,使用步骤s3获得 tmb图像数据集训练该深度学习图像分类模型,并将训练完成的该深度学习图像分类模型作为tmb分类模型;该深度学习图像分类模型包括共享的卷积层,全局平均池化层,激活层和全连接层;
28.将裁剪后的tcga图像和临床图像传入域适应模块,如图4所示,该预适应模块主要包括两部分:第一部分为特征提取器;第二部分为用来降低域间差异的域分类器。首先,该域适应模块使用一个包含50层神经网络的共享的特征提取结构对源域与目标域图像的特征分布进行提取,然后通过域分类器计算此特征空间的特征差异损失domain loss,将域间的特征差异损失进行梯度回传,最小化源域与目标域的差异,从而得到一个共享的特征以充分表达源域与目标域的数据空间分布,同时采用focal loss函数来解决训练数据中正负样本数分类不均衡带来的差异,使得模型在训练时更专注于难分类的样本;将提取到的特征输入一个域分类器,此分类器的主要作用是对tcga和临床数据集的特征损失差异进行梯度回传,降低源域与目标域之间的特征差异,提取到更为普适的特征,从而在源域与目标域上都能够得到较好的效果;
29.步骤s5、将目标病理图像通过感兴趣区域识别模型获取目标病理图像的感兴趣区
域,将得到的感兴趣区域切分为待分类的切片图像输入训练好的 tmb分类模型,得到其tmb的所属类别。使用训练完成的模型对测试集进行类别的预测,获得测试集的分类结果。得到患者切片的tmb类别,从而实现后续的诊断和治疗。
30.输入该深度学习图像分类模型的病理切片图像,会经过共享的一个多层卷积层共同提取tcga和临床切片图像的特征,并将图像的特征输入到一个全局平均池化层,计算他们的域适应损失domain loss,使得提取到的特征是两个数据集共有的,再经过全连接层进行分类,得到tmb的类别。
31.图5a是本发明的tcga数据集的auc实验结果图。图5b是本发明的临床数据集的auc实验结果图。图5a、5b展示了本发明的tmb图像分类auc 实验结果,本发明所应用图像分类算法能够对不同癌种的图像进行处理,并不局限于单一癌种,具有一定的普适价值。
32.图6是本发明的数据处理装置示意图。如图6所示,本发明实施例还提供一种计算机可读存储介质,以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被数据处理装置的处理器执行时,实现对病理图像的tmb分类。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、fpga、asic 等)完成,所述程序可以存储于可读存储介质中,如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。
33.本发明在基于深度学习分类算法的基础上,利用数据之间标签分布的一致性和特征空间分布不同,结合域适应算法,降低域间的差异,使得模型在有限的临床数据集上得到一个较好的效果,模型可以通过病理学图像对tmb进行预测,在病理维度得到一个较为优秀的效果,有效地提升了tmb判断的效率和准确性。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1