基于食管内镜图像的自监督识别方法、系统、设备及介质

文档序号:37183254发布日期:2024-03-01 12:43阅读:26来源:国知局
基于食管内镜图像的自监督识别方法、系统、设备及介质

本发明属于人工智能,涉及一种食管癌病灶的识别与分类,尤其涉及一种基于食管内镜图像的自监督识别方法、系统、设备及介质。


背景技术:

1、食管癌被认为是世界上最严重的癌症类型之一。虽然食管癌的患病形势非常严峻,但是早期食管癌通常没有明显的症状,人们无法从表面看出食管疾病的迹象。在治疗效果上,早期进行内镜治疗和手术干预,其5年生存率是能够超过95%的;然而,一旦食管疾病在早期阶段没有得到治疗,预后就会变得非常差,生存率直线下降,大约只有15%,患者的生命得到了极大的威胁。所以在食管癌早期进行筛查是非常有必要的,早筛查、早诊断、早治疗,在一定程度上能够提升患者生存率。目前有五种技术可用于诊断食管疾病:食道胃十二指肠镜检查、x射线、核磁共振、正电子发射断层扫描、消化内镜超声。其中,应用最广泛的方法是食道胃十二指肠镜检查。然而,由于医疗资源的巨大压力,医护人员更多的关注于正需要治疗的病人而非需要筛查的普通人,所以进行广泛的筛查具有挑战性。随着计算机辅助诊断技术的发展,人工智能在提高医生的工作效率和提高食管癌患者的生存率方面发挥了关键作用。

2、当前,人工智能技术已得到迅速发展,并广泛应用于食管癌筛查。liu等人提出了一种采用两种流的食管分类方法。这种方法将网络分成两个不同的流,分别命名为o-net和p-net。o-net的输入为原始图像,主要集中于提取颜色特征和全局特征。处理后的图像输入p-net,以提取纹理和更加复杂的细节。将两个流中提取到的特征进行特征融合,再对食管图像进行分类。这种方法使用了大约1200张有标签图像,由于数据集相对较小,其在现实医学场景中的应用有效应会大打折扣。wu等人介绍了一种针对白光食管病变图像的定位、分类和分割的多任务方法。其对这些数据的反射点进行了处理。首先,使用更快的r-cnn对图像病灶进行定位;然后,通过双流网络对定位的局部点进行四分类;最后,使用u-net 算法对非正常图像进行分割。该方法主要在白光内镜下食管图像上进行验证,但其对其他类型的染色,如窄带成像和碘染图像的有效性尚未确定。wang等人考虑到内镜图像数据集的有限大小,实施了三种数据增强策略来增加数据集的大小,随后将这三种类型的图像分别输入网络,进行特征提取和特征融合,最终根据融合的特征进行分类。与以上的方法不同,zhou等提出的方法建立了一个深度多模态卷积神经网络结构,利用动态ct和wsi图像对食管癌的亚型进行分类。该方法主要关注特征增强模块,该模块通过在不同尺度上使用局部和全局感知,为特征图分配了不同的权重。此外,此种方法采用的进化算法已经缓解了上一代食管病变识别和分割任务中的手工建筑工程问题。pedro e等人提出了一种知识蒸馏方法来检测息肉、肿瘤和nbde病变,而类别感知损失起着重要作用。这些方法在训练神经网络模型时使用的都是有标签的镜食管图像,没有使用无标签食管内镜图像,或者说没有考虑到使用无标图像的特征。因此,无标签食管内镜图像的潜力有待发掘和研究。

3、实际上,对于无标签图像的特征学习,已经有研究者做出了相应的研究。azizi等使用多实例对比学习(micle)进行医学图像分类,该方法的对比学习核心框架是简单对比学习(simclr)。micle可以减少对自监督学习的正对数量的需求,然后再使用少量的有标签数据对预训练模型进行微调。然而,这个方法的核心simclr本身再训练时需要较大的批量规模,对计算资源的要求相当高。在另一项研究中,ouyang等人提出了ssl-alpnet框架,以进一步研究自我监督学习的能力,以在训练过程中规避标签的必要性。从上述研究中可以看出,自我监督学习在基于人工智能的食管癌筛查中显示出了巨大的潜力。

4、基于上述现有技术,使用对比学习的自监督方法在无标签图像特征学习中表现出了巨大的潜力,同时,无标签的食管内镜图像也相对容易收集。且根据现有的利用无标签图像对模型进行自监督学习训练时,大多都是直接将无标签数据输入经过预训练的模型,使模型进行自监督学习、训练。但是,这类传统的方法致使模型的自监督学习效果较差,影响食管内窥图像的分类准确率。


技术实现思路

1、本发明的目的在于:为解决现有技术中采用传统自监督学习训练致使食管内窥图像分类准确率低的问题,提供一种基于食管内镜图像的自监督识别方法、系统、设备及介质,其在自监督学习中,引用了新的知识蒸馏策略,可提取有监督阶段学习的特征,增强无标签食管内窥图像的特征提取,提高食管内窥图像的分类准确率。

2、本发明为了实现上述目的具体采用以下技术方案:

3、一种基于食管内镜图像的自监督识别方法,包括以下步骤:

4、步骤s1,获取样本数据;

5、获取食管内窥镜图像样本,食管内窥镜图像样本包括有标签图像样本数据、无标签图像样本数据;

6、步骤s2,构建图像识别分类模型;

7、构建图像识别分类模型,图像识别分类模型包括主干教师网络t、主干学生网络s1、主干学生网络s2、投影模块和预测模块;

8、步骤s3,训练图像识别分类模型;

9、利用步骤s1获取的样本数据对步骤s2构建的图像识别分类模型进行训练,具体包括:

10、阶段一:利用有标签图像样本数据对主干教师网络t进行有监督学习训练;

11、阶段二:将有监督学习训练后的主干教师网络t进行复制,得到两个主干教师网络t,其中一个主干教师网络t与主干学生网络s1、投影模块和预测模块构成在线编码器,另一个主干教师网络t与主干学生网络s2、投影模块构成目标编码器;无标签图像样本数据分别经过两次相同随机数据增强后输入在线编码器和目标编码器;在线编码器中,主干教师网络t、主干学生网络s1进行知识蒸馏和自监督学习,主干学生网络s1的输出依次通过投影模块、预测模块, 预测模块的输出作为在线编码器的输出;目标编码器中,主干教师网络t、主干学生网络s2进行知识蒸馏和自监督学习,主干学生网络s2的输出输入投影模块, 投影模块的输出作为目标编码器的输出;再对在线编码器与目标编码器之间输出的特征图差异进行约束;

12、阶段三:利用有标签图像样本数据对主干学生网络s1进行有监督学习训练,得到最终的图像识别分类模型;

13、步骤s4,食管内镜图像实时分类;

14、将获取的食管内镜实时图像输入步骤s3得到最终的图像识别分类模型,图像识别分类模型输出分类结果。

15、进一步地,步骤s2中,主干教师网络t、主干学生网络s1、主干学生网络s2结构相同,均采用resnet网络,投影模块、预测模块均为全连接层。

16、进一步地,步骤s3中,在线编码器中的主干教师网络t、主干学生网络s1的蒸馏损失为:

17、

18、目标编码器中的主干教师网络t、主干学生网络s2的蒸馏损失为:

19、

20、总的蒸馏损失为:

21、;

22、其中,表示选取的特征图数量,表示教师网络,表示学生网络,表示在线编码器中第i个特征图,表示目标编码器中第i个特征图,表示在线编码器中教师网络的第i特征图,表示在线编码器中学生网络的第i个特征图,表示目标编码器中教师网络的第i特征图,表示目标编码器中学生网络的第i个特征图。

23、更进一步地,完整的蒸馏损失函数表示为:

24、

25、其中,表示蒸馏损失的对称损失。

26、进一步地,步骤s3中,在线编码器与目标编码器的自监督损失为:

27、

28、其中,表示在线编码器中主干网络的参数,表示在线编码器中的投影层和预测层的映射,表示在线编码器中主干网络的映射,表示在线编码器的输出结果,表示目标编码器中主干网络的映射,表示目标编码器的输出。

29、更进一步地,完整的自监督损失表示为:

30、

31、其中,表示自监督损失的对称损失。

32、一种基于食管内镜图像的自监督识别系统,包括:

33、样本数据获取模块,用于获取食管内窥镜图像样本,食管内窥镜图像样本包括有标签图像样本数据、无标签图像样本数据;

34、图像识别分类模型构建模块,用于构建图像识别分类模型,图像识别分类模型包括主干教师网络t、主干学生网络s1、主干学生网络s2、投影模块和预测模块;

35、图像识别分类模型训练模块,用于利用样本数据获取模块获取的样本数据对图像识别分类模型构建模块构建的图像识别分类模型进行训练,具体包括:

36、阶段一:利用有标签图像样本数据对主干教师网络t进行有监督学习训练;

37、阶段二:将有监督学习训练后的主干教师网络t进行复制,得到两个主干教师网络t,其中一个主干教师网络t与主干学生网络s1、投影模块和预测模块构成在线编码器,另一个主干教师网络t与主干学生网络s2、投影模块构成目标编码器;无标签图像样本数据分别经过两次相同随机数据增强后输入在线编码器和目标编码器;在线编码器中,主干教师网络t、主干学生网络s1进行知识蒸馏和自监督学习,主干学生网络s1的输出依次通过投影模块、预测模块, 预测模块的输出作为在线编码器的输出;目标编码器中,主干教师网络t、主干学生网络s2进行知识蒸馏和自监督学习,主干学生网络s2的输出输入投影模块, 投影模块的输出作为目标编码器的输出;再对在线编码器与目标编码器之间输出的特征图差异进行约束;

38、阶段三:利用有标签图像样本数据对主干学生网络s1进行有监督学习训练,得到最终的图像识别分类模型;

39、食管内镜图像实时分类模块,用于将获取的食管内镜实时图像输入图像识别分类模型训练模块得到最终的图像识别分类模型,图像识别分类模型输出分类结果。

40、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。

41、一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。

42、本发明的有益效果如下:

43、1、相比于传统机器学习,本发明不受有标签数据的数据量限制。传统的医学人工智能模型极大地依赖于标签数量的多少,而本发明使用的大多是易获取的无标签医学图像。

44、2、相比于普通自监督对比学习,本发明能更多地学习到无标签数据特征。普通对比学习中,自监督损失的收敛与否取决于批次大小、数据增强的程度等等,收敛是不容易的。本发明中加入的蒸馏模块提供了一个损失函数的新方向,能够促进损失函数收敛。

45、3、相比于常规知识蒸馏,本发明将知识蒸馏用于加强无标签数据特征提取而非模型压缩,是知识蒸馏的又一新思路。

46、4、相比于具体的任务,本发明旨在提供自监督学习框架,所得到的模型可以用在任何医学图像有关的任务上,如分类、检测、分割等,本发明提供的是一个预训练模型,可以在其他消化内镜任务上进行迁移学习。

47、5、本发明将知识蒸馏与自监督学习的结合,在普通自监督对比学习上加入了知识蒸馏,提高了食管内镜图像的分类准确率。

48、6、本发明采用独特知识蒸馏过程,传统知识蒸馏是用来做模型压缩的,本发明中的知识蒸馏是为了提取无标签图像的特征。

49、7、本发明采用创新的损失函数结构,在损失函数中加入了超参平衡自监督损失和蒸馏损失,提高模型的学习训练效率和效果。

50、8、本发明确定在目标编码器和在线编码器上同时使用知识蒸馏效果最好,同时,还有知识蒸馏选取的特征图的对数。

51、9、普通自监督学习一般是两个阶段,先进行自监督学习,再用有标签图像进行网络微调;而本发明中使用了三个阶段,在自监督学习的前后均使用了同一批有标签数据的有监督训练。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1