结合迁移学习和半监督学习的超声乳腺结节图像分类方法与流程

文档序号:36498474发布日期:2023-12-27 23:13阅读:31来源:国知局
结合迁移学习和半监督学习的超声乳腺结节图像分类方法与流程

本发明涉及乳腺结节影像识别领域,具体涉及结合迁移学习和半监督学习的超声乳腺结节图像分类方法。


背景技术:

1、乳腺结节的及时检查与准确诊断对患者的治疗和康复具有重要意义。早期发现乳腺结节有助于提高患者的治愈概率,降低病情恶化的风险。对乳腺结节良恶性的及时、准确诊断能够减轻患者的痛苦,降低生命危险,并可以有效降低乳腺癌的致死率。因此,关注乳腺结节检查与诊断对于提高患者生活质量和预防乳腺癌具有重要价值。目前,乳腺结节检查主要包括触诊、穿刺活检和医学影像检查等方法,触诊准确率较低,穿刺活检可能给患者带来不必要的痛苦,因此,无创、无痛的影像检查成为首选。影像检查通常包括乳腺x射线成像、乳腺超声成像和乳腺磁共振成像等。乳腺超声成像具有无辐射、可检测微小肿块、适用于高密度乳腺患者、识别囊性和实性肿块以及提供细节图像等优点,尤其适用于我国40岁以下致密性乳腺女性患者。然而,超声图像的阅片和诊断通常依赖于经验丰富的专业医师耗费大量人力和时间成本进行人工阅片。人工阅片也可能受技术、经验偏差和设备影响,过于依赖专业医师的经验,容易出错。此外,相关医疗人才短缺使得专业阅片诊断难以覆盖大量基层医院,这使得乳腺疾病诊断更加困难和谨慎,会给患者带来不必要的负担。

2、目前,传统的机器学习技术在处理图像诊断任务时,通常首先需要人工提取图像特征,这些特征可能包括形状、纹理、颜色等方面的信息。然后,计算机会根据这些特征之间的关系,通过训练分类器(如支持向量机、决策树等)来进行辅助诊断。这种方法依赖于人工设计的特征提取器,可能无法充分捕捉图像中的复杂信息,从而影响诊断的准确性和效率。并且这些工作需要大量的金标准数据集,而对数据进行专业标注需要耗费医生大量的时间和精力来进行特征提取,并且数据库样本较小的情况下很难有精准的预测模型。随着技术的发展,人工智能在日常生活中的深入应用、结合,深度学习技术已经极大地推动了图像分类和检测的进步。深度学习不需要人工手动设计特征,而是通过层次化的特征提取自动完成,深度卷积神经网络能够自动有效地从样本中学习到图像的特征,实现端到端的分类和检测。利用神经网络自动提取乳腺结节特征并进行检测和分类,很多研究者采取的是全监督模型的训练方法。然而,全监督模型需要大量的有标签样本,在医学任务中,收集图像数据只需要使用b超仪进行扫描成像,但是获取其准确标签则需要患者进行手术活体组织检查,所以收集大量标记数据较为困难,需要大量时间、金钱和人力成本。在乳腺结节智能诊断中,由于标签数据不足,基于标签数据进行分类器训练可能导致模型表现不佳。


技术实现思路

1、为解决上述问题,本发明公开了结合迁移学习和半监督学习的超声乳腺结节图像分类方法,能够帮助医生更准确地诊断、治疗乳腺疾病,提高乳腺结节超声影像分类的准确性和泛化能力,还能够应用于其他医学领域的诊断问题中,通过深度学习与迁移学习相结合的新方法,为医学研究提供更有力的技术支持。

2、本发明首先使用迁移学习的方式,利用预训练好的神经网络模型,进行微调以实现高精度分类,由于预训练网络已经经过充分的训练,因此针对乳腺结节超声图像的特定网络结构参数的优化可以快速收敛,同时还能避免从头开始训练时出现过拟合等问题。然后使用半监督学习的方式,利用网络对未标注的数据进行特征提取,计算与已经标注的数据的特征距离,进一步提高分类的准确率和泛化能力。在实际应用中,该方法可以为医疗诊断提供可靠的辅助诊断依据。经实验验证,采用迁移学习可以提高超声乳腺结节良恶性分类准确率5%,采用半监督学习可以提高准确率3%。

3、具体方案如下:

4、结合迁移学习和半监督学习的超声乳腺结节图像分类方法,其特征在于,包括以下步骤:

5、s1、采用迁移学习方法,将使用有标签甲状腺结节超声图像预先训练的分类模型作为乳腺结节良恶性结节诊断的骨干;

6、s2、使用迭代半监督学习方法来利用大量未注释乳腺结节图像;在标注样本和未标注样本之间的语义表示空间中计算深度特征相似度,对最有信心的未标注样本进行标注,利用“伪标签”的方法,将未标注数据逐步加入到训练过程中,最终选取验证参数效果最好的模型。

7、作为本发明的进一步改进的,具体为:

8、(1)搭建一个resnet-18的迁移学习分类网络,将有标注的甲状腺结节超声图像利用该网络进行深度学习训练得到一个分类模型,并冻结前几层网络的权重,对最后几层进行微调;将有标注的乳腺结节超声图像数据分成五份,取其中四份送入分类模型进行乳腺结节分类训练,得到对乳腺结节具有良恶性分类的分类模型,再将剩下的有标签数据送入该分类模型进行验证,此为迁移学习过程;

9、(2)利用迁移学习得到的分类模型对无标签乳腺结节超声图像数据进行初步良恶性判别,利用“伪标签”方法对无标签数据打上“伪标签”,再将具有“伪标签”的图像数据不断加入有标签数据集进行迭代,并将迭代后的数据集一起送入分类模型进行训练,多次重复数据集迭代过程,此为半监督深度学习过程。

10、作为本发明的进一步改进的,甲状腺结节和乳腺结节都是医学领域常见的疾病图像,虽然甲状腺结节超声图像和乳腺结节超声图像之间存在一些差异,但是它们的图像特征在许多方面是相似的,例如纹理、形状等方面。因此,使用迁移学习来解决乳腺结节超声图像分类问题,可以提高算法的准确性。在乳腺结节超声图像的分类中,首先使用训练的甲状腺结节超声图像模型来初始化乳腺结节超声图像分类模型的权重矩阵,然后在乳腺结节超声图像数据集上进行微调。

11、作为本发明的进一步改进的,resnet-18的迁移学习分类网络是resnet(残差网络)系列模型中相对较浅的一种,具有18层卷积层和全连接层,如图2所示,包括:

12、1.输入层:输入原始图像数据(image),大小为3*224*224(rgb通道);

13、2.卷积层(conv):使用大小为7*7的卷积核进行卷积,步长为2,结果通道数为64;

14、3.最大池化层(maxpool):使用大小为2*2的池化核进行最大池化,在每个2*2的窗口中,取该窗口内的最大值作为输出值,步长为2,有助于减少特征图大小,降低模型复杂度,提高计算效率,并且能帮助生成对平移和缩放等变换有鲁棒性的特征;

15、4.残差块1:由2个残差单元构成,每个残差单元包括两个3*3大小的卷积层和一个标准化层,其中第一个卷积层的输出通道数为64,第二个卷积层的输出通道数也为64;

16、5.残差块2:由2个残差单元构成,每个残差单元包括两个3*3大小的卷积层和一个标准化层,其中第一个卷积层的输出通道数为128,第二个卷积层的输出通道数也为128;

17、6.残差块3:由2个残差单元构成,每个残差单元包括两个3*3大小的卷积层和一个标准化层,其中第一个卷积层的输出通道数为256,第二个卷积层的输出通道数也为256;

18、7.残差块4:由2个残差单元构成,每个残差单元包括两个3*3大小的卷积层和一个标准化层,其中第一个卷积层的输出通道数为512,第二个卷积层的输出通道数也为512;

19、8.平均池化层(avgpool):使用大小为7*7的池化核进行池化,池化后的大小为512*1*1;

20、9.全连接层(fully connected layer,fc):将池化结果通过softmax激活函数产生最终结果,分类到两个类中的某一个。

21、作为本发明的进一步改进,所述softmax激活函数输出两个值,即良性和恶性概率;softmax函数的定义为:对于输入向量z=(z1,z2,…,zk),softmax函数将其映射成概率分布向量p=(p1,p2,…,pk),见下式:

22、

23、式中,e为自然常数e;k为分类问题的类别数量;zi为网络对第i个类别的线性预测结果;softmax函数将线性预测结果转换成每个类别的概率值,这些概率值之和为1;结果为判断乳腺结节良恶性,故k值为2。

24、作为本发明的进一步改进的,使用最近邻算法来选择最有信心的未标记样本,最近邻(k-nearest neighbor,k-nn)是一种常见的分类算法,也可以用于回归分析,基本思想是根据每个样本最邻近的训练样本的特征值来确定新样本的类别,或基于邻居的结果来进行回归预测。

25、在分类问题中,最近邻算法首先需要计算每个训练样本之间的距离或相似度,然后将输入样本与训练样本进行比较,找到离输入最近的k个训练样本。最后,可以通过投票机制来确定输入的样本所属的类别。例如,如果k=3,那么输入样本将与最近的3个训练样本进行比较,然后以三个训练样本中出现次数最多的样本类别为输入的样本的类别。在回归问题中,最近邻算法基于与k个最近邻的训练样本的目标值进行加权平均,以估计输入样本的目标值。

26、最近邻算法可以用于计算分类任务的置信度。在最近邻算法中,根据输入样本最近的k个训练样本确定了输入样本的类别。置信度是指分类器的置信水平,也就是分类器对该分类结果的信心程度。对于一个输入样本,可以计算出它最近的k个邻居中各个类别出现的频率,作为该样本属于各个类别的概率。这些概率可以用于确定分类结果的置信度,例如,最大概率所对应的类别被认为是分类器的预测结果,并将对应的概率作为该分类结果的置信度。

27、由于最近邻算法基于邻居之间的距离来确定分类,如果邻居之间的距离非常接近,那么将存在分类不确定性的情况。这时可以采用软投票的方式来增加置信度,即增加一个权重因子,将最近邻中离输入样本更近的邻居赋予更高的权重,具体过程见图3。

28、一个被选中的未标记样本必须满足以下条件:它的结节大小与邻居的标记样本很接近;在语义表示空间中,其深度特征与最近邻标注样本的深度特征相近(即余弦相似度);深层特征来自于分类模型的第一个全连接层;top-k邻居样本来自同一类别,即良性或恶性;然后将选择的未标记样本加入训练集,迭代优化良恶性分类模型。

29、作为本发明的进一步改进,迭代半监督学习方法的详细流程描述如下:

30、a.确定训练数据集中的置信度值k;

31、b.无标签数据集中的标签估计;

32、c.对有标记的数据集和无标记的数据集进行迭代更新。

33、作为本发明的进一步改进,所述步骤a中,

34、如果一个未标记的样本有k个来自同一类别的邻居标记样本,那么它将被分配到该标签;在标注的训练样本中学习到了一个合适的k;

35、对于每个标记的结节xi∈x,从x中选取一个结节的子集,结节大小差在1mm以内;将选中的标记子集表示为xs;然后,计算xi与xs中每个结节xj的相似度ωij;表示ns为所选标记子集的总样本大小,对于每个节点xi∈x,表示wi=[ωi1,…,ωij,…,ωins]为xi的相似向量,然后归一化wi至[0,1];基于深度特征的余弦相似度,从xs中选取top-k(k=[1,2,…,ns])样本计算平均估计标签误差见下式:

36、

37、

38、式中,为估计标签;nx为训练集x的样本大小;

39、因此,通过选择最小误差来确定k,见下式:

40、

41、作为本发明的进一步改进,所述步骤b中,将未标记的数据集表示为u,对于每个结节ui,将其与所有训练样本进行比较,通过余弦相似度找到其邻居的如果这些最近邻的来自同一类别,则结节保留;然后,考虑到存在ui可能离和它相邻的很远,这个数据不应该包括在内;计算了结节的平均相似度ui通过平均其归一化相似向量;然后,对所有结节的平均相似度求平均,得到所有未标记数据的全局平均相似度;通过使用平均相似度,相似地排除了平均相似度小于全局平均值的未标记样本。

42、作为本发明的进一步改进,所述步骤c中,将未标记数据迭代地添加到训练数据集中;连续10次的迭代后,若精化模型的精度不再提高,则训练过程停止;最后选择性能最好的模型。

43、作为本发明的进一步改进,本发明采用平衡抽样方法,在每批样本中选择几乎相同数量的标注结节和未标注结节进行训练。结果的不断改进支持算法可以适当地处理错误传播,并优于基线方法。

44、本发明的有益效果在于:在迁移学习和迭代半监督学习两种学习方法的辅助下,本方法取得了令人满意的分类效果,准确率达到了90.3%,而利用传统的深度学习框架对乳腺良、恶性结节进行鉴别,其准确率仅为84.5%,低于本方法的分类准确率;收集了大规模的医学专业数据集,包括大量有标注甲状腺结节超声图像,少量乳腺结节超声图像和大量未标注乳腺结节超声图像,并有病理证实的标记,更适合于临床应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1