一种适用于医学影像目标分类的样本选择偏差缓解方法与流程

文档序号:35534942发布日期:2023-09-21 21:31阅读:56来源:国知局
一种适用于医学影像目标分类的样本选择偏差缓解方法与流程

本发明涉及计算机图像分类领域,具体为一种适用于医学影像目标分类的样本选择偏差缓解方法。


背景技术:

1、医学影像分类是计算机辅助诊断中的一个重要课题,其目的是利用计算机进行计算,以帮助提高诊断的正确性。医学影像的分类因其专业领域的特殊性,面临着如下两大难题。首先,收集真正有价值的医学影像数据集是一项非常昂贵的工作,如何在样本量稀少的情况下能够快速地泛化到没有见过的分类任务当中,这是困扰医学影像目标分类任务的瓶颈问题。其次,医学影像中含有大量的病理信息和模态信息,要了解这些专业的信息必须要有领域知识,单凭视觉的相似度判别无法准确地进行分类,从而产生了类内差异性和类间相似性问题。

2、小样本学习是在训练集样本很少的条件下,完成相应的学习任务,期望在学习大量的基类后,只需少量样本就可以迅速学习掌握新类。通常小样本学习可以使用少量样本进行学习。

3、在计算机视觉和人工智能领域,小样本图像分类是一个迫切需要解决的问题。目前已有的大量样本数据的分类方法是依靠样本数量,而实际的样本量不够,例如军事、医疗、工业、天文行业,这些数据的收集往往会耗费大量的人力、物力代价,难以进行大量的数据采集。因此,对小样本图像分类进行研究是一项非常有意义的工作。

4、在目前的技术中,基于深度度量的分类方法主要是通过对样本和类原型之间的距离进行比较来判别类别。通常将数据增强和迁移学习相结合,以弥补数据量不够和模型过拟合,这些方法对许多小样本分类具有良好的效果,但是与多样本的图像分类方法相比,目前的小样本图像分类效果并不理想。现有的小样本分类方法没有很好地解决样本的选择偏差问题。


技术实现思路

1、本发明的目的在于提供一种适用于医学影像目标分类的样本选择偏差缓解方法技术,以解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种适用于医学影像目标分类的样本选择偏差缓解方法,包括以下步骤:

4、s1,准备数据集,预训练图像得到特征提取器,用于提取图像特征,此处采用resnet-18作为特征提取器,借助迁移学习的思想,利用基集训练特征提取器,用baseline++等方法进行分类,再将新集送进特征提取器,得到新集的样本特征;

5、s2,对新集样本特征进行变换,构建新集样本特征变换网络模型;

6、s3,利用新集样本特征变换网络模型对查询集图像进行分类。

7、其中,所述步骤s1包括:

8、s11,基集为db,将基集样本分为和这两个数据集类别互斥,将dtrain作为基集的训练模型,dtest作为新集对模型测试;

9、s12,对于n-way k-shot分类任务,分别对特定的医学影像数据集dtrain随机选出n个类别,每个类别中随机挑出a个样本,其中k个样本作为支持样本si,其余a-k个样本用作查询集qi,si和qi组成一个任务ti,并且对于dtest有任务目的是划分出训练和测试所需支持集和查询集;

10、s13,利用基集预训练特征提取器fθ,fθ采用resnet-18结构,将所有的支持样本输入参数固定的特征提取器fθ中,得到对应的支持样本特征fθ(sck)。

11、其中,所述步骤s2构建新集样本特征变换网络模型,这个网络模型包括,基集样本选择模块,任务质心计算模块,投影特征移除模块;

12、其中,所述步骤s3构建的新集样本特征变换网络模型包括:

13、s31,取所有支持集样本特征的平均因为基集和新集之间域转移了,导致新集分布向某些特定方向转移,发现新集样本的方向接近一些特定的基类样本倾斜方向,因此找出确定的基集特定样本以近似任务质心,并以所有支持集样本的特征的平均作为参考。计算公式为:

14、

15、在n-way k-shot任务,给定新集规范化特征xn∈s,||xn||=1,i∈[1,2,...,n×k],计算s所有样本特征的平均值。

16、s32,依据与的余弦相似度在基类样本中寻找k个最合适的样本,dcosine是计算余弦相似度,dtopk即包含基类中余弦相似度最接近的前k个样本,计算公式为:

17、

18、

19、其中,符号dcosine表示两个向量之间的余弦距离,而dtopk是选择余弦相似度最接近的前k个样本。

20、s33,基于余弦相似度,加权聚合来近似任务质心,计算公式为:

21、

22、其中,p是控制基样本相对权值的超参数。方程4中的p被设为0.5。

23、s34,近似任务质心ctask,计算公式为:

24、

25、其中,符号l2表示l2的归一化。ctask比更好,因为很容易在支持集数据上过拟合,远不能代表新集的真正质心,新集在一定方向上倾向于相关的有限的基集样本方向,所以从基集中前k个相似样本外推任务质心更精确。

26、s35,为了减少在任务质心附近的新集所造成的抽样偏差,对在支持集和查询集的所有新类样本,经过去除它们的特征在任务质心的投影,缓解样本选择偏差,对此使用一种特征变换以提取到近似任务质心的投影,在去除沿着任务方向的特征分量后,将新类的分布推离近似的质心,计算出差异性更大的新的新类样本,计算公式为:

27、

28、其中xn∈s∪q。

29、其中,所述步骤s4包括:

30、s41,测试过程,每个任务由支持集和查询集组成,测试集的查询集输入到特征提取器fθ,得到特征。

31、s42,用支持集样本训练一个新的线性分类器fw,设ω=[ω1,ω2,...,ωn]∈rd×n为分类器的可学习参数,其中d为所提取特征的维数。我们对每个类c的权值向量进行归一化,其中||ωn=1||,n∈[1,2,...,n],以消除特征向量的大小的影响。一个样本x属于c类的概率可以表示为:

32、

33、其中,β是一个可缩放的超参数。在支持集上训练后,权值向量[ω1,ω2,...,ωn]可以看作是新类的原型,用于预测查询集q中的样本。

34、s43,特征送入度量模块中,计算出查询样本与所有支持样本之间的余弦距离。

35、s44,查询样本的预测类别取距离最小的支持样本类别。

36、与现有技术比,本发明达到的有益效果是:

37、一般的小样本学习先在基集上进行预训练,得到特征提取网络,再利用支持集训练softmax分类器,它更新了softmax的参数,少量更新之前的卷积网络,提高了分类准确度,但还是不够,它对之前的卷积网络影响不大,所以特征提取部分的网络还是按照基集的域训练的,用基集的域特征提取器提取目标域的特征,结果精度低。通过把基集的域与查询集的域联系在一起,能够提高泛化能力,则从数据集特征的尺度上根本解决小样本的跨域问题。

38、经实验,新类的数据与基类中某些类的样本数据有共同的特定方向的偏斜,新类中的所有类的样本数据越靠近质心,会更容易造成错误的分界,因为这些样本在某个维度上的共同点多,所以去除了这些靠近质心的样本点在特定维度上的起着扰乱分辨的共同点,则样本间的差异性大,精度高。样本经过特征提取网络后变为了向量形式的特征,移除了这些特征在都靠近质心的某个方向上共同分向量。经实验验证此方法有效。本发明对小样本学习样本偏差问题的理论研究、推动小样本精确分类技术在医学影像目标分类的广泛应用具有非常重要的意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1