基于双分支特征融合的医学影像报告生成方法

文档序号:36358011发布日期:2023-12-14 04:08阅读:44来源:国知局
基于双分支特征融合的医学影像报告生成方法

本发明属于医学影像报告自动生成方法,涉及计算机视觉和自然语言处理的。


背景技术:

1、作为计算机视觉与自然语言处理的交叉领域,医学影像报告自动生成模型的任务是生成给定医学影像的文本描述。但与传统图像字幕生成任务不同的是,医学报告的内容应包含对影像中多个区域的专业性描述,因此对医学影像报告生成任务对用词的准确性要求很高且篇幅较长。为了提高生成的影像报告的质量,najdenkoska等人引入用于指导句子生成的主题向量,使生成的医学影像报告在用词上更加专业。han等人结合元学习和符号推理来增强医学影像报告文本之间的因果关联性。yang等人从多视图的角度出发,提高了模型针对同一个患者的影像照片在正面视图和侧面视图上的一致性,并设计了一种分级的注意力编码器来捕获医学报告的语言结构和不同单词与句子对临床诊断的重要性。huang等人则使用关键字驱动的方式来指导医学影像报告的描述内容。然而,上述的方法所采用的范式大都为“单一cnn+lstm”,对医学图像全局语义特征的提取能力有限。因此本发明针对此问题提出dbffn模型,从不同侧重点出发对医学影像的特征进行提取,对医学影像中可能存在的异常之处发掘地更加准确。

2、对图像而言,其低层次的局部特征中具有更多几何上的细节信息,而其高层次的全局特征中则包含了更丰富的语义信息。为了对图像中的信息进行更加充分地利用,特征融合成为了提高神经网络性能的一个重要手段。根据特征模式的差异,snoek和chaib等人提出的融合方案可被分为早融合和晚融合,前者在特征空间进行融合而后者在语义空间进行融合。具体而言,早融合需要组合不同模态的特征并进行表示,常见的策略包括串联策略和并行策略。串联策略是对已有的特征进行维度上的拼接,例如liu等人所使用的方法。并行策略是对特征进行累加组合。例如yang等人所采用的方式。与早融合不同,晚融合则是从现有的特征中学习不同语义的表达方式,例如yang等人所提出的策略。

3、近期,基于transformer的一些网络结构在计算机视觉领域大放异彩。transformer网络的多头注意力模块使其拥有优秀的特征学习能力。除此之外,transformer中的位置编码方式使得图像的全局范围内的位置信息得到了较好的保留,因此视觉transformer模型通常在图像全局特征的建模任务上表现优越。受此启发,本发明提出了一种基于双分支特征融合的医学影像报告生成方法(dual-branch feature fusionnetwork for medical report generation,dbffn)来改进医学影像报告自动生成任务的性能。利用视觉transformer在图像全局位置信息上的表现力来学习医学影像的全局特征,利用卷积神经网络对局部细节可靠的感知能力来学习医学影像的局部特征。最终利用融合了全局和局部信息的图像特征来生成更加可靠的医学影像报告。


技术实现思路

1、本发明的目的是为了解决在传统医学影像报告自动生成方法中,仅使用卷积神经网络提取图像特征,注重局部细节而忽略对图像全局特征进行提取的问题。

2、为实现上述目的,本技术提供了如下方案:

3、s1.对图片进行局部特征提取。

4、s2.对图片进行全局特征提取。

5、s3.将s1和s2中提取的全局特征和局部特征送到多尺度特征融合模块进行融合。

6、s4.使用编码器对s3中融合的特征和ground truth中的文本向量进行视觉特征和文本特征的对齐并预测生成报告。

7、对于给定的医学影像图片,在这里将其表示为i。为了对输入的医学影像进行扩充,防止模型出现过拟合现象,模型首先对i进行随机旋转、翻转,调整亮度、对比度和随机仿射变换等数据增强操作,并将其预处理为可以输入神经网络模型的数据形式。

8、接下来i会被输入到全局-局部图像特征提取模块中,过程可被概括为公式(1)。

9、

10、其中,代表局部特征提取器,代表全局特征提取器,l为提取所得的局部特征,g为提取所得的全局特征。具体的说,首先加载预训练的卷积神经网络进行迁移学习,并作为模型的局部特征提取器。本发明使用的是resnet101。resnet是一种残差网络结构,通过引入“跳跃连接”结构,使得网络模型的参数可以在反向传播的过程中跨越一层或多层网络进行传播。

11、y=f(x)+x   #(2)

12、其中,x代表传入当前残差模块的参数,f(x)为经过映射函数计算后所得的结果,y为该残差模块的输出,即x与f(x)的和。为了进一步提升网络的表达能力,resnet结构内采用relu激活函数对残差模块的输出进行进一步计算,relu激活函数如公式(3)所示。

13、

14、然后采用vit作为全局特征提取器。对于输入的图像vit首先将其处理为2d序列块其中,c为channel数,n为patch的个数,p为vit网络中定义的patch的长和宽。

15、接下来,vit模型通过线性变换对序列块ip进行降维,即此处的d即为降维之后的维度值。为了保存图像块之间的空间位置信息,vit中引入了位置嵌入的方法。vit会将序列块ip,序列块对应的可学习类别向量iclass以及ip的位置信息ipos进行累加来获取输入到transformer编码器的向量i0。

16、transformer的编码器由多头注意力模块,多层感知机和层归一化组成。对于输入的i0,vit通过多头注意力模块内的不同权重矩阵来实现对图像多个特征矩阵的提取。其中i=1,2…head,head代表“头”的个数。

17、多头注意力模块的计算过程可被概括为公式(4-6)。

18、

19、

20、

21、得到多头注意力的输出后,vit对其进行层归一化和多层感知机计算,以得到最终的预测输出结果。

22、得到图像特征后,将其输入到多尺度特征融合模块进行融合,过程可被概括为公式(7)。

23、

24、其中代表msffm,f为融合后的图像特征。具体描述该过程,首先,调整从两个分支中分别得到的局部特征和全局特征使它们在维度上保持一致,其中b为训练过程中batch size的大小,d为resnet101卷积部分最后一层的特征维度数量,w′和h′分别为resnet101卷积部分最后一层特征矩阵的宽和高,m为vit网络中定义的输入mlp head的维度数量。该过程可被描述为公式(8)。

25、

26、其中且dim代表输入特征融合模块的指定维度,a为根据输入张量动态调节的中间维度。

27、在对不同尺度的特征进行自适应维度调整后,对全局特征fg使用激活函数τ增强网络的非线性,其中τ对应的激活函数为tanh。接下来,对局部特征fl和操作后的全局特征fg进行维度扩张和初步融合,该过程如公式(9)所示。

28、f1=fc(fl)+fc(τ(fg))   #(9)

29、其中,fc代表全连接层,用来将fl和fg的最后一个维度扩张为原本的两倍。得到初步融合的特征f1后,对其沿着最后一个维度进行分割并使用激活函数θ进行再次运算。这里的θ对应的激活函数为logsoftmax,可以起到提高数据稳定性,防止溢出的作用。该过程如公式(10)所示。

30、f11,f12=logsoftmax(split(f1))   #(10)

31、对于得到的f11,f12,分别将他们与原始的fg,fl进行进一步的运算,得到融合特征。

32、fm=fg⊙f11+τ(fg+fl)⊙f12   #(11)

33、其中⊙代表两个矩阵的哈达玛乘积。在msffm模块的最后,将上一步所得的融合特征fm与原始的全局特征fg和局部特征fl分别乘上指定系数,累加之后输入到模型的解码器用于生成医学影像报告的文本内容。该过程如公式(12)所示。

34、f=αfm+βfg+γfl   #(12)

35、其中α,β,γ分别为融合特征fm,全局特征fg和局部特征fl所对应的系数。

36、最后模型使用transformer网络模型的decoder部分作为模型的解码器接收图像特征f和来自ground truth中的文本向量w,并通过内部的注意力模块来学习这两种不同模态之间的对应关系,进行跨模态的特征对齐,并生成预测生成的医学影像报告,该过程可被概括为公式(13)。

37、

38、其中代表解码器结构,t为生成的医学影像报告。如公式(14)所示,在模型的训练过程中,使用负对数似然法作为损失函数进行损失计算和模型优化。

39、

40、其中,δ代表模型中的参数。

41、最后,所述的基于双分支特征融合的医学影像报告生成方法的训练方法如下:

42、本发明基于ubuntu20.04操作系统进行实验,显卡配置为12gb,nvidia geforcertx 3060gpu,并行计算架构为cuda11.0。本发明使用pycharm 2021开发工具,python3.7编程语言和pytorch1.7.1训练框架。在训练过程中,本发明首先对输入的图像进行预处理,调整为256×256大小。在实验过程中删除掉原resnet101网络中的最后两层,即直接输出图像的特征矩阵,其维度为8×8×2048,删除vit网络的最后两层,输出维度为256×2048的图像特征矩阵。除此之外,在实验中设置vit网络的层数为3,多头注意力的个数为8,dropout的比例为0.2。实验中使用的batch size的大小为8,训练轮次为50轮,使用adam优化器并设置学习率为5e-5。

43、与现有的技术相比,本发明的有益效果是:

44、1)本发明提出了一种基于双分支特征融合的医学影像报告生成方法dbffn,通过两个不同的图像特征提取分支实现对医学图像在全局和局部角度上的侧重提取。

45、2)本发明设计了一种多尺度特征融合模块msffm来对两个分支所得的特征进行融合。并通过对比不同的融合方式验证了msffm的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1