一种基于多模态信息融合的喉镜图像多属性分类方法

文档序号:35295510发布日期:2023-09-01 20:58阅读:36来源:国知局
一种基于多模态信息融合的喉镜图像多属性分类方法

本发明属于医学图像分类领域,具体涉及一种基于多模态信息融合的喉镜图像多属性分类方法。


背景技术:

1、纤维电子鼻咽喉镜,作为一种无创检查,可清晰显示咽喉部解剖结构以及病变,在临床上获得了广泛的应用。常见的喉镜图像有标准内窥镜的白光(white light,wl)图像和窄带成像(narrow band imaging,nbi)两种。喉镜图像所呈现出的喉部形态,是对喉疾病做出诊断的重要依据。但是息肉、白斑、早期喉癌等病变组织在喉镜下的图像表现形态具有较大的相似性,诊断多依赖于医生主观判断。近年来,深度学习技术与临床医学相结合的智慧医疗技术得到了广泛的关注与研究。然而,目前大部分的方法都主要集中在利用wl图像进行简单的疾病类型分类。喉部的粘膜光滑度,坏死,颜色等是临床医生给出诊断并制定后续治疗方案的重要依据。而目前尚未见有针对病变部位的状态进行自动判断的方法,同时需要建立同时能适应wl和nbi图像的诊断模型以适应两者相结合的检查手段。另外,现有的方法通常依赖有经验的医生来对图像进行人工标注,这无疑是一个耗时耗力的过程。若能实现自动图像标注、自动疾病识别的同时,对病变部位进行定位、定性并自动生成诊断报告,有助于提高准确性,并节省人力成本。


技术实现思路

1、针对上述问题,本发明提出了一个喉镜图像多属性分类及报告自动生成方法,该方法能够通过文本映射自动获取图像中病变部位的多重属性标签,实现文本与图像的多模态特征提取、特征内联信息挖掘,最后实现精确的喉部病变识别,并自动生成诊断报告。

2、本发明以实现喉部疾病智能分类诊断为背景,针对人工标注图像费时费力、病变状态属性判别和不同病变类型的喉镜图像存在数量不平衡的问题,提出了一种基于多模态信息融合的喉镜图像多属性分类及报告自动生成方法。该方法包含文本特征提取模块、图像特征提取模块、内联特征挖掘模块和逆映射输出模块。首先,使用配对的喉镜图像和报告建立自己的多模态数据集,通过文本特征提取模块实现从诊断报告中自动获取目标属性标签;然后,通过图像特征提取模块获得图像的特征表示;之后,提出了内联特征挖掘模块,该模块融合了文本特征和图像特征,挖掘各个属性的内部关联性,从而实现疾病自动分类;最后,逆映射输出模块实现自动生成包含多个表征属性和最终诊断结论的报告。

3、本发明的技术方案为:

4、一种基于多模态信息融合的喉镜图像多属性分类方法,从文本报告中自动获取图像中病变部位的多重属性标签,实现文本与图像的多模态特征提取、特征内联信息挖掘,最后实现精确的喉部病变识别和多个属性识别,并自动生成诊断报告。包括以下步骤:

5、s1、获取原始喉镜图像记为i0=1,2,...,a,a为获取的原始喉镜图像数量,h0,w0是原始喉镜图像的高度和宽度;对原始喉镜图像进行处理,获得大小格式统一的喉镜图像,表示为xi∈r3×h×w,i=1,2,...a,h,w是原始喉镜图像重新调整大小之后的高度和宽度;

6、同时获取与原始喉镜图像对应的文本格式的诊断报告,记为xt,t=1,2,...,a,其中,a表示诊断报告样本的数量,诊断报告与喉镜图像是一一对应匹配的,获得训练数据[xi,xt];

7、s2、构建神经网络,包括文本特征提取模块、图像特征提取模块、内联特征挖掘模块、逆映射输出模块;

8、所述文本特征提取模块的输入为诊断报告,用于从诊断报告中提取感兴趣信息作为图像的多属性标签,对于xt,采用文本映射函数f(i,xt)进行推理,推理函数作用于输入xt和感兴趣信息列表i,i是由内镜医生确定的n项医学感知结果作为需要获取的属性信息,表示为i=[i1,i2,i3,...,in],输出xt与i的匹配信息:l=f(i,xt)=[l1,l2,l3,...,ln],其中,li表示第i个感兴趣信息与xt的相似度;最后通过词级嵌入函数e(x)获得医学感知结果的文本特征其中,channels表示特征维数;

9、所述图像特征提取模块用于对喉镜图像xi进行特征提取,具体为采用resnet50网络,从resnet50网络的5个输出层c1,c2,c3,c4,c5中选取c5的输出作为resnet50的输出,得到提取的图像特征为其中,channels是输出特征的通道数,与前述特征维数channels相同,h′和w′分别是输出特征的高度和宽度;

10、所述内联特征挖掘模块由m个增强型transformer编码器组成,将文本特征提取模块输出的文本特征与图像特征提取模块输出的图像特征进行拼接融合,具体为先通过view函数对图像特征降维,将第二维和第三维展平获得一个新的维度,即

11、

12、然后通过拼接获得作为增强型transformer编码器的输入集,在编码器中,通过自我注意力机制计算输入集元素si∈s和sj∈s之间的注意力系数:

13、

14、其中,wq和wk分别是query和key权重矩阵,是比例因子;通过加权和操作将si更新为si:

15、

16、其中wv为value权重矩阵,再引入变换矩阵wt、wf和偏差向量b1、b2,经过relu激活函数得到更新后的:

17、

18、最后经过卷积层来增强局部信息的学习,将更新过程重复m次,从而将增强的局部信息与多头自我注意机制的全局信息相融合,减少不相关属性之间的相关系数,而增加相关属性之间的相关系数;

19、编码器输出学习后的融合特征表示:cat=m+n,其中channels为融合后特征的通道数,cat为融合后特征的大小;

20、所述逆映射输出模块用于通过多分支输出结构预测喉镜图像的类别和属性,进而经过逆映射函数输出最终的诊断报告,具体为利用内联特征挖掘模块输出的融合特征,利用多个前馈神经网络ffn实现属性的预测,表示为:

21、

22、其中,fi表示预测第i个属性所用的ffn及其参数,t表示转置操作,n表示属性的总数,si′为s′中的元素;针对互斥属性,预测概率较大的属性将作为最终预测属性;针对非互斥属性,确定阈值thi,阈值以下的属性将被丢弃,根据预测得到的属性结果,通过逆映射函数生成诊断报告,诊断报告包含疾病诊断结果与病变属性状态的预测结果;

23、s3、利用s1得到的训练数据[xi,xt]对s2构建神经网络进行训练,其中图像特征提取模块部分在imagenet数据集上先进行预训练,将通过预训练得到的参数作为resnet50的初始参数,训练采用的损失函数为非对称损失:

24、

25、其中,a+,a-是聚焦参数,y是网络的输出概率,概率参数z≥0是一个可调整的超参数,通过神经网络的反向传播机制,修正网络的参数,直至网络基本收敛得到训练好的神经网络;

26、s4、采用训练好的网络对喉镜图像进行属性预测和诊断报告的生成:

27、选择需要分类的喉镜图像,将其送入图像特征提取模块,得到的特征图经过前向反馈网络,获得关于喉镜图像的病变类别预测和相应的属性预测,最后通过逆映射函数获得预测的诊断报告。

28、本发明的有益效果为:本发明开创性的提出了获取图像中病灶部位的多重属性信息,然后利用不同属性间的内在关联性实现对疾病类型的更精确的分类的思路和方法,最后还以多重属性及疾病类型识别结果为基础自动生成了诊断报告。该方法具有较强的实用性和可靠性,将作为辅助信息减轻专业医生的负担。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1