一种多模态智能诊疗方法

文档序号:37307320发布日期:2024-03-13 20:55阅读:9来源:国知局
一种多模态智能诊疗方法

本发明涉及就医诊疗,具体为一种多模态智能诊疗方法。


背景技术:

1、目前,在大型综合性医院,日门诊总量可达数千人次,可想而知在这样过分拥挤的环境下是难以确保每位患者都得到精准到位的服务。患者进入医院看病时,首先第一步得对自己的病况有一个大致的了解,然后才能去相应的科室就诊,但很多时候患者对自己的病况并不了解,所以只能通过人工导诊咨询,而人工导诊时不可避免地会出现耗时较长以及主观因素等诸多缺点,导致患者没有及时去相应的科室就诊而延误病情,故现在急需一种智能诊疗方法能相对及时、准确地对患者的病况作出诊疗,方便患者能及时去相应的科室就诊。

2、现有的智能诊疗大多为基于单模态的诊疗,如针对胸片数据或电子病历文件出具的单模态的诊疗结果,并不符合结合多模态数据的诊疗,无法相对准确地作出诊疗。


技术实现思路

1、本发明为了解决现有的智能诊疗无法结合多模态数据进行诊疗的问题,故提供了一种新的多模态智能诊疗方法。

2、本发明是采用如下技术方案实现的:

3、一种多模态智能诊疗方法,包括如下步骤:1)对患者提供的图片信息进行视觉特征提取:将senet(squeeze-and-excitation networks,挤压激励网络)模块嵌入到的resnet50的残差结构中的残差学习分支中,从而建立卷积神经网络se-resnet(se-resnet即融合se模块的resnet网络),然后通过se-resnet从患者的图片信息中提取出相关视觉特征;

4、随着cnn的不断发展,为了获取深层次的特征,人们开始在网络上叠加卷积层数。但是通过增加网络层数的方法来增强学习能力的方法并不总是可行的,当网络层数到达一定的深度后,再增加网络层数,那么网络就会出现随机梯度消失等问题,导致网络的准确率下降,而残差网络的出现可以解决梯度问题,网络层数的增加也使其表达的特征也更好,相应的检测或分类的性能更强。

5、resnet50网络的关键就在于其结构中的残差单元,在残差网络单元中包含了跨层连接,进行恒等映射操作,从而保证了更深层的网络哪怕不取得更好的结果,也不会表现的更差,同时残差网络具有拟合函数的优越性并在训练过程中也具有优越性。

6、resnet50网络中包含49个卷积层,1个全连接层。resnet50网络结构可以分成七个部分,第一部分不包含残差块,主要对输入进行卷积、正则化、激活函数、最大池化的计算。第二、三、四、五部分结构都包含了残差块。在resnet50网络结构中,残差块都有三层卷积网络总共49个卷积层,加上最后的全连接层总共是50层,这也是resnet50 名称的由来。

7、这里使用resnet50网络,是因为resnet已经在类似的x-ray库中进行过评估,是完成此类任务最好的神经网络,并且已在imagenet(大型公开数据集)上进行了预训练。

8、在深度学习领域,已经有很多成果通过在空间维度上对网络的性能进行了提升。但是,senet反其道而行之,通过对通道关系进行建模来提升网络的性能。squeeze和excitation是两个非常关键的操作,所以senet以此来命名。

9、senet的动机是希望显式地建模特征通道之间的相互依赖关系,具体来说,就是通过学习的方式来自动获取每个通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。

10、2)对患者描述的文本信息进行文本特征提取:建立bert模型((bidirectionalencoder representations from transformers,基于变换器的双向编码表示技术)),即用了mlm(masked language model)和nsp(next sentence prediction)两种方法分别捕捉词语和句子级别的representation表示,然后通过bert从患者的文本信息中提取出相关语义特征;

11、bert的模型架构为基于多层双向转换解码的模型架构,因为decoder(解码器)是不能获取预测的信息的,模型的主要创新点都在预训练方法上,即用了mlm(maskedlanguage model)和nsp(next sentence prediction)两种方法分别捕捉词语和句子级别的representation(表示)。

12、bert的输入部分是个线性序列,两个句子通过分隔符分割,最前面和最后增加两个标识符号。每个单词有三个embedding:position embedding,这是因为nlp中单词顺序是很重要的特征,需要在这里对位置信息进行编码;segment embedding;第三个是句子tokenembedding,因为训练数据都是由两个句子构成的,那么每个句子有个句子整体的embedding项对应给每个单词,把单词对应的三个embedding叠加,就形成了bert的输入。

13、3)将步骤1)和步骤2)提取出的视觉特征和文本特征通过多模特征融合数据分析模型co-attention进行模态交互融合,形成上下文向量context vector;

14、4)将context vector通过经过数据训练(数据训练使得医院的数据得到利用,提高了医院内积攒的数据的利用率)的分类器classifier后输出就医诊疗标签(本领域技术人员公知:就医诊疗标签即就医诊疗关键字如胸、心脏,就医诊疗标签为心脏即代表心脏可能出现病况,患者应前往心内科前去就诊)。

15、本发明所产生的有益效果如下:本发明中的智能治疗方法通过对患者提供的图片信息以及文本信息分别进行视觉特征和文本特征的提取,再将两类特征通过co-attention模块进行特征融合,然后再通过分类器形成最后的就医诊疗标签,以达到利用多模态数据智能诊疗的效果,从而提升了诊疗精度。



技术特征:

1.一种多模态智能诊疗方法,其特征在于,包括如下步骤:1)对患者提供的图片信息进行视觉特征提取:将senet模块嵌入到的resnet50的残差结构中的残差学习分支中,从而建立se-resnet,然后通过se-resnet从患者的图片信息中提取出相关视觉特征;2)对患者描述的文本信息进行文本特征提取:建立bert模型,即用了mlm和nsp两种方法分别捕捉词语和句子级别的表示,然后通过bert从患者的文本信息中提取出相关语义特征;3)将步骤1)和步骤2)提取出的视觉特征和文本特征通过co-attention进行模态交互融合,形成context vector;4)将context vector通过经过数据训练的分类器后输出就医诊疗标签。


技术总结
本发明涉及就医诊疗技术领域,具体为一种多模态智能诊疗方法。为了解决现有的智能诊疗无法结合多模态数据进行诊疗的问题,故提供了一种新的多模态智能诊疗方法,即通过对患者提供的图片信息以及文本信息分别进行视觉特征和文本特征的提取,再将两类特征通过Co‑Attention模块进行特征融合,然后再通过分类器形成最后的就医诊疗标签,以达到利用多模态数据智能诊疗的效果,从而提升了诊疗精度。

技术研发人员:李灯熬,赵菊敏,慕雨佳
受保护的技术使用者:太原理工大学
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1