一种多帧实时息肉类病灶识别的目标检测方法及装置与流程

文档序号:34117072发布日期:2023-05-11 00:54阅读:71来源:国知局
一种多帧实时息肉类病灶识别的目标检测方法及装置与流程

本发明涉及一种多帧实时息肉类病灶识别的目标检测方法及装置,属于医学影像智能辅助诊断领域。


背景技术:

1、通过ai软件系统实时监控并辅助医师完成内窥镜检查已成为了新一代的电子内窥镜的重要功能。目前市面上常见的用于质量评估的算法多为基于神经网络的单帧目标检测模型,此类模型的输入为单帧内窥镜图像,实时对检查过程中每一帧的图像的进行目标检测,然后结合非极大值抑制等算法进行后处理后输出息肉病灶的坐标框置信度等一系列的信息。此类算法的优点在于数据充足且算法较成熟,可以较好地满足此类应用中的初步需求。但经过此类产品在医院实际使用的反馈以及进一步分析可知,此类模型在息肉类病灶识别检测这个应用方向上仍然存在几个普遍问题。其一是单帧图像上的信息不充分,难以准确地鉴别病灶与疑似病灶的正常组织,从而使模型在处理完整视频的时候容易将大量的正常组织误识别为息肉,这种错误地病灶提示,容易干扰医生判断,甚至存在误诊的风险,是实现ai模型在内窥镜下的自动诊断的重大挑战。其二是内窥镜检查过程中,因镜头运动与成像方式等原因,将存在大量带有运动模糊的低质量图像,影响了单帧模型的性能,使得检测到的病灶坐标框无法稳定不抖动地连续提示。

2、上述情况的问题反映了仅靠单一图像的输入的模型难以完全满足内镜质控过程中的需求,究其原因在于在内窥镜检查的过程中,镜体在人体器官内的运动是一个时间序列,需结合序列内的所有图像进行判断。因此,使用基于多帧图像输入目标检测模型才能更好地满足内镜质控过程的算法需求。而现有的在线/离线视频多帧目标检测模型通常规模参数较大,难以满足电子内窥镜下的实时性需求。

3、因此本领域技术人员致力于开发一种电子内窥镜智能辅助诊断软件中的多帧实时息肉类病灶识别的目标检测方法及装置。


技术实现思路

1、有鉴于现有技术的上述缺陷,所要解决的技术问题是提供一种电子内窥镜智能辅助诊断软件中的多帧实时息肉类病灶识别的目标检测方法及装置。

2、为实现上述目的,本发明提供了一种多帧实时息肉类病灶识别的目标检测方法,包括以下步骤:

3、s1.建设息肉类病灶多帧目标检测的数据集;

4、s2.训练过程中将每例病灶图像的所有帧序列送入模型中,得到每帧图像的fpn特征金字塔的输出以及检测头的特征输出;

5、s3.对fpn特征金字塔的输出以及检测头的特征输出经两层单独的卷积处理后,送入基于自注意力机制的特征选择模块中;

6、s4.特征选择模块对上述所有帧得到的结果使用自注意力机制将多个帧中出现的连续病灶目标赋予高权值;

7、s5.将上述得到的权值特征与s2中得到的单帧分类检测头上的输入特征拼接,送入分类检测头中得到最终的输出;结合标注的目标框坐标与分类标签完成反向传播与参数更新的过程;

8、s6.将训练完成的多帧息肉目标检测模型部署到目标设备上。

9、较佳的,步骤s1中,每例病灶包括一段连续采样n帧的图像序列,对序列中的每张图像进行标注。

10、较佳的,步骤s2中,使用基础的yolox模型分别得到每帧图像的fpn特征金字塔的输出以及检测头的特征输出。

11、步骤s5中,将权值特征与原始yolox得到的单帧分类检测头上的输入特征拼接。

12、较佳的,步骤s3中,将基础的yolox模型额外添加一个使用3*3卷积的视频分类检测头,之后分别得到每帧的4个输出特征,分别为坐标回归特征r,视频分类检测头特征c以及iou置信度p1与目标分类置信度p2;

13、使用nms(non maximum suppression,非极大值抑制)算法剔除上述得到的特征中的极大值结果,保留最多30组[r,c,p1,p2]特征。

14、较佳的,步骤s4中,使用如下公式的自注意力机制网络计算自注意力特征sa:

15、

16、

17、sa=concat(sac+sar,vc)

18、其中,p1为iou(intersection overunion,交并比)置信度;

19、p2为目标分类置信度;

20、t为矩阵的转置符号;

21、为矩阵的哈达玛积;

22、qc为视频分类检测头特征c经一层全连接网络投影后得到的query特征;

23、kc,为视频分类检测头特征c经一层全连接网络投影后得到的key特征;

24、vc为视频分类检测头特征c经一层全连接网络投影后得到的value特征;

25、qr为坐标回归检测头特征r经一层全连接网络投影后得到的query特征;

26、kr为坐标回归检测头特征r经一层全连接网络投影后得到的key特征;

27、sa为结合sacsar与vc自注意力拼接特征;

28、sac为视频分类检测头的自注意力特征;

29、sar为坐标回归检测头的自注意力特征;

30、将特征sa进行如下运算完成帧间特征的相似度计算:

31、

32、其中,ap为帧间特征的相似度;

33、sa为结合sacsar与vc自注意力拼接特征;

34、vc为视频分类检测头特征c经一层全连接网络投影后得到的value特征;

35、t为矩阵的转置符号;

36、步骤s5中,将得到的特征ap经多层全连接网络后,每个特征的输出维度为目标检测类别数+1,代表多个单帧目标检测网络的结果综合后对每个检测到的目标的最终分类置信度,若输出值为类别数+1则被认为是单帧中误检的无效目标。

37、本发明还提供了一种用于实现上述方法的多帧实时息肉类病灶识别目标检测装置,该装置包括:

38、数据集建设模块,用于建设息肉类病灶多帧目标检测的数据集;

39、数据训练模块,用于训练过程中将每例病灶图像的所有帧序列送入模型中,得到每帧图像的fpn特征金字塔的输出以及检测头的特征输出;

40、卷积处理模块和特征选择模块,卷积模块用于对fpn特征金字塔的输出以及检测头的特征输出经两层单独的卷积处理后,送入基于自注意力机制的特征选择模块中;

41、目标赋值模块,用于特征选择模块对上述所有帧得到的结果使用自注意力机制将多个帧中出现的连续病灶目标赋予高权值;

42、输入特征拼接模块,用于将目标赋值模块得到的权值特征与数据训练模块中得到的单帧分类检测头上的输入特征拼接,送入分类检测头中得到最终的输出;结合标注的目标框坐标与分类标签完成反向传播与参数更新的过程;

43、部署模块,用于将训练完成的多帧息肉目标检测模型部署到目标设备上的模块。

44、所述数据集建设模块中,每例病灶包括一段连续采样n帧的图像序列,所述数据集建设模块还用于对序列中的每张图像进行标注。

45、所述数据训练模块用于使用基础的yolox模型分别得到每帧图像的fpn特征金字塔的输出以及检测头的特征输出;

46、所述输入特征拼接模块用于将权值特征与原始yolox得到的单帧分类检测头上的输入特征拼接。

47、所述卷积处理模块用于将基础的yolox模型额外添加一个使用3*3卷积的视频分类检测头,之后分别得到每帧的4个输出特征,分别为坐标回归特征r,视频分类检测头特征c以及iou置信度p1与目标分类置信度p2;

48、所述卷积处理模块还用于使用nms算法剔除上述得到的特征中的极大值结果,保留最多30组[r,c,p1,p2]特征。

49、所述特征选择模块中,使用如下公式的自注意力机制网络计算自注意力特征sa:

50、

51、

52、sa=concat(sac+sar,vc)

53、其中,p1为iou置信度;

54、p2为目标分类置信度;

55、t为矩阵的转置符号;

56、为矩阵的哈达玛积;

57、concat为将特征沿通道进行拼接;

58、qc为视频分类检测头特征c经一层全连接网络投影后得到的query特征;kc,为视频分类检测头特征c经一层全连接网络投影后得到的key特征;vc为为视频分类检测头特征c经一层全连接网络投影后得到的value特征;qr为坐标回归检测头特征r经一层全连接网络投影后得到的query特征;kr为坐标回归检测头特征r经一层全连接网络投影后得到的key特征;

59、sa为结合sacsar与vc自注意力拼接特征;

60、sac为视频分类检测头的自注意力特征;

61、sar为坐标回归检测头的自注意力特征;

62、将特征sa进行如下运算完成帧间特征的相似度计算:

63、

64、其中,ap为帧间特征的相似度;

65、为层标准化ln算法;

66、sa为结合sacsar与vc自注意力拼接特征;

67、vc为视频分类检测头特征c经一层全连接网络投影后得到的value特征;

68、t为矩阵的转置符号;

69、输入特征拼接模块还用于将得到的特征ap经多层全连接网络后,每个特征的输出维度为目标检测类别数+1,代表多个单帧目标检测网络的结果综合后对每个检测到的目标的最终分类置信度,若输出值为类别数+1则被认为是单帧中误检的无效目标。

70、本发明的有益效果是:本方案采用了yolox无候选框的单帧检测模型作为基础模型,相比于普通的二阶段目标检测模型,此一阶段基础模型的推理时间较低,使得在实时内窥镜目标检测应用上实现成为了可能。yolox在检测头中得到的每一帧上的病灶特征与在fpn特征金字塔中得到的特征进行卷积处理拼接后,经由自注意力机制的特征选择网络来捕捉时序上的特征,使得在某运动模糊帧上出现的不清晰病灶能经过此模块重新分配特征权重,输出高置信度的分类结果的同时,也能剔除掉仅在单个帧图像中与病灶难以区分的正常组织,解决了传统方案所存在的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1