基于深度神经网络的图像语义分割方法、装置及设备

文档序号:36183261发布日期:2023-11-29 20:18阅读:48来源:国知局
基于深度神经网络的图像语义分割方法

本发明涉及一种基于深度神经网络的图像语义分割方法、装置及设备,属于计算机视觉与图像处理。


背景技术:

1、微创手术由于其对人体创口小、术后恢复时间快等优点,被广泛应用到外科手术中。随着机器人技术的快速发展,将机器人技术与微创手术结合的机器人辅助微创手术(rmis)应运而生。rmis是指利用腹腔镜、内窥镜等显示设备以及机器人、计算机等执行与计算设备所进行的一种手术。rmis利用腔镜下手术视野放大清晰、机器人可精细操作等技术特点,具有创伤小、疼痛轻、恢复快的优越性。

2、在此类手术中,为了使手术机器人准确响应外科医生的操作、提高手术效率、确保患者安全,一个重要的环节是提升手术机器人对手术器械的自动化认知。为了实现这一目的,需处理由腔镜系统拍摄到的图像,以提取图像中手术器械的像素区域。随着计算机视觉技术的不断发展,语义分割技术已经被广泛应用于图像和视频处理领域,故可以使用图像语义分割技术来执行上述过程。

3、语义分割是一种图像处理技术,其目标是将图像中的每个像素分类到不同的语义类别,如手术器械、生理组织等。其与传统的图像分割技术相比,优势在于可以更好地使计算机识别和理解图像中的内容。

4、目前,手术机器人器械图像的语义分割算法主要集中在仅以深度卷积神经网络或视觉transformer网络作为主体结构,准确率尚可,但是,在某些特定分割子任务下,其并没有达到符合手术器械语义分割实际应用的情况;同时,以视觉transformer网络作为主体结构的手术机器人器械图像语义分割算法消耗的时间比较长,模型训练时收敛速度较慢。


技术实现思路

1、为了克服现有语义分割算法存在的局限性,本发明提出了一种基于深度神经网络的图像语义分割方法、装置及设备,能够提高手术机器人器械语义分割的准确性,以便更好地应用于机器人辅助微创手术(rmis)场景。

2、本发明解决其技术问题采取的技术方案是:

3、第一方面,本发明实施例提供的一种基于深度神经网络的图像语义分割方法,包括以下步骤:

4、采集手术过程中的现场图像数据,构建训练数据集;所述训练数据至少包含每个图像像素的所属类别标注;

5、对训练数据集中数据进行预处理,并将预处理后的训练数据集划分为训练集和测试集;

6、建立语义分割模型,基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用adamw优化器进行模型训练并更新模型的权重;

7、将测试集中的样本数据按所需分割模式输入训练后的相应语义分割模型,获取各模式下语义分割模型的识别准确度;

8、采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割,并输出语义分割图像。

9、作为本实施例一种可能的实现方式,所述语义分割模型包括编码器、特征融合器、解码器和预测模块;所述编码器用于提取所输入手术过程中的现场图像数据的各级特征图,所述各级特征图包含图像的不同抽象级别信息;所述特征融合器用于不同级的特征图融合,可将低层次或短程的细节特征与高层次或长程的语义信息结合起来;所述解码器用于学习从特征图中恢复图像细节,对特征进行上采样,逐步恢复分辨率,同时保持语义信息;所述预测模块用于进行预测操作,生成每个像素对应的语义类别概率分布,产生最终的手术器械图像的语义分割图像;所述特征融合器包括同尺寸特征融合模块和视觉transformer空间金字塔池化模块,所述同尺寸特征融合模块用于对尺寸相同、通道数不同的特征图进行同尺寸特征融合;所述视觉transformer空间金字塔池化模块用于首先对输入应用不同尺度感受野下的自注意力机制获取不同尺度的语义信息并进行通道维度的串联,然后结合同尺寸特征融合模块对串联的语义信息进行特征融合,最终输出融合后的语义特征图。

10、作为本实施例一种可能的实现方式,所述对训练数据集中数据进行预处理包括:对训练数据集中数据进行调整图像尺寸、图像归一化和数据增强处理;所述数据增强处理至少包括随机裁剪、图像翻转、颜色抖动和图像旋转处理。

11、作为本实施例一种可能的实现方式,所述基于训练集采用二值分割、部件分割或器械类别分割模式根据训练损失采用adamw优化器进行模型训练更新模型的权重,包括:

12、基于训练集中标注了像素所属类别的图像数据,对于不同的所属类别标注类型,选择对应的二值分割、部件分割或器械类别分割训练模式;所述所属类别标注类型包括手术器械与生物组织、不同的器械部件和不同的器械种类;

13、通过有监督学习的方式对模型进行训练来更新模型的权重,使其逐渐优化分割性能;

14、待到训练收敛后,对于每种训练模式分别保存相应的模型权重。

15、作为本实施例一种可能的实现方式,所述采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割,并输出语义分割图像,包括:

16、在手术过程中持续地采集图像数据;

17、分别采用二值分割、部件分割和器械类别分割模式并装载相应模式下经过训练的模型权重;

18、将采集到的图像数据输入优化后的语义分割模型进行语义分割,生成各个分割模式的语义分割图像。

19、作为本实施例一种可能的实现方式,所述建立语义分割模型,基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用adamw优化器进行模型训练并更新模型的权重,包括:

20、获取待微调训练编码器的初始模型参数,去除待微调训练编码器中的全连接分类层,构成一个全卷积神经网络;所述待微调训练编码器的初始模型参数为在大规模数据集中预训练好的各层初始权重矩阵,

21、基于卷积神经网络、同尺寸特征融合模块和视觉transformer空间金字塔池化模块构建语义分割模型;

22、按手术现场需求选择二值分割、部件分割和器械类别分割模式中的其一;

23、将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练来更新模型参数,代入更新后模型参数得到优化后的语义分割模型。

24、作为本实施例一种可能的实现方式,所述将训练集中对应分割模式下的所有图像输入语义分割模型进行模型训练进行模型参数更新,代入更新后模型参数得到优化后的语义分割模型,包括:

25、在编码阶段,在编码器的各层上,装载所述初始权重矩阵,并依照各层的输出尺寸与通道数将所有卷积层划分为若干层级;对每个训练图像分别进行编码操作,得到每个训练图像在各层级的第一特征图;对于部分尺寸相同,通道数不同的第一特征图,将它们按照尺寸成组的输入至同尺寸特征融合模块进行特征融合,得到更新的第一特征图;

26、对每个训练图像的所有不同尺寸的第一特征图进行上采样或最大池化操作调整至原始训练图像尺寸的1/8,并进行通道维度的串联,然后输入至视觉transformer空间金字塔池化模块得到第二特征图;

27、根据使用的编码器划分出的卷积层层级数,设置数量相同的、输出尺寸依次成倍增加的级联轻量化子解码器,最后一级子解码器块的输出尺寸与原始训练图像尺寸相同;将尺寸最小、通道数最高的第一特征图像称为最高级第一特征图,而子解码器的命名反之;解码器由所有子解码器构成;

28、在解码阶段,最低级子解码器接收最高级第一特征图与第二特征图作为其输入,次低级解码器接收最低级子解码器的输出与第二特征图作为输入,以此类推;每一级子解码器还额外接收来自全部相对比它高级的第一特征图;

29、得到最高级子解码器的输出,预测模块据此对其进行分析,根据图像中每个像素所属的类别进行语义变换,得到语义分割结果;

30、使用加权的类别交叉熵损失和对数交并比损失的组合作为总损失函数,代入语义分割结果与相应的标注图像计算损失值,据此进行模型参数更新,直至收敛。

31、作为本实施例一种可能的实现方式,所述的图像语义分割方法还包括以下步骤:

32、使用评价指标评估模型在测试集上的性能,并根据评估结果对语义分割模型进行优化。

33、所述评价指标包括但不限于miou(平均交并比)和dice系数。

34、第二方面,本发明实施例提供的一种基于深度神经网络的图像语义分割装置,包括:

35、图像数据采集模块,用于采集手术过程中的现场图像数据,构建训练数据集;所述训练数据至少包含每个图像像素的所属类别标注;

36、图像数据预处理模块,用于对训练数据集中数据进行预处理,并将预处理后的训练数据集划分为训练集和测试集;

37、语义分割模型建立模块,用于建立语义分割模型,基于训练集采用二值分割、部件分割和器械类别分割模式分别根据训练损失采用adamw优化器进行模型训练并更新模型的权重;所述语义分割模型包括编码器、特征融合器、解码器和预测模块;

38、模型优化模块,用于将测试集中的样本数据按所需分割模式输入训练后的相应语义分割模型,获取各模式下语义分割模型的识别准确度;

39、语义分割模块,用于采用优化后的语义分割模型对手术过程中的实时采集的现场图像数据进行图像语义分割,并输出语义分割图像。

40、第三方面,本发明实施例提供的一种计算机设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

41、第四方面,本发明实施例提供的一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任意基于深度神经网络的图像语义分割方法的步骤。

42、本发明实施例的技术方案可以具有的有益效果如下:

43、本发明将二值分割、部件分割、器械类别分割三种手术器械语义分割任务进行整合,充分利用任务之间的相关性,使系统的流程统一,减少了手动干预与分别设计的需求,提高了自动化水平,降低了操作复杂性,同时保持了高分割精度。在实际的机器人辅助微创手术场景中,特别是在医疗外科手术领域发挥重要作用,为医生提供有力支持。

44、本发明提出了一种新的基于卷积神经网络(cnns)和视觉transformer空间金字塔池化模块(tspp)的手术机器人器械图像的语义分割模型,结合深度学习和神经网络技术,提高了手术机器人器械语义分割的准确性,更好地应用于机器人辅助微创手术(rmis)场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1