基于CBAUnet的双注意力快速舌轮廓提取方法及系统

文档序号:35542028发布日期:2023-09-23 18:58阅读:139来源:国知局
基于CBAUnet的双注意力快速舌轮廓提取方法及系统

本发明涉及轮廓提取,尤其涉及一种基于cbaunet的双注意力快速舌轮廓提取方法。


背景技术:

1、超声技术干净、安全且价格便宜,能够实现对舌部和口腔成像。从影像中精确提取舌部轮廓,有助于医生观察因病无法正常发声或者语言障碍患者的发声情况,也可以为一些机密场合提供语言发音参考,或是将舌特征作为生物信号输入无声语音接口。简言之,超声舌轮廓的提取为人与人之间语言的交流提供了有力保障。

2、研究表明,舌轮廓是定量研究语音的一个很好的起点,从舌头轮廓导出的信息可以支持发音模型得到更深入的理解和发展。因为超声可以动态描述属于不同语音的舌头位置,以及表征发音期间产生声音转换的舌头运动,所以和无声语音相关的各种应用几乎都涉及了超声舌轮廓的提取环节,提取超声舌轮廓成为了一个基础的必要性操作。超声舌轮廓的提取精确度关乎整个语音任务的精准性,提取的实时性关乎整个过程的效率。因此,探索出一个准确又快速的超声舌轮廓跟踪提取方法极为重要。

3、目前,舌轮廓的自动跟踪极具挑战。从超声舌成像过程来看,高度散斑噪声伴随整个过程;舌骨和颌骨有时会阻挡超声波;舌本身的肌肉纤维反射率差使得回声路径不完整,致使矢状轮廓不完整;舌的软组织结构在变换舌位时成像包含伪影,轮廓甚至完全不存在。从提取方法的角度来说,舌头轮廓拟合的精度在很大程度上取决于超声资料的质量和轮廓跟踪算法的类型。同时,由于提取方法的半自动或手动工作的性质,提取速度可能达不到高速。现有的研究成果中极少讨论速度,统一的行业规范还未形成,仅在文献3的研究中记录了29.8fps的舌头轮廓提取速度。

4、已经存在多种技术用于超声图像中的舌头轮廓跟踪,例如活动轮廓模型、基于图形的技术、基于机器学习的方法等。在这些研究中,手动标记至少对于初始化是必不可少的,因此edgetrak等著名软件包也无法实时跟踪舌头轮廓。深度学习方法的出现引起了研究者的极大关注。卷积神经网络被认为已经足够强大,可以用于像超声舌头轮廓跟踪这样的特征提取研究。深度置信网络和深度自动编码器表现出了较好的效果。在此之后,研究者们发现深度学习方法的准确性与训练数据集的大小和深度网络模型的复杂性高度相关。因此,在训练样本的数量和网络参数数量之间总是存在权衡。较高精度的提取结果依托于分割网络必须获取到足够的语义信息与丰富的细节信息。如果通过加深网络参数以及提高输入图像的分辨率去实现高精度分割,就会导致计算量的暴增和分割效率的降低。然而,即使在缺乏标记的训练数据时,cbaunet在分割医学图像方面也能取得了较好的分割结果,其程度已成为医学图像分割的实际标准。不过,其网络内部具有多层的深层架构,计算资源在训练和测试阶段的耗费还是非常大的,这对于超声舌轮廓实时跟踪来说是一个需要深思的问题。

5、尽量少的计算资源耗费使得近几年深度学习领域的研究重点转向注意力机制。注意力机制在人类感知中起着至关重要的作用。通过注意力模块,深层的卷积神经网络可以加速学习过程,为目标任务提取更多关键特征,增强网络模型的鲁棒性。kaul等提出了一种将注意力纳入全卷积神经网络的focusnet方法,该方法从由单独的卷积自动编码器生成的特征图中执行医学图像分割。例如一篇名为cbaunet跳过连接上添加注意门(attentiongate,ag)的方法的文献中,提出了以提高胰腺分割协议中的预测准确性和灵敏度。另一篇文献中,提出senet通过显式地建模通道之间的相互依赖性来自适应地重新校准通道特征响应。还有人提出的卷积块注意模块(convolutional block attention module,cbam)是轻量级的通用模块,几乎不使用任何计算资源,并且能够基于给定的中间变量执行自适应特征细化特征图。对于超声舌轮廓提取任务,舌轮廓线只占到整幅图像的极小区域,把注意力集中在该小部分目标区域上,不但可以加快训练速度,更可以增强在该区域中的对象表示,并突出特征细节,因此可以在网络中增加注意力机制,通过给特征增加权重,网络将减少对无关背景要素的关注度,加快对舌轮廓特征的学习速度。然而,对于超声舌轮廓提取任务,超声舌轮廓图可能具有模糊的边界以及不规则的形状,因此依靠单一的关注机制很难在舌轮廓分割任务中很好地执行。


技术实现思路

1、因此,本发明的目的在于提供一种基于cbaunet的双注意力快速舌轮廓提取方法,重新设计了cbaunet网络的内部结构和综合注意力学习模块,将综合注意力学习模块的输出,嵌入到重新设计的cbaunet网络;实现了舌轮廓的快速分割与提取。

2、为了实现上述目的,为了实现上述目的,本发明的一种基于cbaunet的双注意力快速舌轮廓提取方法,包括以下步骤:

3、s1、获取原始的舌部的超声图像数据集;

4、s2、将原始的超声图像数据集进行预处理;

5、s3、将预处理后的数据输入cbaunet网络中,将预处理后的超声图像进行编码后,利用综合注意力模块的ag门控注意力和cbam注意力的双注意力机制得到不同尺度信息的特征图;

6、s4、根据所述特征图将目标特征信息统计后再由解码器进行各阶段的解码,得到像素还原后的轮廓图。

7、进一步优选的,在s1中,所述超声图像数据集包括ns数据集、tju数据集和timit数据集。

8、进一步优选的,在s2中,所述超声图像数据集进行预处理的过程包括如下步骤:

9、将获取的数据集进行归一化处理,归一化后将图片大小统一调整为96像素×96像素;

10、利用transformer包对归一化后的图片进行随机旋转和随机翻转训练;

11、在训练过程中,根据随机概率调整色调、饱和度、亮度和对比度;

12、将调整后的图像进行标注,形成带标注的数据集。

13、进一步优选的,在s3中,将预处理后的超声图像进行编码后,利用综合注意力模块的ag门控注意力和cbam注意力的双注意力机制得到不同尺度信息的特征图,包括以下步骤:

14、将传统u-net网络中每一级的编码卷积块和解码卷积块中,减少一个卷积层,并在传统u-net网络中嵌入综合注意力模块,形成cbaunet网络;

15、在综合注意力模块中将ag门控注意力和cbam注意力并联,利用ag门控注意力从编码后的信息中,自适应学习专注于不同形状和大小的目标结构,通过隐式学习突出显示对特定任务有用的特征,抑制输入图像中不相关的区域;利用cbam注意力基于特征的空间关系和通道关系;分别生成空间注意力图和通道注意力图;

16、再将空间注意力图和通道注意力图发送至对应级别的解码卷积块进行解码。

17、进一步优选的,所述ag门控注意力的输出结果采用如下公式表示:

18、

19、

20、

21、其中,为对应s型激活函数;θatt为表征ag的参数,使用输入张量在通道方向上的1×1×1卷积计算线性变换得到;σ1对应于relu函数,均为线性变换矩阵,为偏置项;为门控向量用于每个像素以确定聚焦区域。

22、进一步优选的,所述cbam注意力基于特征的空间关系生成空间注意力图包括以下步骤:

23、使用平均池化和最大池化操作聚合特征图的空间信息,生成两个不同的空间上下文描述符:和和分别表示平均池化特征和最大池化特征。

24、将两个描述符转发到共享网络,生成通道注意力图。

25、进一步优选的,所述cbam注意力基于特征的通道关系生成通道注意力图包括以下步骤:

26、使用平均池化和最大池化操作来聚合特征图的通道信息,生成两个二维有效的通道特征描述符,和

27、通过标准卷积层将通道特征描述符连接并进行卷积,生成2d空间注意力图。

28、本发明还提供一种基于cbaunet的双注意力快速舌轮廓提取系统,包括:数据获取模块,数据预处理模块以及cbaunet网络;

29、所述数据获取模块用于获取原始的舌部的超声图像数据集;

30、所述数据预处理模块用于将原始的超声图像数据集进行预处理;

31、所述cbaunet网络包括编码块、解码块、综合注意力模块;所述编码块用于将预处理后的超声图像进行编码,形成编码信息;

32、所述综合注意力模块用于基于ag门控注意力和cbam注意力的双注意力机制得到不同尺度信息的特征图;

33、所述解码器用于根据所述特征图将目标特征信息统计后再由解码器进行各阶段的解码,得到像素还原后的轮廓图。

34、进一步,所述超声图像数据集包括ns数据集、tju数据集和timit数据集。

35、进一步,所述综合注意力模块中ag门控注意力和cbam注意力并联,利用ag门控注意力从编码后的信息中,自适应学习专注于不同形状和大小的目标结构,通过隐式学习突出显示对特定任务有用的特征,抑制输入图像中不相关的区域;利用cbam注意力基于特征的空间关系和通道关系;分别生成空间注意力图和通道注意力图;再将空间注意力图和通道注意力图发送至对应级别的解码卷积块进行解码。

36、本技术公开的基于cbaunet的双注意力快速舌轮廓提取方法及系统,相比于现有技术至少具有以下优点:

37、本发明采用的于cbaunet的双注意力快速舌轮廓提取,改变了原来unet网络的结构,并在源网络中添加了ag门控注意力和cbam注意力形成cbaunet;采用双注意力机制,实现了关键特征的快速定位,为了进一步的分割和提取带来便利,模块内部的连接和卷积操作在运算量上很微小,计算资源的消耗可以不计,两种注意力模块的协作加快了舌轮廓的分割速度,并提高了分割的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1