分类网络的训练方法、图像分类方法及相关设备与流程

文档序号：31870568发布日期：2022-10-21 19:03阅读：31来源：国知局

1.本技术涉及图像处理领域，特别是涉及一种分类网络的训练方法、图像分类方法、电子设备及计算机可读存储介质。

背景技术：

2.气管插管是指将一特制的气管内导管通过目标的口腔或鼻腔，经声门置入气管内，这一技术能够为气道(呼吸道)通畅、通气供氧、呼吸道吸引和防止误吸等提供最佳条件，是抢救呼吸功能障碍患者的重要措施。不同的人的气管粗细不一致，气管插管的难易程度不同，因此为了成功进行气管插管，需要根据对应的难易程度选择气管插管的方式。
3.现有技术中，完全依靠医护人员依靠自己的经验对目标进行鼻腔、牙、张口度、颈部活动度、咽喉部等检查来对气道进行分类，进而确定气管插管的难易程度。但是由于咽喉部以下至肺部的情况完全观测不到，因此这种方法存在很大的盲区，导致对气道分类的准确度不高。

技术实现要素：

4.本技术提供一种分类网络的训练方法、图像分类方法、电子设备及计算机可读存储介质，能够解决现有的人工对气道分类的准确度不高的问题。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种分类网络的训练方法。该方法包括：获取到训练集，训练集包括多个样本图像序列，每个样本图像序列包括多张样本图像，每张样本图像对应同一个活体的气道的不同位置，每张样本图像包括至少部分气道及其相关组织；利用分类网络提取样本图像序列的第一特征，利用分割网络对样本图像序列处理得到处理结果，分割网络是在训练集上训练得到的，且在对分割网络训练的过程中分割网络用于对样本图像序列对应的气道与气道相关组织进行语义分割；利用分类网络基于处理结果获取第一特征对应的注意力权重；利用分类网络对第一特征与注意力权重进行相乘处理，得到相乘特征；利用分类网络基于相乘特征对样本图像序列进行分类，得到第一分类结果，第一分类结果用于表示气道的类别；基于分类结果调整分类网络的参数。
6.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种图像分类方法，该方法包括：获取目标图像序列，目标图像序列包括多张目标图像，每张目标图像对应目标的气道的不同位置，每张样本图像包括至少部分目标的气道及其相关组织；将目标图像序列输入分类网络，得到目标图像序列的分类结果，目标图像序列的分类结果用于表示目标的气道的类别；其中，分类网络是利用前述方法训练得到的。
7.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。
8.为解决上述技术问题，本技术采用的又一个技术方案是：提供一种计算机可读存
储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。
9.通过上述方式，本技术对分类网络训练的过程中，分类网络没有直接基于第一特征进行分类，而是基于处理结果获取注意力权重，并将注意力权重与第一特征相乘得到相乘特征，再基于相乘特征进行分类。由于对第一特征与注意力权重进行相乘处理，能够使分类网络增加对第一特征中气道分类相关特征(气道与气道相关组织对应的部分)的注意力，减小对第一特征中气道分类不相关特征(其他部分)的注意力，因此得到的第一分类结果能够更加准确。故，本技术能够提高对分类网络的训练效果，从而在分类网络在应用过程对气道的分类准确度更高。
附图说明
10.图1是本技术分类网络的训练方法实施例一的流程示意图；
11.图2是本技术分类网络和分割网络的一结构示意图；
12.图3是本技术编码块的一结果示意图；
13.图4是本技术重校准层的实现原理示意图；
14.图5是本技术aff模块的实现原理示意图；
15.图6是本技术ms-cam的实现原理示意图；
16.图7是本技术分类网络的训练方法实施例二的流程示意图；
17.图8是图7中s21的具体流程示意图；
18.图9是本技术分类网络的训练方法实施例三的流程示意图；
19.图10是本技术图像分类方法实施例四的流程示意图；
20.图11是本技术电子设备一实施例的结构示意图；
21.图12是本技术计算机可读存储介质一实施例的结构示意图。
具体实施方式
22.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
23.本技术中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
24.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。
25.在介绍本技术提供的方法之前，先对分类网络及分割网络的训练模式进行说明。训练模式可以有多种，以下列举两种实现方式：
26.第一种，先在训练集(后面有涉及，此处不赘述)上对分割网络进行训练。在对分割
网络的训练达到预期之后，对经训练的分割网络和分类网络的联合模型进行训练。联合训练过程实质是对分类网络进行训练，分割网络起到辅助的作用。
27.第二种，考虑到气道相关的数据量较少，为了提高训练效果，在进行第一种训练方式之前，先在公共数据集上分别对分割网络和分类网络进行单独的训练，再在公共数据集上对分割网络和分类网络进行联合训练。此外，在经过上述训练之后，还利用验证集、测试集分别对经训练的联合模型进行验证、测试。其中，训练集、验证集和测试集是对原始数据集进行拆分得到的。例如拆分比例可以为6:2:2。
28.图1是本技术分类网络的训练方法实施例一的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：
29.s11：获取到训练集。
30.训练集包括多个样本图像序列，每个样本图像序列包括多张样本图像，每张样本图像对应同一个活体的气道的不同位置，每张样本图像包括至少部分气道及其相关组织。
31.气道相关组织可以为样本图像中气道相关的舌根、脂肪等组织。
32.样本图像序列带有气道类别标签，用于标识其中气道的真实类别。此外，样本图像序列还可以带有语义类别标签，用于标识其中各像素点的语义类别(例如气道、舌根、脂肪和其他)。
33.获取样本图像序列的方式包括但不限于ct扫描。在ct扫描获取方式下，所述样本图像序列是对活体的头部至肺部依次进行ct扫描得到的，且所述样本图像序列为ct图像序列。每张图像包括气道的截面和位于该截面上的气道相关组织。
34.s12：利用分类网络提取样本图像序列的第一特征，利用分割网络对样本图像序列处理得到处理结果。
35.分割网络是在训练集上训练得到的，且在对分割网络训练的过程中分割网络用于对样本图像序列对应的气道与气道相关组织进行语义分割。
36.所谓语义分割，即对样本图像进行像素级分类，以将所述样本图像序列中属于同一语义类别的像素点归为一类。例如，语义类别包括气道、舌根、脂肪和其他，则在对分割网络训练的过程中，分割网络对样本图像序列的分割结果为样本图像序列中各像素点分别属于气道、舌根、脂肪和其他的概率。
37.可以理解的是，由于在对分割网络训练的过程中分割网络用于对样本图像序列对应的气道与气道相关组织进行语义分割，所以训练好的分割网络对样本图像序列的处理结果涵盖了样本图像序列的像素点的语义类别信息，也即可以变相反映样本图像序列中哪些像素点对应气道部分，哪些像素点对应气道相关组织部分，哪些像素点对应其他部分。
38.可选地，处理结果为样本图像序列的第二特征。可以利用分割网络对样本图像序列进行特征提取，得到样本图像序列的第二特征。
39.可选地，处理结果为样本图像序列的第一分割结果。可以利用分割网络对样本图像序列进行气道与气道相关组织的第一语义分割，得到第一分割结果。
40.s13：利用分类网络基于处理结果获取第一特征对应的注意力权重。
41.可以利用分类网络获取与处理结果相适应的卷积核，可以利用分类网络基于卷积核对处理结果进行卷积，得到注意力权重。
42.s14：利用分类网络对第一特征与注意力权重进行相乘处理，得到相乘特征。
43.对第一特征与注意力权重进行相乘处理，能够使分类网络增加对第一特征中气道分类相关特征(气道与气道相关组织对应的部分)的注意力，减小对第一特征中气道分类不相关特征(其他部分)的注意力。从而后续应用相乘特征进行分类，能够得到更加准确的分类结果。
44.上述s13-s14的实现过程可以被称为上下文自适应卷积。下面结合图2对s13-s14的实现过程进行举例说明。如图2所示，在处理结果为第二特征，且第二特征为decoderblock(参考后面的描述，在此不赘述)的输出的情况下，可以利用分类网络获取处理结果(decoderblock的输出)相适应的卷积核(cac kernels)，利用分类网络基于cac kernels对处理结果进行卷积，得到注意力权重(weighting factors)，利用分类网络对处理结果和weighting factors进行相乘处理，得到相乘特征(out feature maps)。
45.具体而言，可以对第二特征分别进行两个卷积生成特征q(b，c，h，w)和特征k(b，s^2，h，w)；对q和k对应点相乘后求和，再经过批归一化(batch normalization)之后得到cac kernels，cac kernels分别以多个不同的膨胀系数(例如1，2，3)的空洞卷积与第二特征进行卷积操作，得到对应的多个不同的结果；最后对多个不同的结果进行相加，得到weighting factors；weighting factors与第一特征相乘得到相乘特征。
46.s15：利用分类网络基于相乘特征对样本图像序列进行分类，得到第一分类结果。
47.第一分类结果用于表示气道的类别。
48.第一分类结果可以为气道的类别概率。通过该气道的类别概率与阈值的关系即可确定气道的类别。
49.s16：基于第一分类结果调整分类网络的参数。
50.可以基于第一分类结果与气道类别标签之间的差异，获取分类网络的损失函数(例如bceloss)，基于损失函数调整分类网络的参数。
51.s17：重复上述过程直至满足预设条件。
52.预设条件可以为损失函数收敛、训练次数/时间达到阈值、训练效果达到预期等等。
53.通过本实施例的实施，本技术中对分类网络训练的过程中，分类网络没有直接基于第一特征进行分类，而是基于处理结果获取注意力权重，并将注意力权重与第一特征相乘得到相乘特征，再基于相乘特征进行分类。由于对第一特征与注意力权重进行相乘处理，能够使分类网络增加对第一特征中气道分类相关特征(气道与气道相关组织对应的部分)的注意力，减小对第一特征中气道分类不相关特征(其他部分)的注意力，因此第一分类结果能够更加准确。故，本技术能够提高对分类网络的训练效果，从而在分类网络在应用过程对气道的分类准确度更高。
54.下面对分类网络的训练阶段，分类网络和分割网络的结构进行说明。
55.若上述处理结果为第二特征，分割网络可以包括至少一个编码块和至少一个解码块。可以依次利用至少一个编码块、至少一个解码块和语义分割块对样本图像序列进行处理，得到第二特征。
56.若上述处理结果为第一分割结果，分割网络还可以包括语义分割块。分割网络可以依次利用至少一个编码块、至少一个解码块对样本图像序列进行处理，得到用于语义分割的特征；利用语义分割块对用于语义分割的特征进行气道与气道相关组织的语义分割，
得到第一分割结果。
57.此外，为了进一步提高分割网络的效果，使其更好地辅助分类网络的训练，分割网络还可以包括aff模块。aff模块用于对当前解码块的输出和对应编码块的输出进行加权处理，并对加权处理的结果和当前解码块的输出进行拼接得到拼接结果，拼接结果作为当前解码块的下一个块的输入。
58.分类网络可以包括至少一个编码块、注意力块和分类块。分类网络的编码块和分割网络的编码块的结构相同。分类网络可以利用至少一个编码块提取样本图像序列的第一特征，利用注意力模块基于处理结果对第一特征进行调整，以改变对第一特征的注意力，利用分类块对经调整的第一特征分类，得到第一分类结果。
59.在利用上述分割网络辅助上述分类网络的训练架构中，分割网络的第一处理结果为第一个解码块的输出(第二特征)或者语义分割块的输出(第一分割结果)，即可以利用分割网络的第一个解码块的输出或者语义分割块的输出来辅助分类网络的训练。
60.结合图2举例说明，图2是分类网络和分割网络的一结构示意图。
61.如图2所示，分割网络包括依次连接的4个编码块(encoderblock1～4)、4个解码块(decoderblock1～4)和语义分割块(segmentation)，以及aff模块1～4。aff模块1的输入端与encoderblock4、decoderblock1连接，输出端与decoderblock2连接。aff模块2的输入端与encoderblock3、decoderblock2连接，输出端与decoderblock3连接。aff模块3的输入端与encoderblock2、decoderblock3连接，输出端与decoderblock4连接。aff模块4的输入端与encoderblock1、decoderblock4连接，输出端与segmentation连接。分类网络包括依次连接的4个编码块(encoderblock1～4)、注意力块(attention)和分类块(classification)。其中分割网络中decoderblock1与attention连接。
62.从而，分类网络可以通过encoderblock1～4得到第一特征，分割网络可以通过encoderblock1～4、decoderblock1得到第二特征，分类网络的attention对第一特征和第二特征进行处理后送入classification进行分类，得到气道的类别。
63.下面对编码块和aff模块进行说明：
64.每个编码块encoderblock可以包括至少一个编码子块、扰动层、重校准层和下采样层，每个编码子块包括级联的三维卷积层、实例归一化层和激活层。结合图3举例说明，每个编码块包括两个编码子块、扰动层(disout)、重校准层(feature realibration)和下采样(maxpooling，图未示)，一个编码子块包括三维卷积层(3d conv)、实例归一化层(instancenorml3d)和激活层(prelu)。其中，两个3d conv的卷积核的通道数据随着特征提取阶段(n)逐步增加。
65.解码块decoderblock与encoderblock的结构相似，与encoderblock的不同之处在于其包括的是上采样层而非下采样层，其卷积核的通道数与encoderblock的卷积和通道数对应相等。
66.扰动层用于对特征进行扰动，以增强模型的泛化性。重校准层用于信息筛选。结合图4对重校准层的实现进行说明。对于扰动层得到的特征am，通过z(.)分别沿着深度、高度、宽度三个维度集成空间映射
67.[0068][0069][0070][0071]
其次，在空间映射上进行通道重组以获得通道描述算子um：
[0072][0073]
最后，通道描述算子与扰动层得到的特征am相乘得到重校准层的结果：
[0074][0075]
其中b为广播机制，hj，wk，di分别为可学习参数，f1，f2为激活函数，k1，k2为1*1*1的3d卷积层，
⊙
为逐点相乘操作。
[0076]
结合图5-6以aff模块1对encoderblock4的输出x、decoderblock1的输出y进行加权处理为例对aff模块进行说明。
[0077]
如图5所示，aff模块2先将x和y逐点相加后输入ms-cam块进行处理。如图6所示，ms-cam包含两个部分，分别为局部注意力部分和全局注意力部分。在局部注意力部分，依次对x和y的相加结果进行逐点卷积(point-wise conv)降维、非线性转换(relu)、逐点卷积(point-wise conv)升维处理，以压制x和y的相加结果中与分类不相关的信息，强化与分类相关的信息。在全局注意力部分，与局部注意力部分不同的是，在进行逐点卷积(point-wise conv)降维之前，对x和y的相加结果进行了全局平均池化(globalavgpooling)。ms-cam块将局部注意力部分的结果和全局注意力部分的结果相加、sigmoid后得到结果，即权重ms_cam(x+y)。aff模块2基于ms_cam(x+y)对x和y进行加权，得到加权结果z：
[0078][0079]
分类块classification由一个卷积核为1*1*1的3dconv层和sigmoid层组成。
[0080]
语义分割块segmentation由一个卷积核为1*1*1的3dconv层和softmax层组成。
[0081]
图7是本技术分类网络的训练方法实施例二的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。如图7所示，在上述结构的基础上，若上述处理结果为第一分割结果，则上述s12中的利用分割网络对样本图像序列处理得到处理结果，可以包括以下子步骤：
[0082]
s21：依次利用至少一个编码块、至少一个解码块对样本图像序列进行处理，得到用于语义分割的特征。
[0083]
为简化描述，以分割网络包括第一编码块和第二编码块、第一解码块和第二解码块、第一aff模块和第二aff模块的情况进行说明。在此情况下，结合参阅图8，s21可以包括
以下子步骤：
[0084]
s211：利用第一编码块对所述样本图像序列进行编码，得到第一编码结果。
[0085]
s212：利用第二编码块对第一编码结果进行编码，得到第二编码结果。
[0086]
s213：利用第一解码块对第二编码结果进行解码，得到第一解码结果。
[0087]
s214：利用第一aff模块对第一解码结果和第二编码结果进行加权，得到第一加权结果。
[0088]
s215：利用第二解码块对第一加权结果与第一解码结果的拼接结果进行解码，得到第二解码结果。
[0089]
s216：利用第二aff模块对第二解码结果和第一编码结果进行加权，得到第二加权结果。
[0090]
第二加权结果与第二解码结果的拼接结果为用于语义分割的特征。
[0091]
s22：利用语义分割块对用于语义分割的特征进行气道与气道相关组织的语义分割，得到第一分割结果。
[0092]
本实施例其他详细描述，请参见前面的实施例，在此不赘述。
[0093]
下面在上述结构的基础上，介绍在上述s12中利用分割网络对样本图像序列处理得到处理结果之前，在训练集上对分割网络的训练过程。对分割网络单独训练的阶段，分割网络包括语义分割块。
[0094]
图9是本技术分类网络的训练方法实施例三的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图9所示的流程顺序为限。如图9所示，在训练集上对分割网络的训练可以包括以下子步骤：
[0095]
s31：利用分割网络对样本图像序列进行气道与气道相关组织的语义分割，得到第二分割结果。
[0096]
s32：基于第二分割结果调整分割网络的参数。
[0097]
上述训练方法训练好的分类网络可以投入实际应用。
[0098]
图10是本技术图像分类方法实施例四的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图10所示的流程顺序为限。
[0099]
如图10所示，本实施例可以包括：
[0100]
s41：获取目标图像序列。
[0101]
目标图像序列包括多张目标图像，每张目标图像对应目标的气道的不同位置，每张目标图像包括至少部分目标的气道及其相关组织。
[0102]
s42：将目标图像序列输入分类网络，得到目标图像序列的分类结果。
[0103]
目标图像序列的分类结果用于表示目标的气道的类别。
[0104]
其中，分类网络可以是基于前述的训练方法训练得到的。
[0105]
本实施例的详细描述请参考前面的实施例，在此不赘述。
[0106]
通过本实施例的实施，本技术能够通过分类网络基于目标的气道相关的图像序列对目标的气道分类，以确定目标的气道的类别。
[0107]
图11是本技术电子设备一实施例的结构示意图。如图11所示，该电子设备可以包括处理器51、与处理器51耦接的存储器52。
[0108]
其中，存储器52存储有用于实现上述任一实施例的方法的程序指令；处理器51用
于执行存储器52存储的程序指令以实现上述方法实施例的步骤。其中，处理器51还可以称为cpu(central processing unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
[0109]
图12是本技术计算机可读存储介质一实施例的结构示意图。如图12所示，本技术实施例的计算机可读存储介质60存储有程序指令61，该程序指令61被执行时实现本技术上述实施例提供的方法。其中，该程序指令61可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质60中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质60包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。
[0110]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0111]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔婵婕任宇鹏汪婷黄积晟李乾坤殷俊
技术所有人：浙江大华技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。