基于类别加权网络的眼底照片分类方法与装置

文档序号：32406897发布日期：2022-12-02 20:40阅读：来源：国知局

技术特征：
1.一种基于类别加权网络的眼底照片分类方法，其特征在于，所述方法包括下述步骤：读取多个眼底照片数据及其标签；将所述眼底照片数据及其标签输入类别加权网络，训练并构建类别加权网络模型，包括：对所述眼底照片数据进行初步特征提取，得到初步提取特征图；对所述初步提取特征图分别以通道维度、像素维度、类别维度进行特征提取，分别得到通道特征图，像素特征图和类别特征图；将所述通道特征图，所述像素特征图和所述类别特征图进行融合，得到目标特征图；将所述目标特征图转化为与所述眼底照片标签对应的类型识别结果；读取待识别的眼底照片数据；将所述待识别的眼底照片数据输入所述类别加权网络模型，将所述类别加权网络模型输出概率最大的类别作为所述眼底照片的类别结果。2.根据权利要求1所述的方法，其特征在于，所述对所述眼底照片数据进行初步特征提取，得到初步提取特征图，包括：使用改造的预训练网络对所述眼底照片进行初步的特征提取，得到所述初步提取特征图；其中，所述改造的预训练网络不包括预训练网络最后的全连接层。3.根据权利要求2所述的方法，其特征在于，所述对所述初步提取特征图以通道维度进行特征提取，得到通道特征图，包括：使用像素维度的全局平均池化，以得到忽略像素维度的特征，经过conv_block得到通道权重分布，其中，conv_block的结构的具体关系式如下：其中，cb表示conv_block层，x表示输入conv_block层的特征图，conv表示1*1的卷积层，作为过渡层，其输出通道数与输入数据x的通道数相同，bn表示batch normalization， relu和sigmoid分别表示relu激活函数和sigmoid激活函数，他们为网络引入非线性因素；采用通道特征提取器对初步特征图以通道维度进行特征提取，得到通道特征图，其中，所述通道特征提取器的结构的具体关系式如下：其中，f
c
表示通道特征图；f
b
表示初步提取特征图；gap
p
表示在像素维度做全局平均池化；cb表示conv_block层；表示矩阵点乘，经过cb层后得到的通道权重分布与初步提取特征图f
b
相点乘。4.根据权利要求3所述的方法，其特征在于，所述对所述初步提取特征图以像素维度进行特征提取，得到像素特征图，包括：使用通道维度的全局平均池化，以得到忽略通道维度的特征，经过conv_block得到像素权重分布；采用像素特征提取器对初步特征图以像素维度进行特征提取，得到像素特征图，其中，所述像素特征提取器的结构的具体关系式如下：
其中，f
p
表示像素特征图；gap
c
表示通道维度的全局平均池化；f
b
表示初步提取特征图；cb表示conv_block层；表示矩阵点乘，经过cb层后得到的通道权重分布与初步提取特征图f
b
相点乘。5.根据权利要求4所述的方法，其特征在于，所述对所述初步提取特征图以类别维度进行特征提取，得到类别特征图，包括：采用1*1的卷积层，将初步提取特征图f
b
的通道扩充为k层，得到f
k
，k的具体关系式如下：其中，n表示图片的类型数，k
i
表示第i类分配的通道数，k为所有类型的通道总数；对具有k个通道的特征图f
k
按类型通道池化，以得到忽略通道维度特征的特征图f
k
，所述忽略通道维度特征的特征图f
n
共有n层通道，每层通道指示一个类型的特征，具体关系式如下：其中，f
b
表示初步提取特征图，conv
k
表示k个1*1的卷积层，gmp
k
表示对每层通道执行一次最大池化；对f
n
在像素维度做全局平均池化，以得到忽略像素维度的特征图，经过conv_block得到类型权重分布，再与f
n
点乘，以得到初步的类型特征图；具体关系式如下：对执行通道维度的全局平均池化和conv_block得到最终的类型权重分布，具体关系式如下：其中，f
t
为类型特征图，gap
c
表示在通道维度做全局平均池化，cb表示conv_block层，表示矩阵点乘，经过cb层后得到的通道权重分布与初步提取特征图f
b
相点乘。6.根据权利要求5所述方法，其特征在于，所述类型权重采用计算类型梯度范数的方式得到，具体关系式如下：其中，g
i
表示第i类的类型梯度范数，n
i
表示第i类的样本数，l
t
表示样本t经过模型后产生的cross entropy loss，out
t
表示i类的样本t经过模型计算后的直接输出；令p=softmax(out)，y表示样本的one-hot向量表示，对类型梯度范数的计算进行简化，具体关系式如下：根据不同类型梯度范数g
i
的大小比例，以得到所述类型权重的大小比例。
7.根据权利要求6所述的方法，其特征在于，所述将所述通道特征图，所述像素特征图和所述类别特征图进行融合，得到目标特征图，并将所述目标特征图转化为与所述眼底照片标签对应的类型识别结果，包括：将所述目标特征图经过全局平均池化层和全连接层得到最终的输出；具体关系式如下：其中，out为模型最终的输出值，为一个batch*n维的向量，向量元素的值代表了对应位置模型识别类型的可能性，选取最大值的位置下标，作为模型最终的类型识别结果；表示对不同矩阵间对应位置的元素求平均值，fc
h
和fc
n
表示全连接层，fc
h
的输出通道数为输入通道数的一半，fc
n
的输出通道数为分类数n。8.根据权利要求1所述方法，其特征在于，所述读取多个眼底照片数据及其标签之前，还包括：对所述眼底照片进行随机上下翻转、随机左右翻转和随机旋转处理中至少一者的增强处理，以得到增强后的眼底照片。9.根据权利要求1所述方法，其特征在于，所述将所述眼底照片数据及其标签输入类别加权网络，训练并构建类别加权网络模型之后，还包括：对所述眼底照片的类型识别结果与其真实标签进行比较计算交叉熵损失，并反向传播更新所述模型参数；所述交叉熵损失的具体关系式如下：其中，x[class]代表输入数据x实际所属类别，x[j]代表模型对于输入数据x所属类别j的识别结果。10.一种基于类别加权网络的眼底照片分类装置，其特征在于，包括：第一读取单元、第二读取单元、模型形成单元、类别输出单元；其中，所述第一读取单元，用于读取多个眼底照片数据及其标签；所述模型形成单元，用于将所述眼底照片数据及其标签输入类别加权网络，训练并构建类别加权网络模型；其中，所述模型形成单元还包括：基本特征提取器、通道特征提取器、像素特征提取器、类别特征提取器以及特征转化器；所述基本特征提取器，用于对所述眼底照片数据进行初步特征提取，得到初步提取特征图；所述通道特征提取器，用于对所述初步提取特征图以通道维度进行特征提取，得到通道特征图；所述像素特征提取器，用于对所述初步提取特征图以像素维度进行特征提取，得到像素特征图；所述类别特征提取器，用于对所述初步提取特征图以类别维度进行特征提取，得到类别特征图；
所述特征转化器，用于将所述通道特征图，所述像素特征图和所述类别特征图进行融合，得到目标特征图，并将所述目标特征图转化为与所述眼底照片标签对应的类型识别结果；所述第二读取单元，还用于读取待识别的眼底照片数据；所述类别输出单元，用于将所述待识别的眼底照片数据输入所述类别加权网络模型，将所述模型输出概率最大的类别作为所述眼底照片的类别结果。

技术总结
本发明提供一种基于类别加权网络的眼底照片分类方法与装置，属于图片分类及眼科医学技术领域。其中，本发明的分类方法包括：读取多个眼底照片数据及其标签；将眼底照片数据及其标签输入类别加权网络，训练并构建类别加权网络模型；读取待识别的眼底照片数据；将待识别的眼底照片数据输入类别加权网络模型，将模型输出概率最大的类别作为眼底照片的类型结果。本发明的类别加权网络模型通过对不同类别数据给予不同的类别权重，实现了不同难易数据间的平衡，以及，还通过计算类型梯度范数来对类别权重提供参考，避免了在所述模型训练阶段，研究人员反复实验来手动调整权重的大量时间、精力上的消耗。精力上的消耗。精力上的消耗。

技术研发人员：沈婷韩志科洪朝阳郑青青杨斌肖涵瑜
受保护的技术使用者：浙大城市学院
技术研发日：2022.11.07
技术公布日：2022/12/1

完整全部详细技术资料下载

当前第2页1 2