眼底图像的类别识别方法和装置与流程

文档序号:18889345发布日期:2019-10-15 21:29阅读:448来源:国知局
眼底图像的类别识别方法和装置与流程

本申请涉及计算机技术领域,特别是涉及一种眼底图像的类别识别方法、装置、计算机可读存储介质及计算机设备。



背景技术:

众所周知,通过识别图像承载的信息所反映的特征,可以对图像进行分类,即在若干个预定分类类别中,确定图像所属的分类类别。以眼底图像为例,其可以用于反映糖尿病视网膜病变的病情,据此,对于任一眼底图像,可以在正常、温和非增值性病变、中度非增值性病变、重度非增值性病变、以及增值性病变这五个预定分类类别中,确定该眼底图像所属的分类类别。

传统方式中,主要是由人工对图像进行判读,进而确定图像所属的分类类别。例如,医生通过其肉眼观察眼底图像,并根据经验确定该眼底图像属于正常、温和非增值性病变(mildnpdr)、中度非增值性病变(moderatenpdr)、重度非增值性病变(severenpdr)、以及增值性病变(pdr)中的哪一类。然而,人工判读的方式,其识别效率及准确性均较为低下。



技术实现要素:

基于此,有必要针对传统方式中识别效率及准确率低下的技术问题,提供一种眼底图像的类别识别方法、装置、计算机可读存储介质及计算机设备。

一种眼底图像的类别识别方法,包括:

获取眼底图像;

对所述眼底图像进行预处理,获得预处理图像;

通过预定机器学习模型中的第一子模型对所述眼底图像进行特征提取,获得所述眼底图像对应的第一图像特征,并通过所述预定机器学习模型中的第二子模型对所述预处理图像进行特征提取,获得所述预处理图像对应的第二图像特征;

根据所述第一图像特征和所述第二图像特征,确定所述眼底图像分别属于预定分类类别的第一概率,所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变;

根据所述眼底图像分别属于各所述预定分类类别的第一概率,确定所述眼底图像所属的预定分类类别。

一种眼底图像的类别识别装置,包括:

待识别图像获取模块,用于获取眼底图像;

预处理图像获取模块,用于对所述眼底图像进行预处理,获得预处理图像;

图像特征获取模块,用于通过预定机器学习模型中的第一子模型对所述眼底图像进行特征提取,获得所述眼底图像对应的第一图像特征,并通过所述预定机器学习模型中的第二子模型对所述预处理图像进行特征提取,获得所述眼底图像对应的第二图像特征;

预测概率确定模块,用于根据所述第一图像特征和所述第二图像特征,确定所述眼底图像分别属于预定分类类别的第一概率,所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变;

根据所述眼底图像分别属于各所述预定分类类别的第一概率,确定所述眼底图像所属的预定分类类别。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:

获取眼底图像;

对所述眼底图像进行预处理,获得预处理图像;

通过预定机器学习模型中的第一子模型对所述眼底图像进行特征提取,获得所述眼底图像对应的第一图像特征,并通过所述预定机器学习模型中的第二子模型对所述预处理图像进行特征提取,获得所述预处理图像对应的第二图像特征;

根据所述第一图像特征和所述第二图像特征,确定所述眼底图像分别属于预定分类类别的第一概率,所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变;

根据所述眼底图像分别属于各所述预定分类类别的第一概率,确定所述眼底图像所属的预定分类类别。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

获取眼底图像;

对所述眼底图像进行预处理,获得预处理图像;

通过预定机器学习模型中的第一子模型对所述眼底图像进行特征提取,获得所述眼底图像对应的第一图像特征,并通过所述预定机器学习模型中的第二子模型对所述预处理图像进行特征提取,获得所述预处理图像对应的第二图像特征;

根据所述第一图像特征和所述第二图像特征,确定所述眼底图像分别属于预定分类类别的第一概率,所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变;

根据所述眼底图像分别属于各所述预定分类类别的第一概率,确定所述眼底图像所属的预定分类类别。

上述图像识别方法、装置、存储介质及计算机设备,获得待识别图像后,对待识别图像进行预处理,再通过预定机器学习模型中的第一子模型和第二子模型,分别获得待识别图像对应的第一图像特征、以及经过预处理后的待识别图像对应的第二图像特征,进而根据第一图像特征和第二图像特征,共同确定待识别图像属于预定分类类别的概率。一方面,通过机器学习模型自动地对待识别图像进行分类,相较于人为判读的方式更加准确;另一方面,经过预处理后的待识别图像能够突显图像中的细节,结合第一图像特征和第二图像特征,既利用了原始的待识别图像中的基础信息,又利用了经过预处理后的待识别图像所突显的细节信息,可见,充分地挖掘了待识别图像中的信息,进一步提高了识别的准确性。

一种机器学习模型的训练方法,包括:

获取属于预定分类类别的眼底图像样本;所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变中的一种;

对所述眼底图像样本进行数据增强处理,获得第一训练图像;

对所述眼底图像样本进行预处理,并对经过所述预处理后的所述第一眼底图像样本进行所述数据增强处理,获得第二训练图像;

根据所述第一训练图像进行模型训练,获得所述机器学习模型中的第一特征检测子模型,所述第一特征检测子模型与所述机器学习模型中的第一全连接层连接;

根据所述第二训练图像进行模型训练,获得所述机器学习模型中的第二特征检测子模型,所述第二特征检测子模型与所述机器学习模型中的第二全连接层连接,且所述第一全连接层和所述第二全连接层均与所述机器学习模型中的输出层连接;

根据所述第一训练图像、所述第二训练图像、所述第一特征检测子模型、以及所述第二特征检测子模型共同进行模型训练,确定所述第一全连接层、所述第二全连接层以及所述输出层,得到用于识别眼底图像的类别的机器学习模型。

一种机器学习模型的训练装置,包括:

眼底图像样本获取模块,用于获取属于预定分类类别的眼底图像样本;所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变中的一种;

图片样板处理模块,用于对所述眼底图像样本进行数据增强处理,获得第一训练图像;对所述眼底图像样本进行预处理,并对经过所述预处理后的所述第一眼底图像样本进行所述数据增强处理,获得第二训练图像;

特征检测子模型训练模块,用于根据所述第一训练图像进行模型训练,获得所述机器学习模型中的第一特征检测子模型,所述第一特征检测子模型与所述机器学习模型中的第一全连接层连接;根据所述第二训练图像进行模型训练,获得所述机器学习模型中的第二特征检测子模型,所述第二特征检测子模型与所述机器学习模型中的第二全连接层连接,且所述第一全连接层和所述第二全连接层均与所述机器学习模型中的输出层连接;

模型集成训练模块,用于根据所述第一训练图像、所述第二训练图像、所述第一特征检测子模型、以及所述第二特征检测子模型共同进行模型训练,确定所述第一全连接层、所述第二全连接层以及所述输出层,得到用于识别眼底图像的类别的机器学习模型。

一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:

获取属于预定分类类别的眼底图像样本;所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变中的一种;

对所述眼底图像样本进行数据增强处理,获得第一训练图像;

对所述眼底图像样本进行预处理,并对经过所述预处理后的所述第一眼底图像样本进行所述数据增强处理,获得第二训练图像;

根据所述第一训练图像进行模型训练,获得所述机器学习模型中的第一特征检测子模型,所述第一特征检测子模型与所述机器学习模型中的第一全连接层连接;

根据所述第二训练图像进行模型训练,获得所述机器学习模型中的第二特征检测子模型,所述第二特征检测子模型与所述机器学习模型中的第二全连接层连接,且所述第一全连接层和所述第二全连接层均与所述机器学习模型中的输出层连接;

根据所述第一训练图像、所述第二训练图像、所述第一特征检测子模型、以及所述第二特征检测子模型共同进行模型训练,确定所述第一全连接层、所述第二全连接层以及所述输出层,得到用于识别眼底图像的类别的机器学习模型。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

获取属于预定分类类别的眼底图像样本;所述预定分类类别包括正常、温和非增值性病变、中度非增值性病变、重度非增值性病变和增值性病变中的一种;

对所述眼底图像样本进行数据增强处理,获得第一训练图像;

对所述眼底图像样本进行预处理,并对经过所述预处理后的所述第一眼底图像样本进行所述数据增强处理,获得第二训练图像;

根据所述第一训练图像进行模型训练,获得所述机器学习模型中的第一特征检测子模型,所述第一特征检测子模型与所述机器学习模型中的第一全连接层连接;

根据所述第二训练图像进行模型训练,获得所述机器学习模型中的第二特征检测子模型,所述第二特征检测子模型与所述机器学习模型中的第二全连接层连接,且所述第一全连接层和所述第二全连接层均与所述机器学习模型中的输出层连接;

根据所述第一训练图像、所述第二训练图像、所述第一特征检测子模型、以及所述第二特征检测子模型共同进行模型训练,确定所述第一全连接层、所述第二全连接层以及所述输出层,得到用于识别眼底图像的类别的机器学习模型。

附图说明

图1为一个实施例中图像识别方法的应用环境图;

图2为一个实施例中图像识别方法的流程示意图;

图3为一个实施例中预定机器学习模型的结构示意图;

图4为一个实施例中预定机器学习模型的结构示意图;

图5为一个实施例中预定机器学习模型的结构示意图;

图6为一个实施例中预定机器学习模型的结构示意图;

图7为一个实施例中确定预定机器学习模型的步骤的流程示意图;

图8为一个实施例中确定预定机器学习模型的步骤的流程示意图;

图9为一个实施例中图像识别方法的流程示意图;

图10为一个实施例中图像识别装置的结构示意图;

图11为一个实施例中计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明的是,本申请所使用的术语“第一”、“第二”等是用于对类似的对象作出命名上的区分,但这些对象本身不受这些术语限制。应当理解,在不脱离本申请的范围的情况下,这些术语在适当的情况下可以互换。例如,可将“第一全连接层”描述为“第二全连接层”,且类似地,将“第二全连接层”描述为“第一全连接层”。

可以理解,术语“包括”、“包含”、“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已清楚地列出的步骤或单元,而是还可以包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“和/或”包括一个或多个相关的所列项目的任意的及所有的组合。

本申请各实施例提供的图像识别方法,可以应用于如图1所示的应用环境中。该应用环境涉及终端110和服务器120,终端110和服务器120通过网络连接。具体地,终端110可以获取待识别图像,并将该待识别图像传递至服务器120。服务器120获得该待识别图像后,对该待识别图像进行预处理,再将该待识别图像和经过预处理后的待识别图像一并输入预定机器学习模型,继而,通过该预定机器学习模型输出该待识别图像属于预定分类类别的概率。

可以理解,在其他实施例中,终端110获取待识别图像后,也可以直接由终端110对待识别图像进行预处理,再将该待识别图像和经过预处理后的待识别图像一并输入预定机器学习模型,继而,通过该预定机器学习模型输出该待识别图像属于预定分类类别的概率。此外,预定机器学习模型可以由服务器120训练获得,也可以由终端110训练获得。

其中,终端110可以是台式终端或移动终端,移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理、穿戴式设备、医学影像设备等中的至少一种。服务器120可以用独立的物理服务器,或者多个物理服务器构成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种图像识别方法。以该方法应用于计算机设备(如上述图1中的终端110或服务器120)为例进行说明。该方法可以包括如下步骤s202至s208。

s202,获取待识别图像。

其中,待识别图像是待进行图像识别的图像。图像识别是将图像划归为若干个候选的分类类别中的某一个或多个分类类别,即确定图像所属的分类类别。在实际应用中,候选的分类类别可以根据实际应用需求事先设定。并且,待识别图像是未经处理的原始图像。可以理解,待识别图像可以涉及各种类型的图像,例如人物图像、动物图像、以及风景图像等。

具体地,计算机设备可以获取其他计算机设备传递的图像,将该图像作为待识别图像,例如上述图1中的服务器120获取终端110传递的图像,将该图像作为待识别图像。计算机设备也可以获取在本机上生成的图像,将该图像作为待识别图像。计算机设备还可从网络上爬取图像,将该图像作为待识别图像。

在一个实施例中,待识别图像可以包括医学图像。其中,医学图像是指为进行医疗或医疗研究,对生物体或生物体某部分,以非侵入式方式取得的内部组织图像。具体地,医学图像可以包括眼底图像,眼底是能够直接在活体上观察到血管的部位,可以通过眼底拍摄装置(如眼底照相机)获得眼底图像,眼底图像可以用于反映糖尿病视网膜病变、高血压、青光眼、以及动脉硬化等疾病的病情。医学图像也可以包括肺部病灶区域图像,例如对肺部病灶区域进行电子计算机断层扫描(computedtomography,ct)得到的ct图像,或者通过磁共振(magneticresonance,mr)成像得到的mr图像,肺部病灶区域图像可以用于反映肺癌等疾病的病情。

在一个实施例中,待识别图像可以是具有视觉形态的图像文件,例如jpeg格式的图像文件。待识别图像也可以是不具有视觉形态的图像数据,例如用数值表示的各像素(pixel)的像素值的集合。

s204,对待识别图像进行预处理,获得预处理图像。

其中,预处理图像是经过预处理后的待识别图像,即对待识别图像进行预处理后获得的图像。对图像进行预处理,其目的是突出图像中的目标细节对象。基于此,相较于原始的待识别图像,经过预处理后的待识别图像能够更加突出地显示图像中的目标细节对象。

可以理解,目标细节对象可以基于实际应用需求进行确定,相应地,在对待识别图像进行预处理时,具体的预处理方式可以根据该待识别图像中需要突显的目标细节对象进行确定。以眼底图像为例,为了提高判断相应疾病病情的准确性,可以将眼底图像中的血管部分和微动脉瘤部分作为目标细节对象,即对眼底图像进行预处理,从而突显眼底图像中的血管和微动脉瘤。

s206,通过预定机器学习模型中的第一子模型获得待识别图像对应的第一图像特征,并通过预定机器学习模型中的第二子模型获得预处理图像对应的第二图像特征。

其中,机器学习英文全称为machinelearning,简称ml。机器学习模型可通过样本进行学习,从而具备特定的能力。在本实施例中,预定机器学习模型是事先训练得到的具备图像分类能力的模型。

进一步细分,机器学习可以包括深度学习(英文全称为deeplearning,简称dl)。在本实施例中,可以采用深度学习的方式,从而省略人工定义模型的输入特征的步骤,在此情况下,打破了传统机器学习中需要人为参与的局限,并且充分地挖掘了模型的输入图像(待识别图像和预处理图像)中的信息,提升了图像分类的准确性及稳定性。此外,采用深度学习时,还可以通过增加样本数量,进一步提升模型的输出结果的准确性。

需要说明的是,机器学习模型可采用神经网络模型,例如卷积神经网络(convolutionneuralnetwork,cnn)模型。相应地,进行深度学习时,机器学习模型可以是深度学习模型。

在一个实施例中,计算机设备可事先设置机器学习模型的模型结构,得到初始机器学习模型,再通过属于各预定分类类别的图像样本,训练得到机器学习模型的模型参数。据此,在需要对待识别图像进行图像识别时,计算机设备可以获取事先训练得到的模型参数,再将该模型参数导入初始机器学习模型,得到预定机器学习模型。

在本实施例中,预定机器学习模型包括第一子模型和第二子模型。第一子模型可以用于获得与待识别图像对应的第一图像特征,第二子模型可以用于获得与预处理图像对应的第二图像特征。由此可见,在预定机器学习模型内部,可以由两个彼此独立的子模型分别获得第一图像特征和第二图像特征。

此外,在其他实施例中,预定机器学习模型包括的子模型可以多于两个,例如,除第一子模型和第二子模型之外,预定机器学习模型还可以包括第三子模型和第四子模型等。其中,不同的子模型可以用于获得与不同版本的待识别图像对应的图像特征。不同版本的待识别图像可以包括:原始版本待识别图像(未经任何处理的待识别图像)和预处理版本待识别图像(经过预处理后的待识别图像)。并且,不同的预处理方式可以对应不同的预处理版本待识别图像。

其中,图像特征可以用于反映图像的特性。根据图像的特性可以对图像进行图像分类,即可以提取图像的图像特征,并根据图像特征对该图像进行图像分类,在此过程中,图像特征是进行图像分类的依据。在本实施例中,第一图像特征是待识别图像对应的图像特征,第二图像特征是预处理图像对应的图像特征。

具体地,第一图像特征和第二图像特征均可以是通过预定机器学习模型获得的高维特征。在一个实施例中,就数据结构而言,第一图像特征和第二图像特征均可以是一维向量,例如包含1024个浮点数的数组。

在本实施例中,对任一待识别图像进行图像识别时,均可以将该待识别图像和对该待识别图像进行预处理后获得的预处理图像一并输入预定机器学习模型中。继而,预定机器学习模型中的第一子模型对该待识别图像进行特征提取,获得该待识别图像对应的第一图像特征,预定机器学习模型中的第二子模型对该预处理图像进行特征提取处理,获得该预处理图像对应的第二图像特征。而后,根据该第一图像特征和该第二图像特征进行后续处理。

具体地,预定机器学习模型可以包括两条输入通道。据此,可以通过预定机器学习模型的其中一条输入通道,将待识别图像输入该预定机器学习模型的第一子模型中,并通过另一条输入通道将预处理图像输入该预定机器学习模型的第二子模型中。

s208,根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率。

可以理解,图像可以用于反映与之相关的事物的属性,例如人物图像可以反映图像中的人物的性别(以下简称示例e-1),又例如,眼底图像可以反映糖尿病视网膜病变的性质及程度(以下简称示例e-2)。基于此,预定分类类别是与图像所反映的事物的属性相关的若干个分类类别,对于示例e-1,可以设置两个预定分类类别,分别为男性和女性,对于示例e-2,可以设置五个预定分类类别,分别为正常、温和非增值性病变、中度非增值性病变、重度非增值性病变、以及增值性病变。

在本实施例中,通过第一图像特征和第二图像特征,共同反映相应待识别图像所属的预定分类类别。待识别图像的分类可以是二分类,也可以是多分类。待识别图像的二分类,是对于待识别图像而言,其候选的预定分类类别的总数目等于2,如上述示例e-1。待识别图像的多分类,是对于待识别图像而言,其候选的预定分类类别的总数目大于2,如上述示例e-2为待识别图像的五分类。

在本实施例中,根据第一图像特征和第二图像特征,确定待识别图像分别属于各预定分类类别的第一概率,例如各预定分类类别分别为a类别、b类别、以及c类别,则根据第一图像特征和第二图像特征,确定待识别图像属于a类别的第一概率、属于b类别的第一概率、以及属于c类别的第一概率。

其中,第一概率可以用于反映待识别图像属于相应预定分类类别的可能性大小,例如待识别图像属于a类别的第一概率用于反映待识别图像属于a类别的可能性大小。具体地,待识别图像属于某一预定分类类别的第一概率越大,可以表明该待识别图像属于该预定分类类别的可能性越大,反之,待识别图像属于某一预定分类类别的第一概率越小,可以表明该待识别图像属于该预定分类类别的可能性越小。基于此,可以根据待识别图像分别属于各预定分类类别的第一概率,进一步确定该待识别图像所属的预定分类类别。

在实际应用中,还可以根据待识别图像分别属于各预定分类类别的第一概率,预测该待识别图像所能反映的事物的属性。以待识别图像为眼底图像为例,可以根据待识别的眼底图像分别属于正常、温和非增值性病变、中度非增值性病变、重度非增值性病变、以及增值性病变的各第一概率,预测该眼底图像的主人的糖尿病视网膜病变的病情。

上述图像识别方法,获得待识别图像后,对待识别图像进行预处理,再通过预定机器学习模型中的第一子模型和第二子模型,分别获得待识别图像对应的第一图像特征、以及经过预处理后的待识别图像对应的第二图像特征,进而根据第一图像特征和第二图像特征,共同确定待识别图像属于预定分类类别的概率。一方面,通过机器学习模型自动地对待识别图像进行分类,相较于人为判读的方式更加准确;另一方面,经过预处理后的待识别图像能够突显图像中的细节,结合第一图像特征和第二图像特征,既利用了原始的待识别图像中的基础信息,又利用了经过预处理后的待识别图像所突显的细节信息,可见,基于待识别图像进行了充分的信息利用(即充分地挖掘了待识别图像中的信息),进一步提高了识别的准确性。

在一个实施例中,根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率的步骤,即步骤s208,可以包括如下步骤:将第一图像特征和第二图像特征,输入预定机器学习模型的输出层;通过预定机器学习模型的输出层,根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率。

在本实施例中,预定机器学习模型除包括第一子模型和第二子模型外,还包括输出层。预定机器学习模型的输出层用于根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率,并将其输出。

在一个实施例中,输出层可以是softmax层。softmax层具备获得图像分类的最终分类结果的能力。具体地,softmax层可以以第一图像特征和第二图像特征为输入,并根据第一图像特征和第二图像特征依次进行矩阵乘法处理、向量加法处理以及归一化处理,从而得到待识别图像的最终分类结果,即待识别图像属于预定分类类别的第一概率。

在本实施例中,通过预定机器学习模型,获得待识别图像对应的第一图像特征、以及预处理图像对应的第二图像特征后,继续通过机器学习模型,完成根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率的任务。即,用户可以直接将待识别图像和预处理图像一并输入机器学习模型,继而,预定机器学习模型可以自行完成各项任务,进而输出待识别图像属于预定分类类别的第一概率。在图像识别过程中,无需人工定义机器学习模型的输入特征,实现了端到端的学习(end-to-endlearning),简化了工作流程。

在一个实施例中,如图3所示,前文中的第一子模型包括第一特征检测子模型,第二子模型包括第二特征检测子模型,且预定机器学习模型还包括:与第一特征检测子模型连接的第一全连接层、与第二特征检测子模型连接的第二全连接层,且第一全连接层和第二全连接层均与输出层连接。在此情况下,可以通过第一特征检测子模型和第一全连接层,实现获得待识别图像对应的第一图像特征的步骤,并且可以通过第二特征检测子模型和第二全连接层,实现获得预处理图像对应的第二图像特征的步骤。

其中,特征检测子模型用于对其输入图像进行图像特征提取处理,获得该输入图像对应的中间图像特征。对于特征检测子模型而言,其获得的中间图像特征可以根据特征检测子模型的模型参数确定。具体地,第一特征检测子模型用于对待识别图像进行图像特征提取处理,获得该待识别图像对应的中间图像特征。类似地,第二特征检测子模型用于对预处理图像进行图像特征提取处理,获得该预处理图像对应的中间图像特征。

在一个实施例中,第一特征检测子模型和第二特征检测子模型的模型结构可以保持一致,两者可以仅是模型参数不同。并且,两者的模型结构均可以基于任何适用的卷积神经网络模型进行调整获得,例如两者的模型结构均可以是剔除inceptionv3模型最末端的输出层后所剩下的结构。此外,除inceptionv3模型以外,还可以对其他卷积神经网络模型进行调整,以获得第一特征检测子模型和第二特征检测子模型的模型结构,其他卷积神经网络模型如restnet模型、vgg(visualgeometrygroup)模型、densenet模型等。在其他实施例中,基于实际应用需求,第一特征检测子模型和第二特征检测子模型的模型结构也可以有所不同。

全连接层,可以用于对其输入特征和该全连接层对应的模型参数进行矩阵相乘处理,从而得到对应的目标图像特征。具体地,第一全连接层与第一特征检测子模型连接,可以理解,第一特征检测子模型的输出即为第一全连接层的输入,在此情况下,第一全连接层可以用于对第一特征检测子模型输出的中间图像特征和该第一全连接层对应的模型参数进行矩阵相乘处理,从而得到与待识别图像对应的第一图像特征。类似地,第二全连接层与第二特征检测子模型连接,第二特征检测子模型的输出即为第二全连接层的输入,在此情况下,第二全连接层可以用于对第二特征检测子模型输出的中间图像特征和该第二全连接层对应的模型参数进行矩阵相乘处理,从而得到与预处理图像对应的第二图像特征。

并且,在预定机器学习模型内部,第一全连接层和第二全连接层还均与输出层连接,可以理解,第一全连接层的输出和第二全连接层的输出,均是输出层的输入。在此情况下,输出层可以用于根据第一全连接层输出的第一图像特征、以及第二全连接层输出的第二图像特征,共同确定待识别图像属于预定分类类别的第一概率,并将其输出。

在本实施例中,计算机设备获得待识别图像和预处理图像后,将待识别图像输入预定机器学习模型的第一特征检测子模型中,并且,将预处理图像输入该预定机器学习模型的第二特征检测子模型中。而后,在该预定机器学习模型内部,一方面,第一特征检测子模型对待识别图像进行图像特征提取处理,并将提取获得的中间图像特征输出至第一全连接层,继而,第一全连接层根据该中间图像特征,获得待识别图像对应的第一图像特征,并将其输出至输出层。另一方面,第二特征检测子模型对预处理图像进行图像特征提取处理,并将提取获得的中间图像特征输出至第二全连接层,继而,第二全连接层根据该中间图像特征,获得待识别图像对应的第二图像特征,并将其输出至输出层。继而,输出层根据接收到的第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率,并将其输出。

此外,如前文所述,预定机器学习模型可以包括两条输入通道,此时,可以通过其中一条输入通道将待识别图像输入该预定机器学习模型的第一特征检测子模型中,并通过另一条输入通道将预处理图像输入该预定机器学习模型的第二特征检测子模型中。

在一个实施例中,根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率的步骤,即步骤s208,可以包括如下步骤:通过预定机器学习模型,根据第一图像特征获得待识别图像属于预定分类类别的第二概率;通过预定机器学习模型,根据第二图像特征获得预处理图像属于预定分类类别的第三概率;根据第二概率和第三概率进行预定运算,确定待识别图像属于预定分类类别的第一概率。

其中,第二概率可以用于初步反映待识别图像属于相应预定分类类别的可能性大小。第三概率可以用于反映预处理图像属于相应预定分类类别的可能性大小。

在本实施例中,通过预定机器学习模型,获得待识别图像对应的第一图像特征、以及预处理图像对应的第二图像特征后,可以继续通过预定机器学习模型获得待识别图像属于预定分类类别的第二概率,以及预处理图像属于预定分类类别的第三概率。至此,预定机器学习模型完成了其工作任务。后续,可以由计算机设备上运行的、非预定机器学习模型的其他功能模块,实现根据第二概率和第三概率进行预定运算,从而获得待识别图像属于预定分类类别的第一概率。或者,获得第二概率和第三概率后,也可以由人工或者其他计算机设备完成根据第二概率和第三概率进行预定运算的任务。可以理解,第一概率用于最终反映待识别图像属于相应预定分类类别的可能性大小。

在本实施例中,根据第一图像特征获得待识别图像分别属于各预定分类类别的第二概率,例如各预定分类类别分别为a类别、b类别、以及c类别,则根据第一图像特征,确定待识别图像属于a类别的第二概率、属于b类别的第二概率、以及属于c类别的第二概率。类似地,根据第二图像特征获得待识别图像分别属于各预定分类类别的第三概率,例如预定分类类别包括a类别、b类别、以及c类别,则根据第二图像特征,确定预处理图像属于a类别的第三概率、属于b类别的第三概率、以及属于c类别的第三概率。

在本实施例中,预定运算可以包括平均运算。在一个实施例中,平均运算具体可以是加权平均运算,例如根据待识别图像属于a类别的第二概率、第二概率对应的权重值,预处理图像属于a类别的第三概率、以及第三概率对应的权重值进行加权平均运算,获得待识别图像属于a类别的第一概率。

在一个实施例中,如图4所示,前文中的第一子模型包括第一分类子模型,第二子模型包括第二分类子模型。在此情况下,可以通过第一分类子模型,实现前文中获得待识别图像对应的第一图像特征、以及根据第一图像特征获得待识别图像属于预定分类类别的第二概率的步骤,并通过第二分类子模型,实现前文中获得预处理图像对应的第二图像特征、以及根据第二图像特征获得预处理图像属于预定分类类别的第三概率的步骤。

其中,第一分类子模型可以用于对待识别图像进行图像特征提取处理,获得该待识别图像对应的第一图像特征,并根据该第一图像特征确定待识别图像属于预定分类类别的第二概率。类似地,第二分类子模型可以用于对预处理图像进行图像特征提取处理,获得该预处理图像对应的第二图像特征,并根据该第二图像特征确定预处理图像属于预定分类类别的第三概率。

在一个实施例中,第一分类子模型和第二分类子模型的模型结构可以保持一致,两者可以仅是模型参数不同。并且,两者的模型结构均可以采用任何适用的卷积神经网络模型,卷积神经网络模型如inceptionv3模型、restnet模型、vgg(visualgeometrygroup)模型、或者densenet模型。在其他实施例中,第一分类子模型和第二分类子模型的模型结构也可以有所不同。

在本实施例中,计算机设备获得待识别图像和预处理图像后,将待识别图像输入预定机器学习模型的第一分类子模型中,并且,将预处理图像输入该预定机器学习模型的第二分类子模型中。而后,在该预定机器学习模型内部,一方面,第一分类子模型对待识别图像进行图像特征提取处理,获得该待识别图像对应的第一图像特征,再根据该第一图像特征确定该待识别图像属于预定分类类别的第二概率,并将其输出;另一方面,第二分类子模型对预处理图像进行图像特征提取处理,获得该预处理图像对应的第二图像特征,再根据该第二图像特征确定该预处理图像属于预定分类类别的第三概率,并将其输出。继而,由计算机设备运行的、非预定机器学习模型的其他功能模块(图4中命名为运算模块),根据第一分类子模型输出的各第二概率、以及第二分类子模型输出的各第三概率进行预定运算,获得待识别图像分别属于各预定分类类别的第一概率。

此外,如前文所述,预定机器学习模型可以包括两条输入通道,此时,可以通过其中一条输入通道将待识别图像输入该预定机器学习模型的第一分类子模型中,并通过另一条输入通道将预处理图像输入该预定机器学习模型的第二分类子模型中。

在一个实施例中,前文中对待识别图像进行预处理的方式,可以包括如下步骤:将待识别图像中的目标对象调整至参考对象尺寸,获得第一调整图像;裁剪第一调整图像中的无效区域,获得第二调整图像,第二调整图像中未包含无效区域;将第二调整图像调整至参考图像尺寸,获得第三调整图像;预处理图像根据第三调整图像获得。

在本实施例中,可以将目标对象调整至参考对象尺寸,获得第一调整图像。具体地,可以通过对待识别图像中包含的目标对象进行缩放处理实现。其中,目标对象是待识别图像内包含的图像内容,且是需要突显的对象。可以理解,目标对象可以根据实际应用需求进行设定,例如对于人物图像,可以事先将图像内的人物的嘴巴设定为目标对象,并将固定宽度值作为参考对象尺寸,在此情况下,达·芬奇的《蒙娜丽莎》这幅图像作为待识别图像时,可以将该图像内蒙娜丽莎这一人物的嘴巴部分进行缩放处理,从而将其嘴巴部分的尺寸调整至该固定宽度值。又例如,对于眼底图像,可以事先将图像内的眼球设定为目标对象,并将固定半径值作为参考对象尺寸,在此情况下,对于作为待识别图像的任一眼底图像,可以对该眼底图像中的眼球进行缩放处理,从而将该眼底图像内眼球的半径调整至该固定半径值。

然后,裁剪第一调整图像(即将待识别图像的目标对象调整至参考对象尺寸后获得的图像)中的无效区域,获得第二调整图像,第二调整图像中未包含无效区域。亦即是说,裁剪掉第一调整图像中的无效区域,裁剪后剩余的不包含该无效区域的图像即为第二调整图像。其中,无效区域是对确定待识别图像属于预定分类类别的第一概率这一任务起不到任何正面作用的图像区域。在一个实施例中,无效区域可以包括不具备有效的内容信息的区域,例如空白区域。

继而,将第二调整图像(即将第一调整图像裁剪掉无效区域后获得的图像)调整至参考图像尺寸,获得第三调整图像。在一个实施例中,第三调整图像即为预处理图像。需要说明的是,计算机设备在训练机器学习模型时,可以设置输入机器学习模型的训练图像的图像尺寸。据此,根据统一图像尺寸的训练图像(固定大小的输入)来训练机器学习模型,可以大大简化机器学习模型的复杂度。基于此,在对待识别图像进行图像识别时,计算机设备可以查询机器学习模型关联的参考图像尺寸,而后,在对待识别图像进行预处理的过程中,可以将第二调整图像的当前图像尺寸与参考图像尺寸进行比较,在该当前图像尺寸与参考图像尺寸不一致时,计算机设备可以将当前图像尺寸调整为参考图像尺寸。例如,参考图像尺寸可以为512*512的分辨率。

需要说明的是,对于此处统一训练机器学习模型所用的训练图像的图像尺寸的设置,并不是对训练图像的图像尺寸的限定。训练机器学习模型的训练图像的图像尺寸也可以不是统一的图像尺寸。

在一个实施例中,前文中对待识别图像进行预处理的方式,还可以包括如下步骤:对目标调整图像的图像属性进行调整,目标调整图像包括第一调整图像、第二调整图像、第三调整图像中的任意一个,图像属性包括对比度和灰度中的至少一项。

具体地,在对待识别图像进行预处理的过程中,除前文中的将图像中包含的目标对象调整至参考对象尺寸、去除图像中的无效区域、将图像调整至参考图像尺寸这三个处理步骤之外,还可以调整图像的对比度。或者,除这三个处理步骤之外,还可以调整图像的灰度。再或者,除这三个步骤之外,还可以既调整图像的对比度,也调整图像的灰度。此外,图像属性也不局限于对比度和灰度,在其他实施例中,还可以包括亮度等,此时,图像属性便包括对比度、灰度、以及亮度中的至少一项。

其中,调整图像的对比度时,具体可以是对图像中的各像素的各像素值(r、g、b)进行如下处理:减去该像素所在的像素范围内的平均值,并将每个像素值乘以预定数值,从而增加各像素之间的区别度。可以理解,预定数值可以根据实际应用需求进行设定,例如可以设定为4。此外,调整图像的灰度时,可以使图像增加50%的灰度。需要说明的是,对目标调整图像的图像属性进行调整,可以突出目标调整图像的特征。以眼底图像为例,对眼底图像的对比度和灰度作出如上所述调整后,能够使得眼底图像中的血管部分和纹理特征等更为突出。

需要说明的是,调整图像属性的步骤,可以排列在将目标对象调整至参考对象尺寸这一步骤之前,即先调整待识别图像的图像属性,再对调整后的待识别图像中的目标对象调整至参考对象尺寸,获得第一调整图像,进而根据该第一调整图像进行后续处理。或者,调整图像属性的步骤,也可以紧跟在将目标对象调整至参考对象尺寸、裁剪图像中的无效区域、将图像调整至参考图像尺寸的处理这三个步骤中任意一个步骤之后,例如紧跟在裁剪图像中的无效区域之后,即调整第二调整图像的图像属性,再将调整过图像属性后的第二调整图像调整至参考图像尺寸,获得第三调整图像。

在一个实施例中,预处理图像的数目大于一,且各预处理图像是根据不同的预处理方式获得。

可以理解,在对任一待识别图像进行图像识别的过程中,若仅采用单一的预处理方式对该待识别图像进行预处理,得到的预处理图像的数目则等于一。

在本实施例中,在对任一待识别图像进行图像识别的过程中,可以分别采用两种以上的不同预处理方式,对待识别图像进行预处理。在此情况下,每一种预处理方式,均可以获得一幅与之对应的预处理图像,据此,分别采用各种不同的预处理方式对待识别图像进行预处理后,获得的与各种预处理方式分别对应(一一对应)的各预处理图像的总数目也相应为两幅以上。例如,分别采用预处理方式w1、预处理方式w2、预处理方式w3这三种不同的预处理方式,对待识别图像po进行预处理,可以获得与预处理方式w1唯一对应的预处理图像pd1、与预处理方式w2唯一对应的预处理图像pd2、以及与预处理方式w3唯一对应的预处理图像pd3(以下简称示例e-3)。

继而,计算机设备可以将待识别图像和各预处理图像一并输入预定机器学习模型中,通过该预定机器学习模型,分别获得待识别图像对应的第一图像特征、以及与各预处理图像分别对应的各第二图像特征。而后,计算机设备再根据待识别图像对应的第一图像特征、与各预处理图像分别对应的各第二图像特征,共同确定该待识别图像属于预定分类类别的第一概率。

需要说明的是,通过不同的预处理方式,能够进一步挖掘待识别图像中包含的信息,从而进一步提升模型的输出结果的准确性。

需要说明的是,在预定机器学习模型包括前文描述的第一特征检测子模型、第二特征检测子模型、第一全连接层、第二全连接层以及输出层的情况下,第二特征检测子模型的数目以及第二全连接层的数目均与预处理图像的数目匹配。具体地,当预处理图像的数目等于一时,第二特征检测子模型的数目以及第二全连接层的数目均等于一;当预处理图像的数目大于一时,第二特征检测子模型的数目以及第二全连接层的数目均大于一,且均可以与预处理图像的数目一致。

举例说明,对于示例e-3,如图5所示,预定机器学习模型包括用于获得待识别图像po对应的第一图像特征f1的第一特征检测子模型mt1、用于获得预处理图像pd1对应的第二图像特征f21-1的第二特征检测子模型mt2-1、用于获得预处理图像pd2对应的第二图像特征f21-2的第二特征检测子模型mt2-2、用于获得预处理图像pd3对应的第二图像特征f21-3的第二特征检测子模型mt2-3、第一全连接层fc1、第二全连接层fc2-1、第二全连接层fc2-2、第二全连接层fc2-3、以及输出层s。其中,第一特征检测子模型mt1连接第一全连接层fc1、第二特征检测子模型mt2-1连接第二全连接层fc2-1、第二特征检测子模型mt2-2连接第二全连接层fc2-2、第二特征检测子模型mt2-3连接第二全连接层fc2-3。并且,第一全连接层fc1、第二全连接层fc2-1、第二全连接层fc2-2、第二全连接层fc2-3均连接输出层s。基于此,输出层s根据第一全连接层fc1的输出结果、第二全连接层fc2-1的输出结果、第二全连接层fc2-2的输出结果、第二全连接层fc2-3的输出结果,共同确定待识别图像po属于预定分类类别的第一概率g11。

需要说明的是,在预定机器学习模型包括前文描述的第一分类子模型和第二分类子模型的情况下,第二分类子模型的数目与预处理图像的数目匹配。具体地,当预处理图像的数目大于一时,第二分类子模型数目大于一,且均与预处理图像的数目一致。基于此,计算机设备可以对第一分类子模型输出的第二概率,以及各第二分类子模型输出的第三概率进行预定运算,获得待识别图像属于预定分类类别的第一概率。

举例说明,对于示例e-3,如图6所示,预定机器学习模型包括第一分类子模型mc1、第二分类子模型mc2-1、第二分类子模型mc2-2、以及第二分类子模型mc2-3。其中,第一分类子模型mc1用于对待识别图像po进行图像特征提取处理,获得该待识别图像po对应的第一图像特征f1,并根据该第一图像特征f1确定待识别图像po属于预定分类类别的第二概率g2;第二分类子模型mc2-1用于对预处理图像pd1进行图像特征提取处理,获得该预处理图像pd1对应的第二图像特征f21-1,并根据该第二图像特征f21-1确定该预处理图像pd1属于预定分类类别的第三概率g3-1;第二分类子模型mc2-2用于对预处理图像pd2进行图像特征提取处理,获得该预处理图像pd2对应的第二图像特征f21-2,并根据该第二图像特征f21-2确定该预处理图像pd2属于预定分类类别的第三概率g3-2;第二分类子模型mc2-3用于对预处理图像pd3进行图像特征提取处理,获得该预处理图像pd3对应的第二图像特征f21-3,并根据该第二图像特征f21-3确定该预处理图像pd3属于预定分类类别的第三概率g3-3。基于此,计算机设备可以对第一分类子模型mc1输出的第二概率g2、第二分类子模型mc2-1输出的第三概率g3-1、第二分类子模型mc2-2输出的第三概率g3-2、第二分类子模型mc2-3输出的第三概率g3-3进行预定运算,确定待识别图像po属于预定分类类别的第一概率g12。

还需要说明的是,预定机器学习模型可以包括三条以上的输入通道。据此,可以通过预定机器学习模型的其中一条输入通道将待识别图像输入该机器学习模型中,并且,可以通过该预定机器学习模型中除该条输入通道以外的各条输入通道,分别将与各预处理方式对应的各预处理图像输入预定机器学习模型中。

在一个实施例中,可以通过预定机器学习模型中的一条输入通道将待识别图像输入该预定机器学习模型的第一特征检测子模型中,并通过除该条输入通道以外的其他各条输入通道,分别将与各预处理方式一一对应的各预处理图像输入其各自对应的第二特征检测子模型中。

在一个实施例中,可以通过预定机器学习模型中的一条输入通道将待识别图像输入该预定机器学习模型的第一分类子模型中,并通过除该条输入通道以外的其他各条输入通道,分别将与各预处理方式一一对应的各预处理图像输入其各自对应的第二分类子模型中。

在一个实施例中,如图7所示,确定预定机器学习模型的方式,可以包括如下步骤s702至步骤s712。s702,获取属于预定分类类别的第一图像样本。s704,对第一图像样本进行数据增强处理,获得第一训练图像。s706,对第一图像样本进行预处理,并对经过预处理后的第一图像样本进行数据增强处理,获得第二训练图像。s708,根据第一训练图像进行模型训练,获得第一特征检测子模型。s710,根据第二训练图像进行模型训练,获得第二特征检测子模型。s712,根据第一训练图像、第二训练图像、第一特征检测子模型、以及第二特征检测子模型共同进行模型训练,确定第一全连接层、第二全连接层、以及输出层。

其中,第一图像样本是未经处理的图像样本。第一图像样本是真实分类结果已知的图像。计算机设备可以获取各第一图像样本的分类标签。其中,分类标签用于表示其对应的图像样本的已知的真实分类结果,即对于任一第一图像样本而言,其分类标签可以用于确定该第一图像样本真实所属的预定分类类别。在一个实施例中,分类标签所表示的真实分类结果,可以由人工分析确定,例如相关技术领域的专家分析确定。

第一训练图像,是经过数据增强处理后的第一图像样本,即对第一图像样本进行数据增强处理后获得的图像。可以理解,第一训练图像的分类标签与其对应的第一图像样本的分类标签一致。

第二训练图像,是先经过预处理再经过数据增强处理后的第一图像样本,即先对第一图像样本进行预处理,再对经过预处理后的第一图像样本进行数据增强处理后获得的图像。可以理解,第二训练图像的分类标签与其对应的第一图像样本的分类标签一致。

需要说明的是,对第一图像样本和经过预处理后的第一图像样本均进行数据增强处理,其中一个目的是扩充训练数据的数量,另一个目的是提升训练获得的机器学习模型的泛化能力。

在本实施例中,计算机设备可以根据第一训练图像进行模型训练,获得第一特征检测子模型,并且,根据第二训练图像进行模型训练,获得第二特征检测子模型。然后,计算机设备进行模型集成处理,使第一特征检测子模型的最末端连接一个全连接层,使第二特征检测子模型的最末端连接另一个全连接层,并使这两个全连接层连接一个输出层,并初始化这两个全连接层和一个输出层。继而,在第一特征检测子模型的模型参数和第二特征检测子模型的模型参数保持不变的情况下,根据第一训练图像、第二训练图像、第一特征检测子模型、以及第二特征检测子模型进行模型训练,共同确定这两个全连接层的模型参数和输出层的模型参数。可以理解,这两个全连接层的模型参数和输出层的模型参数确定了,也就是确定了第一全连接层、第二全连接层、以及输出层,从而确定了整个预定机器学习模型。

具体地,计算机设备可以采用各第一训练图像和各第二训练图像有监督地进行模型训练。并且,在训练过程中,根据分类标签与机器学习模型自行确定的分类结果之间的差异,调整机器学习模型的模型参数并继续训练,直至满足训练停止条件时结束训练,结束训练时的模型参数即可以为预定机器学习模型的模型参数。具体地,可以通过机器学习模型的softmax层对该机器学习模型自行确定的分类结果与相应样本的分类标签进行比对,进而计算损失函数,再根据损失函数进行梯度反向传播,以此来调整该机器学习模型的模型参数。其中,损失函数可以为任何适用的损失函数,例如交叉熵损失函数。

其中,训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数,或者是调整模型参数后的机器学习模型的分类性能指标达到预设指标。

此外,根据第一训练图像进行模型训练,获得第一特征检测子模型,这一训练过程可以采用迁移学习方式。采用迁移学习进行模型训练时,具体训练方式可以采用任何适用的迁移学习方式实现,例如可以采用transferlearning方式,即进行迁移训练时,将底层的网络当做一个特征提取器来使用。又例如,可以采用finetune方式,即进行迁移训练时,所有的或大部分的层都会经过训练。

在一个实施例中,计算机设备可训练出机器学习模型并存储,在需要使用机器学习模型时即可直接获取并使用。计算机设备也可仅存储机器学习模型的模型参数,在需要使用机器学习模型时,获取模型参数并将其导入初始的机器学习模型后,得到预定机器学习模型并使用。

需要说明的是,根据样本和对样本添加的分类标签,有监督地训练得到预定机器学习模型,相较于无监督训练模式,提高了机器学习模型的分类准确性。此外,相较于传统的有监督训练模式,避免了人工定义机器学习模型的输入特征,提高了机器学习模型的训练效率及准确性。

在一个实施例中,如图8所示,确定预定机器学习模型的方式,可以包括如下步骤s802至步骤s808。s802,获取属于预定分类类别的第二图像样本。s804,对第二图像样本进行数据增强处理,获得第三训练图像。s806,对第二图像样本进行预处理,并对经过预处理后的第二图像样本进行数据增强处理,获得第四训练图像。s808,根据第三训练图像进行模型训练,获得第一分类子模型,并根据第四训练图像进行模型训练,获得第二分类子模型。

本实施例与图7所示实施例的主要区别在于,需要训练的机器学习模型的模型结构不同。在本实施例中,训练获得的预定机器学习模型包括第一分类子模型和第二分类子模型,基于此,在模型训练过程中,根据第三训练图像进行模型训练,获得第一分类子模型,并根据第四训练图像进行模型训练,获得第二分类子模型后,便确定了整个预定机器学习模型。

其中,本实施例中对第二图像样本的限定,可以与前文中对第一图像样本的具体限定相同,术语“第一”和“第二”仅是在不同实施例中进行命名上的区分。此外,第三训练图像与前文中的第一训练图像情况类似,第四训练图像与前文中的第二训练图像情况也类似。并且,本实施例中,除涉及机器学习模型的模型结构的内容之外的其他内容,均可以参照前文中对图7所示实施例的限定。

在一个实施例中,对图像进行数据增强处理的方式,可以包括如下步骤:获取对应于预定几何变换方式的第一变换参数;根据第一变换参数以及与该第一变换参数对应的预定几何变换方式,对图像进行几何变换处理。

其中,几何变换方式是不改变图像的像素值的图像变换方式。预定几何变换方式可以包括图像翻转、图像裁剪、图像缩放、图像旋转等中的至少一项。第一变换参数是几何变换处理中涉及的操作参数,例如图像旋转角度值、图像缩放比例值等。其中,第一变换参数可以是随机的,当然也可以是事先设定好的。

具体地,对图像进行几何变换处理的步骤,可以包括以下各项中的至少一项:根据预定翻转概率,使图像沿预定方向进行翻转;根据随机的裁剪参数,裁剪图像的边框;根据随机的图像尺寸调整值,调整图像的图像尺寸;根据随机的旋转角度值,使图像进行旋转。

并且,根据预定翻转概率,使图像沿预定方向进行翻转,例如根据50%的概率使图像进行左右翻转或者上下翻转。根据随机的裁剪参数,裁剪图像的边框,例如对图像的高和宽进行0%到20%的边框裁剪。根据预定图像尺寸调整值,调整图像的图像尺寸,例如将图像的图像尺寸缩放至原图的90%至110%;根据随机的旋转角度值,使图像进行旋转,例如将图像随机旋转-180°至180°。

在一个实施例中,对图像进行数据增强处理的方式,可以包括如下步骤:获取对应于预定图像属性调整方式的第二变换参数;根据第二变换参数以及与该第二变换参数对应的预定图像属性调整方式,对图像进行图像属性调整处理。

图像属性调整方式,是改变图像的像素值的图像变换方式。预定图像属性调整方式可以包括调整图像亮度、调整图像对比度等中的至少一项。第二变换参数是图像属性调整处理中涉及的操作参数,例如图像亮度值、图像对比度值等。其中,第二变换参数可以是随机的,当然也可以是事先设定好的。

具体地,对图像进行图像属性调整处理的步骤,可以包括以下各项中的至少一项:根据随机的亮度调整值,调整图像中的各像素的亮度;根据预定对比度调整值,调整图像中的各像素的对比度。

并且,根据随机的亮度调整值,调整图像中的各像素的亮度,例如对图像中的各像素随机增加-20至20的亮度值。根据预定对比度调整值,调整图像中的各像素的对比度,例如对图像中的各像素乘以0.8至1.2之间的一个随机数值。

在一个实施例中,如图9所示,提供了一种图像识别方法。以该方法涉及的待识别图像是眼底图像为例进行说明。该方法具体可以包括如下步骤s902至步骤s920。

s902,获取属于预定分类类别的第一图像样本;对第一图像样本进行数据增强处理,获得第一训练图像;对第一图像样本进行预处理,并对经过预处理后的第一图像样本进行数据增强处理,获得第二训练图像;根据第一训练图像进行模型训练,获得第一特征检测子模型;根据第二训练图像进行模型训练,获得第二特征检测子模型;根据第一训练图像、第二训练图像、第一特征检测子模型、以及第二特征检测子模型共同进行模型训练,确定第一全连接层、第二全连接层、以及输出层,以确定预定机器学习模型。

s904,获取待识别眼底图像。

s906,对待识别眼底图像进行预处理,获得预处理眼底图像。

s908,将待识别眼底图像输入预定机器学习模型的第一特征检测子模型中。

s910,通过第一特征检测子模型,获得待识别眼底图像对应的中间图像特征,并将该中间图像特征输出至预定机器学习模型的第一全连接层。

s912,通过第一全连接层,根据来自第一特征检测子模型的中间图像特征,获得待识别眼底图像对应的第一图像特征,并将该第一图像特征输出至预定机器学习模型的输出层。

s914,将预处理眼底图像输入预定机器学习模型的第二特征检测子模型中。

s916,通过第二特征检测子模型,获得预处理眼底图像对应的中间图像特征,并将该中间图像特征输出至预定机器学习模型的第二全连接层。

s918,通过第二全连接层,根据来自第二特征检测子模型的中间图像特征,获得预处理眼底图像对应的第二图像特征,并将该第二图像特征输出至预定机器学习模型的输出层。

s920,通过预定机器学习模型的输出层,根据来自第一全连接层的第一图像特征和来自第二全连接层的第二图像特征,共同确定待识别眼底图像分别属于正常、温和非增值性病变、中度非增值性病变、重度非增值性病变、以及增值性病变这五个预定分类类别的各第一概率。

需要说明的是,对本实施例中的各技术特征的限定,可与前文各实施例中对相应技术特征的限定相同,此处不加赘述。

上述图像识别方法,获得待识别眼底图像后,对待识别眼底图像进行预处理,再通过预定机器学习模型,分别获得待识别眼底图像对应的第一图像特征、以及经过预处理后的待识别眼底图像对应的第二图像特征,进而根据第一图像特征和第二图像特征,共同确定待识别眼底图像属于预定分类类别的概率。一方面,通过机器学习模型自动地对待识别眼底图像进行分类,相较于人为判读的方式更加准确;另一方面,经过预处理后的待识别眼底图像能够突显图像中的细节,结合第一图像特征和第二图像特征,既利用了原始的待识别眼底图像中的基础信息,又利用了经过预处理后的待识别眼底图像所突显的细节信息,可见,充分地挖掘了待识别眼底图像中的信息,进一步提高了识别的准确性。

应该理解的是,虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图10所示,提供了一种图像识别装置1000。该装置可以包括如下模块1002至1008。待识别图像获取模块1002,用于获取待识别图像;预处理图像获取模块1004,用于对待识别图像进行预处理,获得预处理图像;图像特征获取模块1006,用于通过预定机器学习模型中的第一子模型获得待识别图像对应的第一图像特征,并通过预定机器学习模型中的第二子模型获得预处理图像对应的第二图像特征;预测概率确定模块1008,用于根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率。

上述图像识别装置1000,获得待识别图像后,对待识别图像进行预处理,再通过预定机器学习模型中的第一子模型和第二子模型,分别获得待识别图像对应的第一图像特征、以及经过预处理后的待识别图像对应的第二图像特征,进而根据第一图像特征和第二图像特征,共同确定待识别图像属于预定分类类别的概率。一方面,通过机器学习模型自动地对待识别图像进行分类,相较于人为判读的方式更加准确;另一方面,经过预处理后的待识别图像能够突显图像中的细节,结合第一图像特征和第二图像特征,既利用了原始的待识别图像中的基础信息,又利用了经过预处理后的待识别图像所突显的细节信息,可见,充分地挖掘了待识别图像中的信息,进一步提高了识别的准确性。

在一个实施例中,预测概率确定模块1008,可以包括如下单元:图像特征输出单元,用于将第一图像特征和第二图像特征,输入预定机器学习模型的输出层;第一预测概率确定单元,用于通过预定机器学习模型的输出层,根据第一图像特征和第二图像特征,确定待识别图像属于预定分类类别的第一概率。

在一个实施例中,第一子模型包括第一特征检测子模型,第二子模型包括第二特征检测子模型;预定机器学习模型还包括:与第一特征检测子模型连接的第一全连接层、与第二特征检测子模型连接的第二全连接层,且第一全连接层和第二全连接层均与输出层连接。在此情况下,图像特征获取模块1006可以用于通过第一特征检测子模型和第一全连接层,获得待识别图像对应的第一图像特征,并通过第二特征检测子模型和第二全连接层,获得预处理图像对应的第二图像特征。

在一个实施例中,预测概率确定模块1008,可以包括如下单元:第二预测概率确定单元,用于通过预定机器学习模型,根据第一图像特征获得待识别图像属于预定分类类别的第二概率;第三预测概率确定单元,用于通过预定机器学习模型,根据第二图像特征获得预处理图像属于预定分类类别的第三概率;第四预测概率确定单元,用于根据第二概率和第三概率进行预定运算,确定待识别图像属于预定分类类别的第一概率。

在一个实施例中,第一子模型包括第一分类子模型,第二子模型包括第二分类子模型。在此情况下,第二预测概率确定单元可以用于通过第一分类子模型,获得待识别图像对应的第一图像特征、以及根据第一图像特征获得待识别图像属于预定分类类别的第二概率;第三预测概率确定单元可以用于通过第二分类子模型,获得预处理图像对应的第二图像特征、以及根据第二图像特征获得预处理图像属于预定分类类别的第三概率。

在一个实施例中,预处理图像获取模块1004可以包括如下单元:第一调整图像获得单元,用于将待识别图像中的目标对象调整至参考对象尺寸,获得第一调整图像;第二调整图像获得单元,用于裁剪第一调整图像中的无效区域,获得第二调整图像,第二调整图像中未包含所述无效区域;第三调整图像获得单元,用于将第二调整图像调整至参考图像尺寸,获得第三调整图像;其中,预处理图像根据所述第三调整图像获得。

在一个实施例中,预处理图像获取模块1004还可以包括图像属性调整单元,其用于对目标调整图像的图像属性进行调整,目标调整图像包括第一调整图像、第二调整图像、第三调整图像中的任意一个,图像属性包括对比度和灰度中的至少一项。

在一个实施例中,预处理图像的数目大于一,且各预处理图像是根据不同的预处理方式获得。

在一个实施例中,图像识别装置1000还可以包括第一模型训练模块,该第一模型训练模型可以包括如下单元:第一样本获取单元,用于获取属于预定分类类别的第一图像样本;第一训练图像获取单元,用于对第一图像样本进行数据增强处理,获得第一训练图像;第二训练图像获取单元,用于对第一图像样本进行预处理,并对经过预处理后的第一图像样本进行数据增强处理,获得第二训练图像;第一子模型训练单元,用于根据第一训练图像进行模型训练,获得第一特征检测子模型;第二子模型训练单元,根据第二训练图像进行模型训练,获得第二特征检测子模型;第一模型确定单元,用于根据第一训练图像、第二训练图像、第一特征检测子模型、以及第二特征检测子模型共同进行模型训练,确定第一全连接层、第二全连接层、以及输出层。

在一个实施例中,图像识别装置1000还可以包括第二模型训练模块,该第二模型训练模型可以包括如下单元:第二样本获取单元,用于获取属于预定分类类别的第二图像样本;第三训练图像获取单元,用于对第二图像样本进行数据增强处理,获得第三训练图像;第四训练图像获取单元,用于对第二图像样本进行预处理,并对经过预处理后的第二图像样本进行数据增强处理,获得第四训练图像;第二模型确定单元,用于根据第三训练图像进行模型训练,获得第一分类子模型,并根据第四训练图像进行模型训练,获得第二分类子模型。

在一个实施例中,第一训练图像获取单元或第三训练图像获取单元对图像进行数据增强处理的方式,均可以包括以下各项中的至少一项:根据预定翻转概率,使图像沿预定方向进行翻转;根据随机的裁剪参数,裁剪图像的边框;根据随机的亮度调整值,调整图像中的各像素的亮度;根据随机的对比度调整值,调整图像中的各像素的对比度;根据随机的图像尺寸调整值,调整图像的图像尺寸;根据随机的旋转角度值,使图像进行旋转。

在一个实施例中,待识别图像包括医学图像;机器学习模型包括卷积神经网络模型。

需要说明的是,关于上述图像识别装置1000涉及的技术特征的具体限定,可以参见前文中对于图像识别方法中涉及的对应技术特征的限定,在此不再赘述。此外,上述图像识别装置1000中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现本申请任一实施例提供的图像识别方法中的步骤。

在一个具体示例中,该计算机设备可以是图1中示出的服务器120,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中,该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统、计算机程序和数据库,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任一实施例提供的图像识别方法中的步骤。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,本申请提供的图像识别装置1000可以实现为一种计算机程序的形式,计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像识别装置1000的各个程序模块,比如,图10所示的待识别图像获取模块1002、预处理图像获取模块1004、图像特征获取模块1006、以及预测概率确定模块1008。各个程序模块构成的计算机程序使得处理器执行本文中描述的本申请各实施例的图像识别方法中的步骤。例如,图11所示的计算机设备可以通过如图10所示的图像识别装置1000中的待识别图像获取模块1002执行步骤s202、通过预处理图像获取模块1004执行步骤s204、通过图像特征获取模块1006执行步骤s206、通过预测概率确定模块1008执行步骤s208等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

据此,在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请任一实施例提供的图像识别方法中的步骤。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1