图像识别方法、图像识别装置、计算机产品和可读存储介质与流程

文档序号：15218119发布日期：2018-08-21 17:06阅读：126来源：国知局

本公开的实施例涉及图像处理技术领域，尤指一种图像识别方法、图像识别装置、计算机产品和可读存储介质。

背景技术：

随着计算机辅助诊断(computeraideddiagnosis，cad)技术的迅速发展，对医学影像进行自动化分析越来越流行。目前，cad的主要应用方式是基于医疗影像进行疾病的诊断，例如将医学图像中与诊断、治疗等高度相关的目标区域分离出来，也就是通常的神经网络、机器学习中所使用的图像分割过程。通过分割出感兴趣的(roi)区域，有利于减少后期模型数据处理的工作量，提高系统的识别效率。

技术实现要素：

根据本公开的一个方面，本公开的实施例提供了一种图像识别方法，包括：

确定待测图像中的多个目标的类别，以及各所述目标所在的目标区域；

获得各所述目标区域在所述待测图像中的位置，以及各所述目标区域的大小；

根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系；

根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。

在一些实施例中，所述确定待测图像中的多个目标，以及各所述目标所在的目标区域，具体包括：

通过神经网络确定出确定出待测图像中的多个目标，以及各所述目标所在的目标区域。

在一些实施例中，所述神经网络包括区域卷积神经网络；在区域卷积神经网络中，候选区域设置为不低于200个。

在一些实施例中，所述候选区域的重叠度阈值大于或等于0.5。

在一些实施例中，所述候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。

在一些实施例中，所述根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系，具体包括：

通过双重空间掩码方法，根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系。

在一些实施例中，还包括：

选择距离在预设范围内的任意两个所述目标区域为具有关联的两个所述目标区域。

在一些实施例中，根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读，具体包括：

将所述目标的类别和所述目标之间的相对位置关系输入到概率知识网络获得所述目标之间的相对位置关系的语义解读。

根据本公开的另一个方面，本公开的实施例提供一种图像识别装置，包括：

目标识别单元，被配置为确定待测图像中的多个目标的类别，以及各所述目标所在的目标区域；

目标位置确定单元，被配置为获得各所述目标区域在所述待测图像中的位置，以及各所述目标区域的大小；

目标关系识别单元，被配置为根据各所述目标区域的位置和大小通确定各所述目标之间的相对位置关系；

语义解读单元，被配置为根据所述目标的类别和所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。

在一些实施例中，所述目标识别单元包括区域卷积神经网络。

在一些实施例中，在所述区域卷积神经网络中，候选区域设置为不低于200个。

在一些实施例中，在所述区域卷积神经网络中，所述候选区域的重叠度阈值大于或等于0.5。

在一些实施例中，所述语义解读单元包括概率知识网络，所述概率知识网络被配置为基于所述目标的类别和所述目标之间的相对位置关系关联的语义的概率，输出所述目标之间的相对位置关系的语义解读。

在本公开的还一个方面，本公开的实施例提供一种计算机产品，包括一个或多个处理器，所述处理器被配置为执行计算机指令以执行所述方法中的一个或多个步骤。

在本公开的又一个方面，本公开的实施例提供一种可读存储介质，被配置为存储计算机指令，所述计算机指令被处理器运行时执行所述方法中的一个或多个步骤。

附图说明

图1为本公开实施例中提供的图像识别方法的流程图之一；

图2为本公开实施例中提供的图像识别方法的流程图之二；

图3为本公开实施例中提到的待测图像的示意图；

图4a至图4c分别为图3所示待测图像中各目标的空间掩码；

图5为图3所示待测图像中各目标的空间掩码的对比图；

图6为本公开实施例中提供的图像识别装置的结构示意图；

图7为本公开实施例提供的计算机产品的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

附图中各部件的形状和大小不反映真实比例，目的只是示意说明本公开内容。

相关技术中，基于机器学习(神经网络)、机器视觉等实现的计算机辅助诊断，是基于提取图像中的有效特征并对特征进行分类或聚类，从而基于对应分类或聚类的标注来描述roi的语义。发明人认知到，这种方法无法用来描述医疗影像本身的整体内容，也无法在整体上对医疗影像中的内容进行解读。例如，图像中有两个目标，目前往往只能识别出图像中某个区域是目标1(此时目标2区域作为干扰特征会在训练中被去除)或者某个区域是目标2(此时目标1区域作为干扰特征会在训练中被去除)，而无法提供一个全局性的语言描述，例如具有存在某种关系的目标1和目标2这样的语言性描述。

在发明人所知的知识中，在诸多领域，例如医学领域，医生等有经验的医疗专业人士在观察医疗影像时不仅关注病灶区域，而且会注意病灶区域周边的器官或病理部位的状态以给出准确的诊断。由此，发明人意识到如果能够给出图像整体在语义上的全部或者部分解读，其至少部分地能够克服相关技术的不足。

本公开实施例提供的一种图像识别方法，如图1所示，包括：

s101、确定待测图像中的多个目标的类别，以及各目标所在的目标区域；

s102、确定各目标区域在待测图像中的位置，以及各目标区域的大小；

s103、根据各目标区域的位置和大小确定各目标之间的相对位置关系；

s104、根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。

本公开实施例提供的图像识别方法，首先确定出待测图像中的多个目标，以及各目标所在的目标区域；之后确定出各目标区域在待测图像中的位置，以及各目标区域的大小；最后根据各目标区域的位置和大小确定各目标之间的相对位置关系，从而实现对待测图像中的多个目标之间的相对位置关系在语义上的识别。

此处，所称的语义，指的是对图像在内容上进行的文字(或等效于文字，例如将文字转换为语音)的描述。例如，对于一副包含人骑着自行车的图片，在语义上解读为人-骑-自行车(或者类似的概念，人在自行车上)。

可选地，在本公开实施例提供的图像识别方法中，确定出待测图像中的多个目标，以及各目标所在的目标区域，具体包括：

采用神经网络确定出确定出待测图像中的多个目标，以及各目标所在的目标区域。

具体地，可以采用神经网络方法提取待测图像中每个目标的边框和形貌特征，常用的神经网络可以是rcnn(regionswithconvolutionalneuralnetwork)、fastrcnn、fasterrcnn或者yolo等，在此不作限定。

具体地，采用神经网络方法时，候选区域的数量的设定不能太低，否则网络的召回率太高，因此候选区域的数量设置的越多，越能准确的确定出的检测目标，但是候选区域的数量设置的越多，计算量也会相应的增多，因此根据实际情况设置候选区域的数量。

可选地，在本公开实施例提供的图像识别方法中，采用神经网络，例如rcnn、fastrcnn、fasterrcnn时，候选区域(regionproposal)设置为不低于200个。

可选地，在本公开实施例提供的图像识别方法中，候选区域的重叠度阈值iou大于或等于0.5，从而使得待测图像中每个潜在的目标均能够被检查至少15-20次，从而提高图像中目标被识别的概率，又不会过多的增加目标检测的工作量。

具体地，在本公开实施例提供的图像识别方法中，候选区域有很多是彼此重叠或者大面积重叠的不是每一个重叠的候选区域都有必要进行目标检测，为此设定重叠度阈值iou，iou设定为0.5代表仅保留覆盖率不超过0.5的局部最大分数的候选区域，对于iou＞0.5的区域全部合并并送到目标检测。

可选地，在本公开实施例提供的图像识别方法中，候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。例如，iou设定为0.6或者0.7。

在具体实施时，检测出的目标区域一般为矩形区域。具体地，在本公开实施例提供的图像识别方法中，各目标区域在待测图像中的位置一般指目标区域(矩形区域)的中心在待测图像中的坐标(x，y)。各目标区域的大小是指矩形区域的宽度和长度(w，h)；或者矩形区域相对待测图像的相对位置描述，例如各目标区域在待测图像中的位置可以是候选框的相对边界参数(tx、ty、tw、th)：x、y代表一个比例不变的平移w、h代表相对于主体或者特定目标其在对数空间的高或者宽的变换。比如以整个图像背景为参照系，以图像背景的位置为x1、y1、w1、h1，候选框的位置为x、y、w、h，那么相对边界参数tx、ty、tw、th为(x-x1)/w1、(y-y1)/h1、logw1/w、logh1/h)。

可选地，对于一个待测图像中的多个目标区域而言，基于逻辑上的理解或先验知识容易得知，待测图像中相互距离过远的目标之间存在关系的概率较低或部分目标之间不太可能具有关联。例如，如果一副皮肤损伤图像中具有部分衣物的成像区域，基于已有的医学常识容易知道衣物跟皮肤损伤的病情不具有关联；例如在待测图像的边缘具有一个斑点，距离皮肤损伤区域距离较远，与皮肤损伤有关系的概率较低。因此，在一些实施例中，通过检测目标区域之间的距离(例如中心点之间的距离)，或根据目标的类别，排除彼此之间没有关联的目标区域，以提高处理效率。因此，在本公开实施例提供的图像识别方法中，根据各目标区域的位置和大小确定各目标之间的相对位置关系，具体包括在确定相对位置关系以前，选择距离在预设范围内的任意两个目标区域为具有关联的两个目标区域。

可选地，根据各所述目标区域的位置和大小确定各所述目标之间的相对位置关系，具体包括：通过双重空间掩码方法，根据具有关联的两个所述目标区域的位置和大小确定具有关联的两个所述目标区域所对应的目标之间的相对位置关系。

其中，所称的双重空间掩码方法，是将具有关联的两个目标区域在位置和大小上分别进行掩码mask，从而获得每个对象之间的相对位置关系和相对尺寸，例如第一目标区域大于第二目标区域，且局部重叠；或者第一目标区域位于第二目标区域的上方。

可选地，根据所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读，具体包括：将所述目标的类别和所述目标之间的相对位置关系输入到概率知识网络获得所述目标之间的相对位置关系的语义解读。

其中，目标的类别例如可以是根据目标的几何外观、颜色、分布等特征(例如大小、形状等)判断对象的类别，例如通过前述的rcnn判断目标为妇女还或少女，将其类别划分为女性；通过前述的rcnn判断目标为心脏心室区域。基于前述的双重空间掩码方法，获得目标之间的位置关系和相对尺寸，例如目标(女性)位于目标(自行车)左边，二者无重叠；例如，目标(心脏)大于目标(血管肿块)，二者在目标(心脏)左侧局部重叠等。基于所获得的目标类别、目标之间的位置关系和相对尺寸输入到概率知识网络中进行连接，从而获得对二者关系的语义描述。

在此处，所称的概率知识网络，例如可以包括知识库(例如专家知识库或搜索知识库)，例如上述的目标类别、目标之间的位置关系和相对尺寸连接到谷歌搜索引擎、维基百科、pubmed等检索工具产生对某种关联的关系描述。例如概率知识网络中描述了出现妇女和儿童时描述二者相对关系的各种词汇及其对应的位置关系的概率，将其中满足全连接输入的概率部分输出，例如女性骑自行车，例如心脏出现血管肿胀等；例如可以包括经过训练的神经网络(通过将大量图片基于上述的过程对图片的内容进行语义解读和标注，从而使得该神经网络能够对接下来输入的图片的内容进行解读，这样的神经网络例如可以通过cnn实现、可以通过全卷积神经网络fcn实现、可以通过长短时记忆网络lstm实现等；所用的训练数据集可以采用imagenet、cifar-10dataset、cifar-100dataset、microsoftcocodataset、flickropenimagedataset、cophir、msra-mm等图像数据库)；例如可以包括经过训练的具有知识描述的神经网络，例如对于特定的应用领域，如医学领域，由于图片中可能出现的病灶、生理器官等是医学专业人士可以在医学层次的语义表达上进行解读的，可以通过对大量医学图片的语义解读作为样本数据训练形成上述的神经网络(如以标类别、目标之间的位置关系和相对尺寸作为样本数据格式，以医学专业人士的人工语义理解作为标注，例如标注的格式可以是在肺部图像的右上方出现病理阴影)，从而可以基于训练的神经网络输出对医学图片的医学语义解读。

本公开实施例提供的图像识别方法中，对目标区域进行识别，在识别目标后进一步判断目标之间的相对关系。基于目标之间的相对关系输出的语义对医学影像识别是十分有价值的。例如在血管影像图片中，不仅能对对血管肿大的地方进行识别，而且能够识别血管在何者位置出现了肿大，从而产生有意义的病历描述(如血管出现局部肿大，肿大的区域位于血管左侧，肿大的区域相对其它血管区域大两倍)。

下面以图3所示的图像为例说明本公开实施例提供的图像识别方法，如图2所示，具体包括：

s201、确定出待测图像中的多个目标，以及各目标所在的目标区域。例如确定出图3的图像中的目标a为男性，目标b为男性，目标c为自行车。

s202、确定出各目标区域在待测图像中的位置，以及各目标区域的大小。例如图4a至图4c所示的各目标的空间掩码。

s203、将距离在预设范围内的任意两个目标区域规定为具有关联的两个目标区域。例如将目标的掩码进行重叠，如图5中，可以得出目标a的区域与目标c的区域具有重叠区域，目标b的区域与目标c的区域具有重叠区域，目标a的区域与目标b的区域邻近，因此目标a的区域与目标c的区域为具有具有关联的两个目标区域，目标b的区域与目标c的区域为具有关联的两个目标区域，目标a的区域与目标b的区域为具有关联的两个目标区域。

s204、根据具有关联的两个目标区域的位置和大小通过概率知识网络确定具有关联的两个目标区域所对应的目标之间的相对位置关系。例如将类别与目标区域进行全连接，将其连接到一个概率知识网络，该概率知识网络基于谷歌搜索引擎、维基百科、pubmed等检索工具产生对某种关联的关系描述。例如概率知识网络中描述了出现男性和自行时描述二者相对位置关系的各种词汇及其对应的位置关系的概率，将其中满足全连接输入的概率部分输出。例如当将男性与自行车连接到一个概率知识网络时，概率知识网络收集可以得到的所有关于男性与自行车的图片，并预先保存这些图片中当男性与自行车的相对位置在某一情况时，男性骑自行车的概率为多少、男性推自行车手把的概率为多少、男性坐在自行车后座的概率为多少，男性推自行车后座的概率为多少、男性站在自行车的旁边的概率为多少。例如图5中目标a的区域与目标c的区域具有重叠区域，且目标a的中心是位于目标c的中心的上方，这种情况在概率知识网络中属于男性骑自行车的概率较大，因此可以得出目标a与目标c为相对位置关系为：男性骑自行车。例如图5中目标b的区域与目标c的区域具有重叠区域，且目标b的中心是位于目标c的后上方，这种情况在概率知识网络中属于男性推自行车后座的概率比较大，因此可以得出目标b与目标c为相对位置关系为：男性推自行车后座。

基于同一发明构思，本公开实施例还提供了一种图像识别装置，于该图像识别装置解决问题的原理与前述一种图像识别方法相似，因此该图像识别装置的实施可以参见前述图像识别方法的实施，重复之处不再赘述。

具体地，在本公开实施例提供的图像识别装置中，如图6所示，包括：

目标识别单元01，用于确定待测图像中的多个目标的类别，以及各目标所在的目标区域；

目标位置确定单元02，用于获得各目标区域在待测图像中的位置，以及各目标区域的大小；

目标关系识别单元03，用于根据各目标区域的位置和大小确定各目标之间的相对位置关系；

语义解读单元04，用于根据所述目标的类别和所述目标之间的相对位置关系获得所述目标之间的相对位置关系的语义解读。

可选地，在本公开实施例提供的图像识别装置中，目标识别单元具体用于：

采用神经网络确定出确定出待测图像中的多个目标，以及各目标所在的目标区域。

可选地，在本公开实施例提供的图像识别装置中，目标识别单元采用区域卷积神经网络，候选区域设置为不低于200个。

可选地，在本公开实施例提供的图像识别装置中，候选区域的重叠度阈值大于或等于0.5。

可选地，在本公开实施例提供的图像识别装置中，候选区域的重叠度阈值大于或等于0.6且小于或等于0.7。

可选地，在本公开实施例提供的图像识别装置中，目标关系识别单元具体用于：

将距离在预设范围内的任意两个目标区域规定为具有关联的两个目标区域；根据具有关联的两个目标区域的位置和大小确定具有关联的两个目标区域所对应的目标之间的相对位置关系。

可选地，所述语义解读单元包括概率知识网络，所述概率知识网络用于基于目标的类别和目标之间的相对位置关系关联的语义的概率，输出所述目标之间的相对位置关系的语义解读。

其中，所述概率知识网络可以通过搜索知识库实现，也可以基于神经网络实现。

参考图7，本公开的实施例还提供了一种计算机产品500，以实现上述实施例所描述的图像识别装置。该计算机产品可以包括一个或多个处理器502，处理器502被配置为运行计算机指令以执行如前所述方法中的一个或多个步骤。

可选地，所述计算机产品500还包括存储器501，连接所述处理器602，被配置为存储所述计算机指令。

计算机产品500可以实现为本地计算的计算机产品结构，即计算机产品500在用户侧实现上述方法；计算机产品500也可以实现为本地和远端交互的计算机产品结构，即计算机产品500在用户侧的终端实现上述实施例所描述的方法以输入图像，在与用户侧终端连接的网络服务器接收所述图像以执行所述方法。

在一些实施例中，计算机产品可以包括多个终端设备和与多个终端设备连接的网络服务器。

其中，多个终端设备，将各终端设备的图片上传至网络服务器；

其中，网络服务器，获取各终端设备上传的图像，将所获取的图像执行上述实施例的图像识别方法。

存储器501可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

处理器502可以是中央处理单元(cpu)或者现场可编程逻辑阵列(fpga)或者单片机(mcu)或者数字信号处理器(dsp)或者专用集成电路(asic)或者图形处理器(gpu)等具有数据处理能力和/或程序执行能力的逻辑运算器件。

计算机指令包括了一个或多个由对应于处理器的指令集架构定义的处理器操作，这些计算机指令可以被一个或多个计算机程序在逻辑上包含和表示。

该计算机产品500还可以连接各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备等实现计算机产品与其它产品或用户的交互，本文在此不再赘述。

连接可以是通过网络连接，例如无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(internetofthings)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信，无线网络例如可以采用3g/4g/5g移动通信网络、蓝牙、zigbee或者wi-fi等通信方式。

本公开实施例还提供一种计算机可读存储介质，被配置为存储计算机指令，所述计算机指令被处理器运行时执行如前所述图像识别方法中的一个或多个步骤。

本公开实施例提供的图像识别方法及图像识别装置，首先确定出待测图像中的多个目标，以及各目标所在的目标区域；之后确定出各目标区域在待测图像中的位置，以及各目标区域的大小；最后根据各目标区域的位置和大小确定各目标之间的相对位置关系，从而实现对待测图像中的多个目标之间的相对位置关系的语义解读。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韩立通
技术所有人：京东方科技集团股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。