利用小样本生成目标识别模型的方法、装置、设备及介质与流程

文档序号：20755279发布日期：2020-05-15 17:22阅读：358来源：国知局

本发明涉及图像处理技术领域，尤其涉及一种利用小样本生成目标识别模型的方法、装置、设备及介质。

背景技术：

为了更好地对图像进行展示，通常会对图像中的目标(如景物、人、动物等)进行突出显示、重点优化等处理。对图像进行处理过程中，首先要对图像进行识别。现有技术中，对图像中景物进行处理时，通常采用人工识别的方式，这种识别方式不仅识别处理效率低，而且识别的效果因人而异，识别准确性低。

技术实现要素：

有鉴于此，本发明实施例提供了一种利用小样本生成目标识别模型的方法、装置、设备及介质。利用该利用小样本生成目标识别模型的方法、装置、设备及存储介质能够对图像中的目标进行快速准确识别。

本发明实施例一方面，提供了一种利用小样本生成目标识别模型的方法，所述方法包括：

步骤s1：获取包含所述待识别目标的短视频；

步骤s2：拆解短视频，获取所述短视频中的各帧图像；

步骤s3：在一帧或多帧所述图像中框选所述待识别目标，并将各框选出的所述待识别目标均作为训练样本；

步骤s4：根据所述训练样本，生成识别图像中所述待识别目标的目标识别模型。

本发明实施例一方面，提供了一种识别图像中目标的装置，所述装置包括：

第一获取模块，用于获取包含所述待识别目标的短视频；

拆解模块，用于拆解短视频，获取所述短视频中的各帧图像；

框选模块，用于在一帧或多帧所述图像中框选所述待识别目标，并将各框选出的所述待识别目标均作为训练样本；

第一生成模块，用于根据所述训练样本，生成识别图像中所述待识别目标的目标识别模型。

本发明实施例一方面，提供了一种识别图像中目标的设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述利用小样本生成目标识别模型的方法。

本发明实施例一方面，提供了一种存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述利用小样本生成目标识别模型的方法。

综上所述，本发明的有益效果如下：

本发明实施例提供的识别图像目标的方法、装置、设备及存储介质，通过建立目标识别模型，能够利用目标识别模型对图像中的待识别目标进行快速准确识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明一实施例提供的一种利用小样本生成目标识别模型的方法的流程示意图；

图2为本发明一实施例提供的一种利用小样本生成目标识别模型的方法的流程示意图；

图3为本发明一实施例提供的一种利用小样本生成目标识别模型的方法的流程示意图；

图4为本发明一实施例提供的一种利用小样本生成目标识别模型的装置的连接示意图；

图5为本发明一实施例提供的一种利用小样本生成目标识别模型的装置的连接示意图；

图6为本发明一实施例提供的一种利用小样本生成目标识别模型的装置的连接示意图；

图7为本发明一实施例提供的一种利用小样本生成目标识别模型的设备中各部件的连接示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明一实施例提供了一种利用小样本生成目标识别模型的方法，这里的小样本通常是指采集的样本数量比较少的情况，如通常一段几分钟长度的短视频，可以分割出多帧图像，但这多帧图像产生的样本量并不大，通常也就在几千帧左右，如图1所示，该方法包括下列步骤s1-步骤s4：

步骤s1：获取包含所述待识别目标的短视频。

短视频中通常包含多帧图像。短视频的多帧图像中通常均包含待识别目标。短视频中的各帧图像通常也包含待识别目标的各种状态或各种形状。利用短视频各帧图像中的待识别目标，能够生成目标识别模型。目标包括图像中的景物、人、动物等。

如当待识别目标为树时，短视频中通常包含多棵各种形态的树。要生成对树进行识别的目标识别模型，首先要获取包含多棵各种形态树的短视频；然后对短视频中的多棵树进行特征提取，获取表示各树特征的数据；再利用已获取的数据进行训练提取，才能获取所有树的相同特征；最后利用所有树的相同特征与各树之间的关系建立对树进行识别的目标识别模型。

因此在生成目标识别模型之前，要先获取包含待识别目标的短视频。

步骤s2：拆解短视频，获取所述短视频中的各帧图像。

根据接收到的用户的指令，能够对短视频进行拆解，获取短视频中的各帧图像。然后将每一帧图像作为独立文件进行保存。

视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。因此，短视频中包含多帧图像。对短视频进行拆解，能够获得包含各种画面的各帧图像。

拆解短视频获取的多帧图像中包括包含待识别目标的图像。获取包含待识别目标的图像，对包括待识别目标的图像进行分析，才能建立目标识别模型。

步骤s3：在一帧或多帧所述图像中框选所述待识别目标，并将各框选出的所述待识别目标均作为训练样本。

在利用包含待识别目标的图像建立目标识别模型之前，要在一帧或多帧图像中查找并标记待识别目标，以便利用标记出的待识别目标建立目标识别模型。在包含待识别目标的一帧或多帧图像中框选待识别目标为对查找到的待识别目标进行标记的一种方式。在图像中框选待识别目标包括在待识别目标周围的图像上生成圆形或方形的框，以便将待识别目标标记出来。

通过在一帧或多帧所述图像中框选所述待识别目标，能够将各框选出的待识别目标作为训练样本，从而能够利用训练样本进行训练生成识别图像中待识别目标的目标识别模型。

在一种实施例中，步骤s3之后还包括：根据接收到的用户指令，删除不包含待识别目标的图像。

删除不包含待识别目标的图像，能够防止不包含待识别目标的图像对后续处理过程产生干扰。

在一种实施例中，步骤s3之后还包括：在框选操作结束后，显示拆解短视频获取的各帧图像；根据接收到的用户指令，重复步骤s3。直到各帧图像中的待识别目标均被框选出。

步骤s4：根据所述训练样本，生成识别图像中所述待识别目标的目标识别模型。

训练样本包括各框选出的待识别目标。框选出待识别目标后，会利用框选出的待识别目标进行训练，生成能够对待识别目标进行识别的目标识别模型。

在一种实施例中，如图3所示，步骤s4包括下列步骤s41-步骤s42。

步骤s41：对各所述训练样本分别进行风格迁移，获取迁移样本。

步骤s42：对所述训练样本和所述迁移样本进行训练，生成所述目标识别模型。

训练样本包括各框选出的待识别目标。对所述训练样本进行风格迁移，获取转换识别目标，包括：将形状为圆形的待识别目标，转换成形状为椭圆形的待识别目标，从而获取形状为椭圆形的转换识别目标。本发明实施例中，为克服风格迁移时出现图像扭曲以及图像的内容边缘丢失图像细节，采用深度卷积网络模型进行图像风格迁移，步骤s41具体包括以下步骤：

s421:对输入图像采用语义分割得到内容图像和风格图像分割掩膜；

s422：将掩膜添加到输入图像作为附加通道，抑制图像在风格转换中出现迁移溢出；

s423:对内容图像进行边缘锐化处理；

s424:对锐化处理后的内容图像进行仿真渲染；

s425:比较渲染图像与数据库中存储的真实内容图像之间在图像纹理、颜色和视觉方面的差异度；

s426:当获得的差异度小于预设阈值范围时，则采用所述渲染图像；

s427：将所述渲染图像作为内容图像与风格进行融合得到迁移样本。

进一步地，上述步骤s42还可以作以下改进，在对所述训练样本和所述迁移样本进行训练时，依据训练样本的数量和迁移样本的数量，确定迭代次数，在不同迭代次数下生成相对应的所述目标识别模型，供用户选择喜爱的风格迁移。

此外，在训练样本和迁移样本进行训练之前，提取内容图像的颜色信息和亮度信息，以及风格图像的颜色信息和亮度信息，进行色彩平衡处理，使得迁移后的画面自然统一，不会在过渡区域出现明显的拼接痕迹。

通过上述步骤可以确保在风格迁移过程中不会出现图像扭曲以及图像细节丢失等问题，有利于得到真实的风格迁移图像，从而确保获得准确的目标识别模型。

生成目标识别模型过程中，需要对已框选的待识别目标进行训练，对训练样本进行风格迁移，能够增加参与训练的样本数量，使生成的目标识别模型更准确。对训练样本进行风格迁移，生成转换识别目标后，能够将训练样本和迁移样本一起进行训练，生成目标识别模型。

对所述训练样本和所述迁移样本进行训练，包括：针对框选出的训练样本和迁移样本中的每一目标，获取表示该目标特征的数据；对已获取的各数据进行处理计算，获取表示所有目标共同特征的数据。然后再根据训练过程，生成目标识别模型。

在一种实施例中，步骤s4之后还包括：

步骤s5：获取包括待识别目标的图像。

待识别目标包括图像中的景物、人、动物等。图像包括由多帧图像形成的视频、仅包含一帧图像的照片等。当图像为视频时，对视频的处理通常包含对视频中待识别目标的处理过程。在利用大数据挖掘方式对图像中的目标进行快速处理之前，通常要对视频中每一帧图像包含的目标进行快速准确识别，然后才能对识别出的目标进行处理。获取包含目标的图像，才能对图像中的目标进行识别处理。

步骤s6：判断是否存在能够对所述目标进行识别的识别模型。

识别模型能够对目标进行识别。识别模型也包括能够对视频各帧图像中包含的所有目标进行统一识别的模型。利用识别模型能够对视频中包含的所有目标进行快速准确识别。在对视频中的目标进行识别之前，首先要判断是否已存在能够对视频中的目标进行识别的识别模型。

步骤s7：若不存在对所述目标进行识别的所述识别模型，则利用步骤s1-步骤s4生成能够对所述目标进行识别的目标识别模型。

若不存在对目标进行识别的识别模型，则需要先生成对目标进行识别的目标识别模型，才能利用目标识别模型对目标进行识别。目标识别模块与识别模型一样，均能够对待识别目标进行识别。

在一种实施例中，步骤s6之后还包括：若已存在对所述目标进行识别的所述识别模型，则利用所述识别模型识别并标记所述图像中的所述目标。

识别模型标记图像中的目标，包括：识别模型框选出目标。通过利用识别模型标记目标，能够对目标进行突出显示。

步骤s8：利用所述目标识别模型，对所述图像中的所述目标进行识别。

当然，为提高风格迁移效率，对于本发明中的小样本量，利用已生成的目标识别模型，优选采用感知损失的方法进行，能够对图像中的目标进行快速准确识别，从而能够对已识别出的目标及时进行后续处理。图像包括视频中的各帧图像，利用目标识别模型，能够对视频中各帧图像分别包含的目标进行快速准确识别。

上述方法中，通过建立目标识别模型，能够利用目标识别模型对图像中的目标识别。

本发明一实施例还提供了一种识别图像中目标的装置。如图4所示，该装置包括：第一获取模块110、拆解模块120、框选模块130和第一生成模块140。

第一获取模块110，用于获取包含所述待识别目标的短视频。

短视频中通常包含多帧图像。短视频中通常有多帧图像包含待识别目标。短视频中的各帧图像通常也可能包含待识别目标的各种状态或各种形状。利用短视频各帧图像中的待识别目标，能够生成目标识别模型。

如当待识别目标为树时，短视频中通常包含多棵各种形态的树。要生成对树进行识别的目标识别模型，首先要利用第一获取模块110获取包含多棵各种形态树的短视频；然后对短视频中的多棵树进行特征提取，获取表示各树特征的数据；再利用已获取的数据进行训练提取，才能获取所有树的相同特征；最后利用所有树的相同特征与各树之间的关系建立对树进行识别的目标识别模型。

因此在生成目标识别模型之前，要先利用第一获取模块110获取包含待识别目标的短视频。

拆解模块120，用于拆解短视频，获取所述短视频中的各帧图像。

拆解模块120根据接收到的用户的指令，能够对短视频进行拆解，获取短视频中的各帧图像，然后将每一帧图像作为独立文件进行保存。

视频泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面；看上去是平滑连续的视觉效果，这样连续的画面叫做视频。因此，短视频中包含多帧图像。拆解模块120通过对短视频进行拆解，能够获得包含各种画面的各帧图像。

拆解模块120拆解短视频获取的多帧图像中包括包含待识别目标的图像。通过拆解模块120获取包含待识别目标的图像，然后对包括待识别目标的图像进行分析，才能建立目标识别模型。

框选模块130，用于在一帧或多帧所述图像中框选所述待识别目标，并将各框选出的所述待识别目标均作为训练样本。

在利用包含待识别目标的图像建立目标识别模型之前，要在一帧或多帧图像中查找并标记待识别目标，以便利用标记出的待识别目标建立目标识别模型。利用框选模块130在包含待识别目标的一帧或多帧图像中框选待识别目标为对查找到的待识别目标进行标记的一种方式。框选模块130在图像中框选待识别目标包括：框选模块130在待识别目标周围的图像上生成圆形或方形的框，以便将待识别目标标记出来。

在一种实施例中，框选模块130，还用于根据接收到的用户指令，删除不包含待识别目标的图像。

框选模块130通过删除不包含待识别目标的图像，能够防止不包含待识别目标的图像对后续处理过程产生干扰。

在一种实施例中，框选模块130，还用于在框选操作结束后，显示拆解短视频获取的各帧图像；根据接收到的用户指令，再次在一帧或多帧所述图像中框选所述待识别目标。直到各帧图像中的待识别目标均被框选出。

第一生成模块140，用于根据所述训练样本，生成识别图像中所述待识别目标的目标识别模型。

训练样本包括各框选出的待识别目标。框选出待识别目标后，第一生成模块140会利用框选出的待识别目标进行训练，生成能够对待识别目标进行识别的目标识别模型。

在一种实施例中，如图6所示，第一生成模块140包括迁移子模块141和生成子模块142。

迁移子模块141，用于对各所述训练样本分别进行风格迁移，获取迁移样本。

生成子模块142，对所述训练样本和所述迁移样本进行训练，生成所述目标识别模型。

训练样本包括各框选出的待识别目标。迁移子模块141对所述训练样本进行风格迁移，获取转换识别目标，包括：迁移子模块141将形状为圆形的待识别目标，转换成形状为椭圆形的待识别目标，从而获取形状为椭圆形的转换识别目标。

利用生成子模块142生成目标识别模型过程中，需要对已框选的待识别目标进行训练，对样本进行风格迁移，能够增加参与训练的样本数量，使生成的目标识别模型更准确。利用迁移子模块141对训练样本进行风格迁移，生成转换识别目标后，能够将训练样本和迁移样本一起进行训练，生成目标识别模型。

生成子模块142对所述训练样本和所述迁移样本进行训练，包括：生成子模块142针对框选出的训练样本和迁移样本中的每一目标，获取表示该目标特征的数据；生成子模块142再对已获取的各数据进行处理计算，获取表示所有目标共同特征的数据。然后再根据训练过程，生成目标识别模型。

在一种实施例中，该装置还包括：第二获取模块150、判断模块160、第二生成模块170、识别模块180。

第二获取模块150，用于获取图像。

目标包括图像中的景物、人、动物等。图像包括由多帧图像形成的视频、仅包含一帧图像的照片等。当图像为视频时，对视频的处理通常包含对视频中目标的处理过程。在利用大数据挖掘方式对图像中的目标进行快速处理之前，通常要利用对视频中每一帧图像包含的目标进行快速准确识别，然后才能对视频各帧图像中的所有目标进行统一处理，从而提高对视频的处理速度。通过第二获取模块150获取包含目标的图像，才能对图像中的目标进行识别处理。

判断模块160，用于判断是否存在能够对所述图像中的目标进行识别的识别模型。

识别模型能够对目标进行识别。识别模型也包括能够对视频各帧图像中包含的所有目标进行统一识别的模型。利用识别模型能够对视频中包含的所有目标进行快速准确识别。在对视频中的目标进行识别之前，首先要利用判断模型120判断是否已存在能够对视频中的目标进行识别的识别模型。

第二生成模块170，用于若不存在对所述目标进行识别的所述识别模型，则生成能够对所述目标进行识别的目标识别模型。

若不存在对目标进行识别的识别模型，则需要先利用第二生成模块170生成对目标进行识别的目标识别模型，才能利用目标识别模型对目标进行识别。目标识别模块与识别模型一样，均能够对图像中的目标进行识别。

在一种实施例中，判断模块160，还用于若已存在对所述目标进行识别的所述识别模型，则利用所述识别模型识别并标记所述图像中的所述目标。

识别模型标记图像中的目标，包括：识别模型框选出目标。通过利用识别模型标记目标，能够对目标进行突出显示。

识别模块180，用于利用所述目标识别模型，对所述图像中的所述目标进行识别。

识别模块180利用已生成的目标识别模型，能够对图像中的目标进行快速准确识别，从而能够对已识别出的目标进行后续处理。图像包括视频中的各帧图像，识别模块180利用目标识别模型，能够对视频中各帧图像分别包含的目标进行快速识别。

上述装置中，通过建立目标识别模型，能够利用目标识别模型对图像中的目标进行快速准确识别。

本发明一实施例提供了一种识别图像中目标的设备，如图7所示，该识别图像中目标的设备包括：存储器211、处理器212和接入设备213。存储器211、处理器212和接入设备213之间通过总线214连接。

处理器212包括可以包括中央处理器(cpu)，或者特定集成电路(applicationspecificintegratedcircuit，asic)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器211可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器211可包括硬盘驱动器(harddiskdrive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器211可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器211可在数据处理装置的内部或外部。在特定实施例中，存储器211是非易失性固态存储器。在特定实施例中，存储器211包括只读存储器(rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

接入设备213主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线214包括硬件、软件或两者，将驾驶风险评估设备的部件彼此耦接在一起。举例来说而非限制，总线214可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线214可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

处理器212通过读取并执行存储器211中存储的计算机程序指令，以实现上述实施例中的任意一种利用小样本生成目标识别模型的方法。

另外，结合上述实施例中的清洁方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种利用小样本生成目标识别模型的方法。

综上所述，本发明实施例提供的利用小样本生成目标识别模型的方法、装置、设备及存储介质，通过生成目标识别模型，能够对图像种的目标进行快速准确识别。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈辉;张晓亮;熊章;雷奇文;胡国湖
技术所有人：武汉星巡智能科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。