一种图像目标检测及语义分割方法和装置与流程

文档序号：19419927发布日期：2019-12-14 01:19阅读：145来源：国知局

本说明书实施例涉及图像处理方法，更具体地，涉及一种图像目标检测及语义分割方法和装置。

背景技术：

在常规的车险理赔场景中,保险公司需要派出专业的查勘定损人员到事故现场进行现场查勘定损，给出车辆的维修方案和赔偿金额，拍摄现场照片，并将定损照片留档以供核查人员核损核价。由于需要人工查勘定损，保险公司需要投入大量的人力成本，和专业知识的培训成本。从普通用户的体验来说，理赔流程由于等待人工查勘员现场拍照、定损员在维修地点定损、核损人员在后台核损，理赔周期较长。

随着互联网的发展，出现一种理赔方案，其中，通过用户在现场拍摄车损照片，并将所述照片上传至服务器，从而通过算法或人工基于所述车损照片进行定损和理赔。然而，在该方案中，通常对拍摄的照片有一定的要求，而用户通常很难做到符合这些要求。因此，需要一种引导用户拍摄定损照片的技术，以满足上述需求。在该引导用户拍摄定损照片的技术中，通常需要快速地在镜头采集的视频流中对车辆部件进行目标检测或语义分割，识别出不同部件的位置，以通过示出与车辆部件或车辆损伤对应的目标框或语义分割信息，从而达到引导的目的。对于该需求，现有技术中通常的做法是通过目标检测及语义分割模型获取视频的每一帧的目标检测或语义分割结果。

因此，需要一种更有效地获取图像的目标检测或语义分割结果的方法。

技术实现要素：

本说明书实施例旨在提供一种更有效的获取图像的目标检测或语义分割结果的方法，以解决现有技术中的不足。

为实现上述目的，本说明书一个方面提供一种用于图像的目标检测或语义分割方法，包括：

获取第一图像、第二图像及第一图像的目标检测结果或语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的目标检测对象或语义分割类别；

计算第一图像与第二图像之间的关联关系；以及

基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，在所述用于图像的目标检测或语义分割方法中，所述第一图像的目标检测结果或语义分割结果通过将所述第一图像输入预定目标检测及语义分割模型获取。

在一个实施例中，在所述用于图像的目标检测或语义分割方法中，所述关联关系包括光流或映射矩阵。

在一个实施例中，所述用于图像的目标检测或语义分割方法还包括，在计算第一图像与第二图像之间的关联关系之后，基于所述第一图像和所述关联关系，获取与第二图像对应的预测图像；基于所述第二图像与所述预测图像，计算预测误差，其中，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果包括，在所述预测误差小于预定阈值的情况中，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割方法，还包括，在所述预测误差大于预定阈值的情况中，将所述第二图像输入预定目标检测及语义分割模型，以获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割方法还包括，在获取所述第二图像的目标检测结果或语义分割结果之后，对所述第二图像的目标检测结果或语义分割结果进行平滑处理。

在一个实施例中，在所述用于图像的目标检测或语义分割方法中，所述第一图像和第二图像为视频流中的相邻帧图像。

在一个实施例中，在所述用于图像的目标检测或语义分割方法中，所述视频流为事故车辆的视频流。

在一个实施例中，在所述用于图像的目标检测或语义分割方法中，所述方法在移动设备端执行，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述方法还包括，在获取所述第二图像的目标检测结果或语义分割结果之后，在所述显示屏上示出所述目标检测结果或所述语义分割结果。

本说明书另一方面提供一种用于图像的目标检测或语义分割装置，包括：

第一获取单元，配置为，获取第一图像、第二图像及第一图像的目标检测结果或语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的目标检测对象或语义分割类别；

第一计算单元，配置为，计算所述第一图像与所述第二图像之间的关联关系；以及

第二获取单元，配置为，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括：第三获取单元，配置为，在计算第一图像与第二图像之间的关联关系之后，基于所述第一图像和所述关联关系，获取与第二图像对应的预测图像；第二计算单元，配置为，基于所述第二图像与所述预测图像，计算预测误差，其中，所述第二获取单元还配置为，在所述预测误差小于预定阈值的情况中，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括输入单元，配置为，在所述预测误差大于预定阈值的情况中，将所述第二图像输入预定目标检测及语义分割模型，以获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括平滑单元，配置为，在获取所述第二图像的目标检测结果或语义分割结果之后，对所述第二图像的目标检测结果或语义分割结果进行平滑处理。

在一个实施例中，在所述用于图像的目标检测或语义分割装置中，所述装置在移动设备端实施，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述装置还包括示出单元，配置为，在获取所述第二图像的目标检测结果或语义分割结果之后，在所述显示屏上示出所述目标检测结果或所述语义分割结果。

本说明书另一方面提供一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项用于图像的目标检测或语义分割方法。

在根据本说明书实施例的图像目标检测或语义分割方法中，通过充分利用图像之间的关联关系，通过算法自动判定当前帧是否需要调用目标检测或语义分割算法，在不需要调用目标检测或语义分割算法的情况中，通过图像间的关联关系获取当前帧图像的目标检测结果或语义分割结果，减少了不必要的计算，节省了计算资源，提高了计算速度，同时还保持了较高的精度，从而改善了用户体验。

附图说明

通过结合附图描述本说明书实施例，可以使得本说明书实施例更加清楚：

图1示意示出根据本说明书实施例的图像目标检测及语义分割系统100；

图2示出根据本说明书实施例的一种用于图像的目标检测或语义分割方法的流程图；

图3示出映射矩阵的映射效果；

图4示出了基于第一图像的目标框以及第一图像与第二图像的关联关系获取第二图像的目标框的示意图；以及

图5示出根据本说明书实施例的一种用于图像的目标检测或语义分割装置500。

具体实施方式

下面将结合附图描述本说明书实施例。

图1示意示出根据本说明书实施例的图像目标检测及语义分割系统100。如图1所示，系统100包括关联关系获取单元11、误差确定单元12、映射单元13、目标检测及语义分割模型14和显示屏15。系统100例如为用于进行车辆定损的移动设备，如手机、智能设备等。所述关联关系获取单元11例如用于获取图像之间的光流或图像之间的映射矩阵，其基于其获取的具体关联关系，而具有相应的模型、算法。例如，在关联关系获取单元11用于获取图像之间的光流的情况中，关联关系获取单元11中包括多个flownet以用于获取图像之间的光流。

例如，在通过上述系统100对第二图像进行目标检测或语义分割的情况中，首先将第一图像和第二图像输入关联关系获取单元11，其中，第一图像与第二图像包括至少一个相同的目标检测对象或语义分割类别，例如，第一图像和第二图像是车险事故车辆视频流中的相邻两帧图像，在该情况中，第一图像和第二图像中包括的目标检测对象或语义分割类别(如车辆部件、车辆损伤等)基本相同。另外，在app中已经获取第一图像的例如车辆部件的目标框或语义分割信息，例如，可通过将第一图像输入目标检测及语义分割模型14，从而获取其上的目标框和语义分割信息。

在关联关系获取单元11中，计算第一图像与第二图像之间的关联关系，并将第一图像、第二图像和所述关联关系发送给误差确定单元12。在误差确定单元12中，基于第一图像和所述关联关系，获取与第二图像对应的预测图像，并基于第二图像和预测图像，计算预测误差。在预测误差小于预定阈值的情况中，误差确定单元12将第二图像和关联关系发送给映射单元13。同时，app对映射单元13输入第一图像的目标检测结果或语义分割结果。在映射单元13中，基于第一图像的目标检测结果或语义分割结果、第二图像、以及第一图像与第二图像之间的关联关系，将第一图像的目标检测结果或语义分割结果映射到第二图像上，从而获取第二图像的目标检测结果或语义分割结果。在上述预测误差大于预定阈值的情况中，例如通过误差确定单元12将第二图像发送给目标检测及语义分割模型14，从而通过将第二图像输入目标检测及语义分割模型14，从而获取第二图像的目标检测结果或语义分割结果。在获取第二图像的目标检测结果或语义分割结果之后，例如可在显示屏中实时显示所述第二图像的目标检测结果或语义分割结果。

图1所示的系统100的结构只是示意性的，并不限制根据本说明书实施例的系统的结构。例如，图1中所示的误差确定单元12、显示屏15都不是本说明书实施例必需的。再例如，第一图像上的目标框和语义分割信息不一定通过目标检测及语义分割模型14获取，而是也可以通过上述方法获取。

图2示出根据本说明书实施例的一种用于图像的目标检测或语义分割方法的流程图。所述方法包括：

在步骤s202，获取第一图像、第二图像及第一图像的目标检测结果或语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的目标检测对象或语义分割类别；

在步骤s204，计算第一图像与第二图像之间的关联关系；以及

在步骤s206，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

首先，在步骤s202，获取第一图像、第二图像及第一图像的目标检测结果或语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的目标检测对象或语义分割类别。

在一个实施例中，该方法在移动设备(例如手机)端执行，下文将以手机为例说明该方法。然而，可以理解，根据本说明书实施例的方法不限于在例如手机的移动设备端执行，例如，该方法也可以在服务器端执行。

在一个实施例中，所述第一图像和第二图像例如为视频流中的相邻帧图像，从而第一图像和第二图像包括基本相同的目标检测对象或语义分割类别。在一个实施例中，所述视频流为事故车辆的视频流，所述目标检测对象、语义分割类别为车辆部件和/或车辆损伤。

在例如手机端，用户(例如事故车辆车主)可打开用于车辆定损的app，并打开app中的拍摄界面，同时将摄像头对准事故车辆。在打开拍摄界面之后，app调用手机摄像头采集事故车辆的视频流，同时在手机屏上显示该视频流。所述第一图像例如为该视频流的第一帧图像。所述第二图像例如为该视频流的第二帧图像。当app获取该视频流的第一帧图像之后，app将该第一帧图像输入手机中部署的目标检测及语义分割模型中，以获取该第一帧图像的目标检测结果和/或语义分割结果。

所述目标检测及语义分割模型是用于移动端的轻量化的模型，其例如通过mobilenetv2+ssdlite而实现，或者还可以通过mobilenetv2+deeplabv3、maskrcnn等实现。在一个实施例中，所述目标检测及语义分割模型可通过大量加标注(目标框或分割信息)的车辆损伤图像进行训练获得。其中，在所述训练样本中针对车辆的部件、或损伤区域进行标注，从而可训练出用于针对车辆部件和车辆损伤的目标检测及语义分割模型。

本领域技术人员可以理解，上述对步骤s202的说明只是示例说明，并不用于限制该方法，例如，所述方法不限于在手机端执行，所述第一图像和第二图像不限于视频流中的相邻帧的图像，也不限于为事故车辆视频流中的图像。另外，第一图像的目标检测结果或语义分割结果不限于通过目标检测及语义分割模型获取，而是例如可通过本说明书实施例的方法获取。例如，第一图像为上述事故车辆视频流的第二帧图像，其上目标框和/或语义分割信息通过图2所示方法获取。

在步骤s204，计算第一图像与第二图像之间的关联关系。

所述关联关系例如为图像间的光流、映射矩阵等。可以理解，所述关联关系还可包括其它各种关联关系，例如，图像间的拍摄位置角度变换等。

在一个实施例中，所述关联关系包括通过多个flownet构建的帧与帧之间的动态信息。例如，通过flownet1处理第一图像，获得与第一图像对应的图像特征，通过flownet2处理第二图像，获得与第二图像对应的图像特征，通过融合flownet1与flownet2的输出，从而获得第一图像与第二图像之间的光流。可以理解，获取图像间光流的方法不限于上述方法，而可以包括本领域技术人员可获取的其它方法，例如，可通过将第一图像与第二图像同时输入一种flownet网络，同时对第一图像和第二图像进行处理，从而获取第一图像与第二图像的光流。

在一个实施例中，所述关联关系包括图像间的映射矩阵。在一种用于获取图像之间的映射矩阵的算法中，首先计算第一图像与第二图像之间的图像梯度和图像差值，然后，通过最小二乘优化和cholesky分解，获取第一图像与第二图像之间的映射矩阵。可以理解，用于获取映射矩阵的方法不限于上述所述方法，而包括本领域技术人员可获取的其它方法，如ransac方法、lmeds方法等。图3示出映射矩阵的映射效果。如图3所示，(a)为第一图像，(c)为第二图像，(b)为使用映射矩阵变换第一图像所获得的第二图像’，该映射矩阵为第一图像到第二图像的映射矩阵。可见经过映射矩阵的变换的第二图像’与第二图像基本一致。其中，如图所示，即第一图像和第二图像包括多个相同的车辆部件、车辆损伤，如车轮、车门等。

在步骤s206，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

图4示出了基于第一图像的目标框以及第一图像与第二图像的关联关系获取第二图像的目标框的示意图。在图4中，图4(a)为与图3(a)所示相同的第一图像，不同的是，其中包括目标框标出车辆损伤，图4(b)为通过上述图3(a)与图3(c)之间的映射关系对图4(a)进行映射所获取的图像。从而，通过第一图像与第二图像之间的映射关系，可将第一图像中的目标框映射到第二图像的相同车辆损伤所在的位置，从而获取了对第二图像的目标检测结果。同样地，对于第一图像上的语义分割信息，例如，对车轮、车门的分割等，可同样地通过上述映射矩阵，映射到第二图像上，从而获取对第二图像的语义分割结果。

这里虽然以映射矩阵为例进行了说明，可以理解，对于其它关联关系，可类似地通过上述转换步骤，将第一图像上的目标检测结果或语义分割结果相应地转换到第二图像上，从而可以较小的计算量获取第二图像的目标检测结果或语义分割结果。

在一个实施例中，在计算第一图像与第二图像之间的关联关系之后，基于所述第一图像和所述关联关系，获取与第二图像对应的预测图像；基于所述第二图像与所述预测图像，计算预测误差。在所述预测误差小于预定阈值的情况中，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。在所述预测误差大于预定阈值的情况中，将所述第二图像输入预定目标检测及语义分割模型，以获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述关联关系为第一图像与第二图像之间的光流。在该情况中，由于光流表示的是第一图像与第二图像之间的位移向量，因此，基于第一图像与第二图像之间的光流，以及第一图像，可获取与第二图像对应的预测图像。在获取预测图像之后，可进行预测图像与第二图像之间的比较，以计算预测误差。例如，通过计算预测图像与第二图像的每对对应像素的差值的平方和，从而计算预测误差，其中，像素的差值例如为像素灰度值(在图像为灰度图的情况下)的差值，或者，像素的差值为rgb向量距离(在图像为彩色图的情况下)。该预测误差的计算不限于上述方式，例如，通过将预测图像和第二图像各自包括的多个像素的像素值转换为与预测图像和第二图像分别对应的两个向量，从而通过计算两个向量之间的高维欧氏距离，获取所述预测误差。在该预测误差小于预定阈值的情况中，说明第一图像与第二图像之间的光流的预测质量较高，因此，可通过该光流将第一图像上的目标框(或分割信息)转换到第二图像上。从而相比于直接输入目标检测及语义分割模型，可以较少的计算量获取目标检测结果或语义分割结果。

在一个实施例中，所述关联关系为第一图像与第二图像之间的映射矩阵，如图3所示，可基于该映射矩阵和第一图像，获取对第二图像的预测图像，即图3(b)。与上文类似地，可通过计算预测图像与第二图像之间的预测误差，确定该映射矩阵的预测质量，即如图3所示，可通过如上所述计算图3(b)与图3(c)之间的预测误差，确定映射矩阵的映射质量。在预测误差较小的情况中，可如图4(b)所示，例如将第一图像中的目标框等映射到第二图像上，从而获取第二图像的目标检测结果或语义分割结果。

在一个实施例中，在通过图2所示的方法获取第二图像的目标检测结果或语义分割结果的情况中，由于在与关联关系(如光流)相关的计算中，会增加较多的噪声，因此，在获取的第二图像的目标框或语义分割上会出现锯齿状边界。因此，在如上所述获取第二图像的目标检测结果或语义分割结果之后，还对该目标检测结果或语义分割结果进行平滑处理，以改善显示效果。

如前文所述，根据本说明书实施例的该方法可用于手机端，用户在打开app中的拍摄界面之后，app调用手机摄像头采集事故车辆的视频流，同时在手机屏上显示该视频流。在通过目标检测及语义分割模型对该视频流的第一帧进行目标检测和/或语义分割之后，对于该视频流的后面的帧，例如第二帧，都可以用上述方法进行目标检测或语义分割，以获取目标检测结果或语义分割结果。由于该方法相比于直接输入目标检测及语义分割模型，计算量大大降低，从而可基本实时地获取对视频流当前帧图像的目标检测或语义分割，并实时地显示在手机屏上，从而可以通过目标框、语义分割信息以及与其相关的信息实时对用户的拍摄进行提示。

图5示出根据本说明书实施例的一种用于图像的目标检测或语义分割装置500，包括：

第一获取单元51，配置为，获取第一图像、第二图像及第一图像的目标检测结果或语义分割结果，其中，所述第一图像和第二图像包括至少一个相同的目标检测对象或语义分割类别；

第一计算单元52，配置为，计算所述第一图像与所述第二图像之间的关联关系；以及

第二获取单元53，配置为，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括：第三获取单元54，配置为，在计算第一图像与第二图像之间的关联关系之后，基于所述第一图像和所述关联关系，获取与第二图像对应的预测图像；第二计算单元55，配置为，基于所述第二图像与所述预测图像，计算预测误差，其中，所述第二获取单元53还配置为，在所述预测误差小于预定阈值的情况中，基于所述第一图像的目标检测结果或语义分割结果、及所述关联关系，获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括输入单元56，配置为，在所述预测误差大于预定阈值的情况中，将所述第二图像输入预定目标检测及语义分割模型，以获取所述第二图像的目标检测结果或语义分割结果。

在一个实施例中，所述用于图像的目标检测或语义分割装置还包括平滑单元57，配置为，在获取所述第二图像的目标检测结果或语义分割结果之后，对所述第二图像的目标检测结果或语义分割结果进行平滑处理。

在一个实施例中，在所述用于图像的目标检测或语义分割装置中，所述装置在移动设备端实施，所述移动设备包括摄像头和显示屏，其中，所述视频流为根据用户指令通过所述摄像头采集的视频流，所述第二图像为所述视频流的当前帧，所述装置还包括示出单元58，配置为，在获取所述第二图像的目标检测结果或语义分割结果之后，在所述显示屏上示出所述目标检测结果或所述语义分割结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭昕;程远
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：用于执行基于终端的切换的方法及其设备与流程
上一篇：薄壁零件的电镀方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。