一种水下图像目标检测方法及系统与流程

文档序号：16630749发布日期：2019-01-16 06:32阅读：289来源：国知局

本发明实施例涉及图像处理技术领域，更具体地，涉及一种水下图像目标检测方法及系统。

背景技术：

水下机器视觉作为感知水下世界的重要技术之一，如今已越来越被广泛应用于海洋工程、水下探索、目标检测、生物监测等各个方面，为海洋学和渔业科学研究提供了丰富的信息，为智慧海洋、智慧渔业的发展奠定了基础。水下图像目标检测技术作为其分支，搭载于水下机器人上，将图像和视频分析、生物量检测、生物识别查找等应用于水下环境，促进了海洋探测及渔业自动化的发展。

然而水下的环境通常光照不足、噪声明显、对比度低、画面偏色严重，而且水下目标往往拥有和环境相似的保护色，以上因素都大大限制了检测算法在水下图像中的性能发挥。现有技术大多基于手工设计的特征(如颜色、形状、纹理、sift、hog、dpm等)提取目标特征，然后采用模式识别方法对目标进行识别定位。

但是手工设计的特征工程费时费力，而且对水下复杂背景的鲁棒性不好，在水下复杂背景下的识别准确度较低，同时现有目标检测方法运行时往往存在耗时长的问题，无法很好适应自动检测和自动捕捞等实际应用需求。

技术实现要素：

本发明实施例提供了一种克服上述问题或者至少部分地解决上述问题的水下图像目标检测方法及系统。

第一方面本发明实施例提供了一种水下图像目标检测方法，包括：

获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像；

将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

另一方面本发明实施例提供了一种水下图像目标检测系统，包括：

图像预处理模块，用于获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像；

目标检测模块，用于将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

第三方面本发明实施例提供了包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑指令，以执行第一方面提供的水下图像目标检测方法。

第四方面本发明实施例提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的水下图像目标检测方法。

本发明实施例提供的一种水下图像目标检测方法及系统，通过对待检测水下图像进行预处理之后，采用改进的fpn对经过预处理的待检测水下图像进行目标检测，输出目标检测结果，无需手动设计特征，检测过程耗时短，且得到的检测结果准确度高，能很好的适应自动检测和自动捕捞等实际应用需求。

附图说明

图1为本发明实施例提供的一种水下图像目标检测方法的流程图；

图2为本发明实施例中c.relu结构的示意图；

图3为本发明实施例中预设fpn的结构示意图；

图4为本发明实施例提供的一种水下图像目标检测系统的结构框图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种水下图像目标检测方法的流程图，如图1所示，包括：

s101，获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像；

s102，将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

其中，在步骤s101中，由于水下环境成像条件较差，水下图像常会出现失真和模糊，需要对待检测水下图像其进行去噪处理，以便后续检测。利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到的第一图像即为后续可以直接输入训练好的预设fpn中的输入量。

在步骤s102中，采用训练好的预设fpn对第一图像进行检测，预设fpn将现有fpn的主干卷积网络cnn换成轻量级的pvanet，加入c.relu结构。由于cnn网络的前几层学习到的滤波器中存在负相关，即低层的卷积核总是成对出现(参数互为相反数)，因此c.relu结构将输出特征图个数减少为原始的一半，另一半直接取相反数得到，再将两部分特征图连接，从而减少了卷积核数目，提高了运行效率。本发明实施例将c.relu加入fpn的浅层卷积网络中，能够在不降低准确率的同时减少网络参数，缩短了时间损耗。

具体地，图2所示为c.relu结构的示意图，其中convolution表示卷积操作；negation表示取相反数；concatenation表示将两部分特征图连接；scale/shift表示缩放；relu表示用relu函数进行激活；shortcutconnection表示残差连接。

现有fpn中最重要的特征金字塔结构也要做相应改变，conv3_4、conv4_4、conv5_4分别表示为{c3，c4，c5}，代表不同尺度的卷积特征图(卷积层越深，其特征图的尺度越小，语义特征越强)；经过横向连接和top-down结构的计算，得到包含强语义特征的特征图金字塔{p3，p4，p5}，使底层分辨率大的卷积图也获得了强语义特征，提高了小尺度目标的检测精度；而且将不同卷积层的特征进行融合，有效提高检测精度。

预设fpn的结构如图3所示，其中featurepyramidstructure部分引出的虚线框表示出横向连接和top-down结构的细节，如c4经过1x1卷积，与经过2倍上采样的p5进行连接，并经过3x3卷积计算得到p4。

本发明实施例提供的一种水下图像目标检测方法，通过对待检测水下图像进行预处理之后，采用改进的fpn对经过预处理的待检测水下图像进行目标检测，输出目标检测结果，无需手动设计特征，检测过程耗时短，且得到的检测结果准确度高，能很好的适应自动检测和自动捕捞等实际应用需求。

在上述实施例中，所述利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像，具体包括：

分别利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理，得到第二图像和第三图像；

利用预设投票机制选取所述第二图像和所述第三图像中的一幅图像作为所述第一图像。

具体地，对待检测图像进行预处理的过程可以理解为用投票机制对ms-cnn去噪算法和暗通道先验去噪算法进行融合，融合能充分发挥多个去噪算法的特点，让同一个图片样本经过不同去噪算法的处理，产生一个经过优化组合后的去噪结果，这种结果往往比单个去噪算法产生的结果更可靠。

在上述实施例中，其特征在于所述预设投票机制的投票指标为峰值信噪比psnr和图像熵；相应地，

所述利用预设投票机制选取所述第二图像和所述第三图像中的一幅图像作为所述第一图像，具体包括：

若判断获知所述第二图像的psnr和图像熵之和不小于所述第三图像的psnr和图像熵之和，则选取所述第二图像作为所述第一图像；若判断获知所述第二图像的psnr和图像熵之和小于所述第三图像的psnr和图像熵之和，则选取所述第三图像作为所述第一图像。

具体地，本发明实施例所采用的投票指标是psnr(峰值信噪比，设为p)和图像熵(设为e)，设融合结果为s，计算公式如下：

式(1)中，sm、sd分别是ms-cnn和暗通道先验算法去噪后的图像，wp、we分别是psnr和图像熵的权重，pm、em分别表示ms-cnn去噪图像的psnr和图像熵，同理，pd、ed分别表示暗通道先验去噪图像的psnr和图像熵。其中psnr(峰值信噪比)是最广泛使用的评价画质的客观量测法，psnr值越大，代表着图像失真越少；图像熵是从信息论角度反映图像信息丰富程度的一种度量方式，通常图像熵越大，则表明图像单位面积携带的信息量越丰富，图像质量也就越好。

在上述实施例中，在所述将所述第一图像输入训练好的预设特征金字塔网络fpn之前，还包括：

通过数据扩充方法获取训练数据集；

利用所述训练数据集对所述预设fpn进行训练，得到所述训练好的fpn。

其中，一方面，深度学习所需的训练图片数量远远多于传统方法，而水下图像又不易获取，数据扩充方法有效地增大了数据集，减小过拟合的影响；另一方面，大数据集可以有效提升算法的旋转不变性、尺度不变性、数据多样性等，从而提高目标检测精度。

具体地，在将训练数据集中的图像输入预设fpn中进行之前，同样需要对图像进行预处理。

在上述实施例中，所述通过数据扩充获取训练数据集，具体包括：

通过水平翻转、上下翻转、旋转预设角度、随机缩放、随机裁剪以及添加噪声中的一种或多种方法获取训练数据集。

在上述实施例中，所述利用所述训练数据集对所述预设fpn进行训练，具体包括：

在训练过程中，将所述训练数据集中任一图像输入所述预设fpn中的rpn网络得到第一分类损失和第一边界框回归损失，将所述任一图像输入所述预设fpn中的fastrcnn得到第二分类损失和第二边界框回归损失；

将所述第一分类损失和所述第二分类损失进行加权融合，将所述第一边界框回归损失和所述第二边界框回归损失进行加权融合。

具体地，fpn的基础网络是fasterrcnn，fasterrcnn有两个重要组成部分：rpn网络(区域推荐网络)和fastrcnn，但是两者的联系不紧密。rpn网络的主要功能是推荐候选目标区域，fastrcnn的功能在于对rpn的推荐进行目标分类和候选框优化。虽然它们共享pvanet的卷积参数，但是训练过程中发现这两者的损失下降方向不一致，原因在于它们对特征金字塔的利用程度存在差异，rpn充分利用特征金字塔的多尺度信息，而fastrcnn只在尺度映射时使用。若联合训练，能够调整损失下降的方向，既能充分利用特征金字塔的多尺度信息又能整合双方优势，加快收敛速度，提高目标检测的准确率。

设总损失为ltotal，λ为自定义权重，lrpn和lfast-rcnn分别为rpn网络损失和fastrcnn损失，所依据的公式如下：

ltotal＝lrpn+λlfast-rcnn(2)

在上述实施例中，所述利用所述训练数据集对所述预设fpn进行训练，具体包括：

在训练过程中，利用在线困难样本挖掘算法对所述预设fpn进行训练。

具体地，在线困难样本挖掘算法即ohem算法，因为水下图像背景复杂，而真实的水下图片又较少，只能与简单样本一起进行联合训练。ohem算法就是自动选择困难样本，从而更好地利用数据，能够对复杂环境特征进一步学习，使得训练更为有效。

ohem主要设计出只读roi模块(roinet1)和困难roi模块(roinet2)挑选困难样本。

a、将原图的所有候选区域输入roinet1，计算它们的分类损失和边界框损失；

b、利用非极大值抑制将一些高度重合的候选区域筛选出去，然后将损失从高到低排序选出前k个候选区域；

c、将选出的前k个候选区域(可以理解成困难样本)输入到roinet2，计算k个候选区域的损失，并将梯度反向传播给卷积网络(即pvanet)，来更新整个pvanet-fpn网络。

图4为本发明实施例提供的一种水下图像目标检测系统的结构框图，如图4所示，包括：图像预处理模块401和目标检测模块402。其中：

图像预处理模块401用于获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像。目标检测模块402用于将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

本发明实施例提供的一种水下图像目标检测系统，通过对待检测水下图像进行预处理之后，采用改进的fpn对经过预处理的待检测水下图像进行目标检测，输出目标检测结果，无需手动设计特征，检测过程耗时短，且得到的检测结果准确度高，能很好的适应自动检测和自动捕捞等实际应用需求。

在上述实施例中，图像预处理模块401，具体包括：

预处理子模块，用于分别利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理，得到第二图像和第三图像；

选取子模块，用于利用预设投票机制选取所述第二图像和所述第三图像中的一幅图像作为所述第一图像。

在上述实施例中，所述预设投票机制的投票指标为峰值信噪比psnr和图像熵；相应地，

选取子模块，具体包括：

判断子模块，用于若判断获知所述第二图像的psnr和图像熵之和不小于所述第三图像的psnr和图像熵之和，则选取所述第二图像作为所述第一图像；若判断获知所述第二图像的psnr和图像熵之和小于所述第三图像的psnr和图像熵之和，则选取所述第三图像作为所述第一图像。

在上述实施例中，水下图像目标检测系统还包括：

数据扩展模块，用于通过数据扩充方法获取训练数据集；

训练模块，用于利用所述训练数据集对所述预设fpn进行训练，得到所述训练好的fpn。

在上述实施例中，数据扩展模块具体用于：

通过水平翻转、上下翻转、旋转预设角度、随机缩放、随机裁剪以及添加噪声一种或多种方法获取训练数据集。

在上述实施例中，训练模块具体用于：

在训练过程中，将所述训练数据集中任一图像输入所述预设fpn中的rpn网络得到的第一分类损失和第一边界框回归损失，将所述任一图像输入所述预设fpn中的fastrcnn得到第二分类损失和第二边界框回归损失；

将所述第一分类损失和所述第二分类损失进行加权融合，将所述第一边界框回归损失和所述第二边界框回归损失进行加权融合。

在上述实施例中，训练模块具体用于：

在训练过程中，利用在线困难样本挖掘算法对所述预设fpn进行训练。

图5为本发明实施例提供的一种电子设备的结构示意图，如图5所示，电子设备包括：处理器(processor)501、通信接口(communicationsinterface)502、存储器(memory)503和总线504，其中，处理器501，通信接口502，存储器503通过总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法，例如包括：获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像；将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取待检测水下图像，并利用ms-cnn去噪算法和暗通道先验去噪算法对所述待检测水下图像进行预处理得到第一图像；将所述第一图像输入训练好的预设特征金字塔网络fpn，输出目标检测结果；其中，所述预设fpn的卷积层为pva网络，且加入c.relu结构。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的通信设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李振波;彭芳;苗政;李光耀;钮冰姗;杨晋琪;岳峻;李道亮
技术所有人：中国农业大学
我是此专利的发明人

上一篇：一种室外工业地坪喷涂装置的制作方法
上一篇：一种桑葚养生茶及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。