一种水域人船目标检测方法、系统、终端及介质与流程

文档序号:23800617发布日期:2021-02-02 13:02阅读:71来源:国知局
一种水域人船目标检测方法、系统、终端及介质与流程

[0001]
本发明涉及图像中目标检测领域,具体地说,涉及的是一种水域人船目标检测方法与系统,以及对应的终端、介质。


背景技术:

[0002]
大数据时代的到来,推动着计算机技术的不断更新和发展,目标检测技术作为计算机视觉领域的研究热点在智能视频监控、智能交通等领域表现出了重要的应用价值。这项技术同时也为基于视频安防监控系统的非法捕捞、夜间偷鱼等事件的识别提供了解决思路。
[0003]
水面人船目标检测识别任务作为目标检测任务的一个实际应用分支,有一个难点和一个特点:难点是区域大、目标小、照度低,导致人员和船的轮廓模糊、视觉特征不明显,容易发生误检或漏检。同时,这类目标数据样本也较少,导致深度模型训练不足、精度不够;该任务的一个特点是事件发生在水域上,具有背景相对干净的优点,但同时存在倒影,也会影响目标检测性能。faster rcnn目标检测网络(advances in neural information processing systems,2015)采用先生成候选框,再进行分类的两级网络机制,两次边框坐标回归使得该模型精度表现优秀,同时创新性地提出了基于先验框的深度网络方法实现候选框的生成,在速度层面上有很大的提升。yolo检测算法(proceedings of the ieee conference on computer vision and pattern recognition,2016)将目标检测任务转换成了回归问题,将整张图作为输入,直接在每个划分出来的网格上预测目标类别和边框,显著提升了检测速度,达到了真正的实时检测水准。缺点就是网格划分提取目标窗口的方式取代候选区域机制,大幅减少了窗口的数量,检测的精度并不高。
[0004]
这两种传统的目标检测模型虽然有着很强的通用性,可以被用于很多场景的检测任务,但是针对小尺度目标的检测任务上表现都不如意,难以有效检测出小尺度、模糊的目标。这一方面源于这类特殊目标本身,过小的尺度意味着小信息量,在特征的提取中容易丢失,同时小目标还容易和背景混淆,背景的干扰非常容易造成目标的误检;另一方面也源于模型本身的不足,这两种传统模型算法对低层的特征信息关注度都不高,而小目标对低层的细粒特征需求更大,从而需要提升低层细节特征在目标检测当中扮演的角色地位从而改善模型对小尺度模糊目标的检测能力。
[0005]
经检索,申请号为201911118442.5的中国发明专利,其公开了一种基于图像识别的舰船检测方法,包括以下步骤:a、提取图像的高频、低频gabor特征和h、s、v颜色特征,建立多类特征的多分辨率金字塔表示;b、将各类特征金字塔形式存在的多尺度分量图像经过一个模拟人眼感受野特性的“中央-周边”算子运算后,形成多尺度特征图;c、将各类特征的多尺度特征图经过跨尺度组合和归一化形成相应的颜色、亮度和方向的分量显著图;d、将3张不同特征的显著图线性融合为1张用来表征图像中各区域显著度的总显著图;e、采用直方图阈值分割方法,最后获得任务水域图像中舰船目标所在区域。该申请技术运用数字图像处理技术在任务水域图像中实时检测舰船位置,但是仍旧无法解决上述的技术问题。


技术实现要素:

[0006]
针对现有技术存在的上述不足,本发明的目的是提出一种水域人船目标检测方法与系统。
[0007]
本发明的一方面,提供一种水域人船目标检测方法,包括:
[0008]
对待检测视频图像中的水域进行语义分割,将无关背景区域滤除;
[0009]
采用背景建模的方法对上述滤除无关背景区后的视频图像进行动目标检测,检测出其中的动目标,所述动目标包括人和/或船;
[0010]
利用目标运动轨迹的时间规则和目标尺寸的空间规则对检测出的所述动目标进行建模约束,从而判识;
[0011]
采用目标检测器对所述动目标进行目标检测,其中,所述目标检测器采用深度学习方法训练得到,所述深度学习融合深度网络多层级特征,最大化保留小目标的语义特征;
[0012]
将所述判识的结果和所述目标检测器检测的结果进行融合,对检出的不符合要求的动目标进行滤除,得到最终检测结果。
[0013]
可选地,所述对待检测视频图像中的水域进行语义分割,将无关背景区域滤除,包括:
[0014]
基于深度学习模型网络架构,对平坦水域图像进行语义分割,将无关背景区域分割出来;
[0015]
在对所述图像中的水域完成分割的基础上将所述无关背景区域滤除。
[0016]
可选地,所述采用背景建模的方法对上述滤除无关背景区后的视频图像进行动目标检测,包括:
[0017]
用基于像素样本统计信息的背景表示方法,根据所述视频图像中每个像素在时域上的概率统计信息构建各个像素的颜色分布模型,实现背景建模;
[0018]
基于所述背景建模判断所述视频图像中的前景和背景,检测出所述动目标。
[0019]
可选地,所述利用目标运动轨迹的时间规则和目标尺寸的空间规则对检测出的所述动目标进行建模约束,从而判识,包括:
[0020]
根据所述动目标在相邻采样帧中的坐标,计算出所述动目标在相邻采样帧的偏移距离;根据同一检索目标在相邻采样帧偏移的距离是最短的法则,筛除误匹配情况;根据运动目标相邻帧最小运动转角原则,所述动目标在相邻采样帧表示的转角只发生微小的变化,转角差应保持在一设定范围内,满足约束的动目标作为时间规则判识的结果;
[0021]
根据目标在空间上呈现的长宽比分布,以及随深度变化能估计的尺寸分布,针对所述动目标这一单一的检测目标进行长宽比及深度-尺寸关系建模,从空间层面上对所述动目标进行约束,得到空间规则判识后的结果。
[0022]
可选地,所述采用目标检测器对所述动目标进行目标检测,包括:
[0023]
使用特征金字塔网络,融合深度网络多层级特征,最大化保留小目标的语义特征;
[0024]
通过设置更小更稠密的候选框模板,使用深度信息设置合理的候选框尺寸,提高候选框与待检测目标的匹配概率;
[0025]
利用人船目标空间上下文信息,设计基于空间上下文的人船目标检测网络,利用周界场景提升小目标检测性能。
[0026]
可选地,所述将所述判识的结果和所述目标检测器检测的结果进行融合,对检出
的不符合要求的动目标进行滤除,包括:
[0027]
先得到所述目标运动轨迹的时间规则、目标尺寸的空间规则、人船目标检测三种方法的结果得分,再进行加权融合,总分低于经验阈值或者所述三种方法中任一种的得分低于该方法对应阈值的目标都将被滤除,最后留下来的目标作为最终检测结果。
[0028]
可选地,在对待检测视频图像中的水域进行语义分割之前,还包括:对待检测视频图像进行预处理,以降低照度不均匀和/或使得输入图像尺寸合适、图像质量更高。
[0029]
本发明的第二个方面,提供一种水域人船目标检测系统,包括:
[0030]
语义分割模块,该模块对待检测视频图像中的水域进行语义分割,将无关背景区域滤除;
[0031]
动目标检测模块,该模块采用背景建模的方法对上述语义分割模块滤除无关背景区后的视频图像进行动目标检测,检测出其中的动目标,所述动目标包括人和/或船;
[0032]
时空规则判识模块,该模块利用目标运动轨迹的时间规则和目标尺寸的空间规则对所述动目标检测模块检测出的所述动目标进行建模约束,从而判识;
[0033]
目标检测模块,该模块采用目标检测器对所述动目标检测模块得到的动目标进行目标检测,其中,所述目标检测器采用深度学习方法训练得到,所述深度学习融合深度网络多层级特征,最大化保留小目标的语义特征;
[0034]
融合判决模块,该模块将所述时空规则判识模块得到的结果和所述目标检测器检测的结果进行融合,对检出的不符合要求的动目标进行滤除,最后留下来的目标作为最终检测结果。
[0035]
本发明的第三方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行上述任一项所述的水域人船目标检测方法。
[0036]
本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述任一项所述的水域人船目标检测方法。
[0037]
与现有技术相比,本发明具有如下有益效果:
[0038]
本发明提供的一种水域人船目标检测方法与系统,首先利用水域平坦的特点进行语义分割,将容易产生误检的无关背景区域滤除,有效降低误检。通过背景建模的方式来实现动目标检测,有助于检测出小尺度、模糊的人船目标,在此基础上,结合时域规则、空域规则和深度模型检测三种方法,综合了三种方法各自的优势,实现了融合判断目标,进一步有效减少误检率,为最后的示警输出的可靠性提供了有力的保障。
附图说明
[0039]
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0040]
图1为本发明一实施例中人船目标检测方法的流程图;
[0041]
图2为本发明一实施例中水域分割的效果图;
[0042]
图3为本发明一优选实施例中动目标检测的流程图;
[0043]
图4为本发明一优选实施例中时空规则判识的流程图;
[0044]
图5为本发明一优选实施例中人船目标检测方法的流程图;
[0045]
图6为本发明一实施例中人船目标检测系统模块框图。
具体实施方式
[0046]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0047]
图1为本发明一实施例中水域人船目标检测的流程图。参照图1所示,该实施例中的水域人船目标检测方法,可以按照以下步骤进行:
[0048]
s100,对待检测视频图像中的水域进行语义分割,将无关背景区域滤除;
[0049]
无关背景区域一般包括云层、天空、水岸、岸上的房屋建筑以及树木等。
[0050]
s200,采用背景建模的方法对上述滤除无关背景区后的视频图像进行动目标检测,检测出其中的动目标。动目标可以是渔船,也可以是渔船和人。
[0051]
s300,利用目标运动轨迹的时间规则和目标尺寸的空间规则对检测出的动目标进行建模约束,从而判识。
[0052]
s400,采用目标检测器对动目标进行目标检测,其中,目标检测器采用深度学习方法训练得到。目标检测器可以采用深度网络,深度学习融合深度网络多层级特征,最大化保留小目标的语义特征。
[0053]
s500,将判识的结果和目标检测器检测的结果进行融合,对检出的不符合设定要求的动目标进行滤除,留下的目标作为最终检测结果。
[0054]
应该理解的是,上述实施例中的s300、s400两部分的实现没有特别的前后顺序要求,可以是任意先后或者并行执行,执行后的结果作为s500的输入。
[0055]
水面人船目标检测识别任务的难点是目标小、照度低,导致人员和船的轮廓模糊、视觉特征不明显。同时,这类目标数据样本也较少,导致深度模型训练不足、精度不够;该任务的特点是事件发生在水域上,具有背景相对干净的优点,但同时存在倒影,也会影响目标检测性能。本发明上述实施例针对这些问题,首先利用水域平坦的特点进行语义分割,将容易产生误检的无关背景区域滤除,有效降低误检。通过背景建模的方式来实现动目标检测,有助于检测出小尺度、模糊的人船目标,在此基础上,结合时域规则、空域规则和深度模型检测三种方法,综合了三种方法各自的优势,实现了融合判断目标,进一步有效减少误检率。
[0056]
在上述实施例中,对待检测视频图像中的水域进行语义分割,可以基于深度学习模型网络架构,对平坦水域图像进行语义分割,将水域和沿岸等背景区域分割出来,在对所述图像中的水域完成分割的基础上将无关背景区域滤除。该优选实施例中采用深度学习技术进行准确、快速地图像水域分割。比如,可以使用mask rcnn模型(proceedings of the ieee international conference on computer vision,2017)及密集深度分离卷积的分割网络架构,以无人机等航拍图像作为输入,通过密集分离卷积和扩张卷积提取图像高维特征,并构造基于双线性插值的上采样解码模块用于输出分割结果。传统的图像水域分割算法受相干斑噪声和图像能量变化影响严重,且参数调整需要过多人工参与,难以实现复杂环境和多种干扰条件下准确的水域分割。图2为本发明一优选实施例中水域语义分割的
效果图。相比之下,该实施例在已有的水域分割处理数据集上分割准确度有大幅提高,在鲁棒性和分割速度上也有明显优势,具有较好的工程实用价值。
[0057]
图3为本发明一优选实施例中动目标检测的流程图。参照图3所示,在该优选实施例,对于在背景建模的基础上实现动目标检测,检测出人和渔船动目标,可以采用以下步骤:
[0058]
s201,用基于像素样本统计信息的背景表示方法,根据视频中每个像素在时域上的概率统计信息(均值/方差)构建各个像素的颜色分布模型,以此达到背景建模的目的。
[0059]
s202,基于背景建模可以判断图像中的前景和背景,从而检测出人船动目标。
[0060]
具体的,上述的基于背景建模可以判断图像中的前景和背景,可以利用多个高斯模型表征图像中各个像素点的特征,在新一帧的图像获得后更新混合高斯模型,利用当前图像中的每个像素点与混合高斯模型匹配,如果成功则判定该点为前景点,否则为背景点。此外,考虑到水域存在水纹波动,光影变化等干扰,可以进一步采用腐蚀、膨胀技术处理前景图像,消除阴影、扰动等噪声因素,提高前景图像质量,提升动目标检测准确率。
[0061]
图4为本发明一优选实施例中时空规则判识的流程图。参照图4所示,对于时空规则判识中,利用目标运动轨迹的时间规则和目标尺寸的空间规则对所述动目标进行建模约束从而判识。具体的,可以采用以下方式实现:
[0062]
s301,根据动目标在相邻采样帧中的坐标,可以计算出其在相邻采样帧的偏移距离。
[0063]
s302,根据目标在空间上呈现的长宽比分布,以及随深度变化可估计的尺寸分布,针对人船这一单一的检测目标进行长宽比及深度-尺寸关系建模,从空间层面上对所述动目标进行约束。
[0064]
上述实施例中,时间规则是指相邻采样帧偏移距离最短原则,根据运动目标在相邻采样帧中的坐标,可以计算出其在相邻采样帧的偏移距离。根据同一检索目标在相邻采样帧偏移的距离是最短的法则,可以有效去除误匹配情况;运动目标相邻帧最小运动转角原则,由于物体运动满足轨迹的连贯性,因此,运动目标在相邻采样帧表示的转角只会发生微小的变化,即转角差会保持在一定的范围内。根据这一点制定控制策略减少误匹配的情况。
[0065]
上述实施例中,空间规则是指由于检测目标类别较为单一,所以目标在空间上呈现较为一致长宽比分布,以及随深度变化可估计的尺寸分布,针对长宽比及深度-尺寸关系建模,可有效去除动目标误检结果,提升检测性能。
[0066]
在本发明上述实施例中,采用目标检测器对动目标进行目标检测,目标检测器是一种基于深度学习方法的人船目标检测器。在一优选实施例中:
[0067]
1、目标检测器可以使用特征金字塔网络,融合深度网络多层级特征,最大化保留小目标的语义特征。采用特征金字塔的网络结构,可以充分利用多尺度的特征进行判识。
[0068]
2、针对特征金字塔网络设置更小更稠密的候选框模板,使用深度信息设置合理的候选框尺寸,提高候选框与待检测目标的匹配概率。
[0069]
3、利用人船目标空间上下文信息,设计基于空间上下文的人船目标检测网络,利用周界场景提升小目标检测性能。
[0070]
具体的,空间上下文信息具体可以是目标候选框上下左右四个邻域空间,每个邻
域空间大小具体为:如果候选框长大于等于宽,则上下邻域的大小和长宽同目标候选框保持一致,同时左右邻域设置为边长等于候选框宽度的正方形区域;如果候选框长小于等于宽,则上下邻域设置为边长等于候选框长度的正方形区域,同时左右邻域的大小和长宽同目标候选框保持一致。
[0071]
基于空间上下文的人船目标检测网络是指在一个图像的cnn特征图上,将空间上下文信息,即所述四个空间邻域的cnn特征,按照上右下左的顺序组合为一个上下文特征,作为一个门控循环单元gru(gated recurrent unit)的输入特征,同时将候选框的cnn特征,作为gru的隐状态输入,gru的输出再送入到分类和回归网络进行分类和回归。
[0072]
4、针对特征金字塔网络设置多尺度训练方法,其一,当物体的尺度与预训练数据集的尺度接近时,才把它用来做检测器的训练样本,其二,在训练中,每次只回传那些大小在预先指定范围内的候选框梯度;由于人船训练样本较少,采用手工图像翻转、生成对抗网络等方法生成大量样本,用以训练更鲁棒的人船目标检测器。
[0073]
当然,上述的4点优选方式,可以任一单独使用,也可以任意组合使用,当多种组合使用时,效果更好。
[0074]
在本发明上述实施例中,将判识的结果和目标检测器检测的结果进行融合,具体是指将利用时间规则、空间规则和目标检测器的所有结果,通过加权融合的方式,综合考虑三种结果,将总分低于经验阈值或者任何一种结果分数低于该种结果经验阈值的目标都筛除掉,以降低误检率。阈值都可以是经验阈值,通过实验的方法得到。
[0075]
在多检测器信息融合中,由于各检测器返回的数据表征目标不同的特征信息,因此需要对多源信息进行多层次多步骤的分析融合。根据融合时多检测器数据的抽象程度,可以将融合层次划分为两个个等级:特征级以及决策级。其中特征级的融合对动目标检测器及深度学习检测器提取出的特征信息进行级联融合,再进行分类决策判断,该层次的融合兼顾了信息损失和抗干扰能力各个方面。决策级的融合是各检测器对目标数据进行预处理以及特征提取得到各自的决策结果,再将结果进行整体的加权融合。以上两种层次的融合优势互补,可以有效提升检测精度。
[0076]
图5为本发明一优选实施例中人船目标检测方法的流程图。参照图5所示,在本优选实施例中,水域人船目标检测方法可以包括如下步骤:
[0077]
第一步,对原始的待检测视频图像进行预处理,本实施例中预处理可以是根据需要进行尺度缩放、去噪及gamma校正等预处理中一种或多种,以降低照度不均匀等影响。
[0078]
第二步,水域分割,即通过对第一步处理后的视频图像中的水域进行语义分割,将容易产生误检的无关背景区域滤除;
[0079]
第三步,在第二步基础上,采用背景建模方法实现动目标检测,有效检测出小尺度的人船动目标;
[0080]
第四步,时空规则判识,即利用目标运动轨迹的时间规则和目标尺寸的空间规则对第三步检测出的动目标进行建模约束,从而判识;
[0081]
第五步,利用深度学习的方法,融合多层的特征信息,训练鲁棒的针对人船目标的目标检测器,采用该目标检测器进行人船目标检测;
[0082]
第六步,综合第四步时空规则判识结果和第五步目标检测器的深度检测结果进行融合,对检出的不符合要求的动目标进行滤除,最后留下的动目标作为示警输出。
[0083]
本发明上述实施例通过对原始视频图像进行预处理,降低照度不均匀等问题,然后再对预处理后的视频图像进行水域分割,将容易产生误检的无关背景区域滤除;通过背景建模的方法,可以检测出小尺度的人和渔船目标,解决现有水面人船目标检测识别任务中目标小、照度低,导致人员和船的轮廓模糊、视觉特征不明显的问题。然后,再通过时空规则判识和深度检测相结合的方法,融合判决,对检出的动目标进行滤除,最后示警输出,实现了水域人船目标检测,提高了目标检测的性能以及准确性,同时,降低了误解率。
[0084]
图6为本发明一实施例中人船目标检测系统模块框图。在本发明另一实施例中,还提供一种水域人船目标检测系统,用于实现上述的水域人船目标检测方法。具体地,参照图6所示,系统包括:语义分割模块、动目标检测模块、时空规则判识模块、目标检测模块以及融合判决模块,其中:语义分割模块对待检测视频图像中的水域进行语义分割,将无关背景区域滤除;动目标检测模块采用背景建模的方法对上述语义分割模块滤除无关背景区后的视频图像进行动目标检测,检测出其中的动目标,动目标包括人和/或船;时空规则判识模块利用目标运动轨迹的时间规则和目标尺寸的空间规则对动目标检测模块检测出的动目标进行建模约束,从而判识;目标检测模块采用目标检测器对动目标检测模块得到的动目标进行目标检测,其中,目标检测器采用深度学习方法训练得到,深度学习融合深度网络多层级特征,最大化保留小目标的语义特征;融合判决模块将时空规则判识模块得到的结果和目标检测器检测的结果进行融合,对检出的不符合要求的动目标进行滤除,最后留下来的目标作为最终检测结果。
[0085]
本发明上述实施例中的人船目标检测系统,合理应对了水面人船目标检测识别任务所具有的区域大、目标小、照度低等技术难点,有效去除背景的干扰,成功结合背景建模等传统方法和目标检测深度方法的优势,增强人船目标检测的鲁棒性,有效降低误检和漏检的概率,获得识别精度上的提升。
[0086]
在另一优选实施例中,人船目标检测系统还可以进一步包括预处理模块,预处理模块读入原始的视频图像,并根据需要进行预处理,将水域和沿岸等背景区域分割出来,再对图像中的水域完成分割的基础上将无关背景区域滤除。预处理可根据需要,选择尺度缩放、去噪及gamma校正等预处理之一或多种,可以使得输入图像尺寸合适且质量更好,便于后续处理,当然,预处理还可以降低照度不均匀等影响。
[0087]
本发明上述人船目标检测系统实施例中各模块具体实现的技术与上述人船目标检测方法中各步骤对应,在此不再赘述。
[0088]
以上实施例中各较佳特征,可以在任一实施例中单独使用,在互不冲突的前提下,也可以任一组合使用。另外,实施例中没有详细说明的部分可以采用现有技术实现。
[0089]
在本发明另一实施例中,还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时用于执行上述任一实施例中的人船目标检测方法。本实施例中的终端可以是计算机、智能手机,或其他任一种具有处理能力的终端。
[0090]
在本发明另一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行上述任一实施例中的人船目标检测方法。
[0091]
本发明上述实施例针对水面人船目标检测识别这一特殊任务而设计实现,合理应对了该检测任务所具有的区域大、目标小、照度低等技术难点,有效结合了图像目标检测领
域的成果,在确保达到高识别精度的同时,尽可能降低漏报和误报率。
[0092]
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
[0093]
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0094]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1