一种基于深度学习的图像分割方法

文档序号:31605798发布日期:2022-09-21 10:36阅读:93来源:国知局
一种基于深度学习的图像分割方法

1.本发明涉及图像分割技术领域,具体涉及一种基于深度学习的图像分割方法。


背景技术:

2.随着我国经济的飞速增长,国民的总体消费水平逐渐提高,从而汽车的产量不断增长,道路交通的压力不堪重负,交通事故也日益频发,据统计,60%以上的交通事故与驾驶员疲劳驾驶有关。当驾驶员疲劳驾驶时,会对周围环境的感知、判断能力以及对车辆的掌控能力都有不同程度下降,也就导致了交通事故的发生。驾驶人员的疲劳状态受多种情况的影响,大部分原因是驾驶员长时间的驾驶汽车,极易引起驾驶人员的疲劳,从而影响驾驶人员对车辆的掌控能力,导致交通事故的发生。
3.虽然通过在车上安装视觉检测装置来采集驾驶员的人脸图像,并通过对驾驶员的人脸图像进行分割后获取驾驶员的眼睛和嘴巴(如闭眼或打呵欠等)的情况,能够识别驾驶员是否为疲劳驾驶,以避免因驾驶员疲劳驾驶而导致的交通事故的发生。但是由于车辆在行驶过程中所处环境复杂多变,这些环境中光线的变化会导致所采集的人脸图像的表现为不同的状态(如阳光过强所导致的图像过曝、光线过暗所导致的图像过暗、对向来车的灯光照射所导致的图像炫光、车辆抖动所造成的图像重影等),这给后期图像分割带来了极大的挑战。而一旦人脸图像无法有效进行分割,将导致对驾驶员的疲劳识别出现误判的情况。


技术实现要素:

4.本发明所要解决的是车辆行驶过程中所采集到的人脸图像存在图像分割困难的问题,提供一种基于深度学习的图像分割方法。
5.为解决上述问题,本发明是通过以下技术方案实现的:
6.一种基于深度学习的图像分割方法,包括步骤如下:
7.步骤1、构建语义分割模型;该语义分割模型由骨干网络、xy网络和全卷积解码网络组成;骨干网络的输入形成语义分割模型的输入,骨干网络的输出连接xy网络的输入,xy网络的输出连接全卷积解码网络的输入,全卷积解码网络的输出语义分割模型的输出;
8.步骤2、利用已分割好的样本图像集对步骤1所构建的语义分割模型进行训练,得到训练好的语义分割模型;
9.步骤3、将待分割的图像送入到步骤2所得到的训练好的语义分割模型中,训练好的语义分割模型输出分割好的图片。
10.上述骨干网络由2个卷积层、4个瓶颈层、9个过渡层、9个分支层、3个融合层、4个双线性插值层和1个连接层组成;其中:第1个卷积层的输入形成骨干网络的输入;第1个卷积层的输出接第2个卷积层的输入,第2个卷积层的输出接第1个瓶颈层的输入,第1个瓶颈层的输出接第2个瓶颈层的输入,第2个瓶颈层的输出接第3个瓶颈层的输入,第3个瓶颈层的输出接第4个瓶颈层的输入;第4个瓶颈层的输出分别接第1个过渡层和第2个过渡层的输入;第1个过渡层的输出接第1个分支层的输入,第2个过渡层的输出接第2个分支层的输入;
第1个分支层和第2个分支层的输出同时接第1个融合层的输入;第1个融合层的输出分别接第3个过渡层、第4个过渡层和第5个过渡层的输入;第3个过渡层的输出接第3个分支层的输入,第4个过渡层的输出接第4个分支层的输入,第5个过渡层的输出接第5个分支层的输入;第3个分支层、第4个分支层和第5个分支层的输出同时接第2个融合层的输入;第2个融合层的输出分别接第6个过渡层、第7个过渡层、第8个过渡层和第9个过渡层的输入;第6个过渡层的输出接第6个分支层的输入,第7个过渡层的输出接第7个分支层的输入,第8个过渡层的输出接第8个分支层的输入,第9个过渡层的输出接第9个分支层的输入;第6个分支层、第7个分支层、第8个分支层和第9个分支层的输出同时接第3个融合层的输入;第3个融合层的输出同时接第1个双线性插值层、第2个双线性插值层、第3个双线性插值层和第4个双线性插值层的输出;第1个双线性插值层、第2个双线性插值层、第3个双线性插值层和第4个双线性插值层的输出同时接连接层的输入;连接层的输出形成骨干网络的输出。
11.上述xy网络由15个卷积层、4个上采样层、5个通道注意力层、5个合并层和1个连接层组成;其中:第1个卷积层、第2个卷积层、第5个卷积层、第8个卷积层、第11个卷积层和第14个卷积层的输入共同形成xy网络的输入;第1个卷积层的输出接第1个合并层、第2个合并层、第3个合并层和第4个合并层的其中一个输入;第2个卷积层的输出接第3个卷积层的输入,第3个卷积层的输出接第1个上采样层的输入,第1个上采样层的输出接第1个合并层的另一个输入;第1个合并层的输出接第1个通道注意力层的输入,第1个通道注意力层的输出接第4个卷积层的输入;第5个卷积层的输出接第6个卷积层的输入,第6个卷积层的输出接第2个上采样层的输入,第2个上采样层的输出接第2个合并层的另一个输入;第2个合并层的输出接第2个通道注意力层的输入,第2个通道注意力层的输出接第7个卷积层的输入;第8个卷积层的输出接第9个卷积层的输入,第9个卷积层的输出接第3个上采样层的输入,第3个上采样层的输出接第3个合并层的另一个输入;第3个合并层的输出接第3个通道注意力层的输入,第3个通道注意力层的输出接第10个卷积层的输入;第11个卷积层的输出接第12个卷积层的输入,第12个卷积层的输出接第4个上采样层的输入,第4个上采样层的输出接第4个合并层的另一个输入;第4个合并层的输出接第4个通道注意力层的输入,第4个通道注意力层的输出接第13个卷积层的输入;第1个卷积层、第4个卷积层、第7个卷积层、第10个卷积层和第13个卷积层的输出接连接层的输入,连接层的输出接第15个卷积层的输入;第15个卷积层的输出接第5个合并层的其中一个输入;第14个卷积层的输出接第5个合并层的另一个输入;第5个合并层的输出接第5个通道注意力层的输入,第5个通道注意力层的输出形成xy网络的输出。
12.上述全卷积解码网络由2个卷积层和1个双线性插值层组成;其中:第1个卷积层的输入形成全卷积解码网络的输入,第1个卷积层的输出接第2个卷积层的输入,第2个卷积层的输出接双线性插值层的输入,双线性插值层的输出形成全卷积解码网络的输出。
13.与现有技术相比,本发明的语义分割模型采用由hrnet与xy网络结合而来的xynet,相对原基础网络而言,泛化能力更强且精确度更高;在两个基础网络融合的基础上,加入dammp模块对原有网络进行改进,充分将原网络中的上下文信息再次加以利用,在不明显增加参数的同时提升性能的效果;通过模型内部进行优化,在保证性能不缩减的情况下,对模型内部模块进行改进与创新,大大加强未来可落地性;在模型非常轻量的前提下,本发明的语义分割模型的精确度、部署速率都远超过其他同类型的分割网络模型。使用本发明
的语义分割模型在多个数据集上进行测试和横向对比可以得到,我们的xynet在鲁棒性,评价指标miou(mean intersection over union),推理速度,模型大小,推理浮点计算数以及图像的可视化结果上都取得了不错的效果,相对于现有的网络均衡性更强。
附图说明
14.图1为一种语义分割模型的原理图。
15.图2为骨干网络的阶段一的原理图。
16.图3为骨干网络的阶段二的原理图。
17.图4为骨干网络的阶段三的原理图。
18.图5为骨干网络的阶段四的原理图。
19.图6为xy网络的原理图。
具体实施方式
20.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
21.一种基于深度学习的图像分割方法,其具体包括步骤如下:
22.步骤1、构建语义分割模型。
23.参见图1,语义分割模型由骨干网络、xy网络和全卷积解码网络组成。骨干网络的输入形成语义分割模型的输入,骨干网络的输出连接xy网络的输入,xy网络的输出连接全卷积解码网络的输入,全卷积解码网络的输出语义分割模型的输出。本语义分割模型由骨干网络和全卷积解码网络所组成的全卷积网络fcn,以及xy网络所组成。该图像分割模型xynet通过迁移学习,模型级联等方式结合了多种分割算法的优点,同时设计了一个新的上下文信息提取模块xy网络,该网络能充分提取图像的上下文信息,增强了模型对图片主体人像的识别和定位能力,整体模型在速度和精度上取得优异的平衡效果。
24.所述骨干网络由2个卷积层、4个瓶颈层、9个过渡层、9个分支层、3个融合层、4个双线性插值层和1个连接层组成。
25.骨干网络包括4个阶段,其每个阶段产生的多尺度特征图,配置如表1。
26.表1骨干网路配置表
[0027] 多尺度特征图分支数每个分支模块数模块数阶段11/4140阶段21/4,1/824,41阶段31/4,1/8,1/1634,4,44阶段41/4,1/8,1/16,1/3244,4,4,43
[0028]
阶段1:第1个卷积层的输入形成骨干网络的输入。第1个卷积层的输出接第2个卷积层的输入,第2个卷积层的输出接第1个瓶颈层的输入,第1个瓶颈层的输出接第2个瓶颈层的输入,第2个瓶颈层的输出接第3个瓶颈层的输入,第3个瓶颈层的输出接第4个瓶颈层的输入。第4个瓶颈层的输出分别接第1个过渡层和第2个过渡层的输入。第1个过渡层的输出接第1个分支层的输入,第2个过渡层的输出接第2个分支层的输入。如图2所示。瓶颈层能将特征图通道数固定到某一个值后,然后在放大,使通道数像一个瓶颈一样,上面细下面
宽。其中两个1x1卷积分别用于降低和升高特征维度,主要目的是为了减少参数的数量,从而减少计算量,且在降维之后可以更加有效、直观地进行数据的训练和特征提取。用4个残差连接瓶颈层(bottleneck),这属于残差网络中的经典模块。在瓶颈层中,对256维的数据进行了降维处理到64维,再进行卷积操作,之后再升维至256维,有效地减少了计算量。过渡层使用两个卷积将256通道的特征降维成两个特征图,由此形成两个分支进入第二阶段。
[0029]
阶段2:第1个分支层和第2个分支层的输出同时接第1个融合层的输入。第1个融合层的输出分别接第3个过渡层、第4个过渡层和第5个过渡层的输入。第3个过渡层的输出接第3个分支层的输入,第4个过渡层的输出接第4个分支层的输入,第5个过渡层的输出接第5个分支层的输入。如图3所示。该阶段只有一个高分辨率模块(highresolutionmodule)。高分辨率模块(highresolutionmodule)包含分支层(branches)和融合层(fuselayer)部分。该阶段包含两条分支模块,相当于两个分支,每个分支由4个残差块(basicblock)组成。在进入第三阶段之前,过渡层将2个分支改变成3个分支。相同通道数的特征图不做处理,第三条分支的特征图由第二个分支下采样而来。
[0030]
阶段3:第3个分支层、第4个分支层和第5个分支层的输出同时接第2个融合层的输入。第2个融合层的输出分别接第6个过渡层、第7个过渡层、第8个过渡层和第9个过渡层的输入。第6个过渡层的输出接第6个分支层的输入,第7个过渡层的输出接第7个分支层的输入,第8个过渡层的输出接第8个分支层的输入,第9个过渡层的输出接第9个分支层的输入。如图4所示。该阶段由两个高分辨率模块组成。该部分的高分辨率模块比阶段2中的多了一个分支。同理,过渡层将三个分支变化为四个分支,第四个分支由第三个分支下采样而来。
[0031]
阶段4:第6个分支层、第7个分支层、第8个分支层和第9个分支层的输出同时接第3个融合层的输入。第3个融合层的输出同时接第1个双线性插值层、第2个双线性插值层、第3个双线性插值层和第4个双线性插值层的输出。第1个双线性插值层、第2个双线性插值层、第3个双线性插值层和第4个双线性插值层的输出同时接连接层的输入。连接层的输出形成骨干网络的输出。如图5所示。该阶段由三个高分辨率模块组成,分支数也比第三阶段多了一条。可以见到,越往深处走,特征图的分辨率越低,这里有四档分辨率大小,高低分辨率之间依然是相互融合的。
[0032]
所述xy网络由15个卷积层、4个上采样层、5个通道注意力层、5个合并层和1个连接层组成。第1个卷积层、第2个卷积层、第5个卷积层、第8个卷积层、第11个卷积层和第14个卷积层的输入共同形成xy网络的输入。第1个卷积层的输出接第1个合并层、第2个合并层、第3个合并层和第4个合并层的其中一个输入。第2个卷积层的输出接第3个卷积层的输入,第3个卷积层的输出接第1个上采样层的输入,第1个上采样层的输出接第1个合并层的另一个输入。第1个合并层的输出接第1个通道注意力层的输入,第1个通道注意力层的输出接第4个卷积层的输入。第5个卷积层的输出接第6个卷积层的输入,第6个卷积层的输出接第2个上采样层的输入,第2个上采样层的输出接第2个合并层的另一个输入。第2个合并层的输出接第2个通道注意力层的输入,第2个通道注意力层的输出接第7个卷积层的输入。第8个卷积层的输出接第9个卷积层的输入,第9个卷积层的输出接第3个上采样层的输入,第3个上采样层的输出接第3个合并层的另一个输入。第3个合并层的输出接第3个通道注意力层的输入,第3个通道注意力层的输出接第10个卷积层的输入。第11个卷积层的输出接第12个卷积层的输入,第12个卷积层的输出接第4个上采样层的输入,第4个上采样层的输出接第4个
合并层的另一个输入。第4个合并层的输出接第4个通道注意力层的输入,第4个通道注意力层的输出接第13个卷积层的输入。第1个卷积层、第4个卷积层、第7个卷积层、第10个卷积层和第13个卷积层的输出接连接层的输入,连接层的输出接第15个卷积层的输入。第15个卷积层的输出接第5个合并层的其中一个输入。第14个卷积层的输出接第5个合并层的另一个输入。第5个合并层的输出接第5个通道注意力层的输入,第5个通道注意力层的输出形成xy网络的输出。如图6所示。
[0033]
考虑到现有的大多数特征提取网络都是先从高分辨率下采样到低分辨率提取高级语义信息,这样做有一个缺点,就是在下采样过程中会逐步丢失图像的细节信息,从而突出图像中重要的高级信息,而hrnetv1可以在整个特征提取过程中维持特征图处于高分辨率的状态,有效减少细节信息的丢失,因此本发明的xy网络以hrnetv1为基础。hrnetv1从高分辨率子网络作为第一阶段,逐步增加高分辨率到低分辨率的子网络,形成更多的阶段,并将多分辨率子网络并行连接,同时进行了多次多尺度融合,使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息,得到丰富的高分辨率表征,因此预测出来的特征图更加准确。然而,由于原版hrnetv1中的模块数量较多,模型参数量和计算量比较大,因此本发明对其进行了轻量化处理,减少一些模块和网络模型宽度,使得骨干网络的计算效率大大提高。通过对比实验发现,虽然模块和网络模型宽度减少,但是精度并没有明显下降。
[0034]
所述全卷积解码网络由2个卷积层和1个双线性插值层组成。第1个卷积层的输入形成全卷积解码网络的输入,第1个卷积层的输出接第2个卷积层的输入,第2个卷积层的输出接双线性插值层的输入,双线性插值层的输出形成全卷积解码网络的输出。由xy网络提取的全局上下文信息最后输入到一个轻量级全卷积解码模块(fcnhead)中,该部分由一个1x1卷积+正则化+激活函数基础模块和一个1x1卷积层构成,特征图经过两部分卷积后通过双线性插值算法上采样到与原图相同的尺寸,实现端到端训练。
[0035]
步骤2、利用已分割好的样本图像集对步骤1所构建的语义分割模型进行训练,得到训练好的语义分割模型。
[0036]
步骤3、将待分割的图像送入到步骤2所得到的训练好的语义分割模型中,训练好的语义分割模型输出分割好的图片。
[0037]
采用语义分割的方式,将人与背景分割,获得当前纯人像的图片,再对获得的人像进行图片截取,重点保留人的头部图片,再对保留的头部图片进行人脸检测,主要识别人脸的眼睛和嘴巴的闭合情况。
[0038]
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1