基于深度学习的视频会议场景人形检测方法与流程

文档序号:28692089发布日期:2022-01-29 11:39阅读:315来源:国知局
基于深度学习的视频会议场景人形检测方法与流程

1.本发明涉及机器视觉领域,具体设计一种基于深度学习的视频会议场景人形检测方法。


背景技术:

2.视频会议中的人形检测常用来实现说话人聚焦、辅助语音定向增强等功能。但是,在复杂的会议室场景中,由于参会人数多、座位密集、光线不均衡、人员移动随机等因素的影响,常规目标检测算法在此应用场景下的性能大幅下降。同时,会议室中所使用的摄像头通常是超广角或全景摄像头,画幅较广,单个人体目标在画面中的占比小,可利用的特征有限。此外,会议室中的人员往往是坐姿,且身体会被桌椅、电脑等会议设施部分遮挡,可提供的有效信息更加匮乏。因此,视频会议场景下的人形检测任务成为一种普遍的难题。
3.传统的人形检测算法,往往采用手工设计算子来提取一些特征来进行分析。viola jones检测器采用滑动窗口查看图像中所有可能的位置和比例,检查目标是否存在窗口之中。这种方法结合了“积分图像”、“特征选择”和“检测级联”三种重要技术,大大提高了检测速度。方向梯度直方图(hog)特征描述符也曾被用来解决行人检测问题,其可以用来平衡特征不变性(包括平移、尺度、光照等)和非线性(区分不同对象类别)。dpm算法在hog算法的基础上进行改进和延伸,由一个主过滤器和多个辅过滤器组成,通过硬负挖掘,边框回归和上下文启动技术改进检测精度。作为最优的传统检测算法,dpm方法运算速度快,能够适应物体形变,但它无法适应大幅度的旋转,因此稳定性差。
4.近年来快速发展的深度学习算法在检测领域也有着广泛应用。基于深度学习方法的目标检测克服了以往传统算法依赖于手工设计的特征的缺点。目标检测目前有单阶段和两阶段两种,两阶段指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,比如r-cnn系列;与之相对的是单阶段检测,不需要单独寻找候选区域,典型的有ssd和yolo系列等。对于上述两种方式,基于候选区域的两阶段方法在检测准确率和定位精度上占优,基于端到端的单阶段算法速度占优。然而这些算法往往都是解决通用的多类别目标检测,且在物体特征丰富、目标较大且分布稀疏、光照一致的情况下,才能取得较好的效果。由于现实的复杂性,实际会议室场景很可能与通用训练集存在较大偏差,虽然可以进行自建数据集来弥补一些不足,但是通用深度学习检测模型在密集检测、小目标检测、被遮挡人体的捕捉等方面,始终是存在不足的。
5.因此,如何解决会议室中人体目标密集、光照不均匀、画幅广目标小、不规则物体遮挡等问题,是提升视频会议场景下人形检测效果的关键,对于提升人形检测效果、提高视频会议通话质量和参会体验,有着重要的研究意义。


技术实现要素:

6.本发明的目的是解决视频会议场景人形检测任务中人体目标密集、光照不均匀、画幅广、目标小、不规则物体遮挡等问题,从而提升检测算法性能,提高检测准确率和召回
率,以及检测的iou精度等指标。本发明的种基于深度学习的视频会议场景人形检测模型,使用边界框回归网络,同时计算出人体目标四周边框位置以及置信度和中心加权,从而更好地使用排列密集的人体目标,避免了漏检测和重复检测;同时引入自适应焦点损失来训练模型,用来解决样本不均衡问题,主要包括正负样本和难易样本是否均衡问题,最终更好的适配人形检测场景,大幅提升了检测性能,方法巧妙新颖,具有良好的应用前景。
7.为了达到上述目的,本发明所采用的技术方案是:
8.基于深度学习的视频会议场景人形检测方法,包括如下步骤:
9.步骤(a)、使用摄像机从会议场景中采集原始全景图像并矫正(还请简要阐述一下采集和矫正的具体方法或过程);
10.步骤(b)、将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强操作,随后进行归一化处理,其中归一化预处理和数据增强操作,具体为随机翻转、区域裁剪和区域掩盖重组;
11.步骤(c)、构建基于残差网络-特征金字塔网络的深度学习模型作为基线模型,输入步骤(b)中处理完成的图像,输出图像中所有人体的矩形位置边框;
12.步骤(d)、在步骤(c)中基线模型的基础上引入边界框回归网络,计算出人体目标四周边框位置以及置信度和中心加权;
13.步骤(e)、引入自适应焦点损失训练模型,根据训练后的人形检测模型输入步骤(b)中获取的会议场景图像,检测出对应与会者的位置。
14.前述的一种基于深度学习的视频会议场景人形检测方法,包括如下步骤:
15.步骤(a)、使用摄像机从会议场景中获取矩形全景图像,并对其进行矫正,包括以下步骤,
16.步骤(a1)、将带有180度鱼眼镜头的摄像头设备置于会议室正中心,拍摄出带有畸变的会议室全景图像;
17.步骤(a2)、利用opencv棋盘格标定法对采集到的会议室全景图像进行矫正分析,使用鱼眼摄像头拍摄固定大小的棋盘格图片,将图像做二值化操作后,经过对图像的腐蚀和膨胀操作,遍历每一个方格的轮廓并获取所有小方格的角点,根据这些角点的畸变情况,对镜头参数进行标定,获取相机镜头参数,输入待矫正图像,通过透镜畸变前后的坐标对应关系进行坐标变换,得到正常非畸变的矩形全景照片。
18.步骤(b),将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强操作,随后进行归一化处理,其中归一化预处理和数据增强操作,具体为随机翻转、区域裁剪和区域掩盖重组,包括以下步骤,
19.步骤(b1)、取步骤(a)中摄像机矫正后输出的边长为3000
×
1000的包含会议室中360
°
环形场景信息的矩形全景图像,纵向裁剪边长为2000
×
1000的两个原始矩形图像,再将其上下拼接成边长为2000
×
2000的方形图像,用于适配深度学习检测器的输入形状比例;
20.步骤(b2)、将拼接后的方形图像与原矩形图像位置一一映射,方形图像的上半部分直接映射为原矩形图像的x∈[0,2000)位置,下半部分由原图的x∈[0,500),x∈[1500,3000)多段拼接而成的边长为2000
×
1000的图像,用于避免全景图像被割裂;
[0021]
步骤(b3)、矫正后的图像映射到原图位置之后,进行非极大值抑制,用于避免步骤
(b1)拼接后图像的重复检测;
[0022]
步骤(b4)、对拼接后的方形图像进行数据增强,在原图的基础上进行上下左右随机翻转,而后对包含人体目标的部分图像区域进行随机裁剪,对不包含人体目标的图像区域进行涂抹或马赛克方式掩盖;
[0023]
步骤(b5)、对进行数据增强后的方形图像做归一化处理,将每个像素值变为(0,1)区间的小数,再将输入图像压缩至边长为512
×
512的大小,作为模型的输入图像。
[0024]
步骤(c),构建基于残差网络-特征金字塔网络的深度学习模型作为基线模型,输入步骤(b)中处理完成的图像,输出图像中所有人体的矩形位置边框,包括以下步骤,
[0025]
步骤(c1)、输入步骤(b)中处理完成的图像,而后构建基线模型,依次连接残差卷积网络和特征金字塔网络;
[0026]
步骤(c2)、将用于学习原始图像空间语义特征的残差卷积网络作为主干网络,采用特征金字塔网络实现图像的多尺度特征融合,对特征从不同的尺度大小进行建模;
[0027]
步骤(c3)、将全连接层通过浅层卷积网络作为检测头,获取目标人形的位置,使用k-means聚类算法获取适配数据集中人形的锚框,而后输出图像中所有人体的矩形位置边框。
[0028]
步骤(d),在步骤(c)中基线模型的基础上引入边界框回归网络,计算出人体目标四周边框位置、置信度和中心加权,包括以下步骤,
[0029]
步骤(d1)、引入边界框回归网络,输入第一层特征金字塔网络输出的特征图与第一路多层卷积通过改变上层输入的通道数,回归出目标候选框区域的边界,输出第一路卷积形状为h
×w×
5的张量,其中h和w为上一层输出的长和宽的数值,5为通道数字,作为目标人体上下左右的边界与当前检测区域中心点的距离(l,t,r,b)和置信度;
[0030]
步骤(d2)、将特征图与原图位置一一对应,设置原图与特征图的缩小比例为d,特征图中的坐标(x,y)所对应的原图中心点坐标为当前区域真实存在的人体,通过边界框回归网络回归出该物体上下左右边界与当前检测区域中心点的距离为(l,t,r,b),这四个值与人体目标四周边框的四个角的坐标点进行对应;
[0031][0032][0033][0034][0035]
其中,(x1,y1)(x2,y2)分别是人体目标四周边框左上角点和右下角点的坐标,d是原图与特征图的缩小比例,h和w为该网络输入特征图的长和宽;
[0036]
步骤(d3)、与步骤(d1)进行相同输入,输入第二层特征金字塔网络输出的特征图,第二路多层卷积通过改变上层输入的通道数,回归出目标候选框区域的边界,而后输出第
二路多层卷积形状为h
×w×
1的张量,并且代表了当前区域中心点与真实框中心点的距离系数,作为中心权重,其表示数值为ω,用于保证每个检测区域尽可能只检测与自己最近的真实人体
[0037]
步骤(e),引入自适应焦点损失训练模型,根据训练后的人形检测模型输入步骤(b)中获取的会议场景图像,检测出对应与会者的位置,包括以下步骤,
[0038]
步骤(e1)、添加损失函数训练模型,并在损失函数交叉熵的基础上增加两个超参数,即权重系数α,γ,而后引入自适应焦点损失来对损失函数进行二元分类,用于判断当前检测区域内的物体是否存在;
[0039]
步骤(e2)、输入步骤(b)中获取的会议场景图像,将步骤(d3)中输出的中心权重数值ω作为损失函数的参数参与损失函数中计算,与检测区域中心与真实人体中心距离越远,则损失函数越小;当检测区域内没有人体存在时,ω=0;
[0040]
损失函数公式如下:
[0041][0042]
其中,权重α用来平衡正负样本的不均衡,权重γ用来区分难易样本,p为置信度的预测值,ω是步骤(d2)输出的中心权重数值,σ是任意一个大于0的极小数,用于防止除0操作;
[0043]
步骤(e3)、初始状态下γ值为0,当γ增加时,调整因子也在增加,即简单样本产生的loss逐渐被抑制,随着γ值增大简单样本产生的loss则大幅缩小。
[0044]
本发明地有益效果是:基于深度学习的视频会议场景人形检测方法,首先摒弃了原先基于深度学习的检测算法中的锚框聚类,转而使用回归的方式,使用距离算子来表示人体位置,在回归出距离的基础上,还同时回归计算出置信度和中心加权参数;其次,设计了一种自适应焦点损失,代替了先前普遍使用的交叉熵损失函数精选训练,从而提升模型收敛的速度,提高了复杂场景下的检测精度;因此,本发明的方法能够提高人体检测的鲁棒性和性能,方法巧妙新颖,具有良好的应用前景。
附图说明
[0045]
图1是本发明中基于深度学习的视频会议场景人形检测方法的流程图;
[0046]
图2是本发明中全景摄像头输出的矩形图像裁剪拼接示意图;
[0047]
图3是本发明所提出模型的完整结构框图;
[0048]
图4是本发明所设计的检测头网络结构图。
具体实施方式
[0049]
下面将结合说明书附图,对本发明作进一步的说明。
[0050]
如图1和图3所示,本发明的基于深度学习的视频会议场景人形检测方法,包括以下步骤,步骤(a)、使用摄像机从会议场景中获取矩形全景图像,并对其进行矫正,包括以下步骤,
[0051]
步骤(a1)、将带有180度鱼眼镜头的摄像头设备置于会议室正中心,拍摄出带有畸变的会议室全景图像;
[0052]
步骤(a2)、利用opencv棋盘格标定法对采集到的会议室全景图像进行矫正分析,使用鱼眼摄像头拍摄固定大小的棋盘格图片,将图像做二值化操作后,经过对图像的腐蚀和膨胀操作,遍历每一个方格的轮廓并获取所有小方格的角点,根据这些角点的畸变情况,对镜头参数进行标定,获取相机镜头参数,输入待矫正图像,通过透镜畸变前后的坐标对应关系进行坐标变换,得到正常非畸变的矩形全景照片。
[0053]
步骤b、如图2所示,将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强操作,随后进行归一化处理,其中归一化预处理和数据增强操作,具体为随机翻转、区域裁剪和区域掩盖重组,包括以下步骤,
[0054]
步骤(b1)、取步骤(a)中图像采集设备矫正后输出的边长为3000
×
1000的包含会议室中360
°
环形场景信息的矩形全景图像,纵向裁剪边长为2000
×
1000的两个原始矩形图像,再将其上下拼接成边长为2000
×
2000的方形图像,用于适配深度学习检测器的输入形状比例;
[0055]
步骤(b2)、将拼接后的方形图像与原矩形图像位置一一映射,方形图像的上半部分直接映射为原矩形图像的x∈[0,2000)位置,下半部分由原图的x∈[0,500),x∈[1500,3000)多段拼接而成的边长为2000
×
1000的图像,用于避免全景图像被割裂;
[0056]
步骤(b3)、矫正后的图像映射到原图位置之后,进行非极大值抑制,用于避免步骤(b1)拼接后图像的重复检测;
[0057]
步骤(b4)、对拼接后的方形图像进行数据增强,在原图的基础上进行上下左右随机翻转,而后对包含人体目标的部分图像区域进行随机裁剪,对不包含人体目标的图像区域进行涂抹或马赛克方式掩盖;
[0058]
步骤(b5)、对进行数据增强后的方形图像做归一化处理,将每个像素值变为(0,1)区间的小数,再将输入图像压缩至边长为512
×
512的大小,作为模型的输入图像。
[0059]
步骤(c),构建基于残差网络-特征金字塔网络的深度学习模型作为基线模型,输入步骤(b)中处理完成的图像,输出图像中所有人体的矩形位置边框,包括以下步骤,
[0060]
步骤(c1)、输入步骤(b)中处理完成的图像,而后构建基线模型,依次连接残差卷积网络和特征金字塔网络;
[0061]
步骤(c2)、将用于学习原始图像空间语义特征的残差卷积网络作为主干网络,采用特征金字塔网络实现图像的多尺度特征融合,对特征从不同的尺度大小进行建模;
[0062]
步骤(c3)、将全连接层通过浅层卷积网络作为检测头,获取目标人形的位置,使用k-means聚类算法获取适配数据集中人形的锚框,而后输出图像中所有人体的矩形位置边框。
[0063]
步骤(d),在步骤(c)中基线模型的基础上引入边界框回归网络,计算出人体目标四周边框位置、置信度和中心加权,如图4所示,包括以下步骤,
[0064]
步骤(d1)、引入边界框回归网络,输入第一层特征金字塔网络输出的特征图与第一路多层卷积通过改变上层输入的通道数,回归出目标候选框区域的边界,输出第一路卷积形状为h
×w×
5的张量,其中h和w为上一层输出的长和宽的数值,5为通道数字,作为目标人体上下左右的边界与当前检测区域中心点的距离(l,t,r,b)和置信度;
[0065]
步骤(d2)、将特征图与原图位置一一对应,设置原图与特征图的缩小比例为d,特征图中的坐标(x,y)所对应的原图中心点坐标为当前区域真实存在的人体,通过边界框回归网络回归出该物体上下左右边界与当前检测区域中心点的距离为(l,t,r,b),这四个值与人体目标四周边框的四个角的坐标点进行对应;
[0066][0067][0068][0069][0070]
其中,(x1,y1)(x2,y2)分别是人体目标四周边框左上角点和右下角点的坐标,d是原图与特征图的缩小比例,h和w为该网络输入特征图的长和宽;
[0071]
步骤(d3)、与步骤(d1)进行相同输入,输入第二层特征金字塔网络输出的特征图,第二路多层卷积通过改变上层输入的通道数,回归出目标候选框区域的边界,而后输出第二路多层卷积形状为h
×w×
1的张量,并且代表了当前区域中心点与真实框中心点的距离系数,作为中心权重,其表示数值为ω,用于保证每个检测区域尽可能只检测与自己最近的真实人体。
[0072]
步骤(e),引入自适应焦点损失训练模型,根据训练后的人形检测模型输入步骤(b)中获取的会议场景图像,检测出对应与会者的位置,包括以下步骤;
[0073]
步骤(e1)、添加损失函数训练模型,并在损失函数交叉熵的基础上增加两个超参数,即权重系数α,γ,而后引入自适应焦点损失来对损失函数进行二元分类,用于判断当前检测区域内的物体是否存在;
[0074]
步骤(e2)、输入步骤(b)中获取的会议场景图像,将步骤(d3)中输出的中心权重数值ω作为损失函数的参数参与损失函数中计算,与检测区域中心与真实人体中心距离越远,则损失函数越小;当检测区域内没有人体存在时,ω=0;
[0075]
损失函数公式如下:
[0076][0077]
其中,权重α用来平衡正负样本的不均衡,权重γ用来区分难易样本,p为置信度的预测值,ω是步骤(d2)输出的中心权重数值,σ是任意一个大于0的极小数,用于防止除0操作;
[0078]
步骤(e3)、初始状态下γ值为0,当γ增加时,调整因子也在增加,即简单样本产生的loss逐渐被抑制,随着γ值增大简单样本产生的loss则大幅缩小。
[0079]
为了充分比较本发明所提出的基于深度学习的视频会议场景人形检测方法的性能,实验设置在自建的会议室场景人形检测数据集上,包含9183张图片,平均每张会议室图片中包含约9个人;实验以模型在该数据集上的测试集平均精度均值(ap)作为模型性能的评价指标,iou阈值为0.5条件下的平均精度均值(map@0.5),同理阈值位0.75条件下则是map@.75;在确定iou阈值之后,就可以根据此阈值判断每一种类别的预测框与真实框的交并比是否超过阈值,从而计算出在不同的置信度(conf)下的准确率和召回率,再对各个阈值下(iou=.50:.05:0.95,即在iou为0.5到0.95的范围内每隔0.05的步长获取ap值)的结果求均值,就得到了本发明的实验步骤采用的技术指标map。实验结果表明,本发明中所提出的基线模型map为48.7;在引入了边界回归网络、中心权重网络和自适应焦点损失后,准确率提升到了73.6。
[0080]
综上所述,本发明所提出的基于深度学习的视频会议场景人形检测方法,首先摒弃了原先基于深度学习的检测算法中的锚框聚类,转而使用回归的方式,使用距离算子来表示人体位置,在回归出距离的基础上,还同时回归计算出置信度和中心加权参数;其次,设计了一种自适应焦点损失,代替了先前普遍使用的交叉熵损失函数精选训练,从而提升模型收敛的速度,提高了复杂场景下的检测精度;因此,本发明的方法能够提高人体检测的鲁棒性和性能,方法巧妙新颖,具有良好的应用前景。
[0081]
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1