视频会议内容和质量检测设备及检测方法与流程

文档序号:15752308发布日期:2018-10-26 18:00阅读:532来源:国知局
视频会议内容和质量检测设备及检测方法与流程

本发明涉及一种视频会议内容和质量检测设备及检测方法。



背景技术:

视频会议系统可以提供高清晰度、高效率的远程会议和办公服务,能够有效提升企业沟通效率、缩减差旅费用、提高管理成效,同时视频会议还可在内部的远程教育和培训等多个方面助力企业降低成本提高效率。但目前视频会议中的视频图像质量等均缺乏有效的自动化检测手段,通常都是通过人工方式完成。

典型的视频会议场景如图1所示,视频会议举行时通过电视墙服务器对视频会议各分会场的视频图像进行解码,然后将需要监控的各会场视频信号通过监控电视播放出来,会议服务人员在会议举行期间观察监控电视屏幕的分会场图像情况,当出现某个会场图像质量劣化甚至丢失时,会议服务人员手动将出现问题的会场图像从视频会议轮询队列中剔除;在需要观察的分会场数量较多或服务人员出现异常时很难保证及时发现和剔除图像质量出现问题的分会场视频。



技术实现要素:

为了克服现有技术的缺点,本发明提供了一种视频会议内容和质量检测设备及检测方法,基于视频会议中各会场的视频图像数据流实现对视频会议参会人员的检测并监测图像质量的变化情况,对各会场的参会人数进行统计并在检测到有会场出现图像质量问题时通过声光提供异常状态报告,提示会议服务人员及时作出处置和响应。

本发明所采用的技术方案是:一种视频会议内容和质量检测设备,包括金属壳体和设置在金属壳体内的电路板,所述电路板包括四核a57armcpu和256个cuda核心的nvidiamaxwellgpu,以及分别与四核a57armcpu和256个cuda核心的nvidiamaxwellgpu连接的存储器,csi接口、千兆以太网接口、audio接口和gpios接口。

本发明还提供了一种视频会议内容和质量检测方法,包括如下步骤:

步骤一、通过高清视频采集卡实现对视频会议目标分会场的视频图像采集,得到待检测的会议视频流;

步骤二、检测会议视频流的图像质量是否为重大异常:若是,则提示异常记录,并在图像质量满足特定异常情况时将检测出现视频图像异常的分会场从轮询队列中剔除;反之,则进入步骤三;

步骤三、检测图像质量是否满足参会人数的要求:若否,则提示异常记录;若是,则进入步骤四;

步骤四、对当前视频信号进行人脸检测,并将检测结果写入数据库。

与现有技术相比,本发明的积极效果是:

本发明通过使用基于nvidiajetsontx1的视频会议检测设备,视频会议服务人员无需在会议期间对各分会场的图像随时进行实时观察,极大的降低了会议服务人员的工作强度,减少了由于人工干预可能带来错检、漏检等误操作影响,加快了对异常情况的响应处理速度;且检测设备通过内置的多任务卷积神经网络算法对所输入的视频图像中的参会人脸进行检测,然后根据视频图像上叠加的会场字幕名称实现对会场参会人数的记录;最终从参会人数和视频质量两个方面达到保障和提升视频会议效果的目的。

附图说明

本发明将通过例子并参照附图的方式说明,其中:

图1是典型的视频会议场景示意图;

图2是本检测设备的电路板的结构原理框图;

图3为本检测设备的外形结构示意图:(1)为设备正面;(2)为设备背面;

图4为使用本检测设备时视频会议的场景示意图;

图5为使用本检测设备工作时的检测流程图。

具体实施方式

一种视频会议内容和质量检测设备,外形为一个高度较矮的金属外壳长方体,内部安装有基于nvidiajetsontx1套件的电路板。

nvidiajetsontx1套件配置了4gblpddr4和16gb的emmc存储器;套件的电路结构原理框图如图2所示。jetsontx1套件自身即带有大量丰富的外部接口,本检测设备中主要使用了其中的csi接口、千兆以太网接口、audio接口和少量gpios接口。具体来说检测设备通过toshiba的tc358840xbg芯片将输入的视频流信号由hdmi流转换为csi视频,然后通过jetsontx1套件的csi接口完成输入;相关视频流信号经jetsontx1套件中的四核a57armcpu和256个cuda核心的nvidiamaxwellgpu处理完成视频叠加字符识别、视频质量和参会人数检测;千兆以太网用于提供与外部设备的通讯服务;audio接口用于输出声音信号;gpios用于控制设备状态显示灯。

本检测设备的外形结构如图3所示,设备正面外部有一个状态指示灯1用于展示检测系统当前的工作状态,有一个喇叭2用于输出声音信号;设备背面有一个hdmi接口3用于输入待检测的视频流,一个rj45接口4用于和外界进行数据通讯,一个直流插座5用于为检测设备提供电源。

设备在工作时直接通过后面的hdmi接口输入待检测的视频会议图像信号完成对应会场的参会人数和视频质量检测工作。当设备检测到hdmi接口中没有视频信号输入时设备将进入低功耗状态;当设备检测到视频信号时将在视频图像的正下方约定区域搜索代表会场名称的数字字幕并进行识别,随后每间隔10秒进行一次图像质量和参会人数检测,相关检测结果与系统时间、会场名称编码绑定后保存在检测设备本地,并通过tcp/ip协议在指定端口为外界终端提供相关数据的查询服务。

视频质量检测以动态背景建模为基础,通过一定时间的会场画面建立正常会议视频信号的模型,通过融入帧间差分,对视频前后帧的运动目标进行分析,并结合视频图像的颜色和亮度分布数据,对视频图像的信号丢失、亮度偏色、模糊抖动、雪花噪点、纵横条纹问题进行实时自动监测;参会人数统计则是通过mtcnn多任务卷积神经网络完成。

使用基于nvidiajetsontx1的视频会议图像检测设备时视频会议的场景如图4所示,在进行视频会议服务时通过电视墙服务器将视频会议图像输出到检测设备上,检测设备可以对输入的视频会议会场图像进行参会人数检测和视频质量检测,相关检测结果保存在设备本地并可通过网络接口进行数据交互和通讯。

本发明还提供了一种视频会议内容和质量的检测方法,包括如下内容:

在部署本视频会议辅助系统之前视频会议运维服务人员通过电视墙服务器对视频会议各分会场的数据进行解码并通过显示屏进行显示输出,然后由服务人员肉眼对需要关注的会场进行监测。

部署本系统之后检测服务器可以取代原来的显示屏接收电视墙服务器的显示输出,具体来说是通过检测服务器上安装的高清视频采集卡完成,本系统选定的高清视频采集卡上拥有与电视墙服务器显示输出端口对应的dvi接口,将原来接到显示器的dvi线缆连到高清视频采集卡上,调用高清视频采集卡的驱动程序即可实现对视频会议目标分会场的视频图像采集。然后基于这些视频图像流数据完成视频会议各分会场的参会人数统计和分会场视频质量监测功能。

如图5所示,本发明的检测方法包括如下步骤:

具体来说系统首先对采集到的视频流进行质量检测,判断视频图像质量是否达到正常举行视频会议的需要以及是否会影响对参会人员人数的统计。

主要针对聚焦测度、灰度值、l亮度通道、a彩色通道、b彩色通道、抖动间隙、x偏移量、y偏移量、噪点容度等进行图像质量判断。其中图像的偏色不仅与图像色度的平均值有直接关系,还与图像的色度分布特性有关。如果在a-b色度坐标平面上的二维直方图中色度分布基本上为单峰值,或者分布较为集中,而色度平均值又较大时,一般都存在偏色,而且色度平均值越大,偏色越严重。因此引入等效圆的概念,采用图像平均色度d和色度中心距m的比值,即偏色因子k来衡量图像的偏色程度。其计算方法如下式:

k=d/m(5)

当视频满足不了初始设定阈值或者人为设定阈值,出现信号丢失、颜色异常、亮度异常、画面模糊、画面抖动、雪花噪点、纵横条纹、画面卡顿等情况,判定为不正常。

在图像质量出现异常时通过系统界面进行报警提示,并在图像质量发生信号丢失、雪花噪点、画面冻结等特定异常情况时通过视频会议mcu所提供的api将检测出现视频图像异常的分会场从轮询队列中剔除,避免异常视频图像被广播到其他会场。在图像质量正常的情况下系统将对视频中的参会人员进行人脸识别和计数。相关参会人员和图像异常数据在系统界面中实时进行显示并可按时间范围对检测过的所有会议提供数据统计报表。

系统运用多任务级联卷积神经网络技术并针对视频会议应用场景引入权重自学习和时空特征来极大的提高了识别率降低了识别时间。

人脸对齐和人脸特征点回归是人脸检测和识别相关应用的核心技术。准确地筛选出人脸候选框可以有效地提高人脸特征点回归的准确性;另一方面,反过来利用面部特征点信息又可以有效地提高人脸候选框筛选的精准度。二者的检测结果相互校验和促进,能够显著地提升人脸检测的执行效率和识别效果。

因此,一些研究者将人脸对齐和人脸特征点回归结合起来,提出了基于多任务的人脸特征点定位方法。2014年,chen等人提出联合检测人脸和特征点定位算法(jointcascadefacedetectionandalignment,jda),通过将特征点校准回归树与人脸检测弱分类器结合起来,得到分类回归决策树,该决策树能够同时输出人脸候选框的得分和特征点回归的增量。2016年,qiao等人提出多任务级联卷积神经网络算法(multi-taskcascadedconvolutionalnetworks,mtcnn),该算法基于深度学习,联合人脸对齐候选框和人脸五个关键特征点(鼻头、左眼、右眼、左嘴角和右嘴角),可以快速有效地对图像中的人脸信息进行捕捉,具有一定的实时性,但其漏检率和误检率依然较高,需要针对图像的特定应用环境进一步优化。

mtcnn算法在实际使用过程中,依然有其局限性,对视频流中单帧动态模糊图像的偏幅较大的人脸容易漏检,对某些帧的干扰信息容易误识别。在本系统的研发过程中,通过引入了网络权重自学习模块和图像序列时空特征,对mtcnn算法进行优化研究。

引入网络权重自学习模块

通过调整mtcnn中人脸特征点回归部分的权重,能够有效提高mtcnn对参会人员人脸特征点定位的准确率。在会场较多的情况下,每个会场视频背景有着较大的区别,每一个会场都是一个相对特定的场景。往往对于一个场景中的人脸信息,需要进行多次训练和对比测试才能得到一个相对较好的权重分布值,人工无法找到一个统一的值来接近所有会场的最佳分布值。因此,本发明在mtcnn中引入权重自学习模块,使其在训练过程中能够依据不同会场背景环境情况,学习得到一个最佳的权重分布。权重自学习模块的主要内容包括:

1)首先根据训练经验,对多任务的初始权值分布ω进行赋值,对随机产生的学习样本进行训练,设置终止训练的条件为梯度ε的阈值;

2)通过初始权值分布ω来计算梯度ε1,不断改变梯度方向,来学习计算新的梯度εn,判断εn≤ε;

3)直到εn≤ε满足条件,就得到了自学习后优化的权重值w。

深度学习的基本原理是基于人工神经网络,信号从一个神经元进入,经过非线性的激活函数,传入到下一层神经元;再经过该层神经元的激活,继续往下传递,如此循环往复,直到输出层。将输出层的结果和预期的结果进行比较得到误差,将误差通过由后一层向前一层层层传播回去。梯度通过求导法则计算。梯度方向表示函数增长速度最快的方向,那么他的相反方向就是函数减少速度最快的方向。对于机器学习模型优化的问题,当我们需要求解最小值的时候,朝着梯度下降的方向走,就能找到最优值。

w是深度学习自我学习后,对比预先给出的结果,对比现有网络处理结果,判断得到最好的输出后,给不同神经元分别不同的权重比例的最优值。

w会有一个预设的初始值,梯度传播回来,w的新值通过对应减去梯度的值得到,通过训练,w会趋于稳定。

充分利用多任务之间的差异性和相关性,加入上述权值自学习模块后,能够有效提高mtcnn算法在不同会场环境条件下的特征点定位精度,从而使算法的人脸对齐与检测过程更加高效,准确性、兼容性和稳定性得到极大的提升。

引入时空特征

对于部分视频会议系统由于设备使用年限和网络等原因,其会议视频流生成的帧间图像序列中,大多的人脸区域都容易产生动态模糊,人脸关键点显示时隐时现。另一方面,除开参会人员的进出,视频会议场景的人员几乎可以认为是静止的,这时候人员的遮挡就是影响计数准确性的最大因素。故利用视频流的连贯性,对成像质量不好的帧间图像引入时空特征,增强人脸检测的稳定性,大幅度降低低画质视频中的关键点错误率。

首先在第一帧中标记出所有检测出的人员,并取它们的几何中心坐标(x1,y1)记录下来;下一帧继续标记出检测的人员,并与上一帧作对比。直到在坐标(xn,yn),上一帧未检测到人员,而在当前帧检测到,就可能有被遮挡的人被检测到了,判别公式见式1。

其中:表示是否有人员被遮挡,有则计数;δ是一个常量,由视频会议场景的大小决定。若新增的人员临近范围内存在另一个人员,则认定该新增人员为存在的参会人员,后续无论是否检测到都认为该位置存在人员;反之,若不存在另一个参会人员,则认定该人员在进行移动,但并没有增加人员数量。经历多次轮询过后,可以稳定地获得最终的场景人数。这样一来就利用视频会议场景的时空特征(位置不变信息和帧间关联信息),在一定程度上解决视频会议场景中帧间模糊以及人员遮挡的问题。用引入时空特征的mtcnn人数统计方法对多个会场视频进行测试,其人脸五个特征点错误率统计有了明显提升。

本发明的工作原理是:

视频会议工作在组织和管理上仍然需要比较多的准备工作,会议过程中部分会场可能因多种原因出现视频质量不佳等异常,尤其对于行业经常使用的多点视频会议由于会场众多,目前的视频会议系统缺乏在会议过程中快速发现问题、定位问题和进行响应的有效手段,进而影响视频会议的举办效果。本系统通过机器视觉技术对视频会议的视频图像进行实时分析处理,实现对视频会议质量和参会人数的自动化监测,减少了会议准备和管理的工作量,保障和提升会议效果。

系统在多任务级联卷积神经网络(multi-taskconvolutionneuralnetwork)的基础上,通过调用不同的网络任务,充分利用其网络层之间的差异性和相关性,引入自学习模块和时空特征,来分别针对mtcnn的三层网络结构p-net、r-net、o-net自动寻找最佳权重比值,同时利用位置不变信息和帧间关联信息,很好地解决了帧间人脸模糊及遮挡的技术难点,从而在视频会议的人脸对齐与检测过程中,整体提高了所有任务的学习性能,使mtcnn算法针对特定的对象达到较好的检测效率和检测效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1