一种基于数据增强的视频彩铃分类方法与流程

文档序号：28942725发布日期：2022-02-19 07:16阅读：193来源：国知局

1.本发明涉及一种基于数据增强的视频彩铃分类方法，属于信息技术领域。

背景技术：

2.视频分类技术是人工智能领域的一个重要领域，其在图像分类的技术上被进一步延伸到视频数据。目前图视频数据在互联网上无处不在，这促进了算法的开发，这些算法可以为各种应用程序分析图视频数据的语义内容，包括检索和分类识别。近年来，卷积神经网络(convolutional neural network，cnn)被证明为一种有效理解图视频内容的模型，其可以学习强大且可解释的图像特征。由于计算机设备算力的提升可以将网络扩展到数千万个参数和支持学习过程的海量标记数据集，cnn在图视频分类、分割、检测、检索等领域都获得了最先进的结果。
3.视频彩铃是长期演进语音承载(voice over long-term evolution，volte)的特色业务，将“听的彩铃”演进成“看的彩铃”。用户在volte网络下拨打语音电话或视频电话，呼叫接通前会看到一段视频内容。视频彩铃用户可以制作或上传个性化视频内容，或者从运营商的视频库中进行选择，针对不同主叫方还可以设定不同的视频内容。从数据库中选取的视频彩铃是格式统一的3gp数据、帧率为60、分辨率相同且高清的视频数据。但对于由不同终端所传回的大量视频彩铃录频数据的分类，基于人工比对的方法已经不可接受。这些录频数据存在有帧率不统一、包含大量各异噪声、明暗差异大等质量问题，并且录屏数据的视频时长约为48秒左右，视频存在等待时延,即需要一定时间才进入视频内容播放，各视频时延时间不一。
4.在人工智能分类技术中，存在大量的分类算法，例如决策树、随机深林、支持向量机、神经网络等技术。目前这些算法在精密仪器检测、人脸、车牌识别、目标检测、气象云微粒子识别领域都被广泛使用，但在特定于工业界用户视频彩铃的录频数据的分类上的应用是没有的。
5.因此，如何快速、准确的对视频彩铃录频数据进行内容分类，已成为现有技术中亟待解决的技术问题之一。

技术实现要素：

6.有鉴于此，本发明的目的是提供一种基于数据增强的视频彩铃分类方法，能快速、准确的对视频彩铃录频数据进行内容分类。
7.为了达到上述目的，本发明提供了一种基于数据增强的视频彩铃分类方法，包括有：
8.步骤一、构造视频彩铃图像数据集：从视频彩铃录屏数据中抽取多张视频帧图像，然后对抽取的每张视频帧图像添加黑边和条形噪声，同时设定若干视频彩铃类别，并标定抽取的每张视频帧图像的视频彩铃类别，最后由抽取的所有视频帧图像构成视频彩铃图像数据集；
9.步骤二、构建视频彩铃分类卷积网络，所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成，其输入是视频帧图像，输出是对输入视频帧图像的视频彩铃类别预测结果，然后以视频彩铃图像数据集为训练样本进行训练；
10.步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片，然后将抽取图片依次输入训练好的视频彩铃分类卷积网络，最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。
11.与现有技术相比，本发明的有益效果是：本发明针对视频彩铃内容分类，提出了一种基于数据增强算法、并结合自设计的卷积神经网络拓扑的视频彩铃分类方法，可以高精度且快速的分类视频彩铃；本发明还针对视频彩铃的噪声的随机性，结合视频彩铃的实际情况，提出了多种噪声结合的数据增强方法，从而加强了神经网络提取噪声特征的能力和增加了模型的泛化能力和鲁棒性；在视频彩铃分类卷积网络中，本发明还设计了特征加强层和网络参数降维结构，从而有效减少了算法训练和执行的时间；本发明对于待分类视频彩铃录屏数据，只需要几帧图像结合投票机制即可完成视频彩铃的快速分类。
附图说明
12.图1是本发明一种基于数据增强的视频彩铃分类方法的流程图。
13.图2是图1步骤一中从视频彩铃录屏数据中抽取多张视频帧图像的具体流程图。
14.图3是步骤一中对视频帧图像进行添加黑边、条形噪声、椒盐噪声、高斯噪声、动态明暗变化、旋转和反转等操作后的1个实施例的效果示意图。
15.图4是视频彩铃分类卷积网络对输入的视频帧图像的具体处理流程图。
16.图5是图1步骤三的具体流程图。
具体实施方式
17.为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。
18.如图1所示，本发明一种基于数据增强的视频彩铃分类方法，包括有：
19.步骤一、构造视频彩铃图像数据集：从视频彩铃录屏数据中抽取多张视频帧图像，然后对抽取的每张视频帧图像添加黑边和条形噪声，同时设定若干视频彩铃类别，并标定抽取的每张视频帧图像的视频彩铃类别，最后由抽取的所有视频帧图像构成视频彩铃图像数据集；
20.步骤二、构建视频彩铃分类卷积网络，所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成，其输入是视频帧图像，输出是对输入视频帧图像的视频彩铃类别预测结果，然后以视频彩铃图像数据集为训练样本进行训练；
21.步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片，然后将抽取图片依次输入训练好的视频彩铃分类卷积网络，最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。
22.如图2所示，步骤一中，从视频彩铃录屏数据中抽取多张视频帧图像，可以进一步包括有：
23.步骤11、对视频彩铃录屏数据进行帧率(frame per second，fps)处理，具体方法
是：将帧率小于30的视频帧率转换为30fps，帧率大于30的视频不做处理，保持原帧率；
24.步骤12、利用随机采样的方法，从每秒的视频彩铃录屏数据中随机抽取不重复的若干视频帧：
25.步骤12的具体方法可以是：利用随机函数random进行一定区间范围内(如[0，30])数的不重复选择，并利用随机函数的数值在每秒的视频帧中进行不重复的视频帧随机抽取，例如在每秒总共30帧或者大于30帧的片段中抽取15到20帧图像；
[0026]
步骤13、计算视频采样的起始时间t1和终止时间t2，并从步骤12获得的所有视频帧中选取位于起始时间和终止时间之间(即[t1，t2])的视频帧图像。
[0027]
本发明可以基于对大量录频数据时延的分析，选取m个(m大于100)视频内容播放的起始时间与终止时间，来计算视频采样的起始时间t1和终止时间t2。视频采样的起始时间t1和终止时间t2的计算公式可以如下：其中，t
1i
、t
2i
分别是第i个视频内容播放的起始、终止时间，m是选取的视频内容总数，a是终止时间的采样范围控制系数，a∈[0.6，1]，α是平均时间调整系数，α∈[0.9，1]，β是偏置项，β∈[0，0.1]。
[0028]
步骤一中，对抽取的每张视频帧图像添加黑边的具体方法可以包括有：
[0029]
获取每张视频帧图像的长x与宽y，计算上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size，并设定黑边像素value为0，然后在每张视频帧图像上添加黑边，其中，上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size的具体计算过程如下：判断是否x＜600或y＜850，如果是，则top_size＝bottom_size＝35，left_size＝right_size＝25；如果否，则top_size＝bottom_size＝45，left_size＝right_size＝30。
[0030]
步骤一中，对抽取的每张视频帧图像添加条形噪声的具体方法可以包括有：
[0031]
步骤a1、获取每张视频帧图像的长x与宽y，计算每张视频帧图像的中心坐标(x1，y1)，然后利用中心坐标，获取每张视频帧图像的上边缘中心坐标(x1，0)和下边缘中心坐标(x1，y)；
[0032]
步骤a2、基于视频帧图像的上、下边缘中心坐标，设定宽度为z的条状掩布，然后将每张视频帧图像上对应掩布区域的像素值设置为1，同时设定掩布mask的r、g、b三通道的像素值：r＝67、g＝160、b＝o，再将r、g、b三通道的像素值按随机比例进行缩放，最后将每张视频帧图像乘以mask，从而完成每张视频帧图像上条形噪声的随机生成。
[0033]
本发明在对每张视频帧图像添加黑边和条形噪声的基础上，还可以再随机进行添加椒盐噪声、高斯噪声、动态明暗变化、旋转或反转等操作，从而生成多种数据增强图像。其中：
[0034]
1、对视频帧图像添加椒盐噪声的具体方法如下：
[0035]
步骤b1、获取与视频帧图像大小相同的零矩阵，并设置椒盐噪声中黑白噪声的比例阈值，其中黑噪声的比例阈值为prob(例如0.2)，白噪声的比例阈值为thres＝1-prob；
[0036]
步骤b2、按照从左到右、从上到下的顺序，依次遍历零矩阵中每个像素点：使用随机函数为每个像素点生成1个处于[0，1]区间范围内的随机值，然后将随机值和黑白噪声的比例阈值进行比对，若随机值小于prob，则将零矩阵中对应的像素值更改为0，若随机值大
于thres，则将零矩阵中对应的像素值更改为255，若为其他情况，则零矩阵中对应的像素值保持不变，最后返回零矩阵的视频帧图像即是添加了椒盐噪声的视频帧图像。
[0037]
2、对视频帧图像添加高斯噪声的具体方法如下：
[0038]
步骤c1、获取与视频帧图像大小相同的高斯分布矩阵，并设置均值mean＝0、方差var＝0.001；
[0039]
步骤c2、对视频帧图像进行归一化操作，即将视频帧图像中的每个像素值除以255，然后将归一化后的视频帧图像加上高斯矩阵，并将像素值上下边界值限定在[0，1]之间，最后将加了噪声的矩阵乘以255，从而最终获得添加了高斯噪声的视频帧图像。
[0040]
3、对视频帧图像进行动态明暗变化操作的具体方法如下：
[0041]
遍历视频帧图像三通道每一个像素点，将每个像素点的像素值按一定比例降低(或调高)，其中降低的比例percetage1的取值范围为[0，0.9]，调高的比例percetage2的取值范围为[1，1.5]，并限定像素值最大值为255、最小值为0，最后降低(或调高)像素值后的视频帧图像即是进行了动态明暗变化操作后的视频帧图像，percetage1的值可以设定为以下几个梯度：0.8、0.6、0.4、0.2，percetage2的值可以设定为以下几个梯度：1.2、1.4、1.5。
[0042]
4、对视频帧图像进行旋转操作的具体方法如下：
[0043]
获取视频帧图像的长宽信息，并利用长宽信息获取视频帧图像的中心坐标，然后基于中心点设置旋转角度angle,angle的值可以是45
°
、90
°
、180
°
或360
°
，最后基于以上信息完成视频帧图像的旋转，并对旋转后的视频帧图像中出现的空隙区域进行填充，填充数值可以是(255,255,255)。
[0044]
5、对视频帧图像进行反转操作的具体方法如下：
[0045]
获取视频帧图像维度，并保持视频帧图像中间像素值不变，对调左右的矩阵像素值，即完成了视频帧图像的反转操作。
[0046]
图3是本发明对视频帧图像进行添加黑边、条形噪声、椒盐噪声、高斯噪声、动态明暗变化、旋转和反转等操作后的效果示意图。其中，(a)是从视频彩铃录屏数据中抽取的1张视频帧图像，(b)是对(a)添加了黑边和条形噪声后的视频帧图像，(c)是对(b)添加了椒盐噪声后的视频帧图像，(d)是对(b)添加了高斯噪声后的视频帧图像，(e)是对(b)进行动态变亮后的视频帧图像，(f)是对(b)进行了动态变暗后的视频帧图像，(g)是对(b)进行了旋转后的视频帧图像，(h)是对(b)进行了反转后的视频帧图像。
[0047]
需要强调的是，本发明在步骤一中设定若干视频彩铃类别时，可以根据实际图像内容设定多个(例如15)视频彩铃类别，由于考虑到视频彩铃业务的实际需求，需要分析是否出现业务预定之后的视频彩铃匹配错误情况，所以可以在设定的多个类别基础上，同时还增加2个类别：未播放视频彩铃、播放视频彩铃与预定视频彩铃不一致，然后标定每张视频帧图像的视频彩铃类别，即打上0-16的数字标签，从而完成视频彩铃图像数据集的制作。
[0048]
视频彩铃分类卷积网络可以进一步细分为：主干特征提取层、降维层、特征加强层。如图4所示，视频彩铃分类卷积网络对输入的视频帧图像的具体处理流程如下：
[0049]
步骤21、主干特征提取层采用迁移学习继承vggnet16的部分层参数，从输入的视频帧图像中提取、并输出视频帧图像的特征图，所述特征图尺寸为(7，7，512)；
[0050]
vggnet是由牛津大学计算机视觉组和google deepmind公司研究员一起研发的深度卷积神经网络。步骤21的具体方法可以是，采用vggnet16卷积网络拓扑的前13层，即全连
接层前的所有卷积池化拓扑，从而可以获得较好的结果与加速网络的训练；
[0051]
步骤22、降维层采用卷积核窗为1
×
1、步长str ide＝1、填充＝0的卷积操作，将主干特征提取层输出的特征图尺寸由(7，7，512)降维成(7，7，64)；
[0052]
由于主干特征提取层输出的特征图维度相对较高，因此需要通过降维层来降低特征图维度；
[0053]
步骤23、特征加强层先利用卷积conv(1，1，16)，将降维层输出的特征图通道数由64转换成16，并通过激活函数relu层来增加模型非线性能力，再对特征图进行并行的4次全局池化操作，以获得尺寸分别为1
×
1、2
×
2、3
×
3、6
×
6，且通道数为16的4个特征图，然后对4个特征图进行上采样，将4个特征图尺寸都转换为7
×
7，并保持每个特征图的通道数不变，最后将降维层输出的特征图和这4个上采样之后的特征图进行堆叠，从而完成特征加强提取操作，将堆叠后的特征图经过多个全连接层和softmax层后，最终输出预测得到的视频彩铃类别，其中全局池化操作为通过自适应设定池化核和步长完成对指定尺寸的特征图获取，上采样为基于双线性插值的方法对图像进行上采样。
[0054]
本发明在步骤二中以视频彩铃图像数据集为训练样本进行训练时，对视频彩铃图像数据集进行划分：其中百分之70的视频帧图像为训练集，百分之30的视频帧图像为测试集；并基于网格搜索法，对视频彩铃数据进行十折交叉验证，从而确定最佳网络超参数：设定损失函数为交叉熵损失、学习率α＝0.0001、梯度下降函数为损失函数优化器adam、小批量mini-batch为128，并采用l1正则化防止网络产生过拟合现象。
[0055]
如图5所示，图1步骤三可以进一步包括有：
[0056]
步骤31、截取待分类视频彩铃录屏数据在视频采样的起始时间t1和终止时间t2之间的录屏数据，然后从截取到的每秒录屏数据中分别抽取1帧图片；
[0057]
步骤32、将抽取的每帧图片分别输入训练好的视频彩铃分类卷积网络，从而预测输出每帧图片的视频彩铃类别；
[0058]
步骤33、采用投票机制确定待分类视频彩铃的视频彩铃类别：判断是否所有帧图片的视频彩铃类别都是未播放彩铃，如果是，则待分类视频彩铃的视频彩铃类别是未播放彩铃；如果否，则从所有帧图片中删除视频彩铃类别是未播放彩铃的图片，然后统计数量最多的视频彩铃类别，待分类视频彩铃的视频彩铃类别即是统计数量最多的视频彩铃类别。
[0059]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴泽培;石峰;刘壮;段嘉嘉;赵晓梅;郑博文
技术所有人：杭州东信北邮信息技术有限公司
我是此专利的发明人

上一篇：一种新能源路灯的制作方法
上一篇：一种人脸角度检测模型训练中损失函数的设计方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。