一种基于音视频结合的内容检测方法与流程

文档序号:12498685阅读:200来源:国知局

本发明涉及视频内容检索技术领域,具体涉及一种基于音视频结合的内容检测方法。



背景技术:

随着互联网技术的发展,人们可以方便地获得各种视频资源,同时也吸引了更多的商家在视频中投放广告。用户希望能够跳过视频中的广告部分直接观看自己感兴趣的内容,广告投放方希望能够检测出视频中广告的时长以确保其投资价值。一些视频制作方会在广告和节目之间插入单色帧作为边界,或者插入倒计时标志,这样的视频很容易检测出广告。但这些并不是通用的手段,还有很多视频的广告与节目之间没有明显的边界,因此希望找到一种能够适用于所有片源的检测广告的方法。

目前,检测电视广告主要是基于机器学习的方法,通过训练样本数据对视频帧进行分类,从而自动提取出广告部分。基于机器学习的常用检测算法主要有支持向量机、K-means算法、决策树等,用上述机器学习算法来检测广告,首先需要获取数据库中用于训练的各个待测视频的样本数据,而现在视频来源广,数据库中不可能存储所有视频的样本数据,所以对数据库中没有样本的视频无法进行检测;整个视频数据作为上述算法的输入,处理数据量大,算法复杂度高,并不能实现广告的精确分割。



技术实现要素:

为解决上述问题,本发明提出了一种基于音视频结合的内容检测方法,该方法结合广告分界点分别在音频和图像上的特征,不依赖样本数据即可准确检测出广告片段。

本发明的具体技术方案如下:一种基于音视频结合的内容检测方法,包括以下步骤:

1、从待测视频中提取出与图像同步的音频;

2、检测出所述音频中的所有静音段,具体包括:将所述音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段;

3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测,在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于预设时长阈值的视频段;

4、将步骤3得到的视频段分割成若干镜头,提取每个镜头的关键帧,使用无监督神经网络算法将关键帧进行分类,分类结果为广告的关键帧所在的视频段为广告片段,计算广告片段的时长为广告播出时长。

作为本发明的进一步改进,步骤3中使用颜色直方图法进行镜头切变检测,具体步骤为:

1)计算每帧图像的颜色直方图:

其中Hn(i)表示第n帧图像的H分量直方图,H_follown(i)为第n帧图像的H值为i的像素个数,i∈[1,12],Sn(i)表示第n帧图像的S分量直方图,S_follown(i)为第n帧图像的S值为j的像素个数,j∈[1,5],Vn(i)表示第n帧图像的V分量直方图,V_follown(i)为第n帧图像的V值为k的像素个数,k∈[1,5],M×N为第n帧图像的总像素数;

2)计算每相邻两帧图像分别在H、S、V三分量的相似性:

其中simH(n,n+1)为第n帧与第n+1帧在H分量的相似性,Hn(i)是第n帧的H分量直方图,Hn+1(i)是第n+1帧的H分量直方图,simS(n,n+1)为第n帧与第n+1帧在S分量的相似性,Sn(j)是第n帧的S分量直方图,Sn+1(j)是第n+1帧的S分量直方图,simV(n,n+1)为第n帧与第n+1帧在V分量的相似性,Vn(k)是第n帧的V分量直方图,Vn+1(k)是第n+1帧的V分量直方图;

3)计算每相邻两帧的总相似性:

其中sim(n,n+1)为第n帧与第n+1帧的总相似度,α、β、γ分别是H、S、V三分量的相似性系数,且α≥β,α≥γ;

4)若相邻两帧的总相似性大于预设相似阈值,则确定在这两帧之间有镜头切变。

作为本发明的进一步改进,步骤4中提取每个镜头的关键帧具体包括:

1)计算每个镜头中每个图像在H、S、V三个分量上的图像熵:

其中EH(n)是第n帧图像在H分量上的图像熵,hn(i)为第n帧图像的H值为i的像素个数与总像素数的比例,ES(n)是第n帧图像在S分量上的图像熵,sn(j)为第n帧图像的S值为j的像素个数与总像素数的比例,EV(n)是第n帧图像在V分量上的图像熵,vn(k)为第n帧图像的V值为k的像素个数与总像素数的比例;

2)计算每个图像的总图像熵为:

E(n)=α'×EH(n)+β'×ES(n)+γ'×EV(n)

其中E(n)是第n帧的总图像熵,α'、β'、γ'分别是H、S、V三分量的图像熵系数;

3)将每个镜头中总图像熵最大的图像作为关键帧提取出来。

本发明的有益效果:本发明方法结合广告分界点分别在音频和图像上的特征,先通过检测同步音频中静音段的位置,初步判断可能的广告分界点,再在可能的分界点附近进行镜头切变检测,将既有镜头切变又是静音段的位置作为初级分界点,提取出相邻初级分界点之间时长接近广告时长的视频段,再将这些视频段进行镜头切割,对每个镜头提取关键帧,使用无监督神经网络算法对关键帧进行分类,分类结果为广告的关键帧所在的视频段即为广告,从而计算出广告时长。本发明一步步缩小检测范围,最后通过机器学习算法进行分类,减少了机器学习算法处理的数据量,简化了机器学习算法的复杂度,同时还提高了检测的准确性。使用无监督神经网络算法进行分类,无需建立视频的样本数据库,随时可以检查,通用性高。

附图说明

图1为本发明方法的流程图。

具体实施方式

本发明提出的一种基于音视频结合的内容检测方法,包括以下步骤:

1、从待测视频中提取出与图像同步的音频。

2、检测出音频中的所有静音段,具体为:将音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段。

本实施例中将音频分割成15ms的音频帧,能量阈值设为0.01,长度阈值设为1000ms。

3、找出与各静音段同步的各组连续的图像,分别将每帧图像投影到HSV颜色空间,计算每帧图像的颜色直方图:

其中Hn(i)表示第n帧图像的H分量直方图,H_follown(i)为第n帧图像的H值为i的像素个数,i∈[1,12],Sn(i)表示第n帧图像的S分量直方图,S_follown(i)为第n帧图像的S值为j的像素个数,j∈[1,5],Vn(i)表示第n帧图像的V分量直方图,V_follown(i)为第n帧图像的V值为k的像素个数,k∈[1,5],M×N为第n帧图像的总像素数。

计算每相邻两帧图像分别在H、S、V三分量的相似性:

其中simH(n,n+1)为第n帧与第n+1帧在H分量的相似性,Hn(i)是第n帧的H分量直方图,Hn+1(i)是第n+1帧的H分量直方图,simS(n,n+1)为第n帧与第n+1帧在S分量的相似性,Sn(j)是第n帧的S分量直方图,Sn+1(j)是第n+1帧的S分量直方图,simV(n,n+1)为第n帧与第n+1帧在V分量的相似性,Vn(k)是第n帧的V分量直方图,Vn+1(k)是第n+1帧的V分量直方图。

计算每相邻两帧的总相似性:

其中sim(n,n+1)为第n帧与第n+1帧的总相似度,α、β、γ分别是H、S、V三分量的相似性系数,且α≥β,α≥γ。

设置相似阈值Hsim,若相邻两帧的总相似性大于相似阈值,则确定在这两帧之间有镜头切变。

在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于预设时长阈值的视频段。

本实施例中设置H、S、V三分量的相似性系数α=1.007、β=0.995、γ=0.993,设置相似阈值Hsim=0.88~0.95。

4、将步骤3得到的视频段分割成若干个镜头,计算每个镜头中所有图像在H、S、V三个分量上的图像熵分别为:

其中EH(n)是第n帧图像在H分量上的图像熵,hn(i)为第n帧图像的H值为i的像素个数与总像素数的比例,ES(n)是第n帧图像在S分量上的图像熵,sn(j)为第n帧图像的S值为j的像素个位与总像素数的比例,EV(n)是第n帧图像在V分量上的图像熵,vn(k)为第n帧图像的V值为k的像素个数与总像素数的比例。

计算每个图像的总图像熵为:

E(n)=α'×EH(n)+β'×ES(n)+γ'×EV(n)

其中E(n)是第n帧的总图像熵,α'、β'、γ'分别是H、S、V三分量的图像熵系数。

将每个镜头中总图像熵最大的图像作为关键帧提取出来,再使用无监督神经网络算法对提取出的每个镜头的关键帧进行分类,分类结果为该关键帧为广告或非广告,属于广告的关键帧所在的视频段判定为广告片段,计算广告片段的时长。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1