一种电视直播流中的广告段检测方法

文档序号：6371410阅读：89来源：国知局

专利名称：一种电视直播流中的广告段检测方法
技术领域：
本发明涉及视频检索与视频检测技术领域，尤其涉及一种电视直播流中的广告段检测方法。
背景技术：
目前，随着经济的高速发展，各级电视台都会在自己的节目中插播ー些广告来增加电视台的收入，同时ー些企业也愿意出资播放本企业产品的广告，一方面可以为企业做宣传，另一方面又可以提升企业产品销量。而广告公司和企业为了确保其视频广告取得应有的效益，必须派人来监瞀电视台广告的播放情况，同时文化管理部门会依据政府的行政命令要求电视台播放ー些公益广告、政府通告、通知等，为了确保这些强制性广告在规定的时间内播出，文化监管部门也必须派专人进行检測。
在电视节目制作过程中，出于商业目的，通常会加入ー些广告片段，但在网上视频点播、媒体资产管理等领域中，为了有效的检索及浏览视频，插播的广告片段需要被剔除或者替换成其他视频。因此，自动、精确的检测出电视节目视频中的广告片段，成为视频点播、媒体资产管理等领域中急需解决的问题。目前，视频广告的检测都是通过人工进行的，浪费了大量的资源。为了有效地检索相关视频信息，需要研发ー些先进技术对海量的视频数据进行分析、浏览、检索和语义内容分类。视频广告作为ー种独立的视频类型，其检测与分析作为视频分类的ー个重要方面也日益受到重视，视频广告检测方法的研究工作也逐渐成为国内外视频应用领域的研究热点之一。对于视频广告的检测，研发人员基于视频广告和普通节目视频的特征上的区別，提出了多种方法。现在的较为常用的视频广告检测方法大体上分为以下两类
(I)基于标识的方法(Logo-based methods)
此方法是最早的视频广告检测方法。该方法主要利用电视台的台标进行检测。电视台在播放普通电视节目时会将自己的台标显示出来，而播放广告时一般就会隐去台标，这使得我们可以通过检测台标的存在与否来区分视频广告和普通电视节目视频。台标一般分为三种静态台标、半透明台标和动态台标。针对不同形态的台标，都有相应的检测方法，从而实现对视频广告的检测。其中对于静态台标的研究是比较深入的，而且应用得很广泛。但是对于半透明台标和动态台标，检测起来比较困难，所以还没有比较成熟的检测方法。另外，现在很多电台在播放视频广告的时候也会将台标显示出来，这时基于标识的检测方法就会失效。(2)基于规则的方法(Rule-based methods)
基于规则的方法大多是利用广告镜头的信息来进行检测的，它是通过ー组特征和规则来区分广告和普通电视节目视频。由于视频广告和普通电视节目视频在某些特征方面存在着比较明显的差异，因此利用这些区分性比较强的特征，就可以实现对视频广告的检测。在视频方面可以通过提取一段视频巾贞的平均边缘变化率A-ECR (Average of Edge ChangeRatio )和边缘变化方差V-ECR (Variance of Change Ratio )以及平均巾贞差A-FD(Average of Frame Difference)和巾贞方差 V-FD (Variance of Frame Difference)来实现检测。在音频方面，视频广告的音频内容和普通电视节目的音频内容也存在一些明显的特征上的区别，比如可以利用音频多维频率普系数(Mel-frequency Cepstral Coefficient)和音频信息熵来实现对视频广告的分割检测。不过音频方面的特征一般都用于辅助视频特征检测方面，通过两者的结合才能实现对广告段更加精确的分割检测。

发明内容
本发明的目的是在于提出一种电视直播流中的广告段检测方法，对视频广告进行了镜头分割和提取关键帧，基于视频广告的视觉特征与普通电视节目的视觉特征之间的差异对直播视频流中的视频广告进行检测，并提出了视频广告数据库的更新策略，能够大量减少视频检测和编辑领域的工作人员的工作量，提高视频检测速度和检测的精确度。本发明提供了一种电视直播流中的广告段检测方法，包括以下步骤
A、提取不少于一个的视频广告，建立视频广告数据库，提取每个视频广告的不少于一个的视觉特征向量，构建数据结构来组织所述视频广告的所有视觉特征向量；
B、输入待检索视频，提取待检索视频的不少于一个的视觉特征向量；
C、将所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量进行匹配，得到匹配结果，根据所述匹配结果更新所述数据结构；
D、根据所述匹配结果判断视频检测结果，将所述检测结果输出。进一步地，步骤A中，提取每个视频广告的不少于一个的视觉特征向量，还包括以下步骤
将每个视频广告分割为不少于一个的镜头，提取每个镜头的镜头关键帧；
提取视频广告的每个镜头关键帧的不少于一个的视觉特征，所有视频广告的镜头关键帧的视觉特征构成视频广告的视觉特征，将视频广告的每个视觉特征转换为对应的视频广告的视觉特征向量。进一步地，步骤B中，提取待检索视频的不少于一个的视觉特征向量，还包括以下步骤
将待检索视频分割为不少于一个的镜头，提取每个镜头的镜头关键帧；
提取待检索视频的每个镜头关键帧的不少于一个的视觉特征，所有待检索视频的镜头关键帧的视觉特征组成待检索视频的视觉特征，利用距离关系得到所述待检索视频的每个视觉特征对应的待检索视频的视觉特征向量。进一步地，将视频分割成不少于一个的镜头，还包括以下步骤
提取所述视频的所有视频帧的颜色直方图，计算两个相邻视频图像帧的颜色直方图的相似值，作为帧间相似值；
根据所述视频的帧间相似值、预设的第一阈值、预设的第二阈值和预设的渐变镜头长度第三阈值，确定镜头边界序列。进一步地，提取所有视频帧的颜色直方图，计算帧间相似值，还包括以下步骤对视频图像进行分块，共分为块，其中是列数，是行数；
对图像的每一个图像块在HSV颜色空间上提取颜色直方图，其中把亮度量化为I个区间，把色调量化为16个区间，把色饱和度量化为8个区间，每一帧图像得到个有个bin的颜色直方图，并对得到的顔色直方图进行归ー化；
采用下面的公式计算两个相邻视频图像帧的颜色直方图的相似值
9
其中，为处于第列第行的块的权重，是第帧的第个块的顔色直方图的第个bin的值，a和b为视频图像帧的序号，函数是求取两个值中较小的值。进ー步地，根据整个视频的帧间相似值、预设的第一阈值、预设的第二阈值和预设的渐变镜头长度第三阈值，确定镜头边界序列，还包括以下步骤
输入整个视频序列的帧间相似值序列，预设高阈值，预设低阈值，预设渐变镜头长度最低阈值，其中；根据每个帧间相似度进行判断
如果且没有设置渐变标志，判断镜头发生了突变，输出突变镜头的边界信息；
如果但设置了渐变标志，则渐变镜头长度加I ;
如果但但没有设置渐变标志，则设置渐变标志，记录下当前图像帧位置作为候选镜头开始边界，并开始计数渐变镜头长度；
如果并设置了渐变标志，则检查渐变镜头长度，如果则判断发生了渐变，输出渐变镜头的边界信息，否则判断不是渐变，取消渐变标志，并把渐变镜头长度重新置零；
如果且没有设置渐变标志，则判断没有发生镜头变化；
输出镜头边界序列。进ー步地，所述提取每个镜头的镜头关键帧是提取镜头的第一视频帧和最后ー视频帧作为镜头关键帧。进ー步地，所述提取每个镜头关键帧的视觉特征是采用SIFT尺度不变特征变换匹配算法提取镜头关键帧的视觉特征。
进ー步地，将视频广告的每个视觉特征转换为对应的视频广告的视觉特征向量，还包括以下步骤
采用聚类算法对所述视频广告的视觉特征进行聚类，用每个聚类中心作为视觉单词，所有视觉单词构成视觉词汇表；
视频广告的每个视觉特征所属视觉单词与所述视觉词汇表的对应关系构成视频广告的视觉单词直方图，用所述视觉单词直方图作为视频广告的视觉特征向量。进ー步地，所述聚类算法是K-均值算法。进ー步地，利用距离关系得到所述待检索视频的视觉特征对应的待检索视频的视觉特征向量，还包括以下步骤
计算待检索视频的视觉特征与视觉词汇表中每个视觉单词的相似度，并对相似度进行排序，选取相似度最大的视觉单词；
所述视觉单词与所述视觉词汇表的对应关系构成待检索视频的视觉单词直方图，将所述视觉单词直方图作为所述待检索视频的视觉特征向量。进ー步地，步骤A中所述数据结构，为KD-树数据结构。进ー步地，步骤C中，将所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量进行匹配，根据所述匹配结果更新所述数据结构，还包括以下步骤计算所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量之间的相似度；
如果相似度的最大值大于预设值，判断为匹配成功，更新数据结构中匹配成功的视觉特征向量的匹配成功次数和本次匹配成功时间，如果相似度最大值小于预设值，判断为匹配不成功，将所述待检索视频的视觉特征向量插入数据结构中，删除数据结构中预设时间阈值内没有匹配成功的视觉特征向量。进一步地，步骤C中，将所述待检索视频的特征向量与所述数据结构中的每个特征向量进行匹配，采用的匹配算法为BBF特征匹配搜索算法。进一步地，步骤D中，根据所有所述匹配结果计算视频检索结果并输出，还包括以下步骤将匹配成功的视觉特征向量所属镜头标记为1，匹配不成功标记为0，待检索视频表示为一个01序列；
如果所述01序列中连续预设数量的I中出现一个0，则把O改判为I ;
如果所述01序列中I所占比例大于预设值，则判断待检索视频为视频广告，小于预设值，则判断待检索视频为非视频广告。本发明的技术效果在于
为视频检测和编辑工作领域的工作人员提供一种电视直播流中的广告段检测方法，能够大量减少视频检测和编辑领域的工作人员的工作量，提高视频检测速度和检测的精确度。本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中
图I是本发明具体实施方式
中电视直播流中的广告段检测方法的流程图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。图I是本发明具体实施方式
中电视直播流中的广告段检测方法的流程图。如图I所示，视频广告检测方法的流程，具体包括以下步骤
步骤101、提取不少于一个的视频广告，建立视频广告数据库。步骤102、提取所述视频广告的所有视频帧的颜色直方图，即对视频图像进行分块，共分为块，其中是列数，是行数；对图像的每一个图像块在HSV颜色空间上提取颜色直方图，其中把亮度量化为I个区间，把色调量化为16个区间，把色饱和度量化为8个区间，每一帧图像得到个有个bin的颜色直方图，对得到的颜色直方图进行归一化。
计算两个相邻视频帧的顔色直方图的相似值，作为帧间相似值。采用下面的公式计算两个相邻视频图像帧的颜色直方图的相似值
其中，为处于第列第行的块的权重，是第a帧的第个块的顔色直方图的第个bin的值，a和b为视频图像帧的序号，函数是求取两个倌中较小的侑。计算所有相邻视频帧的帧间相似值，构成整个视频序列的帧间相似值序列。输入整个视频序列的帧间相似值序列，预设第一阈值=0. 85，预设第二阈值=0. 65，预设渐变镜头长度最低阈值，其中；
根据每个帧间相似值进行判断
如果且没有设置渐变标志，判断镜头发生了突变，输出突变镜头的边界信息；
如果但设置了渐变标志，则渐变镜头长度加I ;
如果但但没有设置渐变标志，设置渐变标志，记录下当前图像帧位置作为候选镜头开始边界，并开始计数渐变镜头长度；
如果并设置了渐变标志，则检查渐变镜头长度，如果则判断发生了渐变，输出渐变镜头的边界信息，否则判断不是渐变，取消渐变标志，并把渐变镜头长度重新置零；
如果且没有设置渐变标志，则判断没有发生镜头变化；
输出镜头边界序列。按照镜头边界序列将每个视频广告分割为不少于ー个的镜头，提取每个镜头的第一视频巾贞和最后一视频巾贞作为镜头关键中贞。步骤103、采用SIFT尺度不变特征变换匹配算法提取视频广告每个镜头关键帧的不少于一个的视觉特征，所有视频广告的镜头关键帧的视觉特征构成视频广告的视觉特征。步骤104、采用K-均值聚类算法对所述视频广告的视觉特征进行聚类，用每个聚类中心作为视觉单词，所有视觉单词构成视觉词汇表；
视频广告的每个视觉特征所属视觉单词与所述视觉词汇表的对应关系构成视频广告的视觉单词直方图，用所述视觉单词直方图作为视频广告的视觉特征向量。步骤105、输入待检索视频，采用步骤102的方法将待检索视频分割为不少于ー个的镜头，并提取每个镜头的镜头关键帧。步骤106、采用SIFT方法提取待检索视频每个关键帧的不少于ー个的视觉特征，所有待检索视频的镜头关键帧视觉特征构成待检索视频的视觉特征。步骤107、计算待检索视频的视觉特征与视觉词汇表中每个视觉单词的相似度，并对相似度进行排序，选取相似度最大的视觉单词；
所述视觉单词与所述视觉词汇表的对应关系构成待检索视频的视觉单词直方图，将所述视觉单词直方图作为所述待检索视频的视觉特征向量。步骤108、采用BBF特征匹配捜索算法将所述待检索视频的视觉特征向量与数据结构中的每个视频广告的视觉特征向量进行匹配。即在KD-树上查找最近邻，从根开始，在KD-树上寻找路径时，错过的点先塞入优先队列里，一直扫到叶子节点，然后再从队列中取出目前key值最小的，即维上的距离最小者，重复上述过程，一直扫到叶子节点。直到队列已空，或者已重复了 500遍停止。如果找到的最相似的视觉特征向量和待匹配的视觉特征向量的相似度大于阈值0. 85，则说明找到相似的视觉特征向量，匹配成功，更新数据结构中匹配成功的视觉特征向量的匹配成功次数和本次匹配成功时间，否则没有找到相似的视觉特征向量，匹配不成功，将所述待检索视频的视觉特征向量插入数据结构中，删除数据结构中180天内没有匹配成功的视觉特征向量。步骤109、将匹配成功的视觉特征向量所属镜头标记为1，匹配不成功标记为0，待检索视频表示为一个01序列；如果所述01序列中连续5个I中出现一个0，则把O改判为I ;如果所述01序列中I所占比例大于0.8，则判断待检索视频为视频广告，小于0.8，则判断待检索视频为非视频广告，输出检测结果。最后应说明的是以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
权利要求
1.一种电视直播流中的广告段检测方法，其特征在于，包括以下步骤 A、提取不少于一个的视频广告，建立视频广告数据库，提取每个视频广告的不少于一个的视觉特征向量，构建数据结构来组织所述视频广告的所有视觉特征向量； B、输入待检索视频，提取待检索视频的不少于一个的视觉特征向量； C、将所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量进行匹配，得到匹配结果，根据所述匹配结果更新所述数据结构； D、根据所述匹配结果判断视频检测结果，将所述检测结果输出。
2.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤A中，提取每个视频广告的不少于一个的视觉特征向量，进一步包括以下步骤将每个视频广告分割为不少于一个的镜头，提取每个镜头的镜头关键帧；提取视频广告的每个镜头关键帧的不少于一个的视觉特征，所有视频广告的镜头关键帧的视觉特征构成视频广告的视觉特征，将视频广告的每个视觉特征转换为对应的视频广告的视觉特征向量。
3.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤B中，提取待检索视频的不少于一个的视觉特征向量，进一步包括以下步骤将待检索视频分割为不少于一个的镜头，提取每个镜头的镜头关键帧；提取待检索视频的每个镜头关键帧的不少于一个的视觉特征，所有待检索视频的镜头关键帧的视觉特征组成待检索视频的视觉特征，利用距离关系得到所述待检索视频的每个视觉特征对应的待检索视频的视觉特征向量。
4.根据权利要求2或3所述一种电视直播流中的广告段检测方法，其特征在于，将视频分割成不少于一个的镜头，进一步包括以下步骤提取所述视频的所有视频帧的颜色直方图，计算两个相邻视频图像帧的颜色直方图的相似值，作为帧间相似值；根据所述视频的帧间相似值、预设的第一阈值、预设的第二阈值和预设的渐变镜头长度第三阈值，确定镜头边界序列。
5.根据权利要求4所述一种电视直播流中的广告段检测方法，其特征在于，提取所有视频帧的颜色直方图，计算帧间相似值，进一步包括以下步骤对视频图像进行分块，共分为MXN块，其中M是列数，N是行数；对图像的每一个图像块在HSV颜色空间上提取颜色直方图，其中把亮度量化为I个区间，把色调量化为16个区间，把色饱和度量化为8个区间，每一帧图像得到MXN个有.16X8X1 = 128个bin的颜色直方图，并对得到的颜色直方图进行归一化；采用下面的公式计算两个相邻视频图像帧的颜色直方图的相似值 M Λ— 128 Λ’(α，Λ) = ΣΣΣ- min( Hu {/>, q, /), Hh (/>, (/，/))，其屮ifK=，处Γ·笫P列笫d/·的块的权取，的第P X + A的颜色直方丨冬丨的第i个b i η的值，ii和b为视频_像帧的序'4, min函数是求取两个值中较小的值。
6.根据权利要求4所述一种电视直播流中的广告段检测方法，其特征在于，根据整个视频的帧间相似值、预设的第一阈值、预设的第二阈值和预设的渐变镜头长度第三阈值，确定镜头边界序列，进一步包括以下步骤输入整个视频序列的帧间相似值序列S=Is1, S2, , SnI,预设高阈值TH，预设低阈值Tl，预设渐变镜头长度最低阈值Tgradual，其中Tgradual=IO ；根据每个帧间相似度Si进行判断如果SiCIY且没有设置渐变标志，判断镜头发生了突变，输出突变镜头的边界信息；如果S^Th但设置了渐变标志，则渐变镜头长度Length加I ; 如果Si> = IY但Si〈TH但没有设置渐变标志，则设置渐变标志，记录下当前图像帧位置作为候选镜头开始边界，并开始计数渐变镜头长度Length ；如果Si> = Th并设置了渐变标志，则检查渐变镜头长度，如果Length>TgMdual则判断发生了渐变，输出渐变镜头的边界信息，否则判断不是渐变，取消渐变标志，并把渐变镜头长度Length重新置零；如果Si> = Th且没有设置渐变标志，则判断没有发生镜头变化；输出镜头边界序列。
7.根据权利要求2或3所述一种电视直播流中的广告段检测方法，其特征在于，所述提取每个镜头的镜头关键帧是提取镜头的第一视频帧和最后一视频帧作为镜头关键帧。
8.根据权利要求2或3所述一种电视直播流中的广告段检测方法，其特征在于，所述提取每个镜头关键帧的视觉特征是采用SIFT尺度不变特征变换匹配算法提取镜头关键帧的视觉特征。
9.根据权利要求2所述一种电视直播流中的广告段检测方法，其特征在于，将视频广告的每个视觉特征转换为对应的视频广告的视觉特征向量，进一步包括以下步骤采用聚类算法对所述视频广告的视觉特征进行聚类，用每个聚类中心作为视觉单词，所有视觉单词构成视觉词汇表；视频广告的每个视觉特征所属视觉单词与所述视觉词汇表的对应关系构成视频广告的视觉单词直方图，用所述视觉单词直方图作为视频广告的视觉特征向量。
10.根据权利要求9所述一种电视直播流中的广告段检测方法，其特征在于，所述聚类算法是K-均值算法。
11.根据权利要求3或9所述一种电视直播流中的广告段检测方法，其特征在于，利用距离关系得到所述待检索视频的视觉特征对应的待检索视频的视觉特征向量，进一步包括以下步骤计算待检索视频的视觉特征与视觉词汇表中每个视觉单词的相似度，并对相似度进行排序，选取相似度最大的视觉单词；所述视觉单词与所述视觉词汇表的对应关系构成待检索视频的视觉单词直方图，将所述视觉单词直方图作为所述待检索视频的视觉特征向量。
12.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤A中所述数据结构，为KD-树数据结构。
13.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤C中，将所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量进行匹配，根据所述匹配结果更新所述数据结构，进一步包括以下步骤计算所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量之间的相似度；如果相似度的最大值大于预设值，判断为匹配成功，更新数据结构中匹配成功的视觉特征向量的匹配成功次数和本次匹配成功时间，如果相似度最大值小于预设值，判断为匹配不成功，将所述待检索视频的视觉特征向量插入数据结构中，删除数据结构中预设时间阈值内没有匹配成功的视觉特征向量。
14.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤C中，将所述待检索视频的特征向量与所述数据结构中的每个特征向量进行匹配，采用的匹配算法为BBF特征匹配搜索算法。
15.根据权利要求I所述一种电视直播流中的广告段检测方法，其特征在于，步骤D中，根据所有所述匹配结果计算视频检索结果并输出，进一步包括以下步骤将匹配成功的视觉特征向量所属镜头标记为1，匹配不成功标记为O，待检索视频表示为一个Ol序列；如果所述01序列中连续预设数量的I中出现一个0，则把O改判为I ; 如果所述01序列中I所占比例大于预设值，则判断待检索视频为视频广告，小于预设值，则判断待检索视频为非视频广告。
全文摘要
本发明公开了一种电视直播流中的广告段检测方法，首先，提取不少于一个的视频广告，建立视频广告数据库，提取每个视频广告的不少于一个的视觉特征向量，构建数据结构来组织所述视频广告的所有视觉特征向量；输入待检索视频，提取待检索视频的不少于一个的视觉特征向量；将所述待检索视频的视觉特征向量与所述数据结构中的每个视频广告的视觉特征向量进行匹配，得到匹配结果，根据所述匹配结果更新所述数据结构；根据所有所述匹配结果判断视频检测结果并输出。本发明能够有效克服现有技术的不足，为电视直播流中视频广告的分析和检测提供信息和依据。
文档编号G06F17/30GK102760169SQ201210194968
公开日2012年10月31日申请日期2012年6月13日优先权日2012年6月13日
发明者刘赵杰申请人:天脉聚源(北京)传媒科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘赵杰
技术所有人：天脉聚源(北京)传媒科技有限公司
我是此专利的发明人

上一篇：用于使用图形表示来管理查询结果的系统和方法
上一篇：利用代理对象的基于角色的产品管理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。