多特征融合的新闻视频摘要提取方法

文档序号:9755249阅读:696来源:国知局
多特征融合的新闻视频摘要提取方法
【技术领域】
[0001] 本发明设及视频内容理解领域,具体设及一种多特征融合的新闻视频摘要提取方 法。
【背景技术】
[0002] 新闻视频是人们获取信息的主要来源之一,其内容涵盖了人们生活中的各个方 面,包括体育、娱乐、时事等,受众面广,更新速度快,在日常生活中扮演着不可缺失的角色。 面对庞大的新闻视频库,如何高效地组织和浏览新闻视频,如何有效地过滤和定位出最适 合,最准确的新闻内容是现阶段新闻视频内容理解领域的一个亟待解决的问题。
[0003] 新闻视频摘要不仅可W显示新闻视频主旨内容,帮助人们快速地浏览新闻内容, 还可结合视频标注技术服务于视频检索领域等,具有较高的研究价值。然而由于新闻视频 内容主题跨度大,同一个新闻内容在视觉呈现上千差万别,单纯的底层特征分析很难描述 新闻视频语义,导致现阶段新闻视频摘要研究仍面临挑战。
[0004] 现存在一些通用的摘要提取发明。如专利文献"视频摘要生成方法和视频摘要生 成装置(专利公开号:CN103092930A,专利公开日:2013.05.08)"中通过背景建模得到背景 模型,再利用预设的分类器判断提取到的运动目标中是否包含人脸,并选取包含人脸的序 列成为最终的摘要。该发明仅适用于某些领域的视频,如监控视频,对新闻视频摘要获取并 不能获得有意义的结果。
[0005] 现有的新闻视频摘要方法主要基于多特征融合,采用音视频信息来表达视频内 容。而主题字幕帖包含新闻故事主要人物、新闻事件主题等重要信息,直接显示新闻事件语 义信息,是新闻视频摘要领域的研究重点。
[0006] 在文献[1](孟文婷.基于多模态特征融合的新闻视频摘要技术研究.[D].湖北:华 中师范大学,2012)中采用多特征融合来分析新闻视频内容,首先通过自适应阔值进行镜头 分割,再利用音视频信息进行主持人镜头检测,随后采用边缘特征分析获取新闻视频主题 字幕帖,再选取具有主题字幕帖的镜头浓缩为摘要。然而该方法并未有效区分新闻视频中 =类文本字幕,导致在仅采用边缘特征的前提下对主题字幕帖的检测效果不佳,同时由于 其在选择具有主题字幕帖的镜头时并未考虑音频信息,从而其最终得到的摘要并不友好, 不具有观赏性。
[0007] 而文献[2](李小宁.角点检测技术在新闻视频检索中的应用研究[D].沈阳:东北 大学,2010)中探讨了角点检测在新闻视频中的应用。它采用角点检测来识别主题字幕帖, 但其检测方法也过于单一,最终检测效果并不理想。综合分析文献[1]和文献[2]的不足之 处,本发明设计了一种基于角点检测、颜色滤波和形态学分析的有效的主题字幕帖检测算 法,同时从工程实现角度出发,定义了新闻基本处理单元,方便模块化分析新闻视频。而基 于观赏性和实用性考虑,本发明也分别设计了静态和动态视频摘要。

【发明内容】

[0008] 针对现有技术中的缺陷,本发明的目的是提供一种多特征融合的新闻视频摘要方 法。
[0009] 根据本发明提供的一种多特征融合的新闻视频摘要提取方法,包括如下任一个或 任多个步骤:
[0010] 获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;
[0011] 检测主题字幕帖步骤:从新闻视频中提取主题字幕帖;
[0012] 检测静音段步骤:从新闻视频中提取静音段;
[0013] 检测人脸步骤:从新闻视频中提取人脸。
[0014] 优选地,所述新闻基本处理单元是指,一段W主持人镜头出现为开始时刻,中间时 段包含内容镜头,并W下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
[0015] 优选地,所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割 步骤,包括如下步骤:
[0016] 根据如下计算式得到D( i,j):
[001引其中,DQ J)表示第i帖与第j帖的差异,N表示新闻视频帖灰度级的数量,fi,k表示 第i帖新闻视频中第k级灰度的像素个数,枯k表示第j帖新闻视频中第k级灰度的像素个数, 第i帖与第j帖为前后两帖;i、j为正整数;
[0019] 如果第i帖与第j帖的差异D(i,j)大于指定阔值TshDt,则认为存在镜头边界,将第j 帖与设定的主持人模板进行匹配;若第j帖与设定的主持人模板匹配,则将第j帖作为新闻 基本处理单元的起始帖。
[0020] 优选地,所述检测主题字幕帖步骤,包括如下步骤:
[0021] 设置新闻视频帖的感兴趣区域;
[0022] 对各个新闻视频帖的感兴趣区域,采用化rris角点检测算子进行角点检测W获取 感兴趣区域中的角点,根据角点得到待融合主题字母区域;
[0023] 将各个新闻视频帖的感兴趣区域中满足如下条件的区域提取为蓝色区域:
[0024] 100 < Hue <260
[0025] 0.33 < Sa1:uration < 1
[00%]对提取到的蓝色区域提取矩形外轮廓,其中,化e表示色调,Saturation表示饱和 度;
[0027]将符合如下条件的矩形外轮廓所属的新闻视频帖确认为主题字幕帖,并将不符合 如下条件的矩形外轮廓所属的新闻视频帖确认为伪主题字幕帖:
[002引 Heights Theight
[0030] 其中,Hei曲t表示矩形外轮廓的高度,Theight表示设定的高度阔值,ContourAreamax 为各个新闻视频帖中矩形外轮廓中的最大轮廓面积,Contour Areamax-I为各个新闻视频帖中 矩形外轮廓中的第二大轮廓面积,TwntDUr表示设定的比例阔值;
[0031] 将角点检测得到的待融合主题字母区域与主题字幕帖中矩形外轮廓的内部区域 进行图像融合,得到候选主题字幕区域;
[0032] W矩形结构元素对候选主题字幕区域进行形态学膨胀操作,得到待鉴别文本连通 域;
[0033] 将符合如下条件的待鉴别文本连通域认为是伪文本块,将不符合如下条件的待鉴 别文本连通域认为是文本块:
[0034] Areatext < Tarea
[0035] Ratiotext <Trati。
[0036] 其中,Areatext表示待鉴别文本连通域的面积,Tarea表示设定的面积阔值,Ratiotext 表示待鉴别文本连通域的宽高比,TratiD表示设定的宽高比阔值。
[0037] 优选地,所述根据角点得到待融合主题字母区域,具体为:将角点连线划定出待融 合主题字母区域。
[0038] 优选地,所述检测静音段步骤,包括如下步骤:
[0039] 采用Hamming窗对新闻视频中的音频进行加窗分帖,得到各帖音频信号;
[0040] 根据如下计算式得到第i帖音频信号的短时能量EiW及第i帖音频信号的短时过 零率Zi:
[0043] 其中,N表示第i帖音频信号中包含的音频采样数目,xi(m)表示第i帖音频信号第m 个采样值,xi(m+l)表示第i帖第m+1个采样值,sgn( ?)为符号函数;
[0044] 如果一帖音频信号满足如下条件,则认为该帖音频信号为静音帖,否则为非静音 帖:
[0045] Ei < Te
[0046] Zi<Tz
[0047] 其中,Te表示设定的短时能量阔值,Tz表示设定的短时过零率阔值。
[004引优选地,所述检测人脸步骤包括如下步骤:
[0049] 对新闻视频,采用Viola-化nes人脸检测算法,结合跨平台计算机视觉库化enCV中 训练好的分类器11日日1^日3。日(16_;1^1'〇]11:日^日。6_日1:1/邸11提取积分图像,计算化日1-1146特征, 进而利用跨平台计算机视觉库化enCV中的CV化arDetectObjects函数在新闻视频中检测人 脸对象。
[0050] 优选地,执行检测静音段步骤得到静音段,对静音段执行检测主题字幕帖步骤,仅 在静音段对应的视频帖中包含主题字幕帖的情况下,将静音段对应的视频帖加入动态摘要 序列。
[0051] 与现有技术相比,本发明具有如下的有益效果:
[0052] 1、本发明可依据用户不同的需求得到有意义的高语义静态或动态视频摘要。
[0053] 2、本发明提出了新闻基本处理单元。可对新闻视频进行结构化处理,实现视频流 的优化重组。同时,缩小了问题分析单元,有利于工程化实现摘要系统。
[0054] 3、本发明提出了基于角点检测、颜色滤波和形态学分析的主题字幕检测算法。可 有效区分新闻视频中=类文本字幕,准确地检测出主题字幕。
[0055] 4、本发明设计了静态摘要(例如主题字幕)和动态摘要(例如音频、人脸)。高度概 括新闻视频内容,可满足不同的用户和应用需求,有较大的实用价值。
【附图说明】
[0056] 通过阅读参照W下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:
[0057] 图1是本发明提供的多特征融合的新闻视频摘要提取方法的流程框图;
[0058] 图2是本发明中单、双主持人模板帖示例对比图;
[0059] 图3是本发明实施例中新闻视频中=类字幕文本示例对比图;
[0060] 图4是本发明实施例中主题字幕帖分类和检测流程框图。
【具体实施方式】
[0061] 下面结合具体实施例对本发明进行详细说明。W下实施例将有助于本领域的技术 人员进一步理解本发明,但不W任何形式限制本发明。应当指出的是,对本领域的普通技术 人员来说,在不脱离本发明构思的前提
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1