一种视频语义挖掘方法

文档序号:6426777阅读:111来源:国知局
专利名称:一种视频语义挖掘方法
技术领域
本发明涉及数字媒体和机器学习领域,它对于用户输入的视频进行语义分析,通过融合语音、文字和图像信息对于视频进行语义标注。
背景技术
随着在线视频分享网站和视频处理技术的发展,大量视频格式的内容涌现出来。 由于视频是非格式化的数据并且缺少必要的描述信息,因此并不能像文本那样很容易地进行处理。对于视频进行人工语义标注又耗时耗力,不能满足批量视频处理的要求。基于内容的视频处理技术是目前的研究热点,但是现有技术对于视频内容的标注错误率高,并且没有综合考虑图像、文字和语音多方面内容的有效融合。目前图像目标识别技术逐渐成熟起来,在视觉目标类别分类挑战赛中,图像目标识别已经到达实用的程度。连续语音识别技术使得语音信号可以转录为文本。视频文字识别可以把视频中的嵌入文字识别出来,作为文本文字来处理。结合以上三种识别技术,视频语义分析需要一种有效的融合方法。“知网” 是一个中文语义辞典,利用“知网”中的概念层次关系,可以计算两个词语之间的语义距离。 根据语义距离,可以对三种识别结果进行语义度量。根据视频图像、文字和语音这三种模态信息的高度相关性,可以有效融合不同模态信息,去除识别错误信息。图模型由顶点和边构成,可以表达整个视频中概念的关系。稠密子图发现算法可以实现在视频图模型中发现语义聚集关系,达到视频语义标注的目的。

发明内容
现有的基于内容的视频处理技术,并没有完全利用图像、语音和文字三个高层语义方面的信息,并且不能在高层语义上进行视频分类和挖掘。为了解决现有技术问题的不足,本发明提出一种对视频进行语义挖掘的方法。为了达成所述目的,本发明提供一种视频表达和挖掘的方法,其技术方案包括如下步骤步骤Sl 对于待处理的视频,分别进行中文连续语音识别、视频目标识别和视频文字识别;步骤S2 对于步骤Sl所述的三种识别结果,各自表达为一个文字向量,共同组成一个张量以表达视频;步骤S3 对于步骤S2中的三个文字向量,分别进行中文分词和词性标注,保留名词和动词;步骤S4 构造图模型来表达视频,其中图的顶点为S3中所得到的名词和动词,图的边权重设置为两个顶点所代表的中文词语的语义距离;步骤S5 对于步骤S4所构造的图模型,使用稠密子图发现算法挖掘图模型中的语义。本发明的有益效果对于视频可以实现自动的语义标注、自动分类和视频相似度度量。对于海量视频数据,借助于本技术可以避免手工标注所带来的枯燥繁琐的劳动。本发明有效融合了中文连续语音识别、中文文字识别和图像目标识别的结果,通过把视频表达为一个图模型而展现了视频中各个语义概念的语义距离关系,这个距离关系是通过基于 “知网”的语义距离度量来实现的;最后通过稠密子图发现算法可以实现视频中语义概念的标注和挖掘。


图1是本发明的视频处理整体流程图。图2是本发明的中文连续语音识别流程图。图3是本发明的视频文字识别流程图。图4是本发明的图像目标识别流程图。图5是本发明的语义距离度量层级关系图。图6是本发明的视频稠密子图挖掘表示。图7是本发明的视频标注结果。
具体实施例方式下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是, 所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。本发明提出了一种视频语义挖掘的方法,如图1所示,该方法在处理流程上分为四层。最下边是视频库层,存放了各种形式的视频资源;视频库上边一层是多模态融合层, 在这一层完成对于视频的结构分析和图像、文字以及语音的识别和有效融合;再往上一层是视频挖掘层,在该层实现对于视频的图模型表示和基于稠密子图发现的视频挖掘算法, 此外还可以根据支持向量机模型实现视频分类挖掘;最上层是对用户提供的透明的智能视频服务层;最右侧是基于“知网”的语义计算支持层。根据上述流程,具体的实施步骤如下所示1、视频预处理对于待处理的视频进行镜头分割,然后对于每个镜头提取关键帧,并把这些关键帧保存下来供后续图像目标识别使用;对于视频中的音频信号,按照16KHZ,16bit的要求采样,并且保存成漏格式供后续语音识别使用。2、图像目标识别首先下载视觉目标分类挑战赛图片库(PASCAL VOC Challenge 2010 Database, http //pascal 1 in. ecs. soton. ac. uk/challenges/V0C/voc2010/index, html),分别提取图片库中每个图片的局部梯度特征(HOG),采取均值聚类算法(k-means)对图片库中的特征进行聚类,类别数可以定为1000个,这样就形成了 1000个视觉单词,然后使用这1000个视觉单词描述每个图片,此时每个图片就构成一个词袋(bag of words)作为中间特征,最后使用支持向量机(SVM)方法在图片词袋特征上训练得到20个视觉类别的分类模型,这20 个类别分别是人、鸟、猫、牛、狗、马、羊、飞机、船、自行车、摩托车、火车、轿车、公共汽车、瓶子、椅子、饭桌、花盆、沙发、电视机。最后使用这些分类模型对于视频关键帧图像进行目标识别,识别结果保存成一个文本,记为TextTOECT。本步骤处理流程参见图2。
3、中文连续语音识别首先下载史芬克斯连续语音识别系统开源代码和配套的汉语语言模型、汉语声学模型以及汉语词表文件(Sphinx,http://sphinx.sourceforge.net)。对于视频预处理所得到的音频信号进行连续语音识别,把音频信号转录成文本,记为TextASK。本步骤处理流程参见图3。1、视频文字识别视频图像中的文字定位,首先基于字符笔画的双边缘模型得到候选文字区域,然后对候选文字区域进行分解得到精确定位的文本块。视频中的文字提取算法每隔若干视频帧取一帧进行基于图像的文字定位得到文字对象,然后在视频帧序列中对文字对象进行向前和向后的跟踪,最后对文字对象进行识别得到文字提取结果,并把识别结果保存成一个文本,记为Textvra。本步骤处理流程参见图4。5、对于TextQBTECT、TextASE和Textwcs分别进行基于隐马尔科大模型的中文分词、去掉无含义的“停用词”和中文词性标注,保留下动词和名词进行下一步的分析,处理之后分别记为Wor dTOEeT、ffordASE和Wordvra。于是整个视频在语义上可以表示为一个张量,即Ψ e沢w,,rd""""· Word-"·,其中Ψ表示视频的语义张量特征, Τ""" η'“、<、、""·、…表示由三个向量彻^啦日^彻^脚和彻^视!^形成的张量空间。6、对于上一步中得到的名词和动词,计算两个相同词性词语之间的语义相似度。 计算方法采取基于“知网”的层次距离度量方法,相似度定义在O和1之间,比如桌子和椅子之间的相似度0. 8,而风景和轮船的相似度为0. 1。本步骤处理流程参见图5。7、把WordTOECT、ffordASE和Wordvrai中的词语作为图模型的顶点V,把上一步中定义的词语之间的相似度定义为顶点之间边的权重w,构造表达视频的图模型。这是一个带权无向图,G= (V,E),V表示顶点集合,E表示边集合,|V| = η表示顶点个数,每条边/有一个非负的权重(Pw^)Sl,该权重的定义就是上一步中确定的词语之间的语义相似度。8、由于视频中图像、文字和音频共同表达了一个主题,所以在它们在语义上是一致的。从而视频张量的三个向量的语义相似度应该距离最小化,不符合最小化原则的词语
是由于识别错误导致的,应当去除。这个原则可以表示为^tHAOD其中
O
W:",W;表示两个词语,其中m,n e {fford0BJECT, ffordASE, WordvraJ,表示的视频张量中的一个
向量;O < i < |m|,0 < j < |n I,表示的词语编号,该编号最大为视频张量中一个向量的最大维数。f( ·)表示的词语的相似度距离值,定义在O和1之间。9、对于上述最优化问题,转化为图模型的稠密子图发现问题。即在G= (V,E)中, 找到子图H= (X,F),H为子图,χ为子图顶点集合,F为子图的边集合。稠密子图的发现
算法可以表示为my^^,即子图中各个边的平均权重之和最大化,其中|X|表示子图
顶点个数7 e F表示子图边的集合,w(l)表示边的权重,边的权重计算方法同上一步中的 f(·)。视频语义特征张量空间包含三个向量,即Ψ e ΗWordASR· Wordv-'R ,每
个向量构造一个图模型社区(community),从而整个视频表达为由三个社区组成的一个图模型。稠密子图发现算法在上述图模型上进行,如图6所示。10、对于上一步中发现的图模型中的稠密子图,记录稠密子图中的顶点所代表的
5词语作为视频的有效标注,该标注即体现了视频的语义信息。视频标注结果如图7所示。
权利要求
1.一种视频语义挖掘方法,其特征在于,所述方法的步骤如下步骤Sl 对于待处理的视频,分别进行中文连续语音识别、视频目标识别和视频文字识别;步骤S2 对于步骤Sl所述的三种识别结果,各自表达为一个文字向量,共同组成一个张量以表达视频;步骤S3 对于步骤S2中的三个文字向量,分别进行中文分词和词性标注,保留名词和动词;步骤S4 构造图模型来表达视频,其中图的顶点为S3中所得到的名词和动词,图的边权重设置为两个顶点所代表的中文词语的语义距离;步骤S5 对于步骤S4所构造的图模型,使用稠密子图发现算法挖掘图模型中的语义。
2.根据权利要求1所述的视频语义挖掘方法,其特征在于,所述视频目标识别首先在视觉目标分类挑战赛图片库(PASCAL VOC Challenge 2010)上提取图片的梯度特征(HOG) 和尺度不变特征(SIFT),并对于这些特征使用均值聚类(K-means)算法聚类,称这些类为视觉单词,然后使用这些视觉单词构造词袋(bag of words)对图片库中的图片进行描述, 以词袋为图像特征训练支撑向量机模型(SVM),使用支撑向量机模型对视频镜头关键帧图像进行目标识别。
3.根据权利要求1所述的视频语义挖掘方法,其特征在于,对于视频的处理融合了中文连续语音识别、视频目标识别和视频文字识别,并且把三种识别结果统一作为文字特征来处理,文字处理包括中文分词和词性标注。
4.根据权利要求1所述的视频语义挖掘方法,其特征在于,对于图模型的构造,顶点代表了视频三种识别结果中的名词和动词,边的权重代表了顶点之间的语义 距离,边的权重计算采取的是基于“知网,,的语义度量方法,通过查询“知网,,语义辞典中词语之间的层次和隶属关系来计算两个词语之间的语义距离。
5.根据权利要求1所述的视频语义挖掘方法,其特征在于,稠密子图的发现算法是通过不断地去除图模型中孤立的顶点来实现的,视频语义的挖掘过程表达为图模型中稠密子图的发现问题。
全文摘要
本发明涉及一种视频语义挖掘方法,该方法首先对待处理的视频进行中文连续语音识别、视频目标识别和视频文字识别,然后对于识别结果进行中文分词和词性标注,并保留名词和动词作为图模型的顶点,顶点之间的边权重设置为两个顶点所代表的词语的中文语义距离,最后根据稠密子图发现算法挖掘视频的语义信息。本发明的特点是,利用中文连续语音识别、视频目标识别和视频文字识别三种识别结果的融合实现视频的语义挖掘;把视频表达为一个图模型,顶点为视频中的词语,边的权重设置为两个顶点的语义距离;进一步把视频语义挖掘算法转化为图模型的稠密子图发现算法。本发明解决了中文连续语音识别、视频目标识别和视频文字识别过程中的单识别结果错误率高和多识别结果不能有效融合的问题;解决了视频的结构化表达问题和视频语义挖掘的算法实现问题。本发明可以用来对批量视频进行自动标注、分类和语义挖掘。
文档编号G06F17/30GK102222101SQ20111016895
公开日2011年10月19日 申请日期2011年6月22日 优先权日2011年6月22日
发明者张师林 申请人:北方工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1