面向网络查询基于多图融合视频主题分类与描述方法与流程

文档序号：12123918阅读：来源：国知局

技术特征：

1.一种面向网络查询基于多图融合视频主题分类与描述方法，其特征是，步骤是，1)结合视频的文本信息和视觉信息，通过构建多图模型，利用图切方法实现事件的分类；2)利用词频tf-逆向文件频率idf或者文本深度表示模型word2vector提取视频事件的关键词，并对关键词利用来自维基百科等网站关于该话题的先验信息进行修改，使之完善，实现对事件的文本描述。

2.如权利要求1所述的面向网络查询基于多图融合视频主题分类与描述方法，其特征是，一个实例中的具体步骤是，

首先给定一个话题查询，然后从维基百科等相关网站上搜索相关内容，获取与该话题有关的先验信息：

给定同一事件下的M个视频，用T＝{t₁,t₂,...,t_M}来表示相应视频下的文本标签集合，t_i表示文本集合T中的第i个文本特征，V＝{v₁,v₂,...,v_M}，其中v_i表示第i个视频与M个视频的视觉相似度向量，且v_i(j)表示第i个视频与第j个视频的近似重复帧，v_i(i)＝0，构建多图模型G₁＝(T,E₁),G₂＝(V,E₂),其中T,V分别是两个图的顶点集，E₁,E₂是边集,分别从文本和视觉信息表示任意两个视频之间的关系其权重计算公式如下：

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>1</mn> </msubsup> <mo>=</mo> <mi>exp</mi> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>/</mo> <mn>2</mn> <msup> <mi>σ</mi> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>/</mo> <msub> <mi>s</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>$

其中s_ij是视频i与视频j之间的平均镜头数，v_i(j)表示第i个视频与第j个视频之间的近似重复帧数，利用线性融合技术进行多图融合，其具体过程用公式表达如下：

$<mrow> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>αW</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>1</mn> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>α</mi> <mo>)</mo> </mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中α是介于(0,1)之间的正数，用来平衡前后两项的关系；

然后通过图割的方法实现视频事件分类，最后通过视频文件的文本特征提取每一类子主题下的关键词，并根据维基百科关于此事件的相关信息，对子主题的关键词集进行修改、扩充。

完整全部详细技术资料下载

当前第2页1 2 3