基于自训练的零样本视频分类方法与流程

文档序号：12671392阅读：来源：国知局

技术特征：

1.一种基于自训练的零样本视频分类方法，其特征是，将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间，在这个公共空间中，视频的视觉特征和相应的语义特征具有良好的对应关系，对于新输入的测试视频，将它的视觉特征映射到公共空间，找到对应的语义特征，确定测试视频的所属类别；其中，采用CCA和自训练的方法使得测试样本的映射分布于原型点周围：首先在测试样本的映射点中寻找K个距离测试样本原型点最近的点，然后将这K个点求平均之后所得的点作为调整后的原型点，令表示原型点的K近邻集合，表示调整后的原型点，自训练的过程用如下公式表述：

$<mrow> <mover> <mi>p</mi> <mo>~</mo> </mover> <mo>=</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msubsup> <mi>w</mi> <mi>x</mi> <mi>T</mi> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mo>′</mo> </msubsup> <mo>,</mo> <msubsup> <mi>w</mi> <mi>x</mi> <mi>T</mi> </msubsup> <msubsup> <mi>x</mi> <mi>i</mi> <mo>′</mo> </msubsup> <mo>&Element;</mo> <msub> <mi>ne</mi> <mi>K</mi> </msub> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>y</mi> <mi>T</mi> </msubsup> <msup> <mi>y</mi> <mo>′</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5.1</mn> <mo>)</mo> </mrow> </mrow>$

对于未见过的类别的测试数据，将其视觉特征x′映射到公共空间，得到然后，将所有未见过的类别的语义特征映射到公共空间，得到y'是测试数据的语义特征，m是测试数据的类别数，找出与相关性最大的对应的类别，从而得到测试数据的分类结果。

2.如权利要求1所述的基于自训练的零样本视频分类方法，其特征是，具体步骤细化为：

输入：测试样本的视频特征X_te＝[x₁,x₂,...,x_n]，其中n是测试数据的个数；测试样本类别名称的语义特征Z_te＝[z₁,z₂,...,z_m]，其中m是测试集的类别数；

输出：经CCA自训练调整过的测试类别名称的语义特征即调整过后的原型点；

第一步：确定最近邻范围参数K；

第二步：选取每个原型点的K近邻；

第三步：依据公式5.1求出经过调整之后的原型点。

3.如权利要求1所述的基于自训练的零样本视频分类方法，其特征是，用CCA和自训练的方法进行零样本视频分类的步骤如下所述：

(1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y；

(2)由CCA计算得到视觉空间向公共空间的映射矩阵W_x，以及语义空间向公共空间的映射矩阵W_y；

(3)对于新输入的测试数据，提取视频特征x′，并映射到公共空间，得到

(4)将所有候选的类别的语义特征映射到公共空间，得到其中m是测试数据的类别数；

(5)通过自训练来调整原型点，得到

(6)在公共空间中，找出与距离最近的这个所对应的类别就是测试数据的分类结果。

完整全部详细技术资料下载

当前第2页1 2 3