基于ar模型功率谱的动态场景分类方法及装置的制造方法_3

文档序号：9751260阅读：来源：国知局

时域的词频直方统计图特征和AR模型功率谱频域的词频直方统计图特征。
[0058]图5为本发明基于AR模型功率谱的动态场景分类方法再一实施例的流程图。本实施例在上述任一所示实施例的基础上，如图5所示，该流程包括：
[0059]步骤501、对于任一域的词频直方统计图特征，将该域的多段动态场景视频的词频直方统计图特征按照映射规则映射到核空间，得到该域的核函数Ks;
[0060] 步骤502、通过多核学习方法，得到各域的核函数Ks的权重ds;
[0061] 步骤503、根据权重和融合公式，得到分类特征K。
[0062] 其中，映射规咖为：
[0063]
[0064]
[0065]
[0066]其中，C为词频直方统计图特征的维数，c的取值范围为从1至C的正整数，Fm( C)和?" (C)分别表示多段动态场景视频中第m个和第η个动态场景视频在维数为c时的词频直方统计图特征，Μ为动态场景视频的总段数，且m和η的取值范围为从1至Μ的正整数，Ks为映射后得到的各域的核函数，s取1，2和3分别表示空域特征的核函数，时域特征的核函数和AR功率谱频域特征的核函数;ds表示学习得到的权重值，S为域的总个数。示例性的，本实施例中S 为3〇
[0067] 由于在对多特征进行融合时，不同域的特征对于动态场景分类的影响不同，因此需要对各域的特征的权重进行设置。本发明实施例中采用的是简单多核学习（Simple Multiple Kernel Learning，简称Simple MKL)方法，该方法可以通过对训练数据集的训练，自动学习得到各个特征的最优权重分配，同时还可完成用于对动态场景进行分类的分类器的训练工作。
[0068] 图6为本发明基于AR模型功率谱的动态场景分类装置实施例的结构示意图。如图6 所示，该结构包括：
[0069] 域特征获取模块601，用于获取多段动态场景视频每段各自的空域特征、时域特征和自回归AR模型功率谱频域特征；
[0070] 直方统计图特征获取模块602,用于通过词袋模型分别对空域特征、时域特征和AR 模型功率谱频域特征进行统计分析，得到空域的特征词频直方统计图、时域的特征词频直方统计图和AR模型功率谱频域的特征词频直方统计图；
[0071 ]特征融合模块603，用于将各域的词频直方统计图特征按域映射到核空间中，得到各域的核函数，并采用多核学习方法得到各域的核函数的权重，根据权重对各域的核函数进行特征融合，得到分类特征，根据分类特征对多段动态场景视频进行分类。
[0072] 在上述图6所示实施所述结构的基础上，域特征获取模块601可以包括：
[0073] AR模型功率谱频域特征获取模块，用于针对任一段动态场景视频，去除动态场景视频中的背景，并进行降采样，得到时间序列；通过AR模型对时间序列进行建模，得到AR模型的参数和方差;将AR模型的参数和方差转换为AR模型功率谱特征向量，并对AR模型功率谱特征向量进行归一化，得到AR模型功率谱频域特征。
[0074]可选的，AR模型功率谱频域特征获取模块，具体采用帧差法去除动态场景视频中的背景，将去除背景后的动态场景视频分割成多个视频块，对每个视频块中的每一帧进行像素平均，得到每个视频块对应的时间序列{Rt} ;采用高阶AR模型原理公式对每个视频块对应的时间序列{Rt}进行建模，采用正则计算公式得到每个视频块对应的AR模型的参数 {AJ和方差σ 2;采用特征向量获取公式将每个视频块对应的AR模型参数{AU和方差σ2转换为每个视频块对应的AR模型功率谱特征向量Ρ ζ( ω )，并采用归一化公式对每个视频块对应的AR模型功率谱特征向量Ρζ( ω )进行归一化，得到每个视频块对应的AR模型功率谱频域特征 Ρ(ω)〇
[0075] 其中，高阶AR模型原理公式为：
[0076]
[0077]其中，正则计算公式为：
[0078]
[0079]其中，特征向量获取公式为：
[0080]
[0081 ]其中，归一化公式为：
[0082]
[0083]其中，t表示帧数，t为大于1小于视频块的总帧数的正整数，q为AR模型的阶数，Φ 为Rt的自相关函数，i的取值范围为从1至q的正整数，V(t)为符合均值为0,方差为σ2的误差噪声，j为虚数单位，e为自然常数，ω表示频率，ω的取值范围为从1至128的正整数。
[0084] 在上述任一实施例的基础上，直方统计图特征获取模块602,具体用于对任一段动态场景视频的各网格对应的空域特征、各网格对应的时域特征和各视频块对应的AR模型功率谱频域特征分别进行聚类，生成动态场景视频的空域特征的视觉词典、时域特征的视觉词典和AR模型功率谱频域特征的视觉词典；
[0085] 将各网格对应的空域特征、各网格对应的时域特征和各视频块对应的AR模型功率谱频域特征分别映射到对应的视觉词典中距离各网格对应的空域特征、各网格对应的时域特征和各视频块对应的AR模型功率谱频域特征最近的视觉单词上；
[0086] 根据映射结果，对映射后的视觉单词的进行词频统计，得到空域的词频直方统计图特征、时域的词频直方统计图特征和AR模型功率谱频域的词频直方统计图特征。
[0087]可选的，在上述任一实施例的基础上，特征融合模块603具体用于对于任一域的词频直方统计图特征，将域的多段动态场景视频的词频直方统计图特征按照映射规则映射到核空间，得到域的核函数Ks;
[0088] 通过多核学习方法，得到各域的核函数Ks的权重ds;
[0089] 根据权重和融合公式，得到分类特征K;
[0090] 其中，映射规则为：
[0091] ^ __一. ^
[0092] 其中，融合公式为：
[0093]
[0094]其中，C为词频直方统计图特征的维数，c的取值范围为从1至C的正整数，Fm( C)和?" (C)分别表示多段动态场景视频中第m个和第η个动态场景视频在维数为c时的词频直方统计图特征，Μ为动态场景视频的总段数，m不等于η，且m和η的取值范围为从1至Μ的正整数，Ks 为映射后得到的各域的核函数，s取1，2和3分别表示空域特征的核函数，时域特征的核函数和AR功率谱频域特征的核函数;ds表示学习得到的权重值，S为域的总个数。
[0095] 可选的，在上述任一实施例基础上，空域特征为稠密采样的尺度不变特征转换空域特征。
[0096] 可选的，在上述任一实施例基础上，域特征获取模块601还可以包括：
[0097] 时域特征获取模块，用于获取动态场景视频的光流方程，通过对光流方程进行一阶泰勒级数展开，获取动态场景视频的光流场;根据光流场的方向和大小，获取动态场景视频的时域特征。
[0098] 可选的，在上述任一实施例基础上，特征融合模块603还用于采用支持向量机分类器，根据分类特征对动态场景进行分类。
[0099] 本发明实施例提供的基于AR模型功率谱的动态场景分类方法及装置，通过将表示运动周期特性的AR模型功率谱特征与空域特征、时域特征相结合，从时空频三个角度来描述动态场景，形成对场景的综合特征描述。进一步，针对三种特征之间存在的差异，通过多核学习方法对各特征进行加权融合，得到了能够描述动态场景运动周期性的分类特征，提高了具有周期性运动的动态场景的分类准确率，进一步提高了总的动态场景的分类能力。 [0100]本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储记忆体 (Read-Only Memory，R0M)、随机存储记忆体（Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0101]最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解:

完整全部详细技术资料下载

当前第3页1 2 3 4