一种获取向量的方法及装置的制造方法_5

文档序号:8905449阅读:来源:国知局
>[0257] 请参见图3A,基于同一发明构思,本发明实施例提供一种获取向量的装置,所述装 置可W包括第一获取模块301、第二获取模块302和第=获取模块303。
[0巧引第一获取模块301,用于对视频的X个视频帖按照第一算法进行处理,得到N个像 素点一一对应的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在所述X个视频帖中 位置的变化;所述N个像素点是按照预设规则在所述X个视频帖中选择出来的;
[0巧9] 第二获取模块302,用于采用预设的深度神经网络对所述X个视频帖进行处理,得 到所述X个视频帖的深度特征;
[0%0] 第立获取模块303,用于确定组成第一获取模块301得到的每条运动轨迹的像素 点在所述X个视频帖中的相应位置,并从第二获取模块302得到的所述深度特征中获取每 个位置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量;所述轨迹 深度特征向量用于表征所述N条运动轨迹在所述X个视频帖中的深度信息;其中,X、N为正 整数。
[0261] 可选的,本发明实施例中,当X不小于2时,所述X个视频帖是连续的。
[0%2] 可选的,本发明实施例中,第一获取模块301具体用于:
[0%3] 对于所述X个视频帖中每相邻的两个视频帖,均执行如下操作;获取所述相邻的 两个视频帖对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帖中,同 一个像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所 述第二光流场用于表示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视 频帖中的位置;
[0264] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得所述N个像素点对应的所述N条运动轨迹。
[02化]可选的,请参见图3B,本发明实施例中,所述装置还包括处理模块304,处理模块 304用于在第一获取模块301获取所述相邻的两个视频帖对应的第一光流场之前,对所述X 个视频帖中的每个视频帖做如下处理:
[0%6] 在一个视频帖中,将每隔预设数量个普通像素点的一个普通像素点取为目标像素 点,计算获取的所有目标像素点的自相关矩阵;其中,所述普通像素点所述一个视频帖中的 任意一个像素点;
[0%7] 在所述一个视频帖中,丢弃所述自相关矩阵中的特征值小于预设值的元素对应的 普通像素点;
[0268] 第一获取模块301具体用于:
[0269] 根据所述处理模块处理后的X个视频帖,获取所述相邻的两个视频帖对应的所述 第一光流场。
[0270] 可选的,本发明实施例中,第一获取模块301在获取第二光流场之后,还用于对于 所述X个视频帖中每相邻的两个视频帖,均执行如下操作:
[0271] 获取所述相邻的两个视频帖中的至少一组待匹配点对;所述待匹配点对为;所述 相邻的两个视频帖中,前一个视频帖的任意一个像素点和所述运动像素点在相邻的后一 个视频帖中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配点 对;
[0272] 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵;
[0273] 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配 点对是否匹配;
[0274] 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的 两个视频帖对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个 视频帖中的前一个视频帖作仿射变换,获得所述前一个视频帖中的像素点在所述相邻的两 个视频帖中的后一个视频帖中的实际位置;
[0275] 根据所述第二光流场,W及所述前一个视频帖中的运动像素点在所述后一个视频 帖中的实际位置,获取所述相邻的两个视频帖之间的第=光流场;所述第=光流场用于表 示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视频帖中的实际位置;
[0276] 第一获取模块301具体用于:
[0277] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第=光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0278] 可选的,本发明实施例中,第一获取模块301具体用于:
[0279] 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移;
[0280] 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应 的所述N条运动轨迹。
[0281] 可选的,本发明实施例中,第二获取模块302具体用于:
[0282] 将所述X个视频帖、W及第一获取模块301获取的所述X个视频帖对应的第=光 流场输入到所述深度神经网络中;
[0283] 获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征。
[0284] 可选的,请继续参见图3B,本发明实施例中,所述装置还包括归一化模块305,归 一化模块305用于;
[0285] 在第二获取模块302获取所述深度神经网络输出的、所述X个视频帖对应的所述 深度特征之后,对第二获取模块302获取的所述深度特征进行归一化处理,得到归一化后 的深度特征。
[0286] 可选的,本发明实施例中,归一化模块305具体用于:
[0287] 对第二获取模块302获取的所述深度特征中包括的每个元素,分别在所述深度神 经网络中该元素所在的通道上进行归一化,得到每个元素的单通道归一化结果;
[028引将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果;
[0289] 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。
[0290] 可选的,本发明实施例中,
[0291] 归一化模块305具体用于;
[0292] 对第二获取模块302获取的所述深度特征中包括的每个元素,分别除W该元素在 所述深度神经网络中该元素所在的通道内的第一给定值,得到每个元素的单通道归一化结 果;
[0293] 将每个元素的单通道归一化结果分别除W所述深度神经网络中的所有通道内与 该元素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。
[0294] 可选的,本发明实施例中,第S获取模块303具体用于:
[0295] 从归一化模块305根据第二获取模块302得到的所述深度特征得到的归一化后的 深度特征中获取所述每个位置的子深度信息。
[0296] 请参见图4,基于同一发明构思,本发明实施例提供另一种获取向量的装置,所述 装置可W包括存储器401,W及与存储器401相连的处理器402。
[0297] 存储器401,用于存储处理器402执行任务所需的指令;
[029引处理器402,用于执行存储器401存储的指令,对视频的X个视频帖按照第一算法 进行处理,得到N个像素点一一对应的N条运动轨迹;其中,一条运动轨迹描述了一个运动 像素点在所述X个视频帖中位置的变化;所述N个运动像素点是按照预设规则在所述X个 视频帖中选择出来的;采用预设的深度神经网络对所述X个视频帖进行处理,得到所述X个 视频帖的深度特征;W及,确定组成每条运动轨迹的像素点在视频帖中的位置,并从所述深 度特征中获取每个位置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征 向量;所述轨迹深度特征向量用于表征所述N条运动轨迹在所述X个视频帖中的深度信息; 其中,X、N为正整数。
[0299] 可选的,本发明实施例中,当X不小于2时,所述X个视频帖是连续的。
[0300] 可选的,本发明实施例中,处理器402具体用于:
[0301] 对于所述X个视频帖中每相邻的两个视频帖,均执行如下操作;获取所述相邻的 两个视频帖对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帖中,同 一个运动像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流 场,所述第二光流场用于表示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一 个视频帖中的位置;
[0302] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0303] 可选的,本发明实施例中,
[0304] 处理器402在获取所述相邻的两个视频帖对应的第一光流场之前,还用于对所述 X个视频帖中的每个视频帖做如下处理:在一个视频帖中,将每隔预设数量个普通像素点 的一个普通像素点取为目标像素点,计算获取的所有目标像素点的自相关矩阵;其中,所述 普通像素点为所述一个视频帖中的任意一个像素点;在所述一个视频帖中,丢弃所述自相 关矩阵中的特征值小于预设值的元素对应的普通像素点;
[03化]处理器402具体用于;根据处理后的X个视频帖,获取所述相邻的两个视频帖对应 的所述第一光流场。
[0306] 可选的,本发明实施例中,处理器402在获取第二光流场之后,还用于:对于所述X 个视频帖中每相邻的两个视频帖,均执行如下操作:
[0307] 获取所述相邻的两个视频帖中的至少一组待匹配点对;所述待匹配点对为;所述 相邻的两个视频帖中,前一个视频帖的任意一个像素点和所述任意一个像素点在相邻的后 一个视频帖中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配 点对;
[0308] 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵;
[0309] 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配 点对是否匹配;
[0310] 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的 两个视频帖对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个 视频帖中的前一个视频帖作仿射变换,获得所述前一个视频帖中的像素点在所述相邻的两 个视频帖中的后一个视频帖中的实际位置;
[0311] 根据所述第二光流场,W及所述前一个视频帖中的像素点在所述后一个视频帖中 的实际位置,获取所述相邻的两个视频帖之间的第=光流场;所述第=光流场用于表示,所 述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视频帖中的实际位置;
[0312] 处理器402具体用于;
[0313] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第=光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0314] 可选的,本发明实施例中,处理器402具体用于:
[0315] 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移;
[0316] 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应 的所述N条运动轨迹。
[0317] 可选的,本发明实施例中,处理器402具体用于:
[0318] 将所述X个视频帖、W及所述X个视频帖对应的第=光流场输入到所述深度神经 网络中;
[0319] 获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征。
[0320] 可选的,本发明实施例中,处理器402在获取所述深度神经网络输出的所述X个视 频帖对应的所述深度特征之后,还用于:
[0321] 对所述深度特征进行归一化处理,得到归一化后的深度特征。
[0322] 可选的,本发明实施例中,处理器402具体用于:
[0323] 对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在的通 道上进行归一化,得到每个元素的单通道归一化结果;
[0324] 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果;
[03巧]根据每个元素的多通道归一化结果得到所述归一化后的深度特征。
[0326] 可选的,本发明实施例中,处理器402具体用于:
[0327] 对所述深度特征中包括的每个元素,分别除W该元素在所述深度神经网络中该元 素所在的通道内的第一给定值,得到每个元素的单通道归一化结果;
[0328] 将每个元素的单通道归一化结果分别除W所述深度神经网络中的所有通道内与 该元素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。
[0329] 可选的,本发明实施例中,处理器402具体用于:
[0330] 从所述归一化后的深度特征中获取所述每个位置的子深度信息。
[0331] 本发明实施例中,可W获取X个视频帖中的像素点对应的运动轨迹,W及通过深 度神经网络获取X个视频帖的深度特征,从而根据运动轨迹和深度特征获得X个视频帖对 应的轨迹深度特征向量(因为轨迹深度特征向量是视频中的运动物体对应的,因此也可W 称为运动向量),该轨迹深度特征向量可W用于表示视频中的运动物体的轨迹W及轨迹上 的每个点对应的深度信息,即,本发明实施例提供了一种较好地获取视频中的运动向量的 方式。
[0332] 本发明实施例中,视频帖的深度特征是通过深度神经网络获取的,因此准确度较 高,且本发明实施例中的深度神经网络只需要获取深度特征,而无需对所有视频帖从头进 行识别,因此本发明实施例中的深度神经网络在进行训练时的训练方式较为简单,也无需 大量的复杂样本进行训练,减少了训练深度神经网络所带来的工作量。本发明实施例中的 轨迹深度特征向量既可W体现出像素点的运动轨迹,也可W体现出像素点在每个位置时的 深度信息,从而便于后续对轨迹深度特征向量加W利用。
[0333] 所属领域的技术人员可W清楚地了解到,为描述的方便和简洁,仅W上述各功能 单元的划分进行举例说明,实际应用中,可W根据需要而将上述功能分配由不同的功能单 元完成,即将装置的内部结构划分成不同的功能单元,W完成W上描述的全部或者部分功 能。上述描述的系统,装置和单元的具体工作过程,可W参考前述方法实施例中的对应过 程,在此不再寶述。
[0334] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可W 通过其它的方式实现。例如,W上所描述的装置实施例仅仅是示意性的,例如,所述单元或 单元的划分,仅仅为一种逻辑功能划分,实际实现时可W有另外的划分方式,例如多个单元 或组件可W结合或者可W集成
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1