一种获取向量的方法及装置的制造方法_2

文档序号:8905449阅读:来源:国知局
r>[0083] 对所述第二获取模块获取的所述深度特征中包括的每个元素,分别在所述深度神 经网络中该元素所在的通道上进行归一化,得到每个元素的单通道归一化结果;
[0084] 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果;
[0085] 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。
[0086] 结合第二方面的第八种可能的实现方式,在第二方面的第九种可能的实现方式 中,所述归一化模块具体用于:
[0087] 对所述第二获取模块获取的所述深度特征中包括的每个元素,分别除W该元素在 所述深度神经网络中该元素所在的通道内的第一给定值,得到每个元素的单通道归一化结 果;
[008引将每个元素的单通道归一化结果分别除W所述深度神经网络中的所有通道内与 该元素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。
[0089] 结合第二方面的第走种可能的实现方式至第九种可能的实现方式中的任一种可 能的实现方式,在第二方面的第十种可能的实现方式中,所述第=获取模块具体用于:
[0090] 从所述归一化模块根据所述第二获取模块得到的所述深度特征得到的归一化后 的深度特征中获取所述每个位置的子深度信息。
[0091] 本发明的第=方面,提供一种获取向量的装置,包括存储器、W及与所述存储器连 接的处理器;
[0092] 所述存储器,用于存储指令;
[0093] 所述处理器,用于执行所述指令,对视频的X个视频帖按照第一算法进行处理,得 到N个像素点一一对应的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在所述X个 视频帖中位置的变化;所述N个像素点是按照预设规则在所述X个视频帖中选择出来的; 采用预设的深度神经网络对所述X个视频帖进行处理,得到所述X个视频帖的深度特征;W 及,确定组成每条轨迹的像素点在所述X个视频帖中的相应位置,并从所述深度特征中获 取每个位置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量;所述 轨迹深度特征向量用于表征所述N条运动轨迹在所述X个视频帖中的深度信息;其中,X、N 为正整数。
[0094] 结合第=方面,在第=方面的第一种可能的实现方式中,当X不小于2时,所述X 个视频帖是连续的。
[0095] 结合第=方面或第一种可能的实现方式,在第=方面的第二种可能的实现方式 中,所述处理器具体用于:
[0096] 对于所述X个视频帖中每相邻的两个视频帖,均执行如下操作;获取所述相邻的 两个视频帖对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帖中,同 一个像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所 述第二光流场用于表示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视 频帖中的位置;
[0097] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[009引结合第=方面的第二种可能的实现方式,在第=方面的第=种可能的实现方式 中,
[0099] 所述处理器在获取所述相邻的两个视频帖对应的第一光流场之前,还用于对所述 X个视频帖中的每个视频帖做如下处理:在一个视频帖中,将每隔预设数量个普通像素点 的一个普通像素点取为目标像素点,计算获取的所有目标像素点的自相关矩阵;其中,所述 普通像素点为所述一个视频帖中的任意一个像素点;在所述一个视频帖中,丢弃所述自相 关矩阵中的特征值小于预设值的元素对应的普通像素点;
[0100] 所述处理器具体用于;根据处理后的X个视频帖,获取所述相邻的两个视频帖对 应的所述第一光流场。
[0101] 结合第=方面的第二种可能的实现方式或第=种可能的实现方式,在第=方面的 第四种可能的实现方式中,
[0102] 所述处理器在获取第二光流场之后,还用于:对于所述X个视频帖中每相邻的两 个视频帖,均执行如下操作:
[0103] 获取所述相邻的两个视频帖中的至少一组待匹配点对;所述待匹配点对为;所述 相邻的两个视频帖中,前一个视频帖的任意一个像素点和所述任意一个像素点在相邻的后 一个视频帖中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配 点对;
[0104] 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵;
[01化]通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配 点对是否匹配;
[0106] 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的 两个视频帖对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个 视频帖中的前一个视频帖作仿射变换,获得所述前一个视频帖中的像素点在所述相邻的两 个视频帖中的后一个视频帖中的实际位置;
[0107] 根据所述第二光流场,W及所述前一个视频帖中的像素点在所述后一个视频帖中 的实际位置,获取所述相邻的两个视频帖之间的第=光流场;所述第=光流场用于表示,所 述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视频帖中的实际位置;
[0108] 所述处理器具体用于:
[0109] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第=光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0110] 结合第S方面的第四种可能的实现方式,在第S方面的第五种可能的实现方式 中,所述处理器具体用于:
[0111] 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移;
[0112] 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应 的所述N条运动轨迹。
[0113] 结合第=方面的第五种可能的实现方式,在第=方面的第六种可能的实现方式 中,所述处理器具体用于:
[0114] 将所述X个视频帖、W及所述X个视频帖对应的第=光流场输入到所述深度神经 网络中;
[0115] 获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征。
[0116] 结合第S方面的第六种可能的实现方式,在第S方面的第走种可能的实现方式 中,所述处理器在获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征之 后,还用于:
[0117] 对所述深度特征进行归一化处理,得到归一化后的深度特征。
[0118] 结合第S方面的第走种可能的实现方式,在第S方面的第八种可能的实现方式 中,所述处理器具体用于:
[0119] 对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在的通 道上进行归一化,得到每个元素的单通道归一化结果;
[0120] 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果;
[0121] 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。
[0122] 结合第S方面的第八种可能的实现方式,在第S方面的第九种可能的实现方式 中,所述处理器具体用于:
[0123] 对所述深度特征中包括的每个元素,分别除W该元素在所述深度神经网络中该元 素所在的通道内的第一给定值,得到每个元素的单通道归一化结果;
[0124] 将每个元素的单通道归一化结果分别除W所述深度神经网络中的所有通道内与 该元素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。
[01巧]结合第S方面的第走种可能的实现方式至第九种可能的实现方式中的任一种可 能的实现方式,在第=方面的第十种可能的实现方式中,所述处理器具体用于:
[0126] 从所述归一化后的深度特征中获取所述每个位置的子深度信息。
[0127] 本发明实施例中,可W获取X个视频帖中的像素点对应的运动轨迹,W及通过深 度神经网络获取X个视频帖的深度特征,从而根据运动轨迹和深度特征获得X个视频帖对 应的轨迹深度特征向量(因为轨迹深度特征向量是视频中的运动物体对应的,因此也可W 称为运动向量),该轨迹深度特征向量可W用于表示视频中的运动物体的轨迹W及轨迹上 的每个点对应的深度特征,即,本发明实施例提供了一种较好地获取视频中的运动向量的 方式。
[0128] 本发明实施例中,视频帖的深度特征是通过深度神经网络获取的,因此准确度较 高,且本发明实施例中的深度神经网络只需要获取深度特征,而无需对所有视频帖从头进 行识别,因此本发明实施例中的深度神经网络在进行训练时的训练方式较为简单,也无需 大量的复杂样本进行训练,减少了训练深度神经网络所带来的工作量。本发明实施例中的 轨迹深度特征向量既可W体现出像素点的运动轨迹,也可W体现出像素点在每个位置时的 深度信息,从而便于后续对轨迹深度特征向量加W利用,例如可W将轨迹深度特征向量应 用到动作识别、视频检索、视频监控分析等等不同的场景中。
【附图说明】
[0129] 图1为本发明实施例中获取向量的方法的主要流程图;
[0130] 图2A为本发明实施例中运动轨迹与与视频帖之间的交点的示意图;
[0131] 图2B为本发明实施例中相邻的两帖图像中像素点的移动情况示意图;
[0132] 图3A为本发明实施例中获取向量的装置的一种结构框图;
[0133] 图3B为本发明实施例中获取向量的装置的另一种结构框图;
[0134] 图4为本发明实施例中获取向量的装置的结构示意图。
【具体实施方式】
[01巧]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0136] 首先介绍一下本发明实施例的应用场景。
[0137] 例如有一个视频,该视频包括多个视频帖。在该视频帖中包括有一个或多个运动 物体,现在需要对该视频中的运动物体所在的运动区域进行分析,得到相应的运动向量,具 体的,可w对该视频中包括的所有视频帖进行分析,或者也可w对该视频中包括的部分视 频帖进行分析。具体的,可W采用本发明实施例中的方法来得到运动向量。
[0138]下面结合说明书附图对本发明实施例作进一步详细描述。
[0139]请参见图1,本发明实施例提供一种获取向量的方法,所述方法的主要流程描述如 下。
[0140]步骤101;对视频的X个视频帖按照第一算法进行处理,得到N个像素点一一对应 的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在X个视频帖中位置的变化;N个 像素点是按照预设规则在X个视频帖中选择出来的。
[0141] 本发明实施例中,N个像素点可W是X个视频帖中的运动物体对应的像素点,即, 该里的预设规则可W是指;从X个视频帖中选择位移不为0的像素点。当然,N个像素点可 W是X个视频帖中的位移不为0的全部像素点或部分像素点。因为该N个像素点都是运动 物体对应的像素点,那么,在下文中可W将该N个像素点中的每个都称为运动像素点,即,N 个像素点也可W描述为N个运动像素点。
[014引本发明实施例中,X和N均为正整数。
[0143]本发明实施例中,当X大于等于2时,X个视频帖可W是连续的视频帖,当然也可W是不连续的视频帖。
[0144]本发明实施例中,例如对于运动像素点1对应的运动轨迹为运动轨迹1,那么,运 动轨迹1与X个视频帖中的每个视频帖都可W有交点,即X个视频帖中的每个视频帖中都 有运动像素点1对应的位置,或者,运动轨迹1只与X个视频帖中的部分视频帖有交点,而 与剩余部分的视频帖没有交点,即X个视频帖中只有部分视频帖中有运动像素点1对应的 位置。其中,运动像素点1为N个运动像素点中的任意一个运动像素点。另外,对于不同的 运动像素点,与其有交点的视频帖可W不同。
[0145]本发明实施例中,例如运动轨迹A与视频帖A有一个交点,那么该个交点就是运动 轨迹A在视频帖A中对应的位置。
[0146]例如请参见图2A,为本发明实施例中一种可能的运动轨迹与视频帖之间的交点的 示意图。图2A中X= 5,即共有5个视频帖,分别为视频帖A(即图2A中的A)、视频帖B(即 图2A中的B)、视频帖C(即图2A中的C)、视频帖D(即图2A中的D)和视频帖E(即图2A 中的巧,W及共有五个运动像素点,分别为运动像素点1、运动像素点2、运动像素点3、运动 像素点4和运动像素点5,运动像素点1对应于运动轨迹1 (即图2A中的1),运动像素点2 对应于运动轨迹2 (即图2A中的2),运动像素点3对应于运动轨迹3 (即图2A中的3),运 动像素点4对应于运动轨迹4 (即图2A中的4),W及运动像素点5对应于运动轨迹5 (即图 2A中的5)。其中,运动轨迹1与5个视频帖均有交点,运动轨迹2与其中的3个视频帖有 交点,运动轨迹3与其中的四个视频帖有交点,运动轨迹4与其中的3个视频帖有交点,运 动轨迹5也与其中的3个视频帖有交点。其中,与运动像素点2有交点的视频帖分别为视 频帖A、视频帖B和视频帖C,与运动像素点3有交点的视频帖分别为视频帖A、视频帖C、视 频帖D和视频帖E,与运动像素点4有交点的视频帖分别为视频帖A、视频帖C和视频帖E, 与运动像素点5有交点的视频帖分别为视频帖A、视频帖B和视频帖C。
[0147]图2A中,对于每条运动轨迹,如果一个视频帖与它没有交点,则用虚线表示出来, 即图2A中的虚线是一个示意,表示运动轨迹与相应的视频帖没有交点。另外,图2A中的运 动轨迹都是w直线进行示意的,该只是为了举例,在实际应用中,运动轨迹可能是各种不同 的形状。
[0148] 可W看到,在图2A中,各个运动像素点有交点的视频帖可能相同也可能不同,W及,与一个运动像素点有交点的各个视频帖可能是连续的视频帖,也可能是不连续的视频 帖。
[0149] 例如,X个视频帖中有一个运动物体A,该运动物体A可能对应一条或多条运动轨 迹,例如其对应的一条运动轨迹为运动轨迹1。例如运动物体A是用户的一只手,在拍摄视
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1