一种获取向量的方法及装置的制造方法

文档序号:8905449阅读:284来源:国知局
一种获取向量的方法及装置的制造方法
【技术领域】
[0001] 本发明设及视频识别技术领域,特别设及一种获取向量的方法及装置。
【背景技术】
[0002] 随着视频信息的爆炸式的增长,人工处理大量视频信息已经变得越来越不现实, 然而视频监控、视频检索等需求变得越来越大,如何让计算机能够正确理解视频的内容,是 一件有挑战也有意义的工作。
[0003] 在视频识别领域中,识别视频中的人、物的动作和行为等技术,是需求比较广泛 的。比如在对视频进行检索和分类时,通常需要对视频中人的行为动作进行比较准确的分 类,再比如在监控领域中,需要对被监控的人的行为动作进行分析,该也设及到对视频中的 人的动作行为进行的识别问题,因此动作识别在近几年一直是研究中的热点问题。
[0004] 在进行视频识别时,一般需要对视频中的运动区域进行分析,得到相应的运动向 量,再将得到的运动向量送入分类器进行分类,W得到识别结果。那么首要的就是先得到该 个运动向量,而在现有技术中,尚无较好地得到该种运动向量的方法。

【发明内容】

[0005] 本发明实施例提供一种获取向量的方法及装置,用于提供一种获取视频中的运动 向量的方式。
[0006] 本发明的第一方面,提供一种获取向量的方法,包括W下步骤:
[0007] 对视频的X个视频帖按照第一算法进行处理,得到N个像素点一一对应的N条运 动轨迹;其中,一条运动轨迹描述了一个像素点在所述X个视频帖中位置的变化;所述N个 像素点是按照预设规则在所述X个视频帖中选择出来的;
[000引采用预设的深度神经网络对所述X个视频帖进行处理,得到所述X个视频帖的深 度特征;
[0009] 确定组成每条运动轨迹的像素点在所述X个视频帖中的位置,并从所述深度特征 中获取每个位置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量; 所述轨迹深度特征向量用于表征所述N条运动轨迹在所述X个视频帖中的深度信息;
[0010] 其中,X、N为正整数。
[0011] 结合第一方面,在第一方面的第一种可能的实现方式中,当X不小于2时,所述X 个视频帖是连续的。
[0012] 结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的 实现方式中,所述对视频的X个视频帖按照第一算法进行处理,得到N个像素点一一对应的 N条运动轨迹,包括;
[0013] 对于所述X个视频帖中每相邻的两个视频帖,均执行如下操作;获取所述相邻的 两个视频帖对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帖中,同 一个像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所 述第二光流场用于表示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视 频帖中的位置;
[0014] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0015] 结合第一方面的第二种可能的实现方式,在第一方面的第=种可能的实现方式 中,
[0016] 所述在获取所述相邻的两个视频帖对应的第一光流场之前,所述方法还包括:
[0017] 对所述X个视频帖中的每个视频帖做如下处理:
[001引在一个视频帖中,将每隔预设数量个普通像素点的一个普通像素点取为目标像素 点,计算获取的所有目标像素点的自相关矩阵;其中,所述普通像素点为所述一个视频帖中 的任意一个像素点;
[0019] 在所述一个视频帖中,丢弃所述自相关矩阵中的特征值小于预设值的元素对应的 普通像素点;
[0020] 所述获取所述相邻的两个视频帖对应的第一光流场,包括:
[0021] 根据处理后的X个视频帖,获取所述相邻的两个视频帖对应的所述第一光流场。
[0022] 结合第一方面的第二种可能的实现方式或第=种可能的实现方式,在第一方面的 第四种可能的实现方式中,
[0023] 在所述获取第二光流场之后,所述方法还包括;对于所述X个视频帖中每相邻的 两个视频帖,均执行如下操作:
[0024] 获取所述相邻的两个视频帖中的至少一组待匹配点对;所述待匹配点对为;所述 相邻的两个视频帖中,前一个视频帖的任意一个像素点和所述任意一个像素点在相邻的后 一个视频帖中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配 点对;
[0025] 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵;
[0026] 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配 点对是否匹配;
[0027] 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的 两个视频帖对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个 视频帖中的前一个视频帖作仿射变换,获得所述前一个视频帖中的像素点在所述相邻的两 个视频帖中的后一个视频帖中的实际位置;
[002引根据所述第二光流场,W及所述前一个视频帖中的像素点在所述后一个视频帖中 的实际位置,获取所述相邻的两个视频帖之间的第=光流场;所述第=光流场用于表示,所 述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视频帖中的实际位置;
[0029] 所述根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得 所述N个像素点对应的所述N条运动轨迹,包括:
[0030] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第=光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0031] 结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式 中,获得所述N个像素点对应的所述N条运动轨迹,包括:
[0032] 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移;
[0033] 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应 的所述N条运动轨迹。
[0034] 结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式 中,所述采用预设的深度神经网络对所述X个视频帖处理,得到所述X个视频帖的深度特 征,包括:
[0035] 将所述X个视频帖、W及所述X个视频帖对应的第=光流场输入到所述深度神经 网络中;
[0036] 获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征。
[0037] 结合第一方面的第六种可能的实现方式,在第一方面的第走种可能的实现方式 中,在所述获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征之后,还包 括:
[003引对所述深度特征进行归一化处理,得到归一化后的深度特征。
[0039] 结合第一方面的第走种可能的实现方式,在第一方面的第八种可能的实现方式 中,所述对所述深度特征进行归一化处理,得到归一化后的深度特征,包括:
[0040] 对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在的通 道上进行归一化,得到每个元素的单通道归一化结果;
[0041] 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果;
[0042] 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。
[0043] 结合第一方面的第八种可能的实现方式,在第一方面的第九种可能的实现方式 中,
[0044] 所述对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在 的通道上进行归一化,得到每个元素的单通道归一化结果,包括:
[0045] 对所述深度特征中包括的每个元素,分别除W该元素在所述深度神经网络中该元 素所在的通道内的第一给定值,得到每个元素的单通道归一化结果;
[0046] 所述将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上 进行归一化,得到每个元素的多通道归一化结果,包括:
[0047] 将每个元素的单通道归一化结果分别除W所述深度神经网络中的所有通道内与 该元素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。
[0048] 结合第一方面的第走种可能的实现方式至第九种可能的实现方式中的任一种可 能的实现方式,在第一方面的第十种可能的实现方式中,所述从所述深度特征中获取所述 每个位置的子深度信息,包括:
[0049] 从所述归一化后的深度特征中获取所述每个位置的子深度信息。
[0050] 本发明的第二方面,提供一种获取向量的装置,包括:
[0化1] 第一获取模块,用于对视频的X个视频帖按照第一算法进行处理,得到N个像素点 一一对应的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在所述X个视频帖中位置 的变化;所述N个像素点是按照预设规则在所述X个视频帖中选择出来的;
[0化2] 第二获取模块,用于采用预设的深度神经网络对所述X个视频帖进行处理,得到 所述X个视频帖的深度特征;
[0053] 第=获取模块,用于确定组成所述第一获取模块得到的每条运动轨迹的像素点在 所述X个视频帖中的相应位置,并从所述第二获取模块得到的所述深度特征中获取每个位 置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量;所述轨迹深度 特征向量用于表征所述N条运动轨迹在所述X个视频帖中的深度信息;
[0054] 其中,X、N为正整数。
[0055] 结合第二方面,在第二方面的第一种可能的实现方式中,当X不小于2时,所述X 个视频帖是连续的。
[0化6] 结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的 实现方式中,所述第一获取模块具体用于:
[0化7] 对于所述X个视频帖中每相邻的两个视频帖,均执行如下操作;获取所述相邻的 两个视频帖对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帖中,同 一个像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所 述第二光流场用于表示,所述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视 频帖中的位置;
[005引根据获取的所述X个视频帖中每相邻的两个视频帖之间的第二光流场,获得所述N个像素点对应的所述N条运动轨迹。
[0059] 结合第二方面的第二种可能的实现方式,在第二方面的第=种可能的实现方式 中,所述装置还包括处理模块;
[0060] 所述处理模块用于在所述第一获取模块获取所述相邻的两个视频帖对应的第一 光流场之前,对所述X个视频帖中的每个视频帖做如下处理:
[0061] 在一个视频帖中,将每隔预设数量个普通像素点的一个普通像素点取为目标像素 点,计算获取的所有目标像素点的自相关矩阵;其中,所述普通像素点所述一个视频帖中的 任意一个像素点;
[0062] 在所述一个视频帖中,丢弃所述自相关矩阵中的特征值小于预设值的元素对应的 普通像素点;
[0063] 所述第一获取模块具体用于获取所述相邻的两个视频帖对应的第一光流场,包 括:
[0064] 根据所述处理模块处理后的X个视频帖,获取所述相邻的两个视频帖对应的所述 第一光流场。
[00化]结合第二方面的第二种可能的实现方式或第=种可能的实现方式,在第二方面的 第四种可能的实现方式中,
[0066] 所述第一获取模块在获取第二光流场之后,还用于对于所述X个视频帖中每相邻 的两个视频帖,均执行如下操作:
[0067] 获取所述相邻的两个视频帖中的至少一组待匹配点对;所述待匹配点对为;所述 相邻的两个视频帖中,前一个视频帖的任意一个像素点和所述像素点在相邻的后一个视频 帖中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配点对;
[0068] 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵;
[0069] 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配 点对是否匹配;
[0070] 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的 两个视频帖对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个 视频帖中的前一个视频帖作仿射变换,获得所述前一个视频帖中的像素点在所述相邻的两 个视频帖中的后一个视频帖中的实际位置;
[0071] 根据所述第二光流场,W及所述前一个视频帖中的像素点在所述后一个视频帖中 的实际位置,获取所述相邻的两个视频帖之间的第=光流场;所述第=光流场用于表示,所 述相邻的两个视频帖中,前一个视频帖中的像素点在后一个视频帖中的实际位置;
[0072] 所述第一获取模块具体用于,包括:
[0073] 根据获取的所述X个视频帖中每相邻的两个视频帖之间的第=光流场,获得所述 N个像素点对应的所述N条运动轨迹。
[0074] 结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式 中,所述第一获取模块具体用于:
[0075] 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移;
[0076] 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应 的所述N条运动轨迹。
[0077] 结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式 中,所述第二获取模块具体用于:
[007引将所述X个视频帖、W及所述第一获取模块获取的所述X个视频帖对应的第=光 流场输入到所述深度神经网络中;
[0079] 获取所述深度神经网络输出的所述X个视频帖对应的所述深度特征。
[0080] 结合第二方面的第六种可能的实现方式,在第二方面的第走种可能的实现方式 中,所述装置还包括归一化模块,所述归一化模块用于:
[0081] 在所述第二获取模块获取所述深度神经网络输出的、所述X个视频帖对应的所述 深度特征之后,对所述第二获取模块获取的所述深度特征进行归一化处理,得到归一化后 的深度特征。
[0082] 结合第二方面的第走种可能的实现方式,在第二方面的第八种可能的实现方式 中,所述归一化模块具体用于:
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1