一种获取向量的方法及装置的制造方法_6

文档序号:8905449阅读:来源:国知局
到另一个系统,或一些特征可W忽略,或不执行。另一点,所 显示或讨论的相互之间的禪合或直接禪合或通信连接可W是通过一些接口,装置或单元的 间接禪合或通信连接,可W是电性,机械或其它的形式。
[03巧]所述作为分离部件说明的单元可W是或者也可W不是物理上分开的,作为单元显 示的部件可W是或者也可W不是物理单元,即可W位于一个地方,或者也可W分布到多个 网络单元上。可W根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0336] 另外,在本申请各个实施例中的各功能单元可W集成在一个处理单元中,也可W 是各个单元单独物理存在,也可W两个或两个W上单元集成在一个单元中。上述集成的单 元既可W采用硬件的形式实现,也可W采用软件功能单元的形式实现。
[0337] 所述集成的单元如果W软件功能单元的形式实现并作为独立的产品销售或使用 时,可W存储在一个计算机可读取存储介质中。基于该样的理解,本申请的技术方案本质 上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可软件产品的形 式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用W使得一台计算 机设备(可W是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本 申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括;U盘、移动硬盘、 ROM巧ead-OnlyMemoir,只读存储器)、RAM巧andomAccessMemoir,随机存取存储器)、磁 碟或者光盘等各种可W存储程序代码的介质。
[0338] W上所述,W上实施例仅用W对本申请的技术方案进行了详细介绍,但W上实施 例的说明只是用于帮助理解本发明的方法及其核屯、思想,不应理解为对本发明的限制。本 技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在 本发明的保护范围之内。
【主权项】
1. 一种获取向量的方法,其特征在于,包括以下步骤: 对视频的X个视频帧按照第一算法进行处理,得到N个像素点一一对应的N条运动轨 迹;其中,一条运动轨迹描述了一个像素点在所述X个视频帧中位置的变化;所述N个像素 点是按照预设规则在所述X个视频帧中选择出来的; 采用预设的深度神经网络对所述X个视频帧进行处理,得到所述X个视频帧的深度特 征; 确定组成每条运动轨迹的像素点在所述X个视频帧中的位置,并从所述深度特征中获 取每个位置的子深度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量;所述 轨迹深度特征向量用于表征所述N条运动轨迹在所述X个视频帧中的深度信息; 其中,X、N为正整数。2. 如权利要求1所述的方法,其特征在于,当X不小于2时,所述X个视频帧是连续的。3. 如权利要求1或2所述的方法,其特征在于,所述对视频的X个视频帧按照第一算法 进行处理,得到N个像素点 对应的N条运动轨迹,包括: 对于所述X个视频帧中每相邻的两个视频帧,均执行如下操作:获取所述相邻的两个 视频帧对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帧中,同一个 像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所述第 二光流场用于表示,所述相邻的两个视频帧中,前一个视频帧中的像素点在后一个视频帧 中的位置; 根据获取的所述X个视频帧中每相邻的两个视频帧之间的第二光流场,获得所述N个 像素点对应的所述N条运动轨迹。4. 如权利要求3所述的方法,其特征在于, 所述在获取所述相邻的两个视频帧对应的第一光流场之前,所述方法还包括: 对所述X个视频帧中的每个视频帧做如下处理: 在一个视频帧中,将每隔预设数量个普通像素点的一个普通像素点取为目标像素点, 计算获取的所有目标像素点的自相关矩阵;其中,所述普通像素点为所述一个视频帧中的 任意一个像素点; 在所述一个视频帧中,丢弃所述自相关矩阵中的特征值小于预设值的元素对应的普通 像素点; 所述获取所述相邻的两个视频帧对应的第一光流场,包括: 根据处理后的X个视频帧,获取所述相邻的两个视频帧对应的所述第一光流场。5. 如权利要求3或4所述的方法,其特征在于, 在所述获取第二光流场之后,所述方法还包括:对于所述X个视频帧中每相邻的两个 视频帧,均执行如下操作: 获取所述相邻的两个视频帧中的至少一组待匹配点对;所述待匹配点对为:所述相邻 的两个视频帧中,前一个视频帧的任意一个像素点和所述任意一个像素点在相邻的后一 个视频帧中得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配点 对; 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵; 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配点对 是否匹配; 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的两个 视频帧对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个视频 帧中的前一个视频帧作仿射变换,获得所述前一个视频帧中的像素点在所述相邻的两个视 频帧中的后一个视频帧中的实际位置; 根据所述第二光流场,以及所述前一个视频帧中的像素点在所述后一个视频帧中的实 际位置,获取所述相邻的两个视频帧之间的第三光流场;所述第三光流场用于表示,所述相 邻的两个视频帧中,前一个视频帧中的像素点在后一个视频帧中的实际位置; 所述根据获取的所述X个视频帧中每相邻的两个视频帧之间的第二光流场,获得所述 N个像素点对应的所述N条运动轨迹,包括: 根据获取的所述X个视频帧中每相邻的两个视频帧之间的第三光流场,获得所述N个 像素点对应的所述N条运动轨迹。6. 如权利要求5所述的方法,其特征在于,所述获得所述N个像素点对应的所述N条运 动轨迹,包括: 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移; 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应的所 述N条运动轨迹。7. 如权利要求6所述的方法,其特征在于,所述采用预设的深度神经网络对所述X个视 频帧处理,得到所述X个视频帧的深度特征,包括: 将所述X个视频帧、以及所述X个视频帧对应的第三光流场输入到所述深度神经网络 中; 获取所述深度神经网络输出的所述X个视频帧对应的所述深度特征。8. 如权利要求7所述的方法,其特征在于,在所述获取所述深度神经网络输出的所述X 个视频帧对应的所述深度特征之后,还包括: 对所述深度特征进行归一化处理,得到归一化后的深度特征。9. 如权利要求8所述的方法,其特征在于,所述对所述深度特征进行归一化处理,得到 归一化后的深度特征,包括: 对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在的通道上 进行归一化,得到每个元素的单通道归一化结果; 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行归一 化,得到每个元素的多通道归一化结果; 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。10. 如权利要求9所述的方法,其特征在于, 所述对所述深度特征中包括的每个元素,分别在所述深度神经网络中该元素所在的通 道上进行归一化,得到每个元素的单通道归一化结果,包括: 对所述深度特征中包括的每个元素,分别除以该元素在所述深度神经网络中该元素所 在的通道内的第一给定值,得到每个元素的单通道归一化结果; 所述将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行 归一化,得到每个元素的多通道归一化结果,包括: 将每个元素的单通道归一化结果分别除以所述深度神经网络中的所有通道内与该元 素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。11.如权利要求8-10任一所述的方法,其特征在于,所述从所述深度特征中获取所述 每个位置的子深度信息,包括: 从所述归一化后的深度特征中获取所述每个位置的子深度信息。12. -种获取向量的装置,其特征在于,包括: 第一获取模块,用于对视频的X个视频帧按照第一算法进行处理,得到N个像素点一一 对应的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在所述X个视频帧中位置的变 化;所述N个像素点是按照预设规则在所述X个视频帧中选择出来的; 第二获取模块,用于采用预设的深度神经网络对所述X个视频帧进行处理,得到所述X 个视频帧的深度特征; 第三获取模块,用于确定组成所述第一获取模块得到的每条运动轨迹的像素点在所述 X个视频帧中的位置,并从所述第二获取模块得到的所述深度特征中获取每个位置的子深 度信息,根据所述每个位置的子深度信息得到轨迹深度特征向量;所述轨迹深度特征向量 用于表征所述N条运动轨迹在所述X个视频帧中的深度信息; 其中,X、N为正整数。13.如权利要求12所述的装置,其特征在于,当X不小于2时,所述X个视频帧是连续 的。14.如权利要求12或13所述的装置,其特征在于,所述第一获取模块具体用于: 对于所述X个视频帧中每相邻的两个视频帧,均执行如下操作:获取所述相邻的两个 视频帧对应的第一光流场;所述第一光流场用于表示在所述相邻的两个视频帧中,同一个 像素点的速度矢量;通过中值滤波器对所述第一光流场进行处理,获取第二光流场,所述第 二光流场用于表示,所述相邻的两个视频帧中,前一个视频帧中的像素点在后一个视频帧 中的位置; 根据获取的所述X个视频帧中每相邻的两个视频帧之间的第二光流场,获得所述N个 像素点对应的所述N条运动轨迹。15.如权利要求14所述的装置,其特征在于,所述装置还包括处理模块; 所述处理模块用于在所述第一获取模块获取所述相邻的两个视频帧对应的第一光流 场之前,对所述X个视频帧中的每个视频帧做如下处理: 在一个视频帧中,将每隔预设数量个普通像素点的一个普通像素点取为目标像素点, 计算获取的所有目标像素点的自相关矩阵;其中,所述普通像素点所述一个视频帧中的任 意一个像素点; 在所述一个视频帧中,丢弃所述自相关矩阵中的特征值小于预设值的元素对应的普通 像素点; 所述第一获取模块具体用于: 根据所述处理模块处理后的X个视频帧,获取所述相邻的两个视频帧对应的所述第一 光流场。16.如权利要求14或15所述的装置,其特征在于,所述第一获取模块在获取第二光流 场之后,还用于对于所述X个视频帧中每相邻的两个视频帧,均执行如下操作: 获取所述相邻的两个视频帧中的至少一组待匹配点对;所述待匹配点对为:所述相邻 的两个视频帧中,前一个视频帧的任意一个像素点和所述像素点在相邻的后一个视频帧中 得到的对应点构成的点对;其中,每组待匹配点对中包括一对或多对待匹配点对; 针对所述至少一组待匹配点对中的每组,分别获得一个仿射变换矩阵; 通过得到的每一个仿射变换矩阵分别确定每一组待匹配点对中的每一对待匹配点对 是否匹配; 将确定出的相匹配的待匹配点对数量最多的仿射变换矩阵确定为与所述相邻的两个 视频帧对应的第一仿射变换矩阵,并通过所述第一仿射变换矩阵,对所述相邻的两个视频 帧中的前一个视频帧作仿射变换,获得所述前一个视频帧中的像素点在所述相邻的两个视 频帧中的后一个视频帧中的实际位置; 根据所述第二光流场,以及所述前一个视频帧中的像素点在所述后一个视频帧中的实 际位置,获取所述相邻的两个视频帧之间的第三光流场;所述第三光流场用于表示,所述相 邻的两个视频帧中,前一个视频帧中的像素点在后一个视频帧中的实际位置; 所述第一获取模块具体用于: 根据获取的所述X个视频帧中每相邻的两个视频帧之间的第三光流场,获得所述N个 像素点对应的所述N条运动轨迹。17. 如权利要求16所述的装置,其特征在于,所述第一获取模块具体用于: 根据获得的各像素点的运动轨迹,分别获取其中每个像素点的位移; 丢弃其中位移大于预设位移的像素点对应的运动轨迹,获得所述N个像素点对应的所 述N条运动轨迹。18. 如权利要求17所述的装置,其特征在于,所述第二获取模块具体用于: 将所述X个视频帧、以及所述第一获取模块获取的所述X个视频帧对应的第三光流场 输入到所述深度神经网络中; 获取所述深度神经网络输出的所述X个视频帧对应的所述深度特征。19. 如权利要求18所述的装置,其特征在于,所述装置还包括归一化模块,所述归一化 模块用于: 在所述第二获取模块获取所述深度神经网络输出的、所述X个视频帧对应的所述深度 特征之后,对所述第二获取模块获取的所述深度特征进行归一化处理,得到归一化后的深 度特征。20. 如权利要求19所述的装置,其特征在于,所述归一化模块具体用于: 对所述第二获取模块获取的所述深度特征中包括的每个元素,分别在所述深度神经网 络中该元素所在的通道上进行归一化,得到每个元素的单通道归一化结果; 将每个元素的单通道归一化结果分别在所述深度神经网络中的所有通道上进行归一 化,得到每个元素的多通道归一化结果; 根据每个元素的多通道归一化结果得到所述归一化后的深度特征。21. 如权利要求20所述的装置,其特征在于,所述归一化模块具体用于: 对所述第二获取模块获取的所述深度特征中包括的每个元素,分别除以该元素在所述 深度神经网络中该元素所在的通道内的第一给定值,得到每个元素的单通道归一化结果; 将每个元素的单通道归一化结果分别除以所述深度神经网络中的所有通道内与该元 素位于同一位置的元素对应的第二给定值,得到每个元素的多通道归一化结果。22.如权利要求19-21任一所述的装置,其特征在于,所述第三获取模块具体用于: 从所述归一化模块根据所述第二获取模块得到的所述深度特征得到的所述归一化后 的深度特征中获取所述每个位置的子深度信息。
【专利摘要】本发明公开了一种获取向量的方法,用于提供一种获取视频中的运动向量的方式。所述方法包括:对视频的X个视频帧按照第一算法进行处理,得到N个像素点一一对应的N条运动轨迹;其中,一条运动轨迹描述了一个像素点在X个视频帧中位置的变化;N个像素点是按照预设规则在X个视频帧中选择出来的;采用预设的深度神经网络对X个视频帧进行处理,得到X个视频帧的深度特征;确定组成每条运动轨迹的像素点在X个视频帧中的位置,并从深度特征中获取每个位置的子深度信息,根据每个位置的子深度信息得到轨迹深度特征向量,轨迹深度特征向量用于表征N条运动轨迹在X个视频帧中的深度信息。本发明还公开了相应的装置。
【IPC分类】G06N3/02, G06K9/00
【公开号】CN104881640
【申请号】CN201510249856
【发明人】王利民, 乔宇, 鞠汶奇, 刘健庄, 汤晓鸥
【申请人】华为技术有限公司
【公开日】2015年9月2日
【申请日】2015年5月15日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1