1.一种从场景的视频检测该场景中的对象的动作的方法,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,所述方法包括以下步骤:
由处理器获取所述场景的所述视频,其中,所述视频包括图像序列;
由所述处理器跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块,还包括:
从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动数据;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;以及
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络rnn,该rnn输出各个关注动作的相对得分。
2.根据权利要求1所述的方法,其中,所述rnn包括卷积神经网络层和一个或更多个循环神经网络层。
3.根据权利要求2所述的方法,其中,所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。
4.根据权利要求2所述的方法,其中,所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像以及具有所述视频帧的完整空间范围的轮廓图像和图像的多个流上操作。
5.根据权利要求2所述的方法,其中,所述循环神经网络层包括长短期记忆lstm单元。
6.根据权利要求5所述的方法,其中,所述循环神经网络层包括双向长短期记忆lstm单元。
7.根据权利要求1所述的方法,其中,所述对象是人、机器人或工业机器人中的一种。
8.根据权利要求7所述的方法,该方法还包括人检测器和人跟踪器。
9.根据权利要求8所述的方法,其中,所述人跟踪器识别所述视频中的各个人周围的至少一个边界框。
10.根据权利要求9所述的方法,其中,表示所述对象的运动数据的所述视频序列的所述视频帧随时间在围绕所述对象定位的多个边界框内。
11.根据权利要求1所述的方法,其中,所述边界框是具有包含所跟踪的对象的至少一部分或所有部分的形状的区域。
12.根据权利要求1所述的方法,其中,所述视频初始以图像序列以外的形式获取,并被转换为图像序列。
13.根据权利要求1所述的方法,其中,所述方法用于所述视频中的细粒度动作检测。
14.根据权利要求1所述的方法,其中,所述方法包括在检测步骤之前训练所述rnn,或者所述rnn在获取所述场景的所述视频之前已经被预先训练。
15.根据权利要求1所述的方法,其中,检测步骤包括时间动作检测或空时动作检测中的一种。
16.一种从场景的视频检测该场景中的对象的关注动作的系统,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,所述系统包括:
处理器获取所述场景的所述视频,使得所述视频包括图像序列,其中,所述处理器被配置为:
跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块:
从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动信息;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;并且
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络rnn,该rnn输出各个关注动作的相对得分。
17.根据权利要求16所述的系统,其中,所述rnn包括卷积神经网络层和一个或更多个循环神经网络层,使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。
18.根据权利要求16所述的系统,其中,所述循环神经网络层包括长短期记忆lstm单元。
19.一种具体实现有程序的非暂时性计算机可读存储介质,所述程序能够由计算机执行以用于执行一种方法,该方法从场景的视频检测该场景中的对象的关注动作,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,该方法包括以下步骤:
由处理器获取所述场景的所述视频,其中,所述视频包括图像序列;
由所述处理器跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块,所述处理器被配置为:
在围绕所述对象定位的边界框内从所述视频序列的视频帧确定轮廓图像序列;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;并且
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络rnn,该rnn经由与所述处理器通信的输出接口来输出各个关注动作的相对得分。
20.根据权利要求19所述的存储介质,其中,所述rnn包括卷积神经网络层和一个或更多个循环神经网络层,使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。