一种基于三维垂直阻变存储器的视频动作识别方法和装置与流程

文档序号:30556683发布日期:2022-06-29 02:57阅读:115来源:国知局
一种基于三维垂直阻变存储器的视频动作识别方法和装置与流程

1.本发明属于非易失性存储器技术领域,涉及一种基于三维垂直阻变存储器的视频动作识别方法和装置。


背景技术:

2.近年来,人工智能技术越来越成熟,卷积神经网络是深度学习的代表算法之一。卷积核是卷积神经网络中重要的特征提取器。应用于2维图像的卷积神经网络缺乏捕捉图像之间相关性的能力。因此,对于视频动作识别,为了捕获时间的相关性,采用三维卷积神经网络3d-cnn,在卷积核中引入了视频的时间信息。但是,3d-cnn的硬件实现在面积和能量上都比较昂贵。vrram即垂直rram作为一种新兴技术,在面积,能源效率和并行性方面将比1t1r和1s1r等集成技术具有更大的优势。此外,得益于三维堆叠结构的优势,三维垂直交叉阻变存储器3d-vrram中的每一层都可以作为单独的卷积核使用,具有高度的并行性。然而仍然存在一些问题,首先,实现3d-vrram技术的挑战是高自整流器件,其次,由于非线性和非对称电导调节会引入误差,卷积神经网络在硬件上的性能通常比在软件上差很多。


技术实现要素:

3.为了解决现有技术中存在的上述技术问题,本发明提出了一种基于三维垂直阻变存储器的视频动作识别方法和装置,其具体技术方案如下:一种基于三维垂直阻变存储器的视频动作识别方法,包括以下步骤:步骤一,搭建基于自整流器件的三维垂直阻变存储器;步骤二,采集并预处理用于视频动作识别的训练集图像和测试集图像;步骤三,构造三维卷积神经网络模型;步骤四,使用训练集图像,在三维垂直阻变存储器上仿真训练三维卷积神经网络模型;步骤五,利用在三维垂直阻变存储器上训练好的三维卷积神经网络模型,输入测试集图像,进行视频动作识别。
4.进一步地,所述三维垂直阻变存储器由4层rram阻变存储器阵列堆叠组成,每个rram阻变存储器阵列由m行n列的rram单元器件组成,每个rram单元的器件结构包括铂pt、碳c、氧化铌nbo
x
和锡tin,其中阻变材料氧化铌nbo
x
与铂pt电极形成肖特基势垒,使rram阵列出现整流特性。
5.进一步地,所述步骤二,具体为:采集视频,对视频流进行视频分帧处理,得到多帧rgb图像,每4帧图像作为一个样本,每个样本的大小为4
×h×w×
c,其中4表示帧数,h表示图像高度,w表示图像宽度,c表示图像通道数;将每个样本的rgb图像转换为灰度图像,得到新的样本,大小为4
×h×
w,然后将每个样本的尺寸缩小1/2,缩放后的样本大小为4
×h½×wꢀ½
,将缩放后的所有样本选取80%作为训练集图像,剩余的20%作为测试集图像。
6.进一步地,所述三维卷积神经网络模型的结构为:依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类器,其中,每层参数的设置如下:输入层的特征通道数设置为4;第一卷积层的特征通道数设置为32,第一卷积层卷积核的尺寸设置为32
×5×5×
4;第一池化层的特征通道数设置为32,第一池化层池化尺寸设置为2
×
2;第二卷积层的特征通道数设置为64,第二卷积层卷积核的尺寸设置为64
×5×5×
32;第二池化层的特征通道数设置为64,第二池化层池化尺寸设置为2
×
2;第三卷积层的特征通道数设置为128,第三卷积层卷积核的尺寸设置为128
×5×5×
64;第三池化层的特征通道数设置为128,第三池化层池化尺寸设置为2
×
2;全连接层的特征通道数设置为3。
7.进一步地,所述步骤四,具体为:首先将训练数据集作为三维卷积神经网络模型的输入,利用模型提取数据集中每个像素点的空间特征和时间特征,将模型前向传播的结果作为模型的输出,通过求解所述输出与实际动作类别之间的误差并对误差进行反向传播,来更新三维卷积神经网络模型的权重;然后将更新的权重映射到三维垂直阻变存储器的阵列的电导上,将更新的权重加上映射的权重误差作为网络训练过程中新的参数,再不断的进行迭代,直至网络输出与实际动作类别之间的误差不再减小,此时网络收敛,得到收敛时的三维卷积神经网络模型的权重,从而得到训练好的三维卷积神经网络模型。
8.进一步地,所述步骤五,具体为:将测试集图像输入到三维卷积神经网络模型中,并加载训练好的三维卷积神经网络模型的权重,得到测试集图像的动作识别精度。
9.一种基于三维垂直阻变存储器的视频动作识别装置,包括一个或多个处理器,用于实现所述的基于三维垂直阻变存储器的视频动作识别方法。
10.一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于三维垂直阻变存储器的视频动作识别方法。
11.与现有技术相比,本发明具有以下优点:第一,本发明提出的三维垂直阻变存储器3d-vrram采用的器件具有高于4
×
104的高整流率,且由于高自整流的特性,读误差低于2.2%。
12.第二,由于本发明采用的是三维堆叠结构,3d-vrram中的每一层都可以作为单独的卷积核使用,具有高度的并行性;基于3d-vrram的卷积神经网络可以快速高效的从视频中识别人类打篮球,足球和高尔夫的动作。
附图说明
13.图1是本发明的基于三维垂直阻变存储器的视频动作识别方法流程图;图2是本发明的三维垂直阻变存储器3d-vrram结构示意图;
图3是rram单元器件pt/c/nbo
x
/tin结构示意图;图4是icc=100 μa时的i-v曲线示意图;图5是器件之间的耐力示意图;图6是8个电导态在室温下1000秒的保留试验示意图;图7a是本发明实施例的数据集中的踢足球的样本图像示意图;图7b是本发明实施例的数据集中的打篮球的样本图像示意图;图7c是本发明实施例的数据集中的打高尔夫的样本图像示意图;图8是训练过程中,在本发明和软件上的3d-cnn的损失曲线示意图;图9是训练过程中,在本发明和软件上的3d-cnn的视频动作识别精度曲线示意图;图10是本发明的一种基于三维垂直阻变存储器的视频动作识别装置的结构示意图。
具体实施方式
14.为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
15.如图1所示,一种基于三维垂直阻变存储器的视频动作识别方法,包括以下步骤:步骤一,搭建基于自整流器件的三维垂直阻变存储器。
16.如图2所示,3d-vrram三维垂直阻变存储器是由4层rram阻变存储器阵列堆叠组成,每个rram阻变存储器阵列由m行n列的rram单元器件组成,本实施例中每个rram阻变存储器阵列的大小是32
×
8,即由32行8列的rram单元器件组成。如图3所示,每个rram单元的器件结构包括铂pt、碳c、氧化铌nbo
x
和锡tin,其中阻变材料氧化铌nbo
x
与铂pt电极形成肖特基势垒,使rram阵列出现整流特性,因此单元具有高自整流特性。
17.本发明中rram单元器件的具体特性如下:i
cc
为100 μa时,i-v的特性如图4所示,其中icc表rram单元器件的限流,为了防止电路过大,损坏器件,铂pt底电极在测试中始终接地。电压的变化范围从0~5v 表示电压正偏差,从0~4v 表示电压的负偏差,在电压正偏差范围时,器件从高阻态切换到低阻态,为置位操作。在电压负偏差范围时,rram单元器件从低阻态切换到高阻态,为重置操作。在100个i-v循环的循环耐力试验中,观察到曲线有很高的重叠度,变化不明显。其中rram单元器件的整流比是4.44
×
104,该整流比是目前vrram垂直阻变存储器中最高的整流比。rram单元器件在正极性时的开关比为16.8,读电压为3 v。如图5所示,器件与器件之间的耐力测试是在4个随机器件上进行的,每个rram单元器件都是来自于图1中的4层rram阵列。在100个循环测试中,4个rram单元器件的i-v曲线显示出很高的重叠度和均匀性。如图6所示,研究了8个电导态的保留情况,经过1000 s后仍然可以清晰的区分出8个电导态。
18.步骤二,采集并预处理用于视频动作识别的训练集图像和测试集图像。
19.采集视频,对待识别的视频流进行视频分帧处理,得到多帧rgb图像。每4帧图像作为一个样本得到所有的样本,每个样本的大小为4
×h×w×
c,其中4表示帧数,h表示图像高度,w表示图像宽度,c表示图像通道数,本实施例中每个样本的大小为4
×
240
×
320
×
3,其中4表示帧数,240表示图像高度,320表示图像宽度,3表示图像通道数。
20.将每个样本的rgb图像转换为灰度图像,得到新的样本,大小为4
×h×
w,然后将每
个样本的尺寸缩小1/2,缩放后的样本大小为4
×h½×wꢀ½
,本实施例中新的样本大小为4
×
240
×
320,然后将每个样本的尺寸缩小1/2,缩放后的样本大小为4
×
120
×
160。将缩放后的所有样本选取80%作为训练集图像,剩余的20%作为测试集图像。
21.步骤三,构造三维卷积神经网络模型。
22.所述的三维卷积神经网络模型的结构为:依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类器,其中,每层参数的设置如下:输入层的特征通道数设置为4。
23.第一卷积层的特征通道数设置为32,第一卷积层卷积核的尺寸设置为32
×5×5×
4。
24.第一池化层的特征通道数设置为32,第一池化层池化尺寸设置为2
×
2。
25.第二卷积层的特征通道数设置为64,第二卷积层卷积核的尺寸设置为64
×5×5×
32。
26.第二池化层的特征通道数设置为64,第二池化层池化尺寸设置为2
×
2。
27.第三卷积层的特征通道数设置为128,第三卷积层卷积核的尺寸设置为128
×5×5×
64。
28.第三池化层的特征通道数设置为128,第三池化层池化尺寸设置为2
×
2。
29.全连接层的特征通道数设置为3。
30.步骤四,使用训练集图像,在三维垂直阻变存储器上仿真训练三维卷积神经网络模型。
31.首先将训练数据集作为3d-cnn三维卷积神经网络模型的输入,利用模型提取数据集中每个像素点的空间特征和时间特征,将模型前向传播的结果作为模型的输出,通过求解上述输出与实际动作类别之间的误差并对误差进行反向传播,来更新3d-cnn模型的权重;然后将更新的权重映射到3d-vrram三维垂直阻变存储器的阵列的电导上,由于电导的非线性和非对称问题,在读写的过程中会产生误差,将更新的权重加上映射的权重误差作为网络训练过程中新的参数。然后不断的进行迭代,直至网络输出与实际动作类别之间的误差不再减小,此时网络收敛,得到收敛时的3d-cnn模型的权重,从而得到训练好的三维卷积神经网络模型,即动作识别模型。
32.步骤五,利用在三维垂直阻变存储器上训练好的三维卷积神经网络模型,输入测试集图像,进行视频动作识别。
33.将测试集图像输入到3d-cnn三维卷积神经网络模型中,并加载训练好的3d-cnn三维卷积神经网络模型的权重,得到测试集的动作识别精度。
34.下面结合仿真实验对本发明的效果做进一步的说明:仿真条件:本发明的仿真实验是在nvidia gv100 gpu的硬件环境和pytorch1.5的软件环境下进行的。
35.图7a至图7c是本发明的仿真实验所使用的数据集中的部分样本图,数据集采用公开的ucf-101数据集,提供了来自101个动作类别的13320个视频。本发明选取了其中三种动
作类别的视频,分别为足球,篮球和高尔夫球。
36.仿真内容与结果分析:在3d-cnn三维卷积神经网络模型训练的过程中,使用本发明中的3d-vrram三维垂直阻变存储器与软件的对比结果如图8和图9所示。从图8中可以看出,随着训练集迭代次数的增加,在本发明和软件上,3d-cnn三维卷积神经网络的损失均不断下降,最后趋于稳定,网络收敛;从图9中可以看出3d-cnn三维卷积神经网络收敛时,与软件相比,测试集在本发明上的识别精度降低了不足1%。
37.综上所述,本发明在3d-vrram三维垂直阻变存储器上实现了基于3d-cnn三维卷积神经网络的视频动作识别。本发明提出的3d-vrram三维垂直阻变存储器采用的器件具有高于4
×
104高整流率。由于高自整流的特性,读误差低于2.2%。利用3d-vrram三维垂直阻变存储器的三维堆叠结构,3d-vrram三维垂直阻变存储器中的每一层都可以作为单独的卷积核使用,具有高度的并行性,有效的提高了3d-cnn三维卷积神经网络的推理速度。
38.与前述基于三维垂直阻变存储器的视频动作识别方法的实施例相对应,本发明还提供了基于三维垂直阻变存储器的视频动作识别装置的实施例。
39.参见图10,本发明实施例提供的一种基于三维垂直阻变存储器的视频动作识别装置,包括一个或多个处理器,用于实现上述实施例中的基于三维垂直阻变存储器的视频动作识别方法。
40.本发明基于三维垂直阻变存储器的视频动作识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图10所示,为本发明基于三维垂直阻变存储器的视频动作识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
41.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
42.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
43.本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于三维垂直阻变存储器的视频动作识别方法。
44.所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,
smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
45.以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1