本申请涉及机器学习,尤其涉及一种音视频识别方法、装置、电子设备及脉冲相机。
背景技术:
1、当前用于音频、视频等时序信号识别任务的神经网络模型可分为传统人工神经网络以及脉冲神经网络。脉冲神经网络由于采用离散量传递信息,相比传统人工神经网络的功耗较低,配合ai神经形态计算单元可实现极低功耗的运行。
2、如何采用脉冲神经网络实现音频/视频识别成为热门研究方向。
技术实现思路
1、有鉴于此,本申请提供一种音视频识别方法、装置及电子设备。
2、具体地,本申请是通过如下技术方案实现的:
3、根据本申请实施例的第一方面,提供一种音视频识别方法,包括:
4、获取待识别音视频数据的脉冲序列,并对所述待识别音视频数据的脉冲序列进行分段,得到多个音视频脉冲片段;
5、将所述多个音视频脉冲片段输入循环脉冲神经网络,利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理;其中,对于首个音视频脉冲片段之外的任一音视频脉冲片段,在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下,所述循环脉冲神经网络的输入包括该音视频脉冲片段,以及,上一音视频脉冲片段的积分发射运算结果;所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果;t>1;所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中,所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果;
6、对所述循环脉冲神经网络的输出进行脉冲解码,并依据解码结果确定所述待识别音视频数据的识别结果。
7、根据本申请实施例的第二方面,提供一种音视频识别装置,包括
8、获取单元,用于获取待识别音视频数据的脉冲序列;
9、分段单元,用于对所述待识别音视频数据的脉冲序列进行分段,得到多个音视频脉冲片段;
10、推理单元,用于将所述多个音视频脉冲片段输入循环脉冲神经网络,利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理;其中,对于首个音视频脉冲片段之外的任一音视频脉冲片段,在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下,所述循环脉冲神经网络的输入包括该音视频脉冲片段,以及,上一音视频脉冲片段的积分发射运算结果;所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果;t>1;所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中,所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果;
11、识别单元,用于对所述循环脉冲神经网络的输出进行脉冲解码,并依据解码结果确定所述待识别音视频数据的识别结果。
12、根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现第一方面提供的所述的方法。
13、根据本申请实施例的第四方面,提供一种机器可读存储介质,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现第一方面提供的方法。
14、根据本申请实施例的第五方面,提供一种脉冲相机,包括:镜头和处理器;其中:
15、所述镜头,用于采集离散脉冲量形式的视频数据;
16、所述处理器,用于获取待识别音视频数据的脉冲序列,并对所述待识别音视频数据的脉冲序列进行分段,得到多个音视频脉冲片段;将所述多个音视频脉冲片段输入循环脉冲神经网络,利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理;其中,对于首个音视频脉冲片段之外的任一音视频脉冲片段,在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下,所述循环脉冲神经网络的输入包括该音视频脉冲片段,以及,上一音视频脉冲片段的积分发射运算结果;所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果;t>1;所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中,所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果;对所述循环脉冲神经网络的输出进行脉冲解码,并依据解码结果确定所述待识别音视频数据的识别结果。
17、本申请提供的技术方案至少可以带来以下有益效果:
18、通过获取待识别音视频数据的脉冲序列,并对待识别音视频数据的脉冲序列进行分段,得到多个音视频脉冲片段,将多个音视频脉冲片段输入循环脉冲神经网络,利用循环脉冲神经网络对多个音视频脉冲片段进行推理,进而,对循环脉冲神经网络的输出进行脉冲解码,并依据解码结果确定待识别音视频数据的识别结果,由于在利用循环脉冲神经网络对待识别音视频数据的脉冲序列进行推理的过程中,对于待识别音视频数据的多个音视频脉冲片段中除最后一个音视频脉冲片段之外的任一音视频脉冲片段,可以在该音视频脉冲片段可以在时间步推理结束的情况下,将时间步推理结果作为下一音视频脉冲片段的循环输入量,避免了逐时间步积分发射与循环推理计算过程相耦合,实现了逐时间步推理与循环输入量计算的相互独立,降低了音视频识别的功耗,扩展了音视频识别的适用场景。
1.一种音视频识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述依据解码结果确定所述待识别音视频数据的识别结果,包括:
3.根据权利要求1所述的方法,其特征在于,所述利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理,包括:
4.根据权利要求3所述的方法,其特征在于,所述利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述循环脉冲神经网络通过以下方式得到:
6.根据权利要求1所述的方法,其特征在于,所述获取待识别音视频数据的脉冲序列,包括:
7.一种音视频识别装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述识别单元依据解码结果确定所述待识别音视频数据的识别结果,包括:
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现如权利要求1-6任一项所述的方法。
10.一种脉冲相机,其特征在于,包括:镜头和处理器;其中: