音视频识别方法、装置、电子设备及脉冲相机与流程

文档序号：38072406发布日期：2024-05-21 20:07阅读：57来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及机器学习，尤其涉及一种音视频识别方法、装置、电子设备及脉冲相机。

背景技术：

1、当前用于音频、视频等时序信号识别任务的神经网络模型可分为传统人工神经网络以及脉冲神经网络。脉冲神经网络由于采用离散量传递信息，相比传统人工神经网络的功耗较低，配合ai神经形态计算单元可实现极低功耗的运行。

2、如何采用脉冲神经网络实现音频/视频识别成为热门研究方向。

技术实现思路

1、有鉴于此，本申请提供一种音视频识别方法、装置及电子设备。

2、具体地，本申请是通过如下技术方案实现的：

3、根据本申请实施例的第一方面，提供一种音视频识别方法，包括：

4、获取待识别音视频数据的脉冲序列，并对所述待识别音视频数据的脉冲序列进行分段，得到多个音视频脉冲片段；

5、将所述多个音视频脉冲片段输入循环脉冲神经网络，利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理；其中，对于首个音视频脉冲片段之外的任一音视频脉冲片段，在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下，所述循环脉冲神经网络的输入包括该音视频脉冲片段，以及，上一音视频脉冲片段的积分发射运算结果；所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果；t＞1；所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中，所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果；

6、对所述循环脉冲神经网络的输出进行脉冲解码，并依据解码结果确定所述待识别音视频数据的识别结果。

7、根据本申请实施例的第二方面，提供一种音视频识别装置，包括

8、获取单元，用于获取待识别音视频数据的脉冲序列；

9、分段单元，用于对所述待识别音视频数据的脉冲序列进行分段，得到多个音视频脉冲片段；

10、推理单元，用于将所述多个音视频脉冲片段输入循环脉冲神经网络，利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理；其中，对于首个音视频脉冲片段之外的任一音视频脉冲片段，在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下，所述循环脉冲神经网络的输入包括该音视频脉冲片段，以及，上一音视频脉冲片段的积分发射运算结果；所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果；t＞1；所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中，所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果；

11、识别单元，用于对所述循环脉冲神经网络的输出进行脉冲解码，并依据解码结果确定所述待识别音视频数据的识别结果。

12、根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现第一方面提供的所述的方法。

13、根据本申请实施例的第四方面，提供一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现第一方面提供的方法。

14、根据本申请实施例的第五方面，提供一种脉冲相机，包括：镜头和处理器；其中：

15、所述镜头，用于采集离散脉冲量形式的视频数据；

16、所述处理器，用于获取待识别音视频数据的脉冲序列，并对所述待识别音视频数据的脉冲序列进行分段，得到多个音视频脉冲片段；将所述多个音视频脉冲片段输入循环脉冲神经网络，利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理；其中，对于首个音视频脉冲片段之外的任一音视频脉冲片段，在利用所述循环脉冲神经网络对该音视频脉冲片段进行推理的情况下，所述循环脉冲神经网络的输入包括该音视频脉冲片段，以及，上一音视频脉冲片段的积分发射运算结果；所述循环脉冲神经网络的输出包括对输入进行t个时间步的积分发射运算的运算结果；t＞1；所述上一音视频脉冲片段的积分发射运算结果为利用所述循环脉冲神经网络对上一音视频脉冲片段进行推理的过程中，所述循环脉冲神经网络对输入进行t个时间步的积分发射运算的运算结果；对所述循环脉冲神经网络的输出进行脉冲解码，并依据解码结果确定所述待识别音视频数据的识别结果。

17、本申请提供的技术方案至少可以带来以下有益效果：

18、通过获取待识别音视频数据的脉冲序列，并对待识别音视频数据的脉冲序列进行分段，得到多个音视频脉冲片段，将多个音视频脉冲片段输入循环脉冲神经网络，利用循环脉冲神经网络对多个音视频脉冲片段进行推理，进而，对循环脉冲神经网络的输出进行脉冲解码，并依据解码结果确定待识别音视频数据的识别结果，由于在利用循环脉冲神经网络对待识别音视频数据的脉冲序列进行推理的过程中，对于待识别音视频数据的多个音视频脉冲片段中除最后一个音视频脉冲片段之外的任一音视频脉冲片段，可以在该音视频脉冲片段可以在时间步推理结束的情况下，将时间步推理结果作为下一音视频脉冲片段的循环输入量，避免了逐时间步积分发射与循环推理计算过程相耦合，实现了逐时间步推理与循环输入量计算的相互独立，降低了音视频识别的功耗，扩展了音视频识别的适用场景。

技术特征：

1.一种音视频识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依据解码结果确定所述待识别音视频数据的识别结果，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理，包括：

4.根据权利要求3所述的方法，其特征在于，所述利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述循环脉冲神经网络通过以下方式得到：

6.根据权利要求1所述的方法，其特征在于，所述获取待识别音视频数据的脉冲序列，包括：

7.一种音视频识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述识别单元依据解码结果确定所述待识别音视频数据的识别结果，包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现如权利要求1-6任一项所述的方法。

10.一种脉冲相机，其特征在于，包括：镜头和处理器；其中：

技术总结
本申请提供一种音视频识别方法、装置、电子设备及脉冲相机，该方法包括：获取待识别音视频数据的脉冲序列，并对所述待识别音视频数据的脉冲序列进行分段，得到多个音视频脉冲片段；将所述多个音视频脉冲片段输入循环脉冲神经网络，利用所述循环脉冲神经网络对所述多个音视频脉冲片段进行推理；对所述循环脉冲神经网络的输出进行脉冲解码，并依据解码结果确定所述待识别音视频数据的识别结果。该方法可以降低音视频识别的功耗，扩展音视频识别的适用场景。

技术研发人员：张京韧,王晶晶,谢迪,浦世亮
受保护的技术使用者：杭州海康威视数字技术股份有限公司
技术研发日：
技术公布日：2024/5/20

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张京韧,王晶晶,谢迪,浦世亮
技术所有人：杭州海康威视数字技术股份有限公司
我是此专利的发明人

上一篇：询价处理方法、装置、电子设备及存储介质与流程
上一篇：一种发光芯片的转移方法及显示背板与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。