用于手持终端的音视频处理方法、装置及执法记录仪与流程

文档序号：36936060发布日期：2024-02-02 22:03阅读：77来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明属于音视频处理，更具体地涉及用于手持终端的音视频处理方法、装置及执法记录仪。

背景技术：

1、公安、海关等执法领域，通常使用执法记录仪对工作人员在现场执勤或执法的情况进行记录。

2、为了方便使用，简化操作流程，记录仪通常设置一键开机功能，如按下开关键即可开始录音录像，再次按下开关后即可暂停或停止录音录像。一旦发生误操作，可能会发生未能录音录像进而遗漏关键证据的情形。

3、通常，在执勤或执法结束后，需要导出录制的视频或音频，由人工查看、审核，并修改文件名或对音视频文件进行裁剪等，处理效率低且容易出错。并且，一旦发生误操作，可能会发生丢失或遗漏关键证据的情形。

技术实现思路

1、针对现有技术的不足，本发明提供音视频处理方法、手持终端及音视频处理系统，以解决现有技术中执法记录仪存在的前述问题。

2、第一方面，本发明提供一种音视频处理方法，包括：获取音频并存储在临时缓冲区；

3、利用基于音频自注意力模型的语音识别模型识别所述音频；

4、在识别到所述音频中记载有典型语音特征时，将所述音频存储在安全存储区，将识别到的所述典型语音特征记载在所述音频对应的文件名；和/或

5、获取视频并存储在临时缓冲区，从获取的视频中提取至少一帧图像；

6、利用基于arcface模型的人脸识别模型识别所述至少一帧图像；

7、在识别到所述至少一帧图像中记载有典型人脸特征时，将获取的视频存储在安全存储区，将识别到的所述典型人脸特征记载在所述视频对应的文件名；

8、其中，所述临时缓冲区设置于手持终端，所述安全存储区设置于所述手持终端或非便携设备。

9、进一步地，还包括：基于st-gcn的人体动作分类模型识别所述视频；

10、在识别到所述视频中记载有典型人体动作时，将获取的视频存储在安全存储区，将识别到的所述典型人体动作记载在所述视频对应的文件名。

11、进一步地，还包括：从获取的视频中提取至少一帧图像；

12、利用基于yolov8的典型物品检测模型检测所述至少一帧图像；

13、在检测到所述至少一帧图像中记载有典型物品特征时，将获取的视频存储在安全存储区，将检测到的所述典型物品特征记载在所述视频对应的文件名。

14、进一步地，所述基于st-gcn的人体动作分类模型识别所述视频，包括：

15、使用rtmpose模型对获取的视频中记载的人员全身图像进行人体关键点检测，生成关键点时空图；

16、将所述关键点时空图输入所述基于st-gcn的人体动作分类模型，识别所述视频中是否记载有典型人体动作。

17、进一步地，还包括：获取环境信息识别单元识别的标识信息，所述环境信息识别单元包括无线通信标签读写模块；

18、在检测到所述标识信息属于预设的目标标识时，将获取的视频或音频存储在安全存储区，将检测到所述预设的目标标识的信息记载在所述视频或所述音频对应的文件名。

19、进一步地，还包括：获取地理位置确定单元识别的地理位置信息；

20、在检测到所述地理位置信息属于预设的目标位置时，将获取的视频或音频存储在安全存储区，将检测到的所述地理位置信息记载在所述视频对应的文件名。

21、进一步地，还包括：采用编码器-解码器结构，使用视频摇摆自注意力模型，从获取的视频中提取摘要信息。

22、进一步地，还包括：广播所述典型人脸特征、所述典型物品特征、所述地理位置信息或所述预设的目标标识的信息。

23、第二方面，本发明提供一种手持终端，包括：音视频处理装置、环境信息识别单元、地理位置确定单元；

24、所述音视频处理装置与所述环境信息识别单元、所述地理位置确定单元连接，用于执行如第一方面说明的音视频处理方法。

25、第三方面，本发明提供一种音视频处理系统，包括：手持终端、非便携设备；

26、所述手持终端与所述非便携设备通信连接，

27、所述手持终端用于执行如第一方面说明的音视频处理方法；

28、所述非便携设备用于执行如第一方面说明的音视频处理方法。

29、下面结合附图和实施例对本发明做进一步说明。

技术特征：

1.一种音视频处理方法，其特征在于，包括：

2.根据权利要求1所述的音视频处理方法，其特征在于，还包括：

3.根据权利要求1所述的音视频处理方法，其特征在于，还包括：

4.根据权利要求3所述的音视频处理方法，其特征在于，所述基于st-gcn的人体动作分类模型识别所述视频，包括：

5.根据权利要求1所述的音视频处理方法，其特征在于，还包括：

6.根据权利要求1所述的音视频处理方法，其特征在于，还包括：

7.根据权利要求1至6中任一项所述的音视频处理方法，其特征在于，还包括：

8.根据权利要求1至6中任一项所述的音视频处理方法，其特征在于，还包括：

9.一种手持终端，其特征在于，包括：音视频处理装置、环境信息识别单元、地理位置确定单元；

10.一种音视频处理系统，其特征在于，包括：

技术总结
本发明公开用于手持终端的音视频处理方法、装置及执法记录仪。该音视频处理方法，包括：获取音频并存储在临时缓冲区；利用基于音频自注意力模型的语音识别模型识别所述音频；在识别到所述音频中记载有典型语音特征时，将所述音频存储在安全存储区，将识别到的所述典型语音特征记载在所述音频对应的文件名；和/或获取视频并存储在临时缓冲区，从获取的视频中提取至少一帧图像；利用基于ArcFace模型的人脸识别模型识别所述至少一帧图像；在识别到所述至少一帧图像中记载有典型人脸特征时，将获取的视频存储在安全存储区，将识别到的所述典型人脸特征记载在所述视频对应的文件名。如此，有利于提高执法效率，降低执法人员的执法难度。

技术研发人员：张志达,张科伟,黄鹏,毛翔宇,孙永文
受保护的技术使用者：航天信息股份有限公司
技术研发日：
技术公布日：2024/2/1

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张志达,张科伟,黄鹏,毛翔宇,孙永文
技术所有人：航天信息股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。