本发明属于音视频处理,更具体地涉及用于手持终端的音视频处理方法、装置及执法记录仪。
背景技术:
1、公安、海关等执法领域,通常使用执法记录仪对工作人员在现场执勤或执法的情况进行记录。
2、为了方便使用,简化操作流程,记录仪通常设置一键开机功能,如按下开关键即可开始录音录像,再次按下开关后即可暂停或停止录音录像。一旦发生误操作,可能会发生未能录音录像进而遗漏关键证据的情形。
3、通常,在执勤或执法结束后,需要导出录制的视频或音频,由人工查看、审核,并修改文件名或对音视频文件进行裁剪等,处理效率低且容易出错。并且,一旦发生误操作,可能会发生丢失或遗漏关键证据的情形。
技术实现思路
1、针对现有技术的不足,本发明提供音视频处理方法、手持终端及音视频处理系统,以解决现有技术中执法记录仪存在的前述问题。
2、第一方面,本发明提供一种音视频处理方法,包括:获取音频并存储在临时缓冲区;
3、利用基于音频自注意力模型的语音识别模型识别所述音频;
4、在识别到所述音频中记载有典型语音特征时,将所述音频存储在安全存储区,将识别到的所述典型语音特征记载在所述音频对应的文件名;和/或
5、获取视频并存储在临时缓冲区,从获取的视频中提取至少一帧图像;
6、利用基于arcface模型的人脸识别模型识别所述至少一帧图像;
7、在识别到所述至少一帧图像中记载有典型人脸特征时,将获取的视频存储在安全存储区,将识别到的所述典型人脸特征记载在所述视频对应的文件名;
8、其中,所述临时缓冲区设置于手持终端,所述安全存储区设置于所述手持终端或非便携设备。
9、进一步地,还包括:基于st-gcn的人体动作分类模型识别所述视频;
10、在识别到所述视频中记载有典型人体动作时,将获取的视频存储在安全存储区,将识别到的所述典型人体动作记载在所述视频对应的文件名。
11、进一步地,还包括:从获取的视频中提取至少一帧图像;
12、利用基于yolov8的典型物品检测模型检测所述至少一帧图像;
13、在检测到所述至少一帧图像中记载有典型物品特征时,将获取的视频存储在安全存储区,将检测到的所述典型物品特征记载在所述视频对应的文件名。
14、进一步地,所述基于st-gcn的人体动作分类模型识别所述视频,包括:
15、使用rtmpose模型对获取的视频中记载的人员全身图像进行人体关键点检测,生成关键点时空图;
16、将所述关键点时空图输入所述基于st-gcn的人体动作分类模型,识别所述视频中是否记载有典型人体动作。
17、进一步地,还包括:获取环境信息识别单元识别的标识信息,所述环境信息识别单元包括无线通信标签读写模块;
18、在检测到所述标识信息属于预设的目标标识时,将获取的视频或音频存储在安全存储区,将检测到所述预设的目标标识的信息记载在所述视频或所述音频对应的文件名。
19、进一步地,还包括:获取地理位置确定单元识别的地理位置信息;
20、在检测到所述地理位置信息属于预设的目标位置时,将获取的视频或音频存储在安全存储区,将检测到的所述地理位置信息记载在所述视频对应的文件名。
21、进一步地,还包括:采用编码器-解码器结构,使用视频摇摆自注意力模型,从获取的视频中提取摘要信息。
22、进一步地,还包括:广播所述典型人脸特征、所述典型物品特征、所述地理位置信息或所述预设的目标标识的信息。
23、第二方面,本发明提供一种手持终端,包括:音视频处理装置、环境信息识别单元、地理位置确定单元;
24、所述音视频处理装置与所述环境信息识别单元、所述地理位置确定单元连接,用于执行如第一方面说明的音视频处理方法。
25、第三方面,本发明提供一种音视频处理系统,包括:手持终端、非便携设备;
26、所述手持终端与所述非便携设备通信连接,
27、所述手持终端用于执行如第一方面说明的音视频处理方法;
28、所述非便携设备用于执行如第一方面说明的音视频处理方法。
29、下面结合附图和实施例对本发明做进一步说明。
1.一种音视频处理方法,其特征在于,包括:
2.根据权利要求1所述的音视频处理方法,其特征在于,还包括:
3.根据权利要求1所述的音视频处理方法,其特征在于,还包括:
4.根据权利要求3所述的音视频处理方法,其特征在于,所述基于st-gcn的人体动作分类模型识别所述视频,包括:
5.根据权利要求1所述的音视频处理方法,其特征在于,还包括:
6.根据权利要求1所述的音视频处理方法,其特征在于,还包括:
7.根据权利要求1至6中任一项所述的音视频处理方法,其特征在于,还包括:
8.根据权利要求1至6中任一项所述的音视频处理方法,其特征在于,还包括:
9.一种手持终端,其特征在于,包括:音视频处理装置、环境信息识别单元、地理位置确定单元;
10.一种音视频处理系统,其特征在于,包括: