一种会议摄像头的发言人追踪方法、系统及存储介质与流程

文档序号:36003159发布日期:2023-11-16 17:32阅读:94来源:国知局
一种会议摄像头的发言人追踪方法、系统及存储介质与流程

本发明属于计算机视觉,具体涉及一种会议摄像头的发言人追踪方法、系统及存储介质。


背景技术:

1、当前,办公室视频会议系统在很多公司得到了广泛使用,其中相当重要的功能之一便是对发言人进行定位,然后显示发言人的特写。常见的视频会议发言人追踪方法是使用阵列麦克风声源定位技术和人脸检测算法,通常的流程是先进行声源定位,估计出方位后,在这个方向上进行人脸检测,提取发言人特写。但是,当会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确,并且只使用人脸检测只能证明阵列麦克风声源定位算法估计出来的声源位置有人,并不能证明这个人真在说话,因此,在音视频模组中常常结合人脸识别、声纹识别等技术使用,然而使用人脸识别和声纹识别需要提前进行注册,不够灵活。


技术实现思路

1、为解决现有技术中存在的技术问题,本发明的目的在于提供一种会议摄像头的发言人追踪方法、系统及存储介质。

2、为实现上述目的,达到上述技术效果,本发明采用的技术方案为:

3、一种会议摄像头的发言人追踪方法,包括以下步骤:

4、步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;

5、步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;

6、步骤3:人脸说话动作识别,获取人脸说话动作得分;

7、步骤4:后处理判决,获取发言人的人脸位置。

8、进一步的,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:

9、使用高清广角摄像头拍摄采集连续的会议室全景视频帧,每获取一帧会议室全景图像,将原始4k图像压缩到适合摄像头模组npu计算的尺寸,使用轻量级人脸检测器进行人脸检测,从而检测出当前视频帧画面里的所有人脸边界框。

10、进一步的,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:

11、将步骤1获取到的每一帧视频帧所对应的所有人脸边界框输入到人脸追踪模型中,为每一个人脸边界框赋予一个追踪id,从而得到所有人脸边界框的追踪轨迹。

12、进一步的,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:

13、1)采集发言人人脸说话动作视频数据,制作数据集;

14、2)构建说话动作识别模型;

15、3)使用speakaction数据集训练说话动作识别模型;

16、4)基于步骤1得到的人脸边界框坐标,从原始4k图像中截取人脸图像并压缩,基于步骤2得到的人脸id,输入说话动作识别模型,得到当前帧时刻的人脸说话动作得分。

17、进一步的,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。

18、进一步的,所述说话动作识别模型为shufflenetv2-tsm模型,使用轻量级分类网络shufflenetv2为模型主干网络并在其每个shuffleblock之前插入tsm模块以融合时序上的动作信息。

19、进一步的,步骤4中,后处理判决,获取发言人的人脸位置的步骤包括:

20、1)所述说话动作识别模型按时序输入视频帧,每输入一帧图像,输出3类嘴唇动作对应的得分,使用平滑窗口对当前时刻至过去一段时间t内的输出得分进行平滑,若平滑后类1得分最高,则初步判断当前帧的人脸在说话;

21、2)若当前帧满足类1得分最高,则对类1设置平滑窗口阈值thresh_seg,判断在窗口t时间内,t<t,若类1得分的累加的平均值满足阈值thresh_seg,则进一步认为当前帧的人脸在说话;

22、3)对类1设置平滑峰值阈值thresh_peak,thresh_peak>thresh_seg;若当前帧过去窗口t时间内满足阈值thresh_seg,则进一步判断窗口t时间内是否存在类1的最高得分大于thresh_peak的帧,若满足,则最终判定当前帧的人脸在说话,从而得到发言人的人脸位置。

23、本发明还公开了一种会议摄像头的发言人追踪系统,包括:

24、高清广角摄像头,用于采集会议室全景数据,保证会议室每个座位的参会者的人脸不会被遮挡或丢失;

25、发言人追踪模块,用于检测会议室内发言人位置信息。根据参会者人脸说话动作识别来判断是否是发言人,并发送检测到的发言人位置信息;

26、视频特写模块,用于对发言人进行特写展示。

27、本发明还公开了一种电子设备,包括:

28、存储器,用于存储计算机程序;

29、处理器,用于通过调用计算机程序,执行如上所述的一种会议摄像头的发言人追踪方法。

30、本发明还公开了一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的一种会议摄像头的发言人追踪方法。

31、与现有技术相比,本发明的有益效果为:

32、本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,克服噪声混响和多人同时对话时定位追踪不够准确的问题,操作简洁、准确率高。



技术特征:

1.一种会议摄像头的发言人追踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤1中,人脸检测,获取视频帧画面里的所有人脸边界框的步骤包括:

3.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤2中,人脸追踪,获取所有人脸边界框的追踪轨迹的步骤包括:

4.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,人脸说话动作识别,获取人脸说话动作得分的步骤包括:

5.根据权利要求1或4所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤3中,共获取3类人脸说话动作得分,包括类1、类2、类3,将会出现连续张闭嘴的说话动作作为类1,将持续张嘴的笑、打哈欠等动作作为类2;将持续闭嘴的不说话动作作为类3。

6.根据权利要求4所述的一种会议摄像头的发言人追踪方法,其特征在于,所述说话动作识别模型为shufflenetv2-tsm模型,使用轻量级分类网络shufflenetv2为模型主干网络并在其每个shuffleblock之前插入tsm模块以融合时序上的动作信息。

7.根据权利要求1所述的一种会议摄像头的发言人追踪方法,其特征在于,步骤4中,后处理判决,获取发言人的人脸位置的步骤包括:

8.一种会议摄像头的发言人追踪系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的一种会议摄像头的发言人追踪方法。


技术总结
本发明公开了一种会议摄像头的发言人追踪方法、系统及存储介质,该方法包括:步骤1:人脸检测,获取视频帧画面里的所有人脸边界框;步骤2:人脸追踪,获取所有人脸边界框的追踪轨迹;步骤3:人脸说话动作识别,获取人脸说话动作得分;步骤4:后处理判决,获取发言人的人脸位置。本发明提供的会议摄像头的发言人追踪方法、系统及存储介质中,不使用阵列麦克风声源定位技术,而是使用视频中发言人说话动作识别来对发言人进行定位和追踪,有效防止非发言人的误检,操作简洁、准确率高,解决了现有会议室场景下混响和噪声的干扰以及多人讨论问题同时说话场景、边走动边说话的场景下,阵列麦克风声源定位算法不够准确等问题。

技术研发人员:杨悦,陈冠岐,黄正林,王亮,王欢良
受保护的技术使用者:苏州奇梦者科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1