本技术涉及图像处理,特别是涉及一种发言者的位置确定方法、装置、计算机设备和存储介质。
背景技术:
1、随着互联网的不断发展,人们可以通过线上视频的方式进行远程会议、演讲教学等等,若需要对视频会议中的发言者进行图像采集,则需要确定发言者在视频会议的各视频帧中所处的位置。
2、传统技术中,通过某一时刻的音频定位角度(direction of arrival,doa)和该时刻对应视频帧中发言者的视频定位角度,确定发言者的位置,然而,通过单一视频帧确定发言者位置的方法存在准确性较低的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高确定的发言者的目标位置的准确性的发言者的位置确定方法、装置、计算机设备和存储介质。
2、第一方面,本技术提供了一种发言者的位置确定方法。该方法包括:
3、根据待检测视频帧对应的音频信息,确定该待检测视频帧对应的目标音频定位角度;
4、基于该目标音频定位角度和目标映射关系,确定该待检测视频帧中第一发言者的目标位置;该目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;该预测位置为基于该采样视频帧和发言检测模型确定的。
5、在其中一个实施例中,该方法还包括:
6、根据该采样视频帧对应的音频定位角度、该采样视频帧对应的视场角和预设角度步长,确定该音频定位角度对应的索引标识;
7、根据该索引标识和该初始映射关系,确定该音频定位角度对应的初始位置;该初始映射关系用于表征预设索引标识与初始位置之间的映射关系;
8、基于该预测位置和该初始位置,对该初始位置进行更新,得到该目标映射关系。
9、在其中一个实施例中,该根据该采样视频帧对应的音频定位角度、该采样视频帧对应的视场角和预设角度步长,确定该音频定位角度对应的索引标识,包括:
10、确定该视场角和第一预设系数之间的第一比值;
11、确定该音频定位角度和该第一比值之间的第一求和结果;
12、确定该第一求和结果与预设角度之间的第一差值;
13、将该第一差值和该预设角度步长之间的第二比值,作为该音频定位角度对应的索引标识。
14、在其中一个实施例中,该基于该预测位置和该初始位置,对该初始位置进行更新,得到该目标映射关系,包括:
15、确定该预测位置和该初始位置之间的第二差值;
16、根据该第二差值和该初始位置对该初始位置进行更新,得到该目标映射关系。
17、在其中一个实施例中,该根据该第二差值和该初始位置对该初始位置进行更新,得到该目标映射关系,包括:
18、确定预设更新速度和该初始位置之间的第一乘积结果;
19、确定第二预设系数减去该预设更新速度得到的第三差值和该第二差值之间的第二乘积结果;
20、根据该第一乘积结果与该第二乘积结果之间的第二求和结果,对该初始位置进行更新,得到该目标映射关系。
21、在其中一个实施例中,该方法还包括:
22、对各该采样视频帧进行人脸检测,确定各该采样视频帧中的人脸检测框;
23、将各该人脸检测框依次输入至发言检测模型,确定各该采样视频帧中的第二发言者,以及该第二发言者的预测位置;该发言检测模型为利用人脸检测框样本和人脸检测框样本对应的发言者标签对初始发言检测模型进行训练得到模型。
24、在其中一个实施例中,该方法还包括:
25、根据各该音频定位角度和预设角度误差值,确定各该采样视频帧中人脸处于的目标区域;
26、相应的,该对各该采样视频帧进行人脸检测,确定各该采样视频帧中的人脸检测框,包括:
27、对各该采样视频帧中的该目标区域进行人脸检测,确定各该采样视频帧中的人脸检测框。
28、在其中一个实施例中,该根据各该音频定位角度和预设角度误差值,确定各该采样视频帧中人脸处于的目标区域,包括:
29、根据该采样音频定位角度和该预设角度误差值,确定第一音频定位角度和第二音频定位角度;
30、根据该初始映射关系,确定该第一音频定位角度对应的第一位置,以及确定该第二音频定位角度对应的第二位置;
31、将该第一位置和该第二位置之间的区域作为该目标区域。
32、第二方面,本技术还提供了一种发言者的位置确定装置。该装置包括:
33、第一确定模块,用于根据待检测视频帧对应的音频信息,确定该待检测视频帧对应的目标音频定位角度;
34、第二确定模块,用于基于该目标音频定位角度和目标映射关系,确定该待检测视频帧中第一发言者的目标位置;该目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;该预测位置为基于该采样视频帧和发言检测模型确定的。
35、第三方面,本技术还提供了一种计算机设备。该计算机设备包括存储器和处理器,该存储器存储有计算机程序,该处理器执行该计算机程序时实现以下步骤:
36、根据待检测视频帧对应的音频信息,确定该待检测视频帧对应的目标音频定位角度;
37、基于该目标音频定位角度和目标映射关系,确定该待检测视频帧中第一发言者的目标位置;该目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;该预测位置为基于该采样视频帧和发言检测模型确定的。
38、第四方面,本技术还提供了一种计算机可读存储介质。该计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
39、根据待检测视频帧对应的音频信息,确定该待检测视频帧对应的目标音频定位角度;
40、基于该目标音频定位角度和目标映射关系,确定该待检测视频帧中第一发言者的目标位置;该目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;该预测位置为基于该采样视频帧和发言检测模型确定的。
41、第五方面,本技术还提供了一种计算机程序产品。该计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
42、根据待检测视频帧对应的音频信息,确定该待检测视频帧对应的目标音频定位角度;
43、基于该目标音频定位角度和目标映射关系,确定该待检测视频帧中第一发言者的目标位置;该目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;该预测位置为基于该采样视频帧和发言检测模型确定的。
44、上述发言者的位置确定方法、装置、计算机设备和存储介质,根据待检测视频帧对应的音频信息,确定待检测视频帧对应的目标音频定位角度;基于目标音频定位角度和目标映射关系,确定待检测视频帧中第一发言者的目标位置;目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的;预测位置为基于采样视频帧和发言检测模型确定的。传统技术中,通过确定单一视频帧中的音频定位角度和发言者的视频定位角度,确定发言者的位置,然而,利用单一视频帧确定发言者的位置容易受到打哈欠、抿嘴等动作的干扰,因此仅通过单一视频帧确定发言者位置的方法存在准确性较低的问题。本实施例中,通过目标音频定位角度和目标映射关系,确定待检测视频帧中第一发言者的目标位置;由于目标映射关系为根据各采样视频帧中第二发言者的预测位置,对初始映射关系中音频定位角度对应的初始位置进行更新得到的,因此,基于目标映射关系确定待检测视频帧中第一发言者的目标位置,提高了确定的目标位置的准确性。