视频会议控制方法、装置及存储介质与流程

文档序号：33561582发布日期：2023-03-22 14:44阅读：35来源：国知局

1.本发明涉及通信技术领域，尤其涉及一种视频会议控制方法、装置及存储介质。

背景技术：

2.视频会议是现代通信中常用的一项沟通手段，通过视频会议，不同地方的与会人员可以实现面对面地进行远程语音和视频的交流，十分方便快捷。视频会议可实现线上会议与线下会议室相结合方式，将线下会议室的开会场景同步给线上的与会人员，以使得线上的与会人员可以观看到会议全景，并通过会议全景看到发言人，然而，当会议室与会人员比较多且会议室的会议空间比较大时，传输到远端的个人显示画面小，并无法看清楚发言人。
3.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是相关技术。

技术实现要素：

4.本发明的主要目的在于提供一种视频会议控制方法、装置及存储介质，旨在解决会议室与会人员比较多且会议室的会议空间比较大时，传输到远端的个人显示画面小，并无法看清楚发言人的问题。
5.为实现上述目的，本发明提供一种视频会议控制方法，所述视频会议控制方法包括：
6.获取会议场景对应的全景影像；
7.获取会议场景中的目标发言人以及所述目标发言人的位置信息；
8.根据所述位置信息获取所述目标发言人的人脸图像；
9.将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述全景影像以及所述目标发言人的人脸图像时，输出所述全景影像以及所述目标发言人的人脸图像进行显示。
10.可选地，根据所述位置信息获取所述目标发言人的人脸图像的步骤包括：
11.在所述位置信息包括至少两个所述目标发言人的位置信息时，获取每个所述位置信息对应的所述目标发言人的人脸图像；
12.所述将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备的步骤包括：
13.将所述全景影像以及各个所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述全景影像以及各个所述目标发言人的人脸图像时，输出所述全景影像以及各个所述目标发言人的人脸图像进行显示。
14.可选地，在所述位置信息包括至少两个所述目标发言人的位置信息时，获取每个所述位置信息对应的所述目标发言人的人脸图像的步骤包括：
15.在所述位置信息包括至少两个所述目标发言人的位置信息时，基于所述全景影像
获取每个所述位置信息对应的所述目标发言人的人脸图像；或者，
16.在所述位置信息包括至少两个所述目标发言人的位置信息时，根据至少两个所述位置信息分别确定对应的辅助摄像装置，通过所述辅助摄像装置采集每个所述位置信息对应的所述目标发言人的人脸图像。
17.可选地，将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备的步骤包括：
18.将所述全景影像以及所述目标发言人的人脸图像发送至服务器，通过所述服务器将所述全景影像以及所述目标发言人的人脸图像发送至所述目标终端设备。
19.可选地，将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备的步骤包括：
20.获取会议场景中预设时长内的所述目标发言人的发言信息；
21.根据所述发言信息确定发言场景；
22.将所述发言场景、所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述发言场景、所述全景影像以及所述目标发言人的人脸图像时，按照所述发言场景确定的输出显示模式，输出所述全景影像以及所述目标发言人的人脸图像进行显示。
23.可选地，发言信息包括发言人标识、发言人的发言时长以及发言人的发言次数，所述根据所述发言信息确定发言场景的步骤包括：
24.在发言人标识的数量为一个，且发言人的发言时长大于或者等于预设时长时，确定发言场景为个人发言场景；
25.在发言人标识的数量为至少两个，存在至少两个发言人的发言时长均大于或者等于预设时长，且所有发言人的发言次数均为一次时，确定发言场景为多人轮流发言场景；
26.在发言人标识的数量为至少两个，存在至少两个发言人的发言时长均大于或者等于预设时长，且所有发言人中存在发言人的发言次数大于或者等于两次时，确定发言场景为多人讨论场景。
27.此外，为实现上述目的，本发明提供一种视频会议控制方法，所述视频会议控制方法包括：
28.接收到会议场景对应的全景影像以及目标发言人的人脸图像；
29.确定所述目标发言人的人脸图像的目标显示区域；
30.执行在预设显示区域显示所述全景影像，在目标显示区域显示所述目标发言人的人脸图像的动作。
31.可选地。接收到会议场景对应的全景影像以及目标发言人的人脸图像的步骤包括：
32.接收到发言场景、全景影像以及目标发言人的人脸图像；
33.所述执行在预设显示区域显示所述全景影像，在目标显示区域显示所述目标发言人的人脸图像的动作的步骤包括：
34.根据所述发言场景确定的输出显示模式；
35.根据所述输出显示模式，执行在预设显示区域显示所述全景影像，在目标显示区域显示所述目标发言人的人脸图像的动作。
36.此外，为实现上述目的，本发明还提供一种视频会议控制装置，所述视频会议控制装置包括：存储器、处理器以及存储在所述存储器里并可在所述处理器上运行的视频会议控制程序，所述视频会议控制程序被所述处理器执行时实现如以上所述视频会议控制方法的各个步骤。
37.此外，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有视频会议控制程序，所述视频会议控制程序被所述处理器执行时实现如以上所述视频会议控制方法的各个步骤。
38.本发明提出的视频会议控制方法、装置及存储介质，通过获取线下会议室的会议场景的全景影像，以及会议场景中目标发言人的人脸图像，将全景影像以及目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示，使得目标终端设备对应的线上与会人员可获知会议场景的全景影像的同时，输出显示目标发言人的人脸图像，通过目标发言人的人脸图像可清楚看到目标发言人，明确会议场景中的目标发言人，实现会议进行“面对面”的需求，提高参会时的注意力，提升线上会议的会议质量。
附图说明
39.图1为本发明的视频会议控制方法各个实施例涉及的视频会议控制装置的结构示意图；
40.图2为本发明的视频会议控制方法第一实施例的流程示意图；
41.图3为视频会议控制系统的简单示意图；
42.图4为本发明的视频会议控制方法第二实施例的流程示意图；
43.图5为本发明的视频会议控制方法第三实施例的流程示意图；
44.图6为个人发言场景的输出显示模式的执行流程；
45.图7为多人轮流发言场景的输出显示模式的执行流程；
46.图8为多人轮流发言场景的输出显示模式的示意图；
47.图9为多人多人讨论场景的输出显示模式的示意图；
48.图10为多人讨论场景的不显示目标显示区域的执行流程。
49.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
50.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
51.本发明提出的视频会议控制方法、装置及存储介质，所述视频会议控制方法包括：
52.获取会议场景对应的全景影像；
53.获取会议场景中的目标发言人以及所述目标发言人的位置信息；
54.根据所述位置信息获取所述目标发言人的人脸图像；
55.将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述全景影像以及所述目标发言人的人脸图像时，输出所述全景影像以及所述目标发言人的人脸图像进行显示。
56.本发明的方法通过获取线下会议室的会议场景的全景影像，以及会议场景中目标
发言人的人脸图像，将全景影像以及目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示，使得目标终端设备对应的线上与会人员可获知会议场景的全景影像的同时，输出显示目标发言人的人脸图像，通过目标发言人的人脸图像可清楚看到目标发言人，明确会议场景中的目标发言人，实现会议进行“面对面”的需求，提高参会时的注意力，提升线上会议的会议质量。
57.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。
58.视频会议控制装置可以以各种形式来实施。例如，本发明中描述的视频会议控制装置可以是视频会议控制系统的控制终端设备，控制终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑以及服务器等终端设备，其中，视频会议控制系统包括但不限于摄像装置、麦克风阵列以及控制终端设备，所述控制终端设备分别与摄像装置以及麦克风阵列连接，视频会议控制装置也可以是摄像装置或者带有摄像装置的终端设备。
59.可选地，控制终端设备分别与摄像装置以及麦克风阵列进行连接的方式可以是无线通信连接方式，也可以是有线连接方式，对此不做限定。
60.可选地，视频会议控制系统中的摄像装置的数量可以是一个，也可以是至少两个，在摄像装置的数量为至少两个时，至少两个摄像装置可分别设置于线下会议室的不同位置。
61.可选地，摄像装置采用获取(拍摄)全景影像的摄影机/相机/镜头。
62.可选地，视频会议控制系统还包括终端设备，视频会议控制系统的控制终端设备与终端设备之间建立通信连接，在控制终端设备通过摄像装置获取到全景影像以及目标发言人的人脸图像时，将全景影像以及目标发言人的人脸图像发送至终端设备，以使得终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示，实现线上会议与线下会议室的会议场景的视频同步的同时，通过将目标发言人的人脸图像进行显示，以使得通过线上会议的与会人员明确会议场景中的发言人，实现会议进行“面对面”的需求，提高参会时的注意力，提升线上会议的会议质量。
63.可选地，视频会议控制系统还中实现与线下会议室的会议场景的视频同步的终端设备的数量可以是一个，也可以是至少两个，对此不做限定。
64.本领域技术人员可以理解的是，除了特别用于移动目的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的移动终端。
65.请参考图1，图1为本发明的视频会议控制方法各个实施例涉及的视频会议控制装置的结构示意图。
66.如图1所示，该视频会议控制装置可以包括：存储器101以及处理器102。本领域技术人员可以理解，图1示出的终端的结构框图并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中，存储器101中存储有操作系统以及视频会议控制程序。处理器102是视频会议控制装置的控制中心，处理器102执行存储在存储器101内的视频会议控制程序，以实现本发明的视频会议控制方法各实施例的步骤。
67.可选地，视频会议控制装置还可包括显示单元103，显示单元103包括显示面板，可采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode,oled)等形式来配置显示面板，用于输出显示用户浏览的界面。
68.可选地，视频会议控制装置还包括通信单元104。
69.在视频会议控制装置为视频会议控制系统的控制终端设备时，通信单元104通过网络协议与摄像装置和/或麦克风阵列建立数据通信(该数据通信可为ip通信或者蓝牙通道)，以实现与摄像装置和/或麦克风阵列之间进行数据传输，如通过麦克风阵列确定会议场景中的目标发言人以及目标发言人的位置信息，通过摄像装置获取会议场景对应的全景影像，以及根据目标发言人的位置信息获取目标发言人的人脸图像。
70.在视频会议控制装置为摄像装置或者带有摄像装置的终端设备时，通信单元104通过网络协议与麦克风阵列建立数据通信(该数据通信可为ip通信或者蓝牙通道)，以实现与麦克风之间进行数据传输，如通过麦克风阵列获取会议场景中的目标发言人以及目标发言人的位置信息，根据目标发言人的位置信息获取目标发言人的人脸图像。
71.基于上述视频会议控制装置的结构框图，提出本发明的视频会议控制方法的各个实施例。
72.在第一实施例中，本发明提供一种视频会议控制方法，请参考图2，图2为本发明的视频会议控制方法第一实施例的流程示意图。在该实施例中，视频会议控制方法包括以下步骤：
73.步骤s10，获取会议场景对应的全景影像；
74.全景影像是指涵盖开展会议所在环境的会议空间的影像。获取会议场景对应的全景影像，可通过设置于线下会议室的摄像装置直接获取会议室内的会议场景。
75.可选地，通过设置于线下会议室的摄像装置直接获取会议室内的会议场景，可直接通过设置于线下会议室的一个摄像装置直接获取会议室内的会议场景对应的全景影像，以快速获取得到会议场景对应的全景影像。
76.可选地，通过设置于线下会议室的摄像装置直接获取会议室内的会议场景，也可通过设置于线下会议室不同位置的至少两个摄像装置分别获取会议室内不同方位的会议场景的会议影像，根据不同方位的会议影像，生成会议场景对应的全景影像，以使得获取得到的会议场景对应的全景影像清晰，且能够通过全景影像获取会议场景的不同方位或者不同角度的会议图像，示例性地，将获取到的不同方位的会议影像对应的会议图像进行裁剪拼接，生成会议场景对应的全景图像，按照拍摄的时间顺序根据生成的各个全景图像，生成会议场景对应的全景影像。
77.可选地，通过设置于线下会议室的摄像装置直接获取会议室内的会议场景，还可以是通过设置于线下会议室不同位置的至少两个摄像装置中的主摄像装置获取会议室内的会议场景对应的第一会议影像，通过至少两个摄像装置中除了主摄像装置之外的其他辅助摄像装置，获取会议室内不同方位的会议场景的第二会议影像，根据第一会议影像以及第二会议影像，生成会议场景对应的全景影像，示例性地，可基于第一会议影像对应的会议图像无法识别图像中的目标发言人的人脸图像时，可通过第二会议影像对应的会议图像识别到目标发言人的人脸图像。
78.步骤s20，获取会议场景中的目标发言人以及所述目标发言人的位置信息；
79.可选地，获取会议场景中的目标发言人以及目标发言人的位置信息，可通过麦克风阵列采集开展会议所在环境的会议空间的声音，以获取麦克风阵列中每个麦克风接收到的声音对应的时间信息，且基于声源定位技术，计算获得声音信号到达麦克风阵列中两两麦克风之间的时间差，得到声源位置坐标的方程组，求解方程组得到声源的位置信息如方位坐标，请参考图3，图3为基于声源定位技术确定目标发言人的位置信息的简单示意图。
80.其中，一个声源对应一个目标发言人，对应一个位置信息。
81.可选地，获取会议场景中的目标发言人以及目标发言人的位置信息，可通过麦克风阵列采集开展会议所在环境的会议空间的声音，以获取麦克风阵列中每个麦克风接收到的声音对应的音频信号，根据每个麦克风的音频信号，计算所接收的声音的位置信息，示例性地，由于会议室内的与会人员与麦克风阵列的每个麦克风的相对位置不同，如在与会人员a说话时，每个麦克风接收到的a的声音强弱会不同，声音对应的音频信号的强度也不同，基于每个麦克风接收到的来源于a说话的声音的音频信号，以确定多个麦克风所接收到来自同一个音源的不同声音强度的声音，进而计算发出音源的a的位置信息。
82.可选地，位置信息可采用位置坐标表示，如位置信息可对应全景影像的坐标系表示。需要说明的是，在会议室内已设置摄像装置以及麦克风阵列的情况下，摄像装置与麦克风阵列之间设置的相对位置不发生改变，通过摄像装置获取会议场景的全景影像，基于麦克风阵列的声源定位技术，可对发出声源的目标发言人的位置信息进行追踪，以确定目标发言人的位置信息，基于会议室内的实际会议场景与会议场景的全景影像之间对应，在明确实际会议场景下目标发言人的位置信息，可对应全景影像对应的全景图像确定目标发言人的位置坐标。
83.可选地，在实际应用过程中，目标发言人可以是一个，也可以是至少两个。相对应地，目标发言人的位置信息可以是一个目标发言人的位置信息，也可以是至少两个目标发言人分别对应的位置信息。
84.步骤s30，根据所述位置信息获取所述目标发言人的人脸图像；
85.可选地，在位置信息为一个目标发言人的位置信息时，根据位置信息获取目标发言人的人脸图像，可以通过以下方式获取得到：
86.方式一：可基于全景影像获取位置信息对应的目标发言人的人脸图像；
87.方式二：在全景影像无法获取到目标发言人的人脸图像，或者，全景影像获取的目标发言人的人脸图像的像素值小于预设像素值时，基于位置信息直接确定辅助摄像装置，以通过辅助摄像装置获取位置信息对应的目标发言人的人脸图像；
88.方式三：基于位置信息直接确定辅助摄像装置，以通过辅助摄像装置获取位置信息对应的目标发言人的人脸图像，对此不做限定。
89.需要说明的是，对应于方式一，基于会议室内的实际会议场景与会议场景的全景影像之间对应，在明确实际会议场景下目标发言人的位置信息，可对应全景影像对应的全景图像确定目标发言人的位置坐标，从而基于全景影像获取位置信息对应的目标发言人的人脸图像。
90.对应于方式二，在全景影像无法获取到目标发言人的人脸图像，表明全景影像对应的全景图片由于拍摄角度和/或与会人员之间造成目标发言人的人脸被遮挡，导致无法获取到目标发言人的人脸图像，或者，全景影像获取的目标发言人的人脸图像的像素值小
于预设像素值，表明目标发言人的人脸图像不清楚时，基于位置信息直接确定辅助摄像装置，以通过辅助摄像装置获取位置信息对应的目标发言人的人脸图像，通过选取与位置信息相对应的辅助摄像装置，以通过辅助摄像装置可准确获取到位置信息对应的目标发言人的人脸图像，且获取到目标发言人的人脸图像清晰。
91.可选地，会议室内由于预先设置了摄像装置，设置的不同位置的摄像装置可对应获取会议室内的不同方位或者不同角度的会议场景，基于位置信息确定辅助摄像装置，可基于位置信息，获取与位置信息对应位置坐标最近的摄像装置作为辅助摄像装置，以通过辅助摄像装置获取到清晰的目标发言人的人脸图像，还可基于位置信息的目标发言人的面部的朝向方向，基于朝向方向对应的摄像装置作为辅助摄像装置，以通过辅助摄像装置获取到目标发言人的人脸图像为目标发言人的正脸，在本实施例中对此步骤不做限定。
92.对应于方式三，基于位置信息直接确定辅助摄像装置，以通过辅助摄像装置获取位置信息对应的目标发言人的人脸图像，可具体参见方式二的具体实现，本实施例中不再赘述。
93.同理地，在位置信息包括至少两个所述目标发言人的位置信息时，根据位置信息获取目标发言人的人脸图像，可以通过以下方式获取得到：
94.方式一：基于所述全景影像获取每个所述位置信息对应的所述目标发言人的人脸图像；
95.方式二：根据至少两个所述位置信息分别确定对应的辅助摄像装置，通过所述辅助摄像装置采集每个所述位置信息对应的所述目标发言人的人脸图像；
96.方式三：在全景影像无法获取到目标发言人的人脸图像，或者，全景影像获取的目标发言人的人脸图像的像素值小于预设像素值时，根据至少两个所述位置信息分别确定辅助摄像装置，以通过所述辅助摄像装置采集每个所述位置信息对应的所述目标发言人的人脸图像。
97.需要说明的是，对于方式一与方式二的具体实现可参见第二实施例，在本实施例中不做具体说明。
98.对应于方式三，在全景影像无法获取到目标发言人的人脸图像，或者，全景影像获取的目标发言人的人脸图像的像素值小于预设像素值时，根据至少两个所述位置信息分别确定辅助摄像装置，以通过所述辅助摄像装置采集每个所述位置信息对应的所述目标发言人的人脸图像，同理于在位置信息为一个目标发言人的位置信息时，方式二中基于位置信息直接确定辅助摄像装置，以通过辅助摄像装置获取位置信息对应的目标发言人的人脸图像的具体实现，在此不再赘述。
99.步骤s40，将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备。
100.可以理解的是，将所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述全景影像以及所述目标发言人的人脸图像时，输出所述全景影像以及所述目标发言人的人脸图像进行显示。
101.作为一种可选的实施方式，步骤s40包括：
102.将所述全景影像以及所述目标发言人的人脸图像发送至服务器，通过所述服务器将所述全景影像以及所述目标发言人的人脸图像发送至所述目标终端设备。
103.在视频会议控制装置为摄像装置或者带有摄像装置的终端设备时，可将全景影像
以及目标发言人的人脸图像发送至服务器，进而间接通过服务器将全景影像以及目标发言人的人脸图像发送至目标终端设备，以实现线上会议与线下会议室的会议场景的视频同步。
104.相对应地，在目标终端设备侧，目标终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示。
105.可选地，目标终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示的步骤包括：
106.目标终端设备接收到会议场景对应的全景影像以及目标发言人的人脸图像；
107.确定所述目标发言人的人脸图像的目标显示区域；
108.执行在预设显示区域显示所述全景影像，在目标显示区域显示目标发言人的人脸图像的动作。
109.需要说明的是，确定目标发言人的人脸图像的目标显示区域，可根据目标发言人的数量，确定目标发言人的人脸图像的目标显示区域，具体地，在目标发言人的数量为一个时，确定目标发言人的人脸图像的目标显示区域为一个，目标显示区域的位置可以是目标终端设备的显示屏的中心位置，也可以是目标终端设备的显示屏的边缘位置，还可以是目标终端设备的显示屏的空白显示位置，对此不做限定。
110.在目标发言人的数量为至少两个时，确定目标发言人的人脸图像的目标显示区域为至少两个，至少两个目标显示区域的显示位置，可以是目标终端设备的显示屏的中心位置，也可以是目标终端设备的显示屏的边缘位置，还可以是目标终端设备的显示屏的空白显示位置，对此不做限定。
111.可选地，目标发言人的数量为至少两个时，可对应一个目标显示区域显示一个目标发言人的人脸图像。
112.可选地，至少两个目标显示区域分别对应的显示位置不同。
113.可选地，预设显示区域与目标显示区域的显示区域可以存在重叠区域，示例性地，预设显示区域为目标终端设备的显示屏的整个显示界面，目标显示区域的显示区域可悬浮显示于预设显示区域上面。
114.可选地，目标显示区域的显示面积小于预设显示区域的显示面积。
115.可选地，预设显示区域与目标显示区域的显示区域不存在重叠区域，预设显示区域的显示位置与目标显示区域的显示位置不同。
116.在本实施例公开的技术方案中，通过获取线下会议室的会议场景的全景影像，以及会议场景中目标发言人的人脸图像，将全景影像以及目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到全景影像以及目标发言人的人脸图像时，输出全景影像以及目标发言人的人脸图像进行显示，使得目标终端设备对应的线上与会人员可获知会议场景的全景影像的同时，输出显示目标发言人的人脸图像，通过目标发言人的人脸图像可清楚看到目标发言人，明确会议场景中的目标发言人，实现会议进行“面对面”的需求，提高参会时的注意力，提升线上会议的会议质量。
117.在基于第一实施例的基础上提出的第二实施例中，请参考图4，图4为本发明的视频会议控制方法第二实施例的流程示意图。在该实施例中，步骤s30包括：
118.步骤s31，在所述位置信息包括至少两个所述目标发言人的位置信息时，获取每个
所述位置信息对应的所述目标发言人的人脸图像；
119.步骤s40包括：
120.步骤s41，将所述全景影像以及各个所述目标发言人的人脸图像发送至目标终端设备。
121.可以理解的是，将所述全景影像以及各个所述目标发言人的人脸图像发送至目标终端设备，以使得所述目标终端设备接收到所述全景影像以及各个所述目标发言人的人脸图像时，输出所述全景影像以及各个所述目标发言人的人脸图像进行显示
。
122.作为一种可选的实施方式，步骤s31包括：
123.在所述位置信息包括至少两个所述目标发言人的位置信息时，基于所述全景影像获取每个所述位置信息对应的所述目标发言人的人脸图像；或者，
124.在所述位置信息包括至少两个所述目标发言人的位置信息时，根据至少两个所述位置信息分别确定对应的辅助摄像装置，通过所述辅助摄像装置采集每个所述位置信息对应的所述目标发言人的人脸图像。
125.需要说明的是，基于会议室内的实际会议场景与会议场景的全景影像之间对应，在明确实际会议场景下目标发言人的位置信息，可对应全景影像对应的全景图像确定目标发言人的位置坐标，在位置信息包括至少两个目标发言人的位置信息时，基于全景影像获取每个位置信息对应的目标发言人的人脸图像。
126.可选地，可基于一个摄像装置获取到的会议场景的全景影像，基于全景影像对应的全景图像，同时获取到多个目标发言人的人脸图像。
127.可选地，全景影像对应的全景图像可以是一个，也可以是多个。
128.可选地，基于全景影像对应的全景图像，同时获取到多个目标发言人的人脸图像，可以是基于全景影像对应的一帧全景图像，同时获取到多个目标发言人的人脸图像，也可以是基于全景影像对应的至少两帧全景图像，以获取到多个目标发言人的人脸图像，对此不做限定。
129.可选地，在位置信息包括至少两个目标发言人的位置信息时，根据至少两个位置信息分别确定对应的辅助摄像装置，通过选取与每个位置信息相对应的辅助摄像装置，通过辅助摄像装置对应采集每个位置信息对应的目标发言人的人脸图像，以通过辅助摄像装置可准确获取到位置信息对应的目标发言人的人脸图像，且获取到目标发言人的人脸图像清晰。
130.可选地，会议室内由于预先设置了摄像装置，设置的不同位置的摄像装置可对应获取会议室内的不同方位或者不同角度的会议场景，基于位置信息确定辅助摄像装置，可基于位置信息，获取与位置信息对应位置坐标最近的摄像装置作为辅助摄像装置，以通过辅助摄像装置获取到清晰的目标发言人的人脸图像，还可基于位置信息的目标发言人的面部的朝向方向，基于朝向方向对应的摄像装置作为辅助摄像装置，以通过辅助摄像装置获取到目标发言人的人脸图像为目标发言人的正脸，在本实施例中对此步骤不做限定。
131.存在多人同时发言的情况下，为避免由于频繁追踪或者捕捉目标发言人，使得捕捉的目标发言人画面在多个发言人之间来回移动跳转，导致降低开会舒适性，影响开会质量，在本实施例公开的技术方案中，将全景影像以及会议场景中各个目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到全景影像以及各个目标发言人的人脸
图像时，输出全景影像以及各个目标发言人的人脸图像进行显示，使得目标终端设备对应的线上与会人员可获知会议场景的全景影像的同时，输出显示各个目标发言人的人脸图像，通过各个目标发言人的人脸图像可清楚看到会议场景中的多个目标发言人，明确会议场景中的多个目标发言人，实现会议进行“面对面”的需求，提高参会时的注意力，可清楚获知多个目标发言人分别对应的发言观点，提升线上会议的会议质量。
132.在基于上述任意一个实施例提出的第三实施例中，请参考图5，图5为本发明的视频会议控制方法第三实施例的流程示意图。在该实施例中，步骤s40包括：
133.步骤s42，获取会议场景中预设时长内的所述目标发言人的发言信息；
134.步骤s43，根据所述发言信息确定发言场景；
135.步骤s44，将所述发言场景、所述全景影像以及所述目标发言人的人脸图像发送至目标终端设备。
136.可以理解的是，将发言场景、全景影像以及目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到所述发言场景、全景影像以及目标发言人的人脸图像时，按照发言场景确定的输出显示模式，输出全景影像以及目标发言人的人脸图像进行显示
。
137.发言信息包括但不限于发言人标识以及发言人的发言时长。其中，发言人标识是确定发言人的唯一标识。
138.可选地，发言信息还包括发言人数，可通过发言人标识的数量确定发言人数，示例性地，在发言人标识包括标识a、标识b以及标识1时，发言人数为3，在发言人标识包括标识a以及标识b，发言人数为2。
139.可选地，发言信息还包括发言人的发言次数。示例性地，发言人标识包括标识a以及标识b，会议场景中预设时长内的标识a对应的发言人，与标识b对应的发言人进行两次轮询问答时，表明标识a对应的发言人的发言次数为2次，标识b对应的发言人的发言次数为2次。
140.获取会议场景中预设时长内的目标发言人的发言信息，可通过麦克风获取到的预设时长内的发言人的声音识别发言人标识，并对应识别到的发言人标识，以确定发言人标识对应的发言人的发言时长以及发言次数，本实施例对此不做限定。
141.作为一种可选的实施方式，步骤s43包括：
142.在发言人标识的数量为一个，且发言人的发言时长大于或者等于预设时长时，确定发言场景为个人发言场景；
143.在发言人标识的数量为至少两个，且存在一个发言人的发言时长大于或者等于预设时长时，确定发言场景为个人发言场景；
144.示例性地，假设发言人标识为a，发言人标识a对应的发言时长为25s，预设时长采用15s(秒)，表明当前发言场景为个人发言场景，又如假设发言人标识为a，发言人标识a对应的发言时长为25s，发言人标识为b，发言人标识b对应的发言时长为13s，预设时长采用15s(秒)，表明当前发言场景为个人发言场景。
145.在发言人标识的数量为至少两个，且存在至少两个发言人的发言时长均大于或者等于预设时长时，确定发言场景为多人发言场景。
146.示例性地，假设发言人标识为a，发言人标识a对应的发言时长为25s，发言人标识
为b，发言人标识b对应的发言时长为30s，预设时长采用15s(秒)，表明当前发言场景为多人发言场景。
147.可选地，在确定发言场景为多人发言场景的基础上，可进一步获取发言人的发言次数，在所有发言人的发言次数均为一次时，表明当前发言场景为多人轮流发言场景，在所有发言人中存在发言人的发言次数大于或者等于两次时，表明当前发言场景为多人讨论场景。
148.将发言场景、全景影像以及目标发言人的人脸图像发送至目标终端设备，对应于终端设备侧，目标终端设备接收到发言场景、全景影像以及目标发言人的人脸图像时，按照发言场景确定的输出显示模式，输出全景影像以及目标发言人的人脸图像进行显示。
149.根据发言场景确定的输出显示模式的步骤包括：
150.在发言场景为个人发言场景时，确定输出显示模式为在目标显示区域显示目标发言人的人脸图像；
151.在发言场景为多人轮流发言场景时，确定输出显示模式为在目标显示区域依次显示至少两个目标发言人；
152.在发言场景为多人讨论场景时，确定输出显示模式为在至少两个目标显示区域分别对应显示目标发言人。
153.在发言场景为个人发言场景时，确定输出显示模式为在目标显示区域显示目标发言人的人脸图像，示例性地，个人发言场景，当发言人a讲话时长达到预设时长时，在目标显示区域显示发言人a的人脸图像，请参考图6，图6为个人发言场景的输出显示模式的执行流程。
154.可选地，当发言人a停止讲话达到预设时长后，在目标显示区域不显示人脸图像或者直接不显示目标显示区域。
155.在发言场景为多人轮流发言场景时，确定输出显示模式为在目标显示区域依次显示至少两个目标发言人，示例性地，多人轮流发言场景，发言人a讲话时长达到预设时长，在目标显示区域显示发言人a的人脸图像，发言人a停止讲话后，目标显示区域不显示发言人a的人脸图像，发言人b讲话时长达到预设时长，在目标显示区域显示发言人b的人脸图像，从而达到在目标显示区域依次显示发言人a的人脸图像，以及发言人b的人脸图像，以明确当前正在说话的发言人，请参考图7，图7为多人轮流发言场景的输出显示模式的执行流程，请参考图8，图8为多人轮流发言场景的输出显示模式的示意图，以在目标显示区域依次显示发言人a的人脸图像，以及发言人b的人脸图像。
156.在发言场景为多人讨论场景时，确定输出显示模式为在至少两个目标显示区域分别对应显示目标发言人，示例性地，多人讨论场景，表明多人轮流讲话，发言人之间短时间内来回切换，如发言人a和发言人b轮流讲话均达到预设时长，如5s(秒)，发言人切换次数达到n个循环时，可选地，n取值为2，可对应两个目标显示区域分别显示发言人a的人脸图像，以及发言人b的人脸图像，以同时显示发言人a的人脸图像，以及发言人b的人脸图像，明确发言人a与发言人b正在讨论，请参考图9，图9为多人多人讨论场景的输出显示模式的示意图，以通过两个目标显示区域，同时显示发言人a的人脸图像，以及发言人b的人脸图像。
157.作为一种可选的实施方式，在多人讨论场景下，当目标发言人的人数达到预设人数时，表明当前讨论人员数量过多，可在目标显示区域不显示人脸图像或者直接不显示目
标显示区域，请参考图10，图10为多人讨论场景的不显示目标显示区域的执行流程。
158.在本实施例公开的技术方案中，将发言场景、全景影像以及目标发言人的人脸图像发送至目标终端设备，以使得目标终端设备接收到发言场景、全景影像以及目标发言人的人脸图像时，按照发言场景确定的输出显示模式，可适应于发言场景选择输出显示模式，基于输出显示模式输出全景影像以及目标发言人的人脸图像进行显示
，
输出显示各个目标发言人的人脸图像，明确会议场景中的多个目标发言人，实现会议进行“面对面”的需求，提高参会时的注意力，且基于输出的全景影像以及目标发言人的人脸图像的显示模式，以获知当前会议的发言场景，可清楚获知多个目标发言人分别对应的发言观点，提升线上会议的会议质量。
159.本发明还提出一种视频会议控制装置，所述视频会议控制装置包括：包括存储器、处理器以及存储在存储器里并可在处理器上运行的视频会议控制程序，视频会议控制程序被处理器执行时实现上述任一实施例中的视频会议控制方法的步骤。
160.本发明还提出一种存储介质，该存储介质上存储有视频会议控制程序，所述视频会议控制程序被处理器执行时实现如以上任一实施例所述的视频会议控制方法的步骤。
161.在本发明提供的视频会议控制装置和存储介质的实施例中，包含了上述视频会议控制方法各实施例的全部技术特征，说明书拓展和解释内容与上述视频会议控制方法的各实施例基本相同，在此不做再赘述。
162.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
163.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
164.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台移动终端(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本发明每个实施例的方法。
165.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓华芹刘建强
技术所有人：深圳市天英联合科技股份有限公司
我是此专利的发明人

上一篇：齿轮组件及其修形设计方法与流程
上一篇：目标检测方法、目标检测模型的训练方法、装置和设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。