视频会议系统、处理装置及视频会议方法_3

文档序号：9828446阅读：来源：国知局

出合成画面(如图7至图10所示的合成画面)。可选地，切换模块307按上述方式根据语音识别装置306的识别结果对会议视频输出进行切换。在一些变化例中，切换模块307也可以由用户手动控制以对会议视频输出进行切换。
[0046]可选地，处理装置还包括人脸识别模块309。人脸识别模块309用于对第一视频数据及全景视频数据进行人脸识别，并根据第一视频数据获取与第一音源对应的第一发言人的位置。具体而言，当第一控制模块301控制第一摄像机获取第一视频数据时，由于音源所在方向的误差，导致第一发言人并非位于第一视频数据画面的中心。因此，可以通过对第一视频数据画面进行人脸识别，以将第一视频数据画面中的第一发言人的脸或上半身置于第一视频数据画面的中心。同理，对于第一截取模块302截取第二视频数据时也类似地，进行人脸识别来将其余发言人的脸或上半身置于第二视频数据画面的中心。
[0047]可选地，处理装置还包括定位校正模块310。定位校正模块310用于根据全景视频数据对第一视频数据中的第一发言人的位置进行校正。在一些实施例中，第一控制模块301控制第一摄像机获取第一视频数据时，可能导致多个发言人或没有发言人位于第一视频数据画面中，在这样情况下，可以通过定位校正模块310在全景视频数据中定位第一音源所在方向来识别第一发言人的位置，并根据第一发言人在全景视频数据中的位置，进一步使第一控制模块301调整第一摄像机的方向的焦距，以使第一发言人位于第一视频数据画面的中心。
[0048]可选地，处理装置300还包括运动跟踪模块312。运动跟踪模块312用于对第一视频数据中的第一发言人进行运动检测跟踪。根据运动跟踪模块312对第一发言人的跟踪情况，第一控制模块301进一步控制第一摄像机追踪第一发言人。具体而言，运动跟踪模块312可以利用例如方向梯度直方图(Histogram of Oriented Gradient，H0G)的算法来对第一发言人进行运动跟踪。
[0049]可选地，处理装置300还包括运动检测模块311和第二截取模块303。运动检测模块311用于对全景视频数据中的除第一发言人外的人员进行运动检测。运动检测模块311也可以利用例如方向梯度直方图(Histogram of Oriented Gradient，H0G)的算法来对除第一发言人外的人员进行运动检测。第二截取模块303用于获取第二摄像机采集的全景视频数据，并在全景视频数据截取第三视频数据，第三视频数据包括除第一发言人外的人员移动的图像。具体而言，第二截取模块303获取运动检测模块311所检测的除第一发言人外的移动人员画面区域作为第三视频数据(如图6所示的包括正在移动的第三发言人163的第三视频数据画面540)。当有多个发言人移动时，第二截取模块303可截取对应于该多个移动的发言人的多个第三视频数据。可选地，合成模块304还用于将第三视频数据合成到合成画面中。第三视频数据与第二视频数据类似地嵌入第一视频数据画面中，或布局在第一视频画面的一侧或两侧。同时，第一视频数据在合成画面所占的比例也大于任一个第三视频数据在合成画面中所占的比例。第三视频画面在合成画面中所占的比例优选地，与第二视频画面在合成画面中所占的比例相同。在一些实施例中，第三视频画面在合成画面中所占的比例也可以与第二视频画面在合成画面中所占的比例不同。
[0050]可选地，处理装置300还包括判断模块308。判断模块308用于判断使用第一截取模块303和/或第二截取模块304截取全景视频数据。换言之，用户可以根据视频会议的需求，在视频会议输出中兼顾多个发言人的视频画面和/或在视频会议输出中兼顾移动人员的视频画面。
[0051]图3所示实施例仅示意性地示出处理装置300的模块，本领域技术人员理解，处理装置300还可以包括其他诸如用于通讯、计算等功能的模块，并且示出在图3中的多个模块也可以被省略。
[0052]图4示出了根据本发明实施例的视频会议方法的流程图，该视频会议方法应用于如图1所示的视频会议系统。在图4示出了四个步骤:
[0053]步骤S210:根据麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向。其中，第一音源为持续音源，第二音源为动态音源。
[0054]在一个具体实施例中，当检测到音频能量超过一定阀值，即开始对当前的音频进行语音检测分析。若当前音频能量够大，并且从中可以检测到语音，说明当前本地会场有人在发言，开始对判别当前的音源的方位，并将该音源作为第一发言人的第一音源。可选地，语音检测的方法可以参考人类语音的基音频率范围来得出。可选地，音源定位的方法可以通过声速、计算的时间延迟及麦克风间距来得出。
[0055]步骤S220:控制第一摄像机转向第一音源所在方向，并指示第一摄像机采集第一音源所在方向的第一视频数据。
[0056]在检测并识别到会议场所第一发言人的大致方位的情况下，处理装置即可控制第一摄像机转向第一音源所在方向，并在第一摄像机采集的视频画面进行人脸识别，进而寻找人脸或者与人形(上半身)相匹配的模式。可选地，可以根据两个摄像机的画面及麦克风矩阵的音源方位，对实际的第一发言人位置进行校正。
[0057]具体而言，若找到唯一匹配的人脸，则将第一摄像机聚焦到该人脸或(上半身)。若找到多个与人脸匹配的模式，则将第一摄像机聚焦到该片区，同时联动第二摄像机中该方位区域图像片区及麦克风矩阵所检查的音源方位进行进一步筛选，以确定并定位到实际的唯一发言人(第一发言人)。若找不到人脸，则将第一摄像机定位于第一音源所在方向。
[0058]可选地，在第一发言人固定的情况下，第一摄像机持续固定聚焦于第一发言人，同时，音源定位持续进行。在第一发言人正常切换的情况下，可以调整第二摄像机将画面聚焦到新的发言人，同时，音源定位持续进行。
[0059]可选地，若第一发言人从位置上离开，并在会场里走动，或对会议场所内的黑板、白板进行操作，则通过运动跟踪技术来进行运动检测，并调用第以摄像机对此进行运动跟足示O
[0060]步骤S230:获取第二摄像机采集的全景视频数据，并根据第二音源所在方向在全景视频数据中截取对应于至少一个第二音源所在方向的至少一个第二视频数据。
[0061]步骤S240:将第一视频数据和至少一个第二视频数据合成到合成画面中。
[0062]在当前会议场所中的其他与会人员临时插话的情况下，处理装置将在第一摄像机采集到的视频与第二摄像机中采集到的视频数据进行合成。
[0063]具体而言，在第一摄像机检测并实际定位到第一发言人的情况下，并且发言人持续的过程中，若麦克风矩阵有检测到第一发言人之外的、超过一定阀值的音源，或者第二摄像机中有检测到非第一发言人的人员移动等动作时，将触发双摄像机的画面合成功能。
[0064]可选地，通过麦克风矩阵的音源定位找到在第二摄像机上的音源位置，并在此位置检测人脸或人形的目标，若找到匹配目标，并从中截取第二音源(其余发言人)位置的视频数据。可选地，在第二摄像机采集的全景视频数据中通过HOG之类的运动检测方法来检测到非第一发言人之外的人员走动，若检测到相关事件，截取第二摄像机中的相关视频数据。将上述从第二摄像机中截取的视频数据与第一摄像机的视频数据进行画面合成后，再进行编码，并发送给位于其他会议场所，以便于其他会议场所中的人们可以看到当前会议场所中的发言人的状况及变化，
[0065]可选地，在步骤S210之前，还可以包括如下步骤:
[0066]在参加一个视频会议后，第一摄像机和第

完整全部详细技术资料下载

当前第3页1 2 3 4