视频会议系统、处理装置及视频会议方法_2

文档序号：9828446阅读：来源：国知局

式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式;相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。
[0034]参见图1，图1示出了根据本发明实施例的视频会议系统的示意图。视频会议系统包括第一摄像机110、第二摄像机120、麦克风矩阵130、视频输出装置150以及处理装置140。第一摄像机110可选地为球形摄像机。例如，第一摄像机110可以是PTZ云台摄像机。第二摄像机120可选地为全景摄像机，用于采集视频会议场所的全景视频数据。麦克风矩阵130用于采集视频会议场所中的音频以供处理装置140进行音源定位。具体而言，麦克风矩阵130中包括多个麦克风，该多个麦克风排列成矩阵形式。麦克风矩阵130中的每个麦克风接收到同一音源的时间不同，麦克风在麦克风矩阵130中的位置以及接收到同一音源的时间差可以同来确定音源位置。处理装置140可以根据麦克风矩阵130采集的音频及其时间差将音源所在方向的视频画面作为会议视频输出。
[0035]具体而言，图1中所示的视频会议系统中的各个部件可以通过有线或无线的方式进行连接。例如，第一摄像机110和第二摄像机120通过有线的方式与处理装置140连接，麦克风矩阵130以无线的方式与处理装置140连接。又例如，第一摄像机110、第二摄像机120、麦克风矩阵130、视频输出装置150都通过诸如局域网、互联网等无线的方式与处理装置140连接。可选地，本发明提供视频会议系统配合ITU/T H.239Role management andaddit1nal media channels for H.300-series terminals协议，或者RFC4582BFCP和RFC4583SDP Format for BFCP Streams等协议一起使用，以实现同时显示第一摄像机110和第二摄像机120所采集的视频数据的画面。以上协议仅示例性地说明视频会议系统所使用的协议，但实际实现时并非以此为限。
[0036]本视频会议系统利用麦克风矩阵来实现音源的定位，并通过处理装置对第一摄像机和第二摄像机的控制来自动定位并跟踪到当前的发言人，且无需繁琐的操作，整个功能可自动化实现，无需对会议的使用者进行如此那般的教育和指导，也无需人工干预，为视频会议的召开和进行带来了极大的便利，并可为参与会议的各方带来一种面对面的体验和感受，可极大的提升视频会议的整体交互性和体验度。并在相对小的一个会议环境中得以更佳的体验。同时，双摄像头的设计也可为会议的管理和控制带来更多的灵活性，也同时可有效提升整个会议过程中的交互性。
[0037]处理装置的结构如图2所示。处理装置200包括音源定位模块203、第一控制模块201、第一截取模块202以及合成模块204。
[0038]音源定位模块203用于根据麦克风矩阵所采集的音频确定第一音源以及至少一个第二音源所在方向。具体而言，第一音源为持续音源，来表示第一发言人(主发言人)。当音源定位模块203确定某一音源的音量大于第一阈值，并且大于该第一阈值的持续时间大于第二阈值，可以将该音源作为第一音源。第二音源为动态音源，来表示其余发言人。当音源定位模块203确定某一个或多个音源在第一音源大于第一阈值的持续时间内大于第三阈值，并且第二音源大于第三阈值的持续时间小于第四阈值时，可以将该一个或多个音源作为第二音源。其中，第三阈值小于第一阈值，第四阈值小于第二阈值。
[0039]具体而言，音源定位模块203通过各个麦克风在麦克风矩阵中的位置以及接收到同一音源的时间差可以同来确定音源所在方向。其中，音源所在方向可以用该音源在视频会议场景中的坐标(极坐标或直角坐标)来表示。音源定位模块203将第一音源及第二音源的音源所在方向发送给第一控制装置201及第一截取装置202。
[0040]第一控制模块201用于控制第一摄像机转向第一音源所在方向，并指示第一摄像机采集第一音源所在方向的第一视频数据。具体而言，第一控制模块201根据音源定位模块203所发送的第一音源所在方向(例如视频会议场所中的坐标)，来控制第一摄像机转向第一音源所在方向，以获取包含发出第一音源的第一发言人画面的第一视频数据。所获得的第一视频数据的画面可以参见图5所示的第一视频数据画面510。
[0041]第一截取模块202用于获取第二摄像机采集的全景视频数据，并根据第二音源所在方向在全景视频数据中截取对应于至少一个第二音源所在方向的至少一个第二视频数据。具体而言，第一截取模块202获取音源定位模块203所发送的第二音源所在方向(例如视频会议场所中的坐标)，并将获取的第二音源所在方向转换为全景视频数据画面(如图6所示的全景视频数据画面520)中对应位置，以该对应位置为中心截取能够包括发出第二音源的其余发言人的画面区域作为第二视频数据(如图6所示的包括第二发言人162的第二视频数据画面530)。当有多个第二音源时，第一截取模块202可截取对应于该多个第二音源的多个第二视频数据。
[0042]合成模块204用于将第一视频数据和至少一个第二视频数据合成到合成画面中。可选地，合成模块204还用于根据第二视频数据的数量将第一视频数据和第二视频数据布局在合成画面中。例如，将一个或多个第二视频数据嵌入第一视频数据的画面中(如图7和图8所示的合成画面500)。又例如，将一个或多个第二视频数据画面分布在第一视频数据画面的一侧或两侧(如图9和图10所示的合成画面500)。可选地，第一视频数据在合成画面500中所占比例大于任一个第二视频数据在合成画面500中所占比例。具体而言，当第二视频数据的数量发生变化时，合成模块204自动切换合成画面，例如从图7所示的仅有一个第二视频数据的合成画面500切换为图8所示的有两个第二视频数据的合成画面500。
[0043]可选地，处理装置还可以具有更多的模块，如图3所示。图3所示的处理装置300除了与图2中相同的音源定位模块305、第一控制模块301、第一截取模块302以及合成模块304之外，还包括多个模块。该多个模块可以部分省略或配合使用来实现更多的功能。
[0044]可选地，处理装置300还包括语音识别装置306。语音识别装置306用于根据麦克风矩阵所采集的音频识别来自不同发言人的第一音源以及至少一个第二音源。具体而言，语音识别装置306与音源定位模块305配合使用。语音识别模块306可以根据所获取的音源声纹来辨别由不同的发言人所发出的音源。例如，当确定第一音源由第一发言人发出后，语音识别模块306识别第一音源的声纹，当第一音源再次出现，或其余音源出现时，语音识别模块306即可识别该音源由第一发言人发出或由其余发言人发出。同样地，语音识别模块306还可以识别第二发言人、第三发言人、第四发言人等的音源。
[0045]可选地，处理装置300还包括切换模块307。切换模块307用于切换视频输出。具体而言，当语音识别装置306未识别到第一音源和第二音源(也就是语音识别装置306未识别到任何发言人发言)时，指示处理装置300输出由第二摄像机所采集的全景视频数据(如图6所示的全景视频数据画面520)。当语音识别装置306识别到第一音源但未识别到第二音源(也就是语音识别装置306仅识别到第一发言人发言)时，指示处理装置300输出由第一摄像机所采集的第一视频数据(如图5所示的第一视频数据画面510)。当语音识别装置306识别到第一音源和至少一个第二音源时，指示处理装置300输

完整全部详细技术资料下载

当前第2页1 2 3 4