本发明涉及视频通信,具体地,涉及声像同位方法及其系统。
背景技术:
1、声像同位是一种音视频技术,旨在实现声音与图像的空间一致性,使观众在观看视频时,能够感受到声音与视频画面来源相一致的沉浸式体验,通常应用于视频会议、多媒体演示、远程培训等场景,以提高用户的感知一致性和交互体验。
2、在声像同位技术中,系统通过智能的音视频处理和分析,将声音与图像进行关联,使得特定区域的声音源于相应区域的视频画面。例如,在视频会议中,如果某个区域的画面中有人发言,声像同位技术会确保该人的声音通过相应的扬声设备播放,而不是在其他区域产生声音。
3、然而,现有技术在声像同位领域仍然存在一些局限性:
4、目前的声像同位技术在实现高度精准的声音和图像匹配方面仍然存在一定的限制。特别是在复杂环境中,如多人会议或嘈杂的背景音中,准确地追踪声音源和相关视频可能变得更加困难。
5、对于实时性要求高的应用场景,如视频会议,现有技术在实时处理音视频同步和空间一致性方面可能面临一些挑战。处理延迟可能导致声音与图像的不同步,降低用户体验。
6、另外,现有技术中声像同位系统受到硬件设置限制,导致其在大型会议室中的扩展性差,使其难以适应不同规模的场景。
技术实现思路
1、本发明提供了一种声像同位方法及其系统,通过将视频会议室划分为多个采集区域,每个采集区域都有独立的摄像头和麦克风,实现了更为精准的声音和图像匹配;远端设备包括至少两个显示区域和至少两个扬声设备,通过调节扬声设备音量使得声像同位,实现了更为个性化和沉浸式的音视频体验;级联路由器结构的硬件设置,有效提高了系统的扩展性,有助于适应不同规模的场景,特别是在大型会议室中,克服了现有技术中硬件设置限制的问题;通过设置路由器与麦克风的连接结构以及音频处理器,确保每个发声区域独立处理音视频信号,减少了复杂环境对系统精度的影响;通过音频处理器的多路处理,系统可以更有效地处理音频信号,提高了实时性,减少了处理延迟;根据预设规则,系统能够自适应地选择至少一个存在参会人声音输出的采集区域作为发声区域,确保声音来源于活跃的区域,提高了声像同位的效果。
2、第一方面,本发明提供了一种声像同位方法,其特征在于,所述方法包括:
3、将视频会议室划分为至少两个采集区域;
4、每个摄像头采集对应采集区域的视频,使得每个采集区域分别对应一路视频,获得多路视频;
5、在每个采集区域设置至少一排参会人座位;
6、每个麦克风采集对应座位的参会人音频;
7、根据每排麦克风个数设置每排的路由器个数,每个所述路由器的接口数不小于所述采集区域个数,每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风,以路由不同所述采集区域的麦克风所采集的参会人音频到音频处理器;
8、根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域;
9、利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理,使得每个发声区域分别对应一路处理后的音频,获得多路音频;
10、将多路视频和多路音频发送给远端。
11、第二方面,本发明还提供了一种声像同位系统,其特征在于,所述系统包括:区域划分装置、至少两个摄像头、至少两个麦克风、座位设置装置、路由设置装置、选择装置、音频处理器、发送装置和远端;其中
12、所述区域划分装置用于将视频会议室划分为至少两个采集区域;
13、每个所述摄像头用于采集对应采集区域的视频,使得每个采集区域分别对应一路视频,获得多路视频;
14、所述座位设置装置用于在每个采集区域设置至少一排参会人座位;
15、每个所述麦克风用于采集对应座位的参会人音频;
16、所述路由设置装置用于根据每排麦克风个数设置每排的路由器个数,每个所述路由器的接口数不小于所述采集区域个数,每个所述路由器的不同接口连接该路由器所在排的不同所述采集区域的麦克风,以路由不同所述采集区域的麦克风所采集的参会人音频到音频处理器;
17、所述选择装置用于根据预设规则选择至少一个存在参会人声音输出的采集区域作为发声区域;
18、所述音频处理器用于将每个所述发声区域中的所有参会人音频分别进行处理,使得每个发声区域分别对应一路处理后的音频,获得多路音频;
19、所述发送装置用于将多路视频和多路音频发送给远端。
20、本发明提供的声像同位方法及其系统:第一,通过划分视频会议室为多个采集区域,每个区域配备独立摄像头和麦克风,实现了声音和图像的精准匹配,在远端设备中,至少两个显示区域和两个扬声设备的设置,通过调节扬声设备音量,使声音来源与图像一致,提供了个性化和沉浸式的音视频体验;第二,采用级联路由器结构的硬件设置,有助于灵活适应不同规模的会议场景,用户可以轻松地增加或减少采集区域,而无需修改已有的连接结构;第三,通过设置路由器与麦克风的连接结构以及音频处理器,确保每个发声区域独立处理音视频信号,减少了复杂环境对系统精度的影响;第四,根据预设规则,系统能够自适应地选择至少一个存在参会人声音输出的采集区域作为发声区域,确保声音来源于活跃的区域,提高了声像同位的效果。
1.一种声像同位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的声像同位方法,其特征在于,所述远端包括视频显示设备和至少两个扬声设备;
3.根据权利要求2所述的声像同位方法,其特征在于,所述方法还包括:根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频:
4.根据权利要求2所述的声像同位方法,其特征在于,每个显示区域对应至少一个扬声设备,所述方法还包括:根据用户需求确定远端的视频显示设备的每个显示区域是否播放接收到的其中一路所述视频:
5.根据权利要求2-4中的任一项所述的声像同位方法,其特征在于,一个所述显示区域为一个屏幕或一个屏幕上的一个区域。
6.根据权利要求1-4中的任一项所述的声像同位方法,其特征在于,每个所述路由器形成级联。
7.根据权利要求6所述的声像同位方法,其特征在于,不同所述路由器的至少一个接口连接同一采集区域的不同麦克风。
8.根据权利要求1-4中的任一项所述的声像同位方法,其特征在于,所述预设规则包括:
9.根据权利要求7所述的声像同位方法,其特征在于,利用所述音频处理器将每个所述发声区域中的所有参会人音频分别进行处理,使得每个发声区域分别对应一路处理后的音频,获得多路音频的步骤具体为:
10.一种声像同位系统,其特征在于,所述系统包括:区域划分装置、至少两个摄像头、至少两个麦克风、座位设置装置、路由设置装置、选择装置、音频处理器、发送装置和远端;其中