一种基于声音追踪的图像显示方法以及系统与流程

文档序号：17772843发布日期：2019-05-28 19:38阅读：521来源：国知局

本发明涉及视频监控领域，具体涉及一种基于声音追踪的图像显示方法以及系统。

背景技术：

随着信息时代的到来，各种数字技术迅猛发展，会议系统的概念已经远不是麦克风、功放、音响、桌面显示等设备的简单组合，目前会议系统往往融汇了多种现代化技术。在融合数字技术之后，可通过网络系统处理和传送数字信号，组合声音、视像、数据等多元信息，大大改善会议的画质和音质，数字化会议系统已成为具有便捷控制管理能力的立体化系统。

在现有的会议系统中，最重要的就是捕捉发言人图像，便于在场会议人员能够将注意力快速聚焦至发言人处，再认真倾听发言人发表的言论。但是，由于发言人不断改变，甚至同时出现多个发言人的情况，容易出现声音追踪慢，捕捉人像的速度慢，导致来不及切换发言人画面的情况。此时，若是场景中的会议人员过多，其他会议人员也就无法知道声音来源于何处。

因此，设计一种基于声音追踪的图像显示方法以及系统，一直是本领域技术人员重点研究的问题之一。

技术实现要素：

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于声音追踪的图像显示方法以及系统，解决切换发言人画面的速度较慢的问题。

为解决该技术问题，本发明提供一种基于声音追踪的图像显示方法，所述图像显示方法包括以下步骤：获取场景图像；采集声音，跟踪声音来源，并捕捉声音来源地；在场景图像上聚焦声音来源地，并放大声音来源地的图像；显示声音来源地的图像。

其中，较佳方案是，所述图像显示方法还包括以下步骤：实时获取场景的全景图像。

其中，较佳方案是，所述图像显示方法还包括以下步骤：设置麦克风阵列，使麦克风均匀分布在场景中；实时获取麦克风采集的声音，并即时跟踪声音来源，捕捉声音来源地。

其中，较佳方案是，所述图像显示方法还包括以下步骤：实时获取麦克风采集的多个声音，并即时跟踪多个分别与声音相对应的声音来源，捕捉多个分别与声音来源相对应的声音来源地。

其中，较佳方案是，所述图像显示方法还包括以下步骤：在全景图像上聚焦多个声音来源地，并放大每一声音来源地的图像。

其中，较佳方案是，所述图像显示方法还包括以下步骤：同一显示画面划分多个显示区域，每一显示区域分别显示相对应的声音来源地的图像。

其中，较佳方案是，所述图像显示方法还包括以下步骤：同一显示画面平均划分多个显示区域。

其中，较佳方案是，所述图像显示方法还包括以下步骤：根据声音来源地获取位置信息；显示区域显示声音来源地的图像，同时显示相对应的位置信息。

其中，较佳方案是，所述图像显示方法还包括以下步骤：根据声音来源地获取人物信息；显示区域显示声音来源地的图像，同时显示相对应的人物信息。

本发明还提供一种基于声音追踪的图像显示系统，所述图像显示系统用于实现如上所述的图像显示方法，所述图像显示系统包括处理器、图像获取单元、声音获取单元和显示单元，所述处理器分别与图像获取单元、声音获取单元和显示单元连接；其中，所述处理器控制图像获取单元获取场景图像；所述处理器控制声音获取单元采集声音，所述处理器跟踪声音来源，并捕捉声音来源地；所述处理器在场景图像上聚焦声音来源地，并放大声音来源地的图像；所述处理器控制显示单元显示声音来源地的图像。

本发明的有益效果在于，与现有技术相比，本发明通过设计一种基于声音追踪的图像显示方法以及系统，预先获取场景图像，再根据采集的声音追踪声音来源，随后，在场景图像上找出声音来源地的图像，并显示声音来源地的图像，由于预先已知清晰的场景图像，在得知声音来源之后即可立即在场景图像中聚焦声音来源地，无需得知声音来源之后再去拍摄图像，从而可快速准确地显示声音来源地的图像，并且保证图像足够清晰；另外，场景图像为全景图像，保证能够采集到场景内的每一细节，从而保证后续一定能在场景图像中找出声音来源地的图像。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明图像显示方法的流程框图；

图2是本发明获取场景图像的流程框图；

图3是本发明采集声音的流程框图；

图4是本发明采集多个声音的流程框图；

图5是本发明放大多个声音来源地的图像的流程框图；

图6是本发明划分显示区域的流程框图；

图7是本发明平均划分显示区域的流程框图；

图8是本发明显示位置信息的流程框图；

图9是本发明显示人物信息的流程框图。

具体实施方式

现结合附图，对本发明的较佳实施例作详细说明。

如图1至图9所示，本发明提供一种基于声音追踪的图像显示方法的优选实施例。

具体地，参考图1，一种基于声音追踪的图像显示方法，所述图像显示方法包括以下步骤：

s1、获取场景图像；

s2、采集声音，跟踪声音来源，并捕捉声音来源地；

s3、在场景图像上聚焦声音来源地，并放大声音来源地的图像；

s4、显示声音来源地的图像。

其中，先通过图像获取单元获取场景图像，所述图像获取单元可为相机。再通过声音获取单元采集在场景中至少一个位置所发出的声音，所述声音获取单元可为麦克风，此时，同步通过扬声器播放声音；处理器再顺着采集的声音跟踪声音来源，并捕捉声音来源地，所述声音来源地即是发出声音的位置。随后，处理器在获取的场景图像中聚焦声音来源地，并放大声音来源地的图像。最后，显示单元显示放大后声音来源地的图像，所述显示单元可为独立的显示屏，从而听取声音时，通过观察图像，可同时得知声音是从何处发出的。由于预先已知清晰的场景图像，在得知声音来源之后即可立即在场景图像中聚焦声音来源地，从而可快速准确地显示声音来源地的图像，并且保证图像足够清晰。当场景中人员过多时，若是得知声音来源之后再去拍摄图像，无法快速准确拍摄声音来源地的图像。

值得一提的是，可以预先设有一分贝阈值，当采集的声音的分贝超过分贝阈值时，再跟踪声音来源，并捕捉声音来源地。在场景中可能发出过多不必要的声音，如此一来，可排除该类声音，避免显示不必要的声音来源地的图像，即可提高图像显示的效率。

举一具体例子：在进行会议时，获取会议的场景图像，当有发言人发出声音时，由于在会议场地中一般较静，只有发言人的声音能超过分贝阈值，此时可同步采集发言人发出的声音，跟踪声音来源，并捕捉到声音来源地，即是发言人所在位置。发言人的声音同时通过扬声器播放。随后，在场景图像中聚焦声音来源地，并放大声音来源地的图像，安装在会议场景中的大型显示屏可显示声音来源地的图像，即是显示发言人所在位置的图像，则参会人员可将注意力集中到发言人身上，并认真倾听发言人所发表的言论。

具体地，参考图2，所述图像显示方法还包括以下步骤：

s11、实时获取场景的全景图像。

其中，先在场景中设有全景相机，再通过全景相机实时获取场景的全景图像，保证拍摄到场景的每一位置。当然，也可以在场景中设有朝向不同角度的多个高清相机，所有相机合起来能够拍摄到覆盖360度的图像。以及，根据具体情况而言，也可以并非实时传输场景图像，可以提前拍摄一张场景图像，后续一直都是使用该张场景图像，在该张场景图像中聚焦声音来源地。

再具体地，参考图3，所述图像显示方法还包括以下步骤：

s21、设置麦克风阵列，使麦克风均匀分布在场景中；

s22、实时获取麦克风采集的声音，并即时跟踪声音来源，捕捉声音来源地。

其中，先在场景中设有麦克风阵列，所述麦克风阵列包括多个排列均匀的麦克风，保证能够采集到在场景中的所有发出的声音。随后，实时获取麦克风采集的声音，并在采集到声音时立即跟踪声音来源，捕捉到声音来源地。

更具体地，参考图4，所述图像显示方法还包括以下步骤：

s221、实时获取麦克风采集的多个声音，并即时跟踪多个分别与声音相对应的声音来源，捕捉多个分别与声音来源相对应的声音来源地。

其中，当在场景中所发出的声音有多个时，麦克风阵列的麦克风可同步采集所有声音，处理器实时获取麦克风采集的多个声音，并同时判断分贝超出分贝阈值的声音有哪些，即时跟踪每一分贝超出分贝阈值的声音相对应的声音来源，并捕捉所有与声音来源相对应的声音来源地。

进一步地，参考图5，所述图像显示方法还包括以下步骤：

s31、在全景图像上聚焦多个声音来源地，并放大每一声音来源地的图像。

其中，当处理器判断分贝超出分贝阈值的声音有多个时，在实时获取的全景图像上聚焦每一声音相对应的声音来源地，并放大每一声音来源地的图像，显示单元再显示每一声音来源地的图像。

具体地，参考图6，所述图像显示方法还包括以下步骤：

s41、同一显示画面划分多个显示区域，每一显示区域分别显示相对应的声音来源地的图像。

其中，当放大多个声音来源地的图像时，在同一显示单元上划分多个显示区域，并且显示区域的数量与声音来源地的图像的数量相对应，每一显示区域分别显示相对应的声音来源地的图像。如此一来，只需观看一个显示单元上的画面，即可获取所有声音来源地的图像。当然，也可以设有多个显示单元，显示单元要保证数量足够多，再在显示单元上显示声音来源地的图像，并且每一显示单元只显示一个声音来源地的图像。

其中，参考图7，所述图像显示方法还包括以下步骤：

s411、同一显示画面平均划分多个显示区域。

其中，根据声音来源地的图像的数量，在同一显示单元上的同一显示画面平均划分多个显示区域。例如，当声音来源地的图像有四个时，在显示单元上平均划分四个显示区域，并且每一显示区域分别显示相对应的声音来源地的图像。平均划分的方式，便于人们观察图像。当然，也可以设置为，在同一显示单元上的同一显示画面根据重要性划分多个显示区域。例如，场景设为会议，会议的解答问题的答复者的显示区域较大，而提出问题的提问者的显示区域较小。

再具体地，参考图8，所述图像显示方法还包括以下步骤：

s23、根据声音来源地获取位置信息；

s42、显示区域显示声音来源地的图像，同时显示相对应的位置信息。

其中，处理器在捕捉到声音来源地后，即时获取声音来源地的位置信息。随后，显示区域显示声音来源地的图像时，同时在图像的下方显示相对应的位置信息。例如，场景设为会议，若是发言人坐在01排01列，在图像的下方也会同时显示01排01列的位置信息。如此一来，有助于参会人员得知发言人的具体位置。

更具体地，参考图9，所述图像显示方法还包括以下步骤：

s24、根据声音来源地获取人物信息；

s43、显示区域显示声音来源地的图像，同时显示相对应的人物信息。

其中，处理器在捕捉到声音来源地后，即时获取声音来源地的人物信息。随后，显示区域显示声音来源地的图像时，同时在图像的下方显示相对应的人物信息。例如，场景设为会议，若是发言人的姓名为张a，在图像的下方也会同时显示张a的人物信息。如此一来，有助于参会人员得知发言人的姓名或者其他相关信息。

本发明还提供一种基于声音追踪的图像显示系统的较佳实施例。

具体地，一种基于声音追踪的图像显示系统，所述图像显示系统用于实现如上所述的图像显示方法，所述图像显示系统包括处理器、图像获取单元、声音获取单元和显示单元，所述处理器分别与图像获取单元、声音获取单元和显示单元连接；其中，所述处理器控制图像获取单元获取场景图像；所述处理器控制声音获取单元采集声音，所述处理器跟踪声音来源，并捕捉声音来源地；所述处理器在场景图像上聚焦声音来源地，并放大声音来源地的图像；所述处理器控制显示单元显示声音来源地的图像。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改，等同替换，改进等，均应包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈洪军
技术所有人：深圳市明日实业有限责任公司
我是此专利的发明人

上一篇：一种新型抗菌耐候聚丙烯材料的制作方法
上一篇：一种星载APS相机数字域TDI加复线阵成像方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。