定向跟随人脸位置拾音的方法、装置、系统及存储介质与流程

文档序号：18940762发布日期：2019-10-23 01:08阅读：264来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及可视化对讲技术领域，具体地涉及一种定向跟随人脸位置拾音的方法、装置、系统及存储介质。

背景技术：

目前，在可视对讲系统中，可视对讲终端录制的音视频文件容易受到现场环境噪声的干扰，造成可视对讲过程中通话清晰度不够，甚至部分用于取证的可视对讲过程的音视频文件中音频信息含混不清，造成了一定程度的困扰。

技术实现要素：

本发明实施方式的目的是提供一种定向跟随人脸位置拾音的方法、装置、系统及存储介质，所述方法、装置、系统及存储介质可以在可视对讲的过程中提高音频文件信息的准确度。

为了实现上述目的，本发明实施方式提供一种定向跟随人脸位置拾音的方法，所述方法包括：

接收视频信息；

增强所述视频信息中人脸的位置的声音信号。

可选地，所述方法进一步包括：

采集视频信号；

识别所述视频信号中人脸的位置；

将所述视频信号和所述位置关联以形成所述视频信息；

将所述视频信息发出。

可选地，所述方法进一步包括：

采集声音信号；

将所述声音信号、所述视频信号和所述位置关联以形成所述视频信息；

所述增强所述视频信息中人脸的位置的声音信号具体包括：

抑制所述视频信息中非所述位置的声音信号和/或增强所述位置的声音信号。

另一方面，本发明还提供一种定向跟随人脸位置拾音的装置，所述装置包括：

网络通信模块，用于接收视频信息；

处理器，与所述网络通信模块连接，用于增强所述视频信息中人脸的位置的声音信号。

可选地，所述装置进一步包括：

视频采集模块，用于采集视频信号，识别所述视频信号中人脸的位置并将所述视频信号和所述位置关联以形成所述视频信息；

所述网络通信模块进一步用于将所述视频信息发出。

可选地，所述装置进一步包括：

声音采集阵列，用于采集声音信号；

所述处理器进一步用于将所述声音信号、所述视频信号和所述位置关联以形成所述视频信息；

抑制所述视频信息中非所述位置的声音信号和/或增强所述位置的声音信号。

再一方面，本发明还提供一种定向跟随人脸位置拾音的系统，所述系统包括多个定向跟随人脸位置拾音的装置，所述装置包括：

网络通信模块，用于接收其他所述装置发送的视频信息；

处理器，与所述网络通信模块连接，用于增强所述视频信息中人脸的位置的声音信号。

可选地，所述装置进一步包括：

视频采集模块，用于采集视频信号，识别所述视频信号中人脸的位置并将所述视频信号和所述位置关联以形成所述视频信息；

所述网络通信模块进一步用于将所述视频信息发送至其他所述装置。

可选地，所述装置进一步包括：

声音采集阵列，用于采集声音信号；

所述处理器进一步用于将所述声音信号、所述视频信号和所述位置关联以形成所述视频信息；

抑制所述视频信息中非所述位置的声音信号和/或增强所述位置的声音信号。

再一方面，本发明还提供一种存储介质，所述存储介质存储有指令，所述指令用于被机器读取以使得所述机器执行如上述任一所述的方法。

通过上述技术方案，本发明提供的定向跟随人脸位置拾音的方法、装置、系统及存储介质通过增强视频信息中人脸的位置的声音信号，减少了可视对讲过程中的干扰音频信号，提高了可视对讲过程中的音频信号的准确性。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是根据本发明的一个实施方式的定向跟随人脸位置拾音的方法的流程图；

图2是根据本发明的一个实施方式的定向跟随人脸位置拾音的方法的流程图；

图3是根据本发明的一个实施方式的定向跟随人脸位置拾音的方法的流程图；

图4是根据本发明的一个实施方式的定向跟随人脸位置拾音的装置的结构框图；

图5是根据本发明的一个实施方式的定向跟随人脸位置拾音的装置的结构框图；

图6是根据本发明的一个实施方式的定向跟随人脸位置拾音的装置的结构框图；

图7是根据本发明的一个实施方式的定向跟随人脸位置拾音的装置的结构框图；

图8是根据本发明的一个实施方式的定向跟随人脸位置拾音的系统的结构框图；

图9是根据本发明的一个实施方式的定向跟随人脸位置拾音的系统的结构框图；

图10是根据本发明的一个实施方式的定向跟随人脸位置拾音的系统的结构框图；以及

图11是根据本发明的一个实施方式的定向跟随人脸位置拾音的系统的结构框图。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施方式，并不用于限制本发明实施方式。

在本发明实施方式中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。

另外，若本发明实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示是根据本发明的一个实施方式的定向跟随人脸位置拾音的方法的流程图。在图1中，该方法可以包括：

在步骤s10中，接收视频信息。在该实施方式中，该视频信息的来源可以是例如通过有线和/或无线网络端传输的视频流数据。对于接收该视频信息的方式，可以是例如采用网络通信设备/装置接入有线/无线网络。

在步骤s11中，增强该视频信息中人脸的位置的声音信号。在该实施方式中，对于识别该视频信息中人脸的位置，可以是采用计算机算法来对视频信息中的人脸进行实时识别，从而确定人脸的位置，并进一步增强该人脸的位置的声音信号。另外，由于声音信号的传播的不确定性，在执行实时识别人脸的操作时，可以是每隔一个预定的时间周期来对人脸进行识别，这样可以减少设备的负载，同时，如果两个时间周期内人脸的位置处于预先划分的一个区域内的情况下，可以仍旧执行前一个时间周期内所增强的人脸的位置的声音信号的操作。

如图2所示是根据本发明的一个实施方式的定向跟随人脸位置拾音的方法的流程图。与图1中示出的方法的不同指出在于，在图2中，该方法可以进一步包括：

在步骤s20中，采集视频信号；

在步骤s21中，识别视频信号中人脸的位置；

在步骤s22中，将视频信号和位置关联以形成视频信息；

在步骤s23中，将视频信息发出。

由于在现有技术中，视频信息仅包含多帧的图像信息，那么在步骤s11中执行的增强该视频信息中人脸的位置的声音信号的操作就需要相对复杂的算法来实现（即上述所述的在播放视频信息时实时对人脸的位置进行捕捉并进一步增强声音信号的操作），这对设备的要求也相对较高。那么，在图2中，可以在采集视频信息时就直接将人脸的位置和视频信息进行关联，这样就可以使得在播放视频信息时，设备只需要对视频信息进行简单的解码就能够实现对人脸的捕捉。

进一步地，该方法也可以是如图3所示的流程。在图3中，该方法可以进一步包括：

在步骤s30中，采集声音信号。在该实施方式中，为了使得采集的声音信号与空间位置相关联，可以采用包括多个音频采集器的声音采集阵列来采集该声音信号。

在步骤s33中，将声音信号、视频信号和位置关联以形成视频信息；

在步骤s36中，抑制视频信息中非该位置的声音信号和/或增强位置的声音信号。

与图2中示出的方法类似，由于在现有技术中，视频信号和音频信号（声音信号）是两个独立的播放轨道，那么在识别/获取人脸的位置后，要增强该位置的声音信号就需要相对复杂的计算机算法对音频轨道进行处理，这就又提高了设备的负载。那么，在图3中，可以预先在采集视频信号和声音信号时将声音信号、视频信号和人脸的位置关联起来，从而使得在播放设备进行播放时，只需要进行简单的音频、视频解码就能够实现对人脸的捕捉以及声音信号的增强。另外，对于增强该声音信号的方式，在该图3中，可以是例如抑制视频信息中非该位置的声音信号和/或增强该位置的声音信号。另外，在识别视频信号中人脸的位置时，可以实时根据人脸眼部的动态和嘴唇说话时的动态进行定位，在人脸移动时再重新对人脸的坐标进行修正，同时实时将人脸的坐标信息传给声音采集阵列。声音采集阵列根据该人脸的坐标信息增强该坐标信息所表示的位置的声音信号或抑制非该位置的声音信号。

以人脸的位置在距离声音采集阵列1米、声音增强角度、人脸与声音采集阵列对应的指向角度均为35°为例，那么预设的声音采集增强距离可以为1m±0.3m，声音增强角度范围则可以定义为35°±3°，当说话人的人脸的位置超出这两项设定范围，则通过再次检测人脸在视频中的坐标位置，重新定义新的坐标。

另一方面，本发明还提供一种定向跟随人脸位置拾音的装置，如图4所示，该装置可以包括网络通信模块11和处理器20。

网络通信模块11可以用于接收视频信息；处理器20可以与该网络通信模块11连接，用于增强该视频信息中人脸的位置的声音信号。在该实施方式中，对于处理器如何识别该视频信息中人脸的位置，可以是采用预设的计算机算法来对视频信息中的人脸进行实时识别，从而确定人脸的位置，并进一步增强该人脸的位置的声音信号。

另外，由于声音信号的传播的不确定性，在执行实时识别人脸的操作时，可以是每隔一个预定的时间周期来对人脸进行识别，这样可以减少设备的负载，同时，如果两个时间周期内人脸的位置处于预先划分的一个区域内的情况下，可以仍旧执行前一个时间周期内所增强的人脸的位置的声音信号的操作。另外，在该实施方式中，在增强该音频信号之前，势必需要对该视频信息进行播放，那么该装置就势必包括视频播放模块，由于该视频播放模块以及播放该视频信息的操作为本领域人员所知，因此此处不再赘述。

如图5所示是根据本发明的一个实施方式的定向跟随人脸位置拾音的装置的结构框图。与图4中示出的定向跟随人脸位置拾音的装置的不同之处在于，在图5中，该装置可以进一步包括视频采集模块12。

视频采集模块12可以用于采集视频信号，识别该视频信号中人脸的位置并将该视频信号和位置关联以形成视频信息；

相应地，网络通信模块11可以进一步用于将该视频信息发出。由于在现有技术中，视频信息仅包含多帧的图像信息，在处理器执行的增强该视频信息中人脸的位置的声音信号的操作就需要相对复杂的算法来实现（即上述所述的在播放视频信息时实时对人脸的位置进行捕捉并进一步增强声音信号的操作），这对设备的要求也相对较高。那么，在图5示出的装置中，可以在采集视频信息时就直接将人脸的位置和视频信息进行关联，这样就可以使得在播放视频信息时，视频播放模块只需要对视频信息进行简单的解码就能够实现对人脸的捕捉。

类似地，该装置也可以是例如图6所示出的结构。在图6中，该装置可以进一步包括声音采集阵列13。

声音采集阵列13可以由多个音频采集器构成，用于采集声音信号并同时识别不同位置的声音来源。

相应地，处理器20可以进一步用于将该声音信号、视频信号和位置关联以形成视频信息，并抑制视频信息中非位置的声音信号和/或增强位置的声音信号。与图2中示出的方法类似，由于在现有技术中，视频信号和音频信号（声音信号）是两个独立的播放轨道，那么在识别/获取人脸的位置后，要增强该位置的声音信号就需要相对复杂的计算机算法对音频轨道进行处理，这就又提高了设备的负载。那么，在图6中，处理器20可以预先在采集视频信号和声音信号时将声音信号、视频信号和人脸的位置关联起来，从而使得在播放设备进行播放时，只需要进行简单的音频、视频解码就能够实现对人脸的捕捉以及声音信号的增强。另外，对于增强该声音信号的方式，在该图6中，可以是例如抑制视频信息中非该位置的声音信号和/或增强该位置的声音信号。

此外，如图7所示，该装置还可以包括例如包括电源输入接口（例如poe供电）、短路输入接口、短路输出接口、第三方音频存储输出接口等的外部接口模块14。

再一方面，本发明还提供一种定向跟随人脸位置拾音的系统，该系统可以用于可视化对讲，如图8所示，该系统可以包括多个用于定向跟随人脸位置拾音的装置，每个装置可以包括网络通信模块11和处理器20。

网络通信模块11、可以，用于接收其他装置（的网络通信模块11）发送的视频信息。

处理器20可以与该网络通信模块11连接，用于增强视频信息中人脸的位置的声音信号。这样使得在进行可视化对讲时，精准提高对讲人发出的声音信号，减少周围的杂音干扰。

与图5中类似地，如图9所示，每个装置可以进一步包括视频采集模块12。该视频采集模块12可以用于采集视频信号，识别该视频信号中人脸的位置并将该视频信号和位置关联以形成视频信息。相应地，网络通信模块11可以进一步用于将该视频信息发送至其他装置。

如图10所示，在本发明的一个实施方式中，每个装置可以进一步包括声音采集阵列13。声音采集阵列13可以由多个音频采集器构成，用于采集声音信号，并同时识别不同位置的声音的来源。处理器20可以进一步用于将声音信号、视频信号和位置关联以形成视频信息；，并抑制视频信息中非位置的声音信号和/或增强位置的声音信号。通过这样的方式可以使得在该系统用于可视化对讲时，设备可以实时将人员所在的视频画面中的位置的声音信号增强，从而避免了外部杂音的干扰，在提高可视化对讲的体验的同时，也提高了音频信号的准确性。

在本发明的一个实施方式中，如图11所示，每个装置还可以包括例如包括电源输入接口（例如poe供电）、短路输入接口、短路输出接口、第三方音频存储输出接口等的外部接口模块14。

再一方面，本发明还提供一种存储介质，该存储介质可以存储有指令，该指令可以用于被机器读取以使得机器执行如上述任一的方法。

以上结合附图详细描述了本发明例的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个（可以是单片机，芯片等）或处理器（processor）执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-onlymemory）、随机存取存储器（ram，randomaccessmemory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施方式的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余求理;李国文
技术所有人：长沙世邦通信技术有限公司
我是此专利的发明人

上一篇：数据处理方法、装置、计算机设备及存储介质与流程
上一篇：一种氮-硫掺杂绿色荧光碳点的制备方法及应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。