一种基于图像分析技术的自动监听方法装置与流程

文档序号：17844535发布日期：2019-06-11 21:35阅读：215来源：国知局

本发明涉及一种监听方法及装置，更具体涉及一种基于图像分析技术的自动监听方法及装置。

背景技术：

为了在能够获取视频探头拍摄的视频对应的音频信号，通常为视频探头匹配设置一个或者多个音频探头，常用的设置方式有在视频探头上设置音频探头。前者由于音频探头的作用距离有限，音频探头获取的音频信号不能很好的与视频图像匹配。

为了能够将音频数据与视频数据进行匹配，专利(cn108965832a)公开了一种拾音系统音频监控方法及装置，包括前端拾音设备，该前端拾音设备包括按需分布在现场不同位置的多个拾音器；拾音器网关，用于将所述音频信号进行识别、优化处理、id分配；交换机，该交换机连接在拾音器网关与电脑服务器之间，用于传输所述拾音器网关处理后的音频信号；电脑服务器，用于按id存储、管理所述前端拾音设备采集的音频信号。通过拾音器网关将各种类型的拾音器信号进行实时转换，并编制入网id将接入的拾音器映射至服务器管理软件，结合视频监控实现目标位置的音频监控与视频监控组配，可选取优质高清的录音输出与视频相结合，从而解决了前端拾音器相互独立资源不统一以及视频信号与音频信号匹配单一的技术问题。

但是，现有技术中仅仅是将音频信号与设定的单一视频信号进行匹配，导致现有技术存在不能从多个音频信号以及多个视频信号中筛选出匹配的音视频进行匹配的技术问题。

技术实现要素：

本发明所要解决的技术问题在于提供了一种基于图像分析技术的自动监听方法及装置，以进行多个音频信号与多个视频信号中的匹配的音视频的匹配。

本发明是通过以下技术方案解决上述技术问题的：

本发明实施例提供了一种基于图像分析技术的自动监听方法，应用于自动监听系统，所述系统包括：若干个视频探头以及分布于所述若干个视频探头的拍摄范围内的若干个音频探头，所述方法包括：

获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像；

利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据；

将所述目标音频数据与所述目标的图像进行合成处理。

可选的，所述获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像，包括：

利用图像识别技术解析出目标的识别特征或者接收输入的目标的识别特征根据所述目标的识别特征，从各个视频探头所拍摄的视频图像中匹配出所述目标；

将匹配于所述目标的视频探头移动至所述目标位于所拍摄的图像中心时所对应的角度，并将所述视频探头聚焦在所述目标上；进而利用图像处理技术获取所述目标的图像。

可选的，所述从各个视频探头所拍摄的视频图像中匹配出所述目标，包括：

针对每一视频探头，扫描所述视频探头的在不同焦距时的所有视频图像，利用图像识别技术从所述所有视频图像中匹配出目标。

可选的，所述匹配于所述目标的视频探头，包括：

离所述目标最近的视频探头、拍摄清晰度最高的视频探头、拍摄光照条件最好的视频探头中的一种或组合。

可选的，所述利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据，包括：

根据所述目标的图像对应的视频探头的焦距、所述目标的尺寸以及参考物的尺寸中的一种或者组合，确定所述目标的当前位置；

根据所述目标的当前位置，获取离所述当前位置最近的或者拾音效果最好的音频探头的标识信息，并根据所述音频探头的标识信息获取对应于所述目标的目标音频数据。

本发明实施例提供了一种基于图像分析技术的自动监听装置，应用于自动监听系统，所述系统包括：若干个视频探头以及分布于所述若干个视频探头的拍摄范围内的若干个音频探头，所述装置包括：

获取模块，用于获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像；

利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据；

合成模块，用于将所述目标音频数据与所述目标的图像进行合成处理。

可选的，所述获取模块，用于：

针对每一视频探头，扫描所述视频探头的在不同焦距时的所有视频图像，利用图像识别技术从所述所有视频图像中匹配出目标。

可选的，所述获取模块，用于：

离所述目标最近的视频探头、拍摄清晰度最高的视频探头、拍摄光照条件最好的视频探头中的一种或组合。

可选的，所述获取模块，用于：

根据所述目标的图像对应的视频探头的焦距、所述目标的尺寸以及参考物的尺寸中的一种或者组合，确定所述目标的当前位置；

本发明相比现有技术具有以下优点：

应用本发明实施例，通过图像识别技术识别出各个视频探头中的目标的图像，进而利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据，进而可以实音视频的匹配合成，相对于现有技术中仅将音频合成至视频中，本发明实施例可以根据监控指令从多个视频探头的图像中筛选出目标的图像，进而对目标的图像进行视频合成处理，实现了多个音频信号与多个视频信号中的匹配的音视频的匹配。

附图说明

图1为本发明实施例提供的一种基于图像分析技术的自动监听方法的流程示意图；

图2为本发明实施例提供的一种基于图像分析技术的自动监听装置的架构图；

图3为本发明实施例提供的一种基于图像分析技术的自动监听装置的结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了一种基于图像分析技术的自动监听方法及装置，下面首先就本发明实施例提供的一种基于图像分析技术的自动监听方法进行介绍。

实施例1

图1为本发明实施例提供的一种基于图像分析技术的自动监听方法的流程示意图，如图1所示，应用于自动监听系统，所述系统包括：若干个视频探头以及分布于所述若干个视频探头的拍摄范围内的若干个音频探头，所述方法包括：

s101：获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像。

示例性的，用户通过管理平台输入目标的识别特征，如体貌特征、步态特征、衣着特征等特征。管理平台根据识别特征从所控制的n个视频探头所拍摄的图像中进行筛选，例如，筛选出第4个视频探头拍摄的图像中包含目标，则获取第4个视频探头拍摄的视频图像作为目标的图像。

视频探头所拍摄的视频可以为，视频探头在当前时刻之前拍摄的视频图像，也可以是视频探头在当前时刻，或者当前时间段内拍摄的视频图像。

在实际应用中，筛选出的视频探头的数量可以为两个或者两个以上，进一步的，可以将筛选出来的两个或者两个以上的视频探头的视频图像均作为所获取的目标的图像；或者将两个或者两个以上的视频探头中拍摄角度最佳、拍摄距离最近、拍摄光照条件最好的视频探头所拍摄的视频图像作为所获取的目标的图像。

s102：利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据。

示例性的，利用图像识别算法中的目标测距方法、透视算法、深度学习算法、神经网络算法等获取目标的当前的位置。

以当前位置为中心，获取距离该位置最近的音频探头，根据该音频探头对应标识信息，获取对应于该标识信息的音频数据，并将该音频数据作为目标音频数据。

s103：将所述目标音频数据与所述目标的图像进行合成处理。

将目标音频数据与第4个视频探头拍摄的视频图像进行合成处理。

需要说明的是，图2为本发明实施例提供的一种基于图像分析技术的自动监听装置的架构图，如图2所示，本发明实施例中的视频探头对应图2中摄像机，音频探头对应图2中的拾音器。

应用本发明图1所示实施例，通过图像识别技术识别出各个视频探头中的目标的图像，进而利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据，进而可以实音视频的匹配合成，相对于现有技术中仅将音频合成至视频中，本发明实施例可以根据监控指令从多个视频探头的图像中筛选出目标的图像，进而对目标的图像进行视频合成处理，实现了多个音频信号与多个视频信号中的匹配的音视频的匹配。

实施例2

s101：获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像。

可以利用图像识别技术解析出目标的识别特征或者接收输入的目标的识别特征根据所述目标的识别特征，从各个视频探头所拍摄的视频图像中匹配出所述目标；将匹配于所述目标的视频探头移动至所述目标位于所拍摄的图像中心时所对应的角度，并将所述视频探头聚焦在所述目标上；进而利用图像处理技术获取所述目标的图像。

示例性的，用户通过管理平台输入目标的识别特征，如体貌特征、步态特征、衣着特征等特征。然后，根据识别特征从所控制的n个视频探头所拍摄的图像中进行筛选，例如，筛选出第4个视频探头拍摄的图像中包含目标，则移动第4个视频探头，直至目标位于视频探头所拍摄的视频图像的中心部位，然后调整视频探头的焦距，直至呈现出最清楚的目标图像，然后将此种状态下拍摄的目标的图像作为所获取的用于进行音视频合成的图像。

应用本发明上述实施例，调整视频探头直至目标位于图像的中心部位，可以表面视频探头的透镜的球差、色散等缺陷的干扰，可以将最清晰的目标的图像与音频进行合成。

s102：利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据。

示例性的，利用图像识别算法中的目标测距方法、透视算法、深度学习算法、神经网络算法等获取目标的当前的位置。

s103：将所述目标音频数据与所述目标的图像进行合成处理。

将目标音频数据与第4个视频探头拍摄的视频图像进行合成处理。

实施例3

s101：获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像。

具体的，可以针对每一视频探头，扫描所述视频探头的在不同焦距时的所有视频图像，利用图像识别技术从所述所有视频图像中匹配出目标。

示例性的，用户通过管理平台输入目标的识别特征，如体貌特征、步态特征、衣着特征等特征。管理平台根据识别特征从所控制的n个视频探头所拍摄的图像中进行筛选，以第1个视频探头为例，

在第1个视频探头的焦距范围内，从焦距的最小值调节到焦距的最大值，从第1个视频探头的最左侧转动到最右侧，从第1个视频探头的最上侧转动到最下侧，以使第1个视频探头在自身的焦距范围内、高度角范围内、方位角范围内进行拍摄，根据目标的识别特征，获取所拍摄的视频图像中包含的目标，进而筛选出第1个视频探头在某一高度角、某一方位角以及焦距时拍摄的目标的图像。

可以理解的是，其他视频探头的视频图像的筛选与上述方法类似，本发明实施例在此不再赘述。应用本发明上述实施例，可以进行视频图像的全面筛选，避免遗漏。

s102：利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据。

示例性的，利用图像识别算法中的目标测距方法、透视算法、深度学习算法、神经网络算法等获取目标的当前的位置。

s103：将所述目标音频数据与所述目标的图像进行合成处理。

将目标音频数据与第4个视频探头拍摄的视频图像进行合成处理。

实施例4

s101：获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像。

示例性的，用户通过管理平台输入目标的识别特征，如体貌特征、步态特征、衣着特征等特征。管理平台根据识别特征从所控制的n个视频探头所拍摄的图像中进行筛选，筛选出离所述目标最近的视频探头、拍摄清晰度最高的视频探头、拍摄光照条件最好的视频探头中的一种或组合，例如，筛选出第4个视频探头拍摄的图像中包含目标，则获取第4个视频探头拍摄的视频图像作为目标的图像。

s102：利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据。

示例性的，利用图像识别算法中的目标测距方法、透视算法、深度学习算法、神经网络算法等获取目标的当前的位置。

需要强调的是，获取所述目标的当前位置的方法可以为现有技术。

s103：将所述目标音频数据与所述目标的图像进行合成处理。

将目标音频数据与第4个视频探头拍摄的视频图像进行合成处理。

实施例5

s101：获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像。

s102：利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据。

示例性的，利用图像识别算法中的目标测距方法、透视算法、深度学习算法、神经网络算法等，根据所述目标的图像对应的视频探头的焦距、所述目标的尺寸以及参考物的尺寸中的一种或者组合，确定所述目标的当前位置；

以当前位置为中心，获取离所述当前位置最近的或者拾音效果最好的音频探头的标识信息，并根据所述音频探头的标识信息获取对应于所述目标的目标音频数据，并将该音频数据作为目标音频数据。

s103：将所述目标音频数据与所述目标的图像进行合成处理。

将目标音频数据与第4个视频探头拍摄的视频图像进行合成处理。

与本发明图1所示实施例相对应，本发明实施例还提供了一种基于图像分析技术的自动监听装置。

图3为本发明实施例提供的一种基于图像分析技术的自动监听装置的结构示意图；图2为本发明实施例提供的一种基于图像分析技术的自动监听装置的架构图，如图3和图2所示，该装置，应用于自动监听系统，所述系统包括：若干个视频探头以及分布于所述若干个视频探头的拍摄范围内的若干个音频探头，所述装置包括：

获取模块301，用于获取目标的识别特征，利用图像识别技术从所述视频探头所拍摄的视频中获取目标的图像；

利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据；

合成模块302，用于将所述目标音频数据与所述目标的图像进行合成处理。

应用本发明图3所示实施例，通过图像识别技术识别出各个视频探头中的目标的图像，进而利用图像识别算法获取所述目标的当前位置，并根据所述目标所处的当前位置，获取对应所述当前位置的当前音频探头所采集的目标音频数据，进而可以实音视频的匹配合成，相对于现有技术中仅将音频合成至视频中，本发明实施例可以根据监控指令从多个视频探头的图像中筛选出目标的图像，进而对目标的图像进行视频合成处理，实现了多个音频信号与多个视频信号中的匹配的音视频的匹配。

在本发明实施例的一种具体实施方式中，所述获取模块301，用于：

针对每一视频探头，扫描所述视频探头的在不同焦距时的所有视频图像，利用图像识别技术从所述所有视频图像中匹配出目标。

在本发明实施例的一种具体实施方式中，所述获取模块301，用于：

离所述目标最近的视频探头、拍摄清晰度最高的视频探头、拍摄光照条件最好的视频探头中的一种或组合。

在本发明实施例的一种具体实施方式中，所述获取模块301，用于：

根据所述目标的图像对应的视频探头的焦距、所述目标的尺寸以及参考物的尺寸中的一种或者组合，确定所述目标的当前位置；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李洁;赵前进;张顺香
技术所有人：安徽理工大学
我是此专利的发明人

上一篇：一种混合气体净化分离回收系统的制作方法
上一篇：一种高速公路通行卡及其通信方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。