一种定位录音的方法及装置与流程

文档序号：15847832发布日期：2018-11-07 09:21阅读：1728来源：国知局

本发明涉及音视频处理领域，特别涉及一种定位录音的方法及装置。

背景技术

随着网络app的兴起，音视频直播成为了一项非常火爆的产业，目前多数移动终端都具备录音功能，如手机、平板电脑、音乐播放器以及专业的录音笔等，以满足用户在生活以及工作中的录音需求。

用户在使用移动终端的录音功能时，录音环境往往会存在各种环境噪音，而目前市场上的手机或其它手持终端在摄像中采用的录音技术，都是只用一个mic来采集摄像时的环境声音来作为摄像视频的伴音；或是有多个mic来采集摄像时的多方向的环境声音信号，然后对多路声音信号进行简单的合成来作为摄像视频的伴音。这两种方案得到的视频伴音都会存在一些摄像者不希望采集的环境噪声，无法定向的录制摄像者指定方向上的声音，影响录音效果。

针对该问题，现有技术中存在一种定向录音方式，利用手持终端上的两个对向mic和一组摄像头进行录像录音，选择背离摄像头的mic采集的录音信号作为消噪的参考音频信号，将摄像头一侧的mic采集的录音信号中符合该参考音频信号的频率去除，以达到摄像中定向录音的目的，但此种方式通过摄像头一侧的麦克风录进的声音中仍然存在环境中所有的声音，会由于其他声源的声音干扰而无法听清目标声源的声音，比如：当将此方式应用于主播模式下时，该录音方式没有区分主播者的声音和背景音乐或背景噪音，当主播者没有靠近录音设备表演时，主播者的声音会被背景音乐或背景噪声干扰，导致人声不够响亮或不够清晰，影响最终录音效果，该方式无法实现对目标声源的定位录音，给用户带来不便。

技术实现要素：

有鉴于此，本发明实施例的目的是提供一种定位录音的方法及装置，以解决现有定向录音装置中无法对目标声源定位录音的问题。

根据第一方面，本发明第一实施方式中提供了一种定位录音的方法，包括：获取目标声源的图像信息；根据所述图像信息获取目标声源的位置信息；获取多路录音信息；根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息；对所述目标声源的声音信息进行处理。

通过采用上述技术方案，可以实现目标声源位置方向上的定位录音，使得在录音模式下，无论目标声源的位置如何移动，录音装置都能够直接识别目标声源的声音，以获得更好的录音效果。

结合第一方面，在第一方面第一实施方式中，所述根据所述图像信息获取目标声源的位置信息包括：提取所述图像信息中目标声源的方向信息和景深信息；根据所述方向信息和景深信息计算所述目标生源的位置信息。通过上述方法能够得到目标声源的位置。

结合第一方面，在第一方面第一实施方式中，所述多路录音信息包括至少三路。通过所述多路录音信息能够收集包括目标声源在内的所有声源信息。

结合第一方面，在第一方面第二实施方式中，所述根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息包括：获取所述多路录音信息中各路录音信息的相位和信号幅度；通过比对上述各路录音信息的相位和信号幅度差异，获取多路录音信息中所有声源的位置信息；将获取的所述声源的位置信息与根据所述图像信息获取的目标声源的位置信息进行对比，识别出所述多路录音信息中目标声源的信息。通过上述方法能够识别出多路录音信息中来自目标声源的声音信息，实现对目标声源声音的定位。

结合第一方面，在第一方面的上述实施方式中，对所述目标声源的声音信息进行处理包括：对所述目标声源的声音信息进行增强，得到第一录音信息；和/或对所述录音信息中目标声源的声音信息以外的其他声源信息进行削弱，得到第二录音信息。通过上述处理，能够突出所述录音信息中目标声源的声音信息，增强对目标声源的定位录音效果。

结合第一方面，在第一方面上述实施方式中，还包括根据所述第一录音信息和所述第二录音信息生成录音文件，以获得定位录音的音频文件。

结合第一方面，在第一方面上述实施方式中，还包括将所述录音文件与其对应的视频信号进行同步合成，以获取定位录音的音频视频文件。

根据第二方面，本发明实施例提供了一种定位录音装置，所述装置包括：图像信息获取模块，用于获取目标声源的图像信息；位置信息获取模块，用于根据所述图像信息获取目标声源的位置信息；录音信息获取模块，用于获取多路麦克风的录音信息；目标声源声音信息确定模块，用于根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息；声音信息处理模块，用于对所述目标声源的声音信息进行处理。

通过采用上述技术方案，提供了一种可以实现目标位置方向上的定位录音的装置，该装置能够实施上述对目标声源的定位录音方法，使得在录音模式下，无论目标声源的位置如何移动，录音装置都能够直接识别目标声源的声音，以获得更好的录音效果。

结合第二方面，在第二方面第一实施方式中，所述位置信息获取模块包括：方向接收模块，被配置为根据所述目标声源的图像信息获取目标声源的位置方向；景深参数获取模块，被配置为根据所述目标声源的图像信息获取目标声源的景深信息。通过上述位置信息获取模块能够得到目标声源的位置。

结合第二方面，在第二方面第二实施方式中，所述目标声源声音信息确定模块包括：相位和信号幅度获取模块；多路录音信息声源位置信息获取模块；目标声源信息识别模块。通过使用该模块对多路录音信息进行比对分析，识别出来自目标声源的声音信息。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明实施例一提供的一种定位录音的方法的流程示意图；

图2为本发明实施例二提供的一种定位录音的方法中识别录音信息中目标声源的声音信息的流程示意图；

图3为本发明实施例三提供的一种定位录音的装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种定位录音的方法的流程示意图，该方法可以由定位录音的装置执行，其中该装置可由软件和硬件实现，一般可集成在移动终端中，本实施例中的移动终端具体可为手机、平板电脑和录音笔等终端设备。

如图1所示，该方法包括：

步骤101、获取目标声源的图像信息。

可以通过集成在移动终端上的摄像头来获取目标声源的图像信息，目标声源就是发出目标声音的人或物，目标声音是当前场景下希望录制的声音，根据录音的场景来确定，例如在直播过程中，直播者的嘴巴就是目标声源；在乐器演奏过程中，被奏乐的乐器就是目标声源。通过集成在移动终端上的摄像头，来拍摄目标声源的图像，这样就获得了目标声源的图像信息。示例性的，可以通过摄像头的人脸识别或人体轮廓识别，得到目标声源的图像信息。

步骤102、根据所述图像信息获取目标声源的位置信息。

在拍摄的目标声源的图像信息中，通过图像识别可以识别出目标声源，然后根据图像中目标声源所在的位置以及拍摄图像的移动终端所在的位置，移动终端与目标声源的距离，就可以获得目标声音的位置信息。例如在主播模式下直播的过程中，移动终端所在的位置为参考坐标，移动终端拍摄的直播者的图像中，直播者位于移动终端正后方30厘米的位置，这样就得到了目标声源的位置信息。通过图像处理的方式可以获得拍摄的摄像头与拍摄物体的距离，具有功能的测距相机也可以获得被拍摄物与摄像头的位置关系。在其他的实施方式中，也可以通过激光测距、红外测距等方式，得到拍摄目标与摄像头之间的距离。

示例性的，所述图像信息获取目标声源的位置信息可以包括：提取所述图像信息中目标声源的方向信息和景深信息；进而根据所述方向信息和景深信息计算所述目标生源的位置信息。

步骤103、获取多路录音信息。

此处的多路录音信息至少包括两路，通过位于不同位置的多个麦克风组成的麦克风阵列录音。当用户操作移动终端开始录音时，可自动开启移动终端中的全部或者部分麦克风，并控制开启的麦克录音，获取所开启的麦克风中的至少两个麦克风的录音信号。

通过位于不同位置不同角度的多个麦克风，可以将某一方向传来的声音增强或抑制。利用这种方法，麦克风阵列可以将噪声环境中特定声音信号有效的增强，具有很好的抑制噪声和语音增强的能力，又不需要麦克风时刻指向声源方向。实际录音过程中，可以根据实际录制的需要选择合适的用于录音的麦克风数目，麦克风越多越容易实现更好的降噪和语音增强效果。对于对目标声源定位要求较高的录音模式，比如主播模式下移动的目标声源，优选三个以上的麦克风阵列，以做到更全更广角度范围内的定位，从而实现对目标声源的更为精准的定位录音。

步骤104、根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息。

示例性的，当通过麦克风阵列获取多路录音信息时，因为麦克风摆放位置的不同，所以，对于一个方向上声源来说，其发出的声音到达每个麦克风的时间会有所区别，同一声源发出的声音到达不同的麦克风的时间和距离也都有差异，麦克风所采集到的声音信号的强度也不同，由此产生了不同的相位和信号幅度，这些差异因为声源的位置不同会体现出不同的差异。当声源与麦克风的直线距离相对较近时，声音到达该麦克风的时间会相对较早，声音信号的强度也相对较强；当声源与麦克风的直线距离相对较远时，声音到达该麦克风的时间会相对较晚，声音信号的强度也相对较弱。因此，可以根据上述原理对步骤103中获取的至少两路以上的录音信息进行分析，可以判断出声源相对麦克风阵列的角度和距离，结合步骤102中确定的目标声源的位置进行对比，确定出所述录音信息中哪个声源的信息是来自目标声源的声音，即从多路录音信息中识别出来自目标声源的声音信息

步骤105、对所述目标声源的声音信息进行处理。

得到目标声源的声音信息后，目标声源的声音信息是希望录制的声音，可以在多路录音信息中，进一步增强目标声源的声音信息后进行录音，这样做可提高录音文件中目标声源的声音强度以及响度等属性，增强对目标声源的声音定位录音效果。

作为其他可以替换的实施方式，在步骤105中，还可以通过保留目标声源的声音信息，但是对目标声源的声音以外的其他声源的声音信息进行削弱后进行录音，这样做能够突出目标声源的声音信息，增强对目标声源的声音定位录音效果。

或者也可以通过即对目标声源的声音信息进行增强，也对目标声源以外的其他录音方向上声源的声音信息进行削弱后再进行录音。这样做可以最大限度去除目标声源以外的其他录音方向上声源的声音对目标声源声音的干扰，即相当于滤除了目标声源以外的其他录音方向上声源的声音，可保证目标声源的声音清晰，获得更好的录音效果。

对目标声源的声音信息进行增强以及对目标声源以外的其他声源的声音信息进行削弱可以通过增强目标声源的声音信息的增益或降低所述非目标声源的声音信息的增益来实现，其中，增益提升或降低的幅度可由系统默认设置，也可由用户自行设置。例如，可设置提升系数和降低系数，通过对两个系数的配合调节，可实现根据具体情况保留除目标声源方向以外的其他录音方向上的声音的比重，进而避免一些失真声音的产生。

在步骤105之后还可以包括根据对目标声源的声音信息进行增强得到的第一录音信息和/或对目标声源以外的其他声源的声音信息进行削弱得到的第二录音信息生成录音文件，以获得定位录音的音频文件的步骤。

在上述步骤之后，还可以包括将上述录音文件与其对应的视频信号进行同步合成，以获取定位录音的音频视频文件。

本发明实施例一提供的定位录音的方法，通过获取目标声源的图像信息进而获取目标声源的位置信息，根据所述目标声源的位置信息从多路录音信息中识别出来自所述目标声源的声音信息，再对该目标声源的声音信息进行处理，以突出目标声源的声音信息，从而实现对目标声源声音的定位录音，该方法使得在录音模式下，无论目标声源的位置如何移动，录音装置都能够直接识别并突出目标声源的声音，获得较好的录音效果，提升用户体验。

实施例二

图2为本发明实施例二提供的一种定位录音的方法的流程示意图，本实施例以上述实施例一为基础进行优化，在本实施例中，将步骤“所述根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息”进行了优化，本实施例的方法包括如下步骤：

步骤101、获取目标声源的图像信息；；与实施例1相同，在此不再赘述。

步骤102、根据所述图像信息获取目标声源的位置信息；与实施例1相同，在此不再赘述。

步骤103、获取多路录音信息，此方案中所述录音信息为三路以上，即采用三个以上的麦克风，具体步骤与实施例1相同，在此不再赘述。

步骤104、根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息；

具体的，本步骤可包括：包括：

步骤1041、获取多路录音信息中各路录音信息的相位和信号幅度；

即，获取麦克风阵列中每个麦克风采集的录音信息的相位和信号幅度。

步骤1042、通过比对上述各路录音信息的相位和信号幅度差异，获取多路录音信息中所有声源的位置信息；

以第一个麦克风接收到的信号作为参考信号，分别计算每一个麦克风接收到的信号与第一个麦克风接收到的信号之间的相位和信号幅度的差值；进而利用互功率谱相位法分别求得每个信号与参考信号之间的广义互相关函数，求取互相关函数取最大值时刻的采样点，再将采样点转换为两个信号之间的时延差，从而得到每一个麦克风所接收到的信号与第一个麦克风接收到的信号之间的时间延迟；结合每个时间延迟，根据近场模型球面波前模型推导出的方向角估计公式计算出每个近似方向角，结合该近似方向角得到所测声源的估计方向角，进而判断出每个声源相对麦克风阵列的角度和距离，即得到所述声源的位置信息。

步骤1043、将获取的所述声源的位置信息与根据所述图像信息获取的目标声源的位置信息进行对比，识别出所述多路录音信息中目标声源的信息。

步骤105、对所述目标声源的声音信息进行处理。

通过上述方法，能够更为精准地识别出多路录音信息中目标声源的信息，识别效果更好，获取的定位录音效果更好。

实施例三

图3为本发明实施例四提供的一种定位录音装置的结构框图，该装置可由软件和/或硬件实现，一般集成在移动终端中，可通过执行定位录音的方法来实现定位录音。如图3所示，该装置包括：图像信息获取模块301、位置信息获取模块302、录音信息获取模块303、目标声源声音信息确定模块304、声音信息处理模块305。

其中，图像信息获取模块，用于获取目标声源的图像信息；位置信息获取模块，用于根据所述图像信息获取目标声源的位置信息；录音信息获取模块，用于获取多路麦克风的录音信息；目标声源声音信息确定模块，用于根据所述目标声源的位置信息识别所述录音信息中所述目标声源的声音信息；声音信息处理模块，用于对所述目标声源的声音信息进行处理。

上述定位录音的装置，能够在录音模式下，无论目标声源的位置如何移动，都能够直接识别目标声源的声音，以获得更好的录音效果。

优选地，所述位置信息获取模块可包括：方向接收模块和景深参数获取模块。其中方向接收模块，被配置为根据所述目标声源的图像信息获取目标声源的位置方向；景深参数获取模块，被配置为根据所述目标声源的图像信息获取目标声源的景深信息。

优选地，所述目标声源声音信息确定模块可包括：相位和信号幅度获取模块；多路录音信息声源位置信息获取模块；目标声源信息识别模块。

优选地，所述声音信息处理模块包括增强模块、削弱模块和录音文件生成模块。其中增强模块，用于对来自目标声源的声音信息进行智能增强；削弱模块，用于对非目标声源的声音信息进行削弱；录音文件生成模块，用于根据增强模块和削弱模块处理过的录音信息生成录音文件。

优选地，所述增强模块是增益提升单元，用于提升所述目标声源的声音信息的增益，得到第一录音信息；所述削弱模块是增益减低单元，用于降低所述录音信息中非目标声源的声音信息的增益，得到第二录音信息。优选地，该装置还包括音频信息存储与合成模块，被配置为对所述录音文件按照一定的格式存储，并与摄像视频信号进行同步合成。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林萌;姜南
技术所有人：宇龙计算机通信科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。