一种录音处理方法及终端的制作方法

文档序号：10616546阅读：312来源：国知局

一种录音处理方法及终端的制作方法
【专利摘要】本发明提供一种录音处理方法及终端，该录音处理方法包括：获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息；根据所述场景影像信息获取场景影像中的每一声源的位置信息；根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息；根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。本发明中，只需采用一个麦克风采集的单声道声音信息便可合成多声道音频数据，因而用于录音的终端中不需要设置多个麦克风，降低了用于录音的终端的成本。
【专利说明】
一种录音处理方法及终端
技术领域
[0001 ]本发明涉及终端技术领域，尤其涉及一种录音处理方法及终端。
【背景技术】
[0002]移动终端技术迅速发展，人们常使用移动终端进行录音和录像，记录生活事件。
[0003]立体声录音和录像更能提高场景还原度，在移动终端的双喇叭或者耳机场景下播放更为立体，提升用户体验。立体声录音录像的常用方法是使用移动终端中的多个麦克风进行声音采集，多个麦克风的定位效果会更好。
[0004]然而，较多移动终端只有单个麦克风的配置，多个麦克风的配置一般受限于终端的尺寸，如果移动终端的尺寸较小，多个麦克风之间的相对位置较近，声音定位差，录音录像效果并不好。

【发明内容】

[0005]有鉴于此，本发明提供一种录音处理方法及终端，现有的移动终端使用单个麦克风录音难以合成多声道声音的问题。
[0006]为解决上述技术问题，一方面，本发明提供一种录音处理方法，应用于一终端，所述方法包括:
[0007]获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息；
[0008]根据所述场景影像信息获取场景影像中的每一声源的位置信息；
[0009]根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息；
[0010]根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。[0011 ]另一方面，本发明还提供一种终端，包括:
[0012]获取模块，用于获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声首?目息;
[0013]位置信息获取模块，用于根据所述场景影像信息获取场景影像中的每一声源的位置信息；
[0014]声道系数确定模块，用于根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与所述每一声源的位置信息对应的声道系数信息；
[0015]合成模块，用于根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。
[0016]本发明的上述技术方案的有益效果如下:
[0017]只需采用一个麦克风采集的单声道声音信息便可合成多声道音频数据，因而用于录音的终端中不需要设置多个麦克风，降低了用于录音的终端的成本。
【附图说明】
[0018]图1为本发明实施例一的录音处理方法的流程图；
[0019]图2为本发明实施例二的录音处理方法的流程图；
[0020]图3为本发明实施例三的录音处理方法的流程图；
[0021 ]图4为本发明实施例的终端的结构框图。
【具体实施方式】
[0022]下面将结合附图和实施例，对本发明的【具体实施方式】作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。
[0023]请参考图1，图1为本发明实施例一的录音处理方法的流程图，所述方法应用于一终端，包括以下步骤:
[0024]步骤SI1:获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息。
[0025]所述麦克风采集的声音信息为单声道声音信息。
[0026]步骤S12:根据所述场景影像信息获取场景影像中的每一声源的位置信息。
[0027]场景影像中的声源可以为一个，也可以多于一个。
[0028]所述声源的位置信息是指所述声源在场景影像中的位置信息，例如可以包括:声源是位于场景影像的左二分之一部分，还是位于场景影像的右二分之一部分。或者，声源在场景影像的横向方向上的比例系数，例如，声源在场景影像的横向方向上的最左端时，比例系数为[I，0]，在场景影像的横向方向上的最右端时，比例系数为[0，I]，在场景影像的横向方向上的中心点时，比例系数为[0.5，0.5]。或者，还可以包括声源在场景影像中的前后信息，即声源距离摄像头的相对距离信息。当然，也可以为其他类型的位置信息。
[0029]步骤S13:根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与所述每一声源的位置信息对应的声道系数信息。
[0030]所述声道系数信息是指播放录音时每一声道所占的比例系数。
[0031]举例来说，播放录音时采用的多个声道包括左声道和右声道，所述声源在场景影像中的位置信息是:声源是位于场景影像的左二分之一部分，还是位于场景影像的右二分之一部分的位置信息。当声源位于场景影像的左二分之一部分时，所述声源的位置信息对应的声道系数信息可以为[I，0]，即由左声道播放声源的声音信息，右声道没有声音。当声源位于场景影像的右二分之一部分时，所述声源的位置信息对应的声道系数信息可以为[0，I]，即由右声道播放声源的声音信息，左声道没有声音。
[0032]再一例子可以是，播放录音时采用的多个声道包括左声道和右声道，所述声源在场景影像中的位置信息是:声源在场景影像的横向方向上的比例系数。假设声源在场景影像的横向方向上的比例系数为[0.2，0.8 ]，则由左声道播放声源20 %的声音，由左声道播放声源80%的声音。
[0033]当然，除了双声道，播放录音时也可以采用更多声道，例如三声道，其声道系数信息可以类似于为[0.2，0.4，0.4]。
[0034]步骤S14:根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。
[0035]本发明实施例中，只需采用一个麦克风采集的单声道声音信息便可合成多声道音频数据，因而用于录音的终端中不需要设置多个麦克风，降低了用于录音的终端的成本。
[0036]上述实施例中执行录音处理方法的终端可以同时是录音的终端，也可以不是录音的终端，仅用于处理录音，例如，所述终端可以为一电脑，而用于录音的终端可以为一摄像机，所述摄像机将录制的录音录像传输给电脑，由电脑进行多声道声音的合成。
[0037]也就是说，上述合成多声道声音的时间可以是在录音录像的同时，也可以是在录音录影后进行多声道声音的合成，例如在播放录音录影时在进行多声道声音的合成。
[0038]另外，上述用于执行录音处理方法的终端还可以用于播放合成的多声道信息，SP，所述用于播放录音的多声道为用于执行录音处理方法的终端上的多声道，所述将所述麦克风采集的声音信息合成为多声道音频数据的步骤之后，还可以包括:播放所述多声道音频数据。
[0039]当然，所述用于播放录音的多声道也可以不是用于执行录音处理方法的终端上的多声道，而是其他播放设备上的多声道，此时，所述将所述麦克风采集的声音信息合成为多声道音频数据的步骤之后，还可以包括:将所述多声道音频数据传输给一播放设备播放，所述多声道为所述播放设备上的多声道。也就是说，所述终端仅负责将录音合成为多声道声音，并不负责播放。
[0040]请参考图2，图2为本发明实施例二的录音处理方法的流程图，所述方法应用于一终端，本发明实施例中的终端包括摄像头和一麦克风，所述包括以下步骤:
[0041 ]步骤S21:当接收到打开录音录像功能的请求时，开启所述摄像头采集场景影像信息，以及开启所述麦克风采集声音信息。
[0042]所述录音录像功能可以为所述终端中的摄像应用软件中的录音录像功能，也可以为所述终端中的实时通信应用软件中的录音录像功能，例如微信的视频聊天功能。
[0043]步骤S22:获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息。
[0044]步骤S23:根据所述场景影像信息获取场景影像中的每一声源的位置信息。
[0045]步骤S24:根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息。
[0046]步骤S25:根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。
[0047]本发明实施例中，执行录音处理方法的终端，同时为录音录像的终端。并且可以在录音录像的同时，合成多声道音频数据。
[0048]本发明实施例中，可以采用图像识别技术，获取每一声源在场景影像中的位置信息，下面举例进行说明。
[0049]请参考图3，图3为本发明实施例三的录音处理方法的流程图，所述方法应用于一终端，包括以下步骤:
[0050]步骤S31:获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息。
[0051]步骤S32:根据所述场景影像信息，识别场景影像中的发声的生物体。
[0052]所述生物体包括人和动物。
[0053]步骤S33:对所述场景影像中的发声的生物体进行面部识别，确定每一声源。
[0054]例如从连续的影像中，识别声源的嘴唇，面部变化，继而识别出声源。
[0055]步骤S34:获取所述每一声源的位置信息。
[0056]步骤S35:根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与所述每一声源的位置信息对应的声道系数信息。
[0057]步骤S36:根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。
[0058]本发明实施例中，通过面部识别技术，确定声源的位置信息，实现方式简单。
[0059]当然，在本发明的其他一些实施例中，也可以通过其他方法确定声源的位置信息。
[0060]上述实施例中提到，所述声源的位置信息可以是声源是位于场景影像的左二分之一部分，还是位于场景影像的右二分之一部分。当声源的位置信息表示所述声源位于场景影像的左二分之一部分时，所述声源的位置信息对应的声道系数信息配置为采用左声道播放所述声源的声音信息，右声道没有声音。例如，声道系数信息可以表示为[I，O ]。当声源的位置信息表示所述声源位于场景影像的右二分之一部分时，所述声源的位置信息对应的声道系数信息配置为采用右声道播放所述声源的声音信息，左声道没有声音。例如，声道系数信息可以表示为[0，1]。
[0061]当在一个时段同时包括多个声源时，上述声道系数信息可以采用矩阵的方式表示，例如同一时段包括两个声源，两个声源的声道系数信息可以表示为。
[0062]上述实施例中提到，所述声源的位置信息还可以是声源在场景影像的横向方向上的比例系数，例如，声源在场景影像的横向方向上的最左端时，比例系数为[I，0]，在场景影像的横向方向上的最右端时，比例系数为[O，I ]，在场景影像的横向方向上的中心点时，比例系数为[0.5,0.5]。此时，所述根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息的步骤包括:根据所述声源的位置信息，计算所述声源在场景影像的横向方向上的比例系数;根据所述声源在场景影像的横向方向上的比例系数，计算左声道和右声道所占的系数信息，得到所述声源的位置信息对应的声道系数信息。例如，声源在场景影像的横向方向上的比例系数为[I，0]，此时，声道系数信息同样为[1，0]。
[0063]上述实施例中提到，所述声源的位置信息还可以是声源在场景影像中的前后信息，即声源距离摄像头的相对距离信息。此时，可以配合用于播放录音的终端上具有前后设置多声道的场景。
[0064]当然，声源的位置信息也可以为其他类型，再次不再一一举例说明。
[0065]请参考图4，本发明实施例还提供一种终端，包括:
[0066]获取模块，用于获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声首?目息;
[0067]位置信息获取模块，用于根据所述场景影像信息获取场景影像中的每一声源的位置信息；
[0068]声道系数确定模块，用于根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与所述每一声源的位置信息对应的声道系数信息；
[0069]合成模块，用于根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。
[0070]上述终端可以为手机、平板电脑、摄像机或台式电脑等终端。
[0071 ] 优选地，所述终端还包括:
[0072]播放模块，用于播放所述多声道音频数据。
[0073]优选地，所述终端还包括:
[0074]所述摄像头和所述麦克风；以及
[0075]控制模块，用于当接收到打开录音录像功能的请求时，控制所述摄像头开启并采集场景影像信息，以及控制所述麦克风开启并采集声音信息。
[0076]在本发明的一实施例中，所述位置信息获取模块包括:
[0077]第一识别单元，用于根据所述场景影像信息，识别场景影像中的发声的生物体；
[0078]第二识别单元，用于对所述场景影像中的发声的生物体进行面部识别，确定每一声源；
[0079]获取单元，用于获取所述每一声源的位置信息。
[0080]以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
【主权项】
1.一种录音处理方法，应用于一终端，其特征在于，所述方法包括: 获取录首录像时摄像头米集的场景影像?目息以及麦克风米集的声首?目息；根据所述场景影像信息获取场景影像中的每一声源的位置信息；根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息；根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。2.根据权利要求1所述的录音处理方法，其特征在于，所述将所述麦克风采集的声音信息合成为多声道音频数据的步骤之后，还包括: 播放所述多声道音频数据。3.根据权利要求1所述的录音处理方法，其特征在于，所述终端包括所述摄像头和所述麦克风，所述获取录音录像时所述摄像头采集的场景影像信息以及所述麦克风采集的声音信息的步骤之前，还包括: 当接收到打开录音录像功能的请求时，开启所述摄像头采集场景影像信息，以及开启所述麦克风采集声音信息。4.根据权利要求3所述的录音处理方法，其特征在于，所述录音录像功能为终端中的摄像应用软件中的录音录像功能或者为所述终端中的实时通信应用软件中的录音录像功能。5.根据权利要求1所述的录音处理方法，其特征在于，所述根据所述场景影像信息获取场景影像中的每一声源的位置信息的步骤包括: 根据所述场景影像信息，识别场景影像中的发声的生物体；对所述场景影像中的发声的生物体进行面部识别，确定每一声源；获取所述每一声源的位置信息。6.根据权利要求1所述的录音处理方法，其特征在于，所述播放录音时需要采用的多个声道为用于播放录音的终端的左声道和右声道，所述根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息的步骤包括: 当声源的位置信息表示所述声源位于场景影像的左二分之一部分时，所述声源的位置信息对应的声道系数信息配置为采用左声道播放所述声源的声音信息；当声源的位置信息表示所述声源位于场景影像的右二分之一部分时，所述声源的位置信息对应的声道系数信息配置为采用右声道播放所述声源的声音信息。7.根据权利要求1所述的录音处理方法，其特征在于，所述播放录音时需要采用的多个声道为用于播放录音的终端的左声道和右声道，所述根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与每一所述声源的位置信息对应的声道系数信息的步骤包括: 根据所述声源的位置信息，计算所述声源在场景影像的横向方向上的比例系数；根据所述声源在场景影像的横向方向上的比例系数，计算左声道和右声道所占的系数信息，得到所述声源的位置信息对应的声道系数信息。8.根据权利要求1所述的录音处理方法，其特征在于，所述录音处理方法由所述终端在录音录像时执行;或者，由所述终端在播放录音录像时执行。9.一种终端，其特征在于，包括:获取模块，用于获取录音录像时摄像头采集的场景影像信息以及麦克风采集的声音信息;位置信息获取模块，用于根据所述场景影像信息获取场景影像中的每一声源的位置信息; 声道系数确定模块，用于根据所述每一声源的位置信息以及播放录音时需要采用的多个声道，生成与所述每一声源的位置信息对应的声道系数信息；合成模块，用于根据所述声道系数信息，将所述麦克风采集的声音信息合成为多声道音频数据。10.根据权利要求9所述的终端，其特征在于，还包括: 播放模块，用于播放所述多声道音频数据。11.根据权利要求9所述的终端，其特征在于，还包括: 所述摄像头和所述麦克风；以及控制模块，用于当接收到打开录音录像功能的请求时，控制所述摄像头开启并采集场景影像信息，以及控制所述麦克风开启并采集声音信息。12.根据权利要求9所述的终端，其特征在于，所述位置信息获取模块包括: 第一识别单元，用于根据所述场景影像信息，识别场景影像中的发声的生物体；第二识别单元，用于对所述场景影像中的发声的生物体进行面部识别，确定每一声源；获取单元，用于获取所述每一声源的位置信息。
【文档编号】H04S7/00GK105979469SQ201610509141
【公开日】2016年9月28日
【申请日】2016年6月29日
【发明人】黄业伟
【申请人】维沃移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄业伟;
技术所有人：维沃移动通信有限公司;
我是此专利的发明人

上一篇：全景视频的音频处理方法、装置和播放系统的制作方法
上一篇：一种音频处理方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。