一种录音方法及装置制造方法

文档序号：6766928阅读：159来源：国知局

一种录音方法及装置制造方法
【专利摘要】本发明公开了一种录音方法及装置，属于音频处理【技术领域】。方法流程包括：检测语音声源；对检测到的语音声源进行分离；获取并存储分离出来的各独立声源的语音数据；对存储的每个独立声源的语音数据进行分析，并根据分析结果调整所述各独立声源的声音效果；将调整后的各独立声源进行混音处理；将所述混音处理得到的音频信号按照预定的文件格式进行存储。采用本发明，能够将语音声源分离成独立声源，通过调整各独立声源的声音效果，从而获取理想的混音效果，达到在保证远距离录音效果的同时避免近距离录音的破音现象，有效的提高了各种环境下的录音效果。
【专利说明】一种录音方法及装置

【技术领域】
[0001] 本发明涉及音频处理【技术领域】，尤其涉及一种录音方法及装置。

【背景技术】
[0002] 在会议现场或采访现场等场景中，都需要利用麦克风进行录音。在进行录音的过程中，人们通常希望能将主要发言人的讲话清晰的录制下来，因此当麦克风距离发言人较远时，需要调高麦克风的放大系数以保证录音效果，但是在大多数情况下，录音现场的环境都不可能保持绝对的安静，此时，如果录音时有人近距离说话，录音就容易发生破音现象，使得录音效果较差，降低了用户体验。

【发明内容】

[0003] 有鉴于此，本发明要解决的技术问题是提供一种录音方法及装置，以解决现有技术录音时对录音现场的声源不能远近兼顾，录音效果差的缺陷。
[0004] 本发明解决上述技术问题所采用的技术方案如下：
[0005] 根据本发明的一个方面，提供一种录音方法，包括如下步骤：检测语音声源；对检测到的语音声源进行分离；获取并存储分离出来的各独立声源的语音数据；对存储的每个独立声源的语音数据进行分析，并根据分析结果调整所述各独立声源的声音效果；将调整后的各独立声源进行混音处理；将所述混音处理得到的音频信号按照预定的文件格式进行存储。
[0006] 提供一种如上所述的方法，所述获取并存储分离出来的各独立声源的语音数据，包括：获取所述各独立声源的音频信号；对所述各独立声源进行声源定位，获取各独立声源的方位信息；将所述各独立声源的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
[0007] 提供一种如上所述的方法，所述对存储的每个独立声源的语音数据进行分析，并根据分析结果调整所述各独立声源的声音效果，包括：计算所述每个独立声源的语音数据的音频信号在预设时间窗内的均方根值；根据所述语音数据的方位信息和/或所述均方根值，判断所述语音数据对应的独立声源是否为近场声源；若是近场声源，判断所述均方根值是否超过预设阀值，并在超过所述预设阀值时，对所述语音数据的音频信号进行音效削弱处理；若不是近场声源，判断所述均方根值是否低于所述预设阀值，并在低于所述预设阀值时，对所述语音数据的音频信号进行音效增强处理。
[0008] 提供一种如上所述的方法，所述检测语音声源，包括：采用基于频谱方差的语音活动检测算法，对噪音环境下的语音声源进行检测。
[0009] 提供一种如上所述的方法，所述对检测到的语音声源进行分离，包括：采用基于独立分量分析的声源分析方法将所述语音声源分离为多个独立声源。
[0010] 根据本发明的另一个方面，提供一种录音装置，所述装置包括：声源检测单元，用于检测语音声源；声源分离单元，用于对所述声源检测单元检测到的语音声源进行分离；数据处理单元，用于获取所述声源分离单元分离出来的各独立声源的语音数据；存储单元，用于存储所述数据处理单元获取的各独立声源的语音数据；所述数据处理单元，还用于对所述存储单元存储的每个独立声源的语音数据进行分析；音效调整单元，用于根据所述声源处理单元的分析结果调整所述各独立声源的声音效果；混音单元，用于对所述音效调整单元调整后的各独立声源进行混音处理；所述存储单元，还用于将所述混音单元混音处理得到的音频信号按照预定的文件格式进行存储。
[0011] 提供一种如上所述的装置，所述数据处理单元，还用于获取所述各独立声源的音频信号，并对所述各独立声源进行声源定位，获取各独立声源的方位信息；所述存储单元，还用于将所述各独立声源的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
[0012] 提供一种如上所述的装置，所述数据处理单元，还用于计算每个独立声源的语音数据的音频信号在预设时间窗内的均方根值，以及根据所述语音数据的方位信息和/或所述均方根值，判断所述语音数据对应的独立声源是否为近场声源，并在判断所述独立声源为近场声源时，判断所述均方根值是否超过预设阀值，在判断所述独立声源为远场声源时，判断所述均方根值是否低于所述预设阀值；所述音效调整单元，还用于在所述数据处理单元判断所述语音数据对应的独立声源为近场声源，且所述均方根值超过所述预设阀值时，对所述语音数据的音频信号进行音效削弱处理，以及用于在所述数据处理单元判断所述语音数据对应的独立声源为远场声源，且所述均方根值低于所述预设阀值时，对所述语音数据的音频信号进行音效增强处理。
[0013] 提供一种如上所述的装置，所述声源检测单元，还用于采用基于频谱方差的语音活动检测算法，对噪音环境下的语音声源进行检测。
[0014] 提供一种如上所述的装置，所述声源分离单元，还用于采用基于独立分量分析的声源分析方法将所述语音声源分离为多个独立声源。
[0015] 本发明的录音方法及装置，能够噪音环境下的语音声源进行检测，有效去除噪音，并且能够对对检测的语音声源进行分离，对分离出来的独立声源的语音数据进行分析，根据分析结果对各独立声源的音效进行调整，使每个独立声源均能达到理想的音效，再将处理后的各独立声源进行混音处理，便能够得到理想的录音效果。同时也能够对近场和远场声源进行区分，可以根据实际情况有效的将近场声源减弱，并将远场声源增强，在保证远距离录音效果的同时能够很好的避免近距离录音的破音现象，有效的提高了各种环境下的录首效果。

【专利附图】

【附图说明】
[0016] 图1为本发明实施例提供的一种录音装置的模块结构示意图；
[0017] 图2为本发明实施例提供的一种录音方法的流程图；
[0018] 图3为图2中步骤S203的流程图；
[0019] 图4为图2中步骤S204的流程图。

【具体实施方式】
[0020] 为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0021] 请参阅图1，本发明提供了一种录音装置，该装置包括声源检测单元110、声源分离单元120、数据处理单元130、存储单元140、音效调整单元150及混音单元160。
[0022] 声源检测单元110,用于检测语音声源。
[0023] 具体的，声源检测单元110可以采用如基于频谱方差的语音活动检测（Voice Activity Detection，VAD)算法，该算法可检测到噪声环境下的语音声源，并将语音声源提取出来，从而有效去除嘈杂环境背景下的噪音，保留清晰的语音声源。
[0024] 声源分离单元120,用于对该声源检测单元检测到的语音声源进行分离。
[0025] 具体的，可以采用如基于独立分量分析的声源分析方法分离出多个声源中每一个声源的声音，其充分利用在声源之间声源的源信号是独立的这一事实。在独立分量分析中，根据声源数量使用维数等于麦克风数量的线性滤波器，当声源的数量小于麦克风的数量时，能够完全恢复源信号；当声源数量超过麦克风数量时，可以使用L1范数最小化方法。
[0026] 数据处理单元130,用于获取该声源分离单元分离出来的各独立声源的语音数据。
[0027] 具体的，数据处理单元130首先获取各独立声源的音频信号，并对各独立声源进行声源定位，获取各独立声源的方位信息，将每个独立声源的音频信号及方位信号作为一个独立的语音信号。
[0028] 存储单元140,用于存储该数据处理单元130获取的各独立声源的语音数据。
[0029] 具体的，该存储单元140将各独立声源的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
[0030] 该数据处理单元130,还用于对该存储单元140存储的每个独立声源的语音数据进行分析。
[0031] 具体的，数据处单元130通过如下方式对每个独立声源的语音数据进行分析：首先，根据每个语音数据的音频信号计算预定时间窗内的均方根值（Root Mean Square， RMS)，并根据该语音数据的方位信息和/或RMS值判断该语音数据对应的独立声源室近场声源还是远场声源。如果判断出该语音数据对应的独立声源为近场声源，则判断该均方根值是否超过预设阀值；如果判断出该语音数据对应的独立声源为远场声源，则判断该均方根值是否低于该预设阀值。
[0032] 需要说明的是，远场声源和近场声源的定义依赖于所录制声源的相对位置。比如现场具有两种声源，这两种声源的方位不一样那么必有相对远近之分，其中，远场声源和近场声源的定义依赖于所录制声源的相对位置。假设一个距离录音装置的距离为1米，另一个距离录音装置的距离为3米，则可以定义距离为1米的声源为近场声源，距离为3米的声源为远场声源。在实际应用，近场声源和远场声源也可以结合音频信号在预定的时间窗内的RMS值进行定义。
[0033] 音效调整单元150,用于根据该声源处理单元130的分析结果调整各独立声源的声音效果。
[0034] 具体的，如果数据处理单元130判断该语音数据对应的独立声源为近场声源，且该均方根值超过该预设阀值，音效调整单元150对该语音数据的音频信号进行音效削弱处理，防止进场的独立声源的声音超饱和导致失真；如果数据处理单元130判断该语音数据对应的独立声源为远场声源，且该均方根值低于该预设阀值，音效调整单元150对该语音数据的音频信号进行音效增强处理。
[0035] 混音单元，用于对该音效调整单元调整后的各独立声源进行混音处理。
[0036] 该存储单元，还用于将该混音单元混音处理得到的音频信号按照预定的文件格式进行存储。
[0037] 具体的，存储单元可以将混音后的音频信号送入编码模块编码成MP3或wav等文件格式进行保存。
[0038] 需要说明的是，本实施例的录音装置，不仅仅是用于在会议模式录音，也适用于普通录像、采访等模式。并且该录音装置也可设置在移动终端上。
[0039] 本实施例的录音装置，设有声源检测单元对噪音环境下的语音声源进行检测，有效去除噪音；同时还设有声源分离单元，对检测的语音声源进行分离，再由处理单元对分离出来的独立声源的语音数据进行分析，进而由音效调整单元根据分析结果对各独立声源的音效进行调整，并能够对近场和远场声源进行区分，可以根据实际情况有效的将近场声源减弱，并将远场声源增强，使每个独立声源均能达到理想的音效，最后由混音单元将处理后的各独立声源进行混音处理，在保证远距离录音效果的同时能够很好的避免近距离录音的破首现象，有效的提商了各种环境下的录首效果。
[0040] 在上述录音装置实施例的基础上，本发明还提供了一种录音方法，请参阅图2,方法流程包括：
[0041] S201、检测语音声源。
[0042] 具体的，本步骤可以采用如基于频谱方差的语音活动检测（Voice Activity Detection，VAD)算法，该算法可检测到噪声环境下的语音声源，并将语音声源提取出来，从而有效去除嘈杂环境背景下的噪音，保留清晰的语音声源。
[0043] S202、对检测到的语音声源进行分离。
[0044] 具体的，本步骤可以采用如基于独立分量分析的声源分析方法分离出多个声源中每一个声源的声音，其充分利用在声源之间声源的源信号是独立的这一事实。在独立分量分析中，根据声源数量使用维数等于麦克风数量的线性滤波器，当声源的数量小于麦克风的数量时，能够完全恢复源信号；当声源数量超过麦克风数量时，可以使用L1范数最小化方法。
[0045] S203、获取并存储分离出来的各独立声源的语音数据。
[0046] 具体的，请参阅图3,该步骤包括：
[0047] S2031、获取各独立声源的音频信号；
[0048] S2032、对各独立声源进行声源定位，获取各独立声源的方位信息；
[0049] S2033、将每个独立声源对应的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
[0050] S204、对存储的每个独立声源的语音数据进行分析，并根据分析结果调整各独立声源的声音效果。
[0051] 具体的，请参阅图4,该步骤包括：
[0052] S2041、计算每个独立声源的语音数据的音频信号在预设时间窗内的均方根值；
[0053] S2042、根据该语音数据的方位信息和/或所述均方根值，判断该语音数据对应的独立声源是否为近场声源，若是执行步骤S2043,否则执行步骤S2045 ;
[0054] S4043、判断该均方根值是否超过预设阀值，并在超过该预设阀值时，执行步骤 S2044 ；
[0055] S2044、对该语音数据的音频信号进行音效削弱处理；
[0056] S2045、判断该均方根值是否低于该预设阀值，并在低于该预设阀值时执行步骤 S2046 ；
[0057] S2046、对该语音数据的音频信号进行音效增强处理。
[0058] S205、将调整后的各独立声源进行混音处理；
[0059] S206、将该混音处理得到的音频信号按照预定的文件格式进行存储。
[0060] 具体的，本步骤可以将混音后的音频信号送入编码模块编码成MP3或wav等文件格式进行保存
[0061] 本实施例的录音方法，能够对噪音环境下的语音声源进行检测，有效去除噪音，并且能够对对检测的语音声源进行分离，对分离出来的独立声源的语音数据进行分析，根据分析结果对各独立声源的音效进行调整，使每个独立声源均能达到理想的音效，再将处理后的各独立声源进行混音处理，便能够得到理想的录音效果。同时也能够对近场和远场声源进行区分，可以根据实际情况有效的将近场声源减弱，并将远场声源增强，在保证远距离录音效果的同时能够很好的避免近距离录音的破音现象，有效的提高了各种环境下的录音效果。
[0062] 以上参照【专利附图】

【附图说明】了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。
【权利要求】
1. 一种录音方法，其特征在于，包括如下步骤：检测语音声源；对检测到的语音声源进行分离；获取并存储分离出来的各独立声源的语音数据；对存储的每个独立声源的语音数据进行分析，并根据分析结果调整所述各独立声源的声音效果；将调整后的各独立声源进行混音处理；将所述混音处理得到的音频信号按照预定的文件格式进行存储。
2. 根据权利要求1所述的方法，其特征在于，所述获取并存储分离出来的各独立声源的语音数据，包括：获取所述各独立声源的音频信号；对所述各独立声源进行声源定位，获取各独立声源的方位信息；将所述各独立声源的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
3. 根据权利要求2所述的方法，其特征在于，所述对存储的每个独立声源的语音数据进行分析，并根据分析结果调整所述各独立声源的声音效果，包括：计算所述每个独立声源的语音数据的音频信号在预设时间窗内的均方根值；根据所述语音数据的方位信息和/或所述均方根值，判断所述语音数据对应的独立声源是否为近场声源；若是近场声源，判断所述均方根值是否超过预设阀值，并在超过所述预设阀值时，对所述语音数据的音频信号进行音效削弱处理；若不是近场声源，判断所述均方根值是否低于所述预设阀值，并在低于所述预设阀值时，对所述语音数据的音频信号进行音效增强处理。
4. 根据权利要求1至3任一项所述的方法，其特征在于，所述检测语音声源，包括：采用基于频谱方差的语音活动检测算法，对噪音环境下的语音声源进行检测。
5. 根据权利要求4所述的方法，其特征在于，所述对检测到的语音声源进行分离，包括：采用基于独立分量分析的声源分析方法将所述语音声源分离为多个独立声源。
6. -种录音装置，其特征在于，所述装置包括：声源检测单元，用于检测语音声源；声源分离单元，用于对所述声源检测单元检测到的语音声源进行分离；数据处理单元，用于获取所述声源分离单元分离出来的各独立声源的语音数据；存储单元，用于存储所述数据处理单元获取的各独立声源的语音数据；所述数据处理单元，还用于对所述存储单元存储的每个独立声源的语音数据进行分析；音效调整单元，用于根据所述声源处理单元的分析结果调整所述各独立声源的声音效果；混音单元，用于对所述音效调整单元调整后的各独立声源进行混音处理；所述存储单元，还用于将所述混音单元混音处理得到的音频信号按照预定的文件格式进行存储。
7. 根据权利要求6所述的装置，其特征在于，所述数据处理单元，还用于获取所述各独立声源的音频信号，并对所述各独立声源进行声源定位，获取各独立声源的方位信息；所述存储单元，还用于将所述各独立声源的语音数据分别存储到不同的存储位置中，其中每个独立声源的语音数据均包括音频信号及方位信息。
8. 根据权利要求7所述的装置，其特征在于，所述数据处理单元，还用于计算每个独立声源的语音数据的音频信号在预设时间窗内的均方根值，以及根据所述语音数据的方位信息和/或所述均方根值，判断所述语音数据对应的独立声源是否为近场声源，并在判断所述独立声源为近场声源时，判断所述均方根值是否超过预设阀值，在判断所述独立声源为远场声源时，判断所述均方根值是否低于所述预设阀值；所述音效调整单元，还用于在所述数据处理单元判断所述语音数据对应的独立声源为近场声源，且所述均方根值超过所述预设阀值时，对所述语音数据的音频信号进行音效削弱处理，以及用于在所述数据处理单元判断所述语音数据对应的独立声源为远场声源，且所述均方根值低于所述预设阀值时，对所述语音数据的音频信号进行音效增强处理。
9. 根据权利要求6至8任一项所述的装置，其特征在于，所述声源检测单元，还用于采用基于频谱方差的语音活动检测算法，对噪音环境下的语音声源进行检测。
10. 根据权利要求9所述的装置，其特征在于，所述声源分离单元，还用于采用基于独立分量分析的声源分析方法将所述语音声源分离为多个独立声源。
【文档编号】G11B20/10GK104123950SQ201410341500
【公开日】2014年10月29日申请日期:2014年7月17日优先权日:2014年7月17日
【发明者】孙丽申请人:深圳市中兴移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙丽
技术所有人：深圳市中兴移动通信有限公司
我是此专利的发明人

上一篇：一种利用非易失性元器件的电阻特性实现片上信号延时的电路的制作方法
上一篇：半导体集成电路的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。