实现对象音频录音的方法及装置、电子设备的制造方法_2

文档序号:9351149阅读:来源:国知局
是示例性和解释性的,并不 能限制本公开。
【附图说明】
[0076] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理。
[0077] 图1是相关技术中的一种获得对象音频的示意图。
[0078] 图2是相关技术中的另一种获得对象音频的示意图。
[0079] 图3是根据本公开一示例性实施例示出的一种实现对象音频录音的方法的流程 图。
[0080] 图4是根据本公开一示例性实施例示出的另一种实现对象音频录音的方法的流 程图。
[0081] 图5是根据本公开一示例性实施例示出的一种采集声源信号的示意图。
[0082] 图6是根据本公开一示例性实施例示出的又一种实现对象音频录音的方法的流 程图。
[0083] 图7是根据本公开一示例性实施例示出的一种对象音频的帧结构示意图。
[0084] 图8是根据本公开一示例性实施例示出的另一种对象音频的帧结构示意图。
[0085] 图9是根据本公开一示例性实施例示出的又一种对象音频的帧结构示意图。
[0086] 图10-18是根据本公开一示例性实施例示出的一种实现对象音频录音的装置的 框图。
[0087] 图19是根据本公开一示例性实施例示出的一种用于实现对象音频录音的装置的 结构示意图。
【具体实施方式】
[0088] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及 附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例 中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附 权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0089] 在相关技术中,并不能够直接录制得到对象音频(ObjectAudio);为了便于理解, 下面对相关技术中的典型处理方式进行介绍。
[0090] 图1是相关技术中的一种获得对象音频的示意图,如图1所示,该处理过程中,需 要预先准备好多个单声道音频,比如图1中的声道一音频、声道二音频、声道三音频等;同 时,还需要预先准备好每个单声道音频对应的位置信息,比如位置一对应于声道一音频、位 置二对应于声道二音频、位置三对应于声道三音频等。最后,由对象音频制作设备将各个声 道音频与对应的位置进行组合,得到对象音频。
[0091] 然而,图1所示的处理方式存在下述缺陷:
[0092] 1)需要预先准备音频数据和位置信息,不能够直接录制得到对象音频。
[0093] 2)同时,由于各声道音频的位置是单独准备得到,因而往往不能够准确地反映出 各个声道音频的真实位置。
[0094] 图2是相关技术中的另一种获得对象音频的示意图,如图2所示,为每个声源准备 对应的MIC(麦克风),比如声源一对应于MICl、声源二对应于MIC2、声源三对应于MIC3等, 每个MIC仅对相应的声源进行采集,分别得到对应的对象声音信号一、对象声音信号二、对 象声音信号三等。同时,需要预先准备好每个声源的位置信息。最终,由对象音频制作设备 将各个声源对应的对象声音信号和位置信息进行组合,得到对象音频。
[0095] 然而,图2所示的处理方式存在下述缺陷:
[0096] 1)需要为每个声源单独配备MIC,导致硬件成本很高。
[0097] 2)由于MIC必须贴近声源,并且需要随声源进行移动,这将导致极大的实现难度, 将极大地增加录音器材的成本。
[0098] 3)多个MIC分别采集到的对象声音信号之间需要保持同步,这在声源数量较多, 并且MIC因贴近声源而远离对象音频制作设备的情况下,或者在使用无线MIC的情况下,将 存在很大的实现难度。
[0099] 4)由于声源的位置信息是单独得到并后期添加至对象音频中,因而在声源数量较 多、移动不规律等因素的影响下,最终得到的对象音频将难以忠于实际的声源位置。
[0100] 因此,本公开通过提出实现对象音频录音的技术方案,可以解决相关技术中存在 的上述技术问题。
[0101] 图3是根据一示例性实施例示出的一种实现对象音频录音的方法的流程图,如图 3所示,该方法用于录音设备中,可以包括以下步骤。
[0102] 在步骤302中,通过多个麦克风同时执行声音采集操作,得到混合声音信号。
[0103] 在步骤304中,根据所述混合声音信号,以及每个麦克风的设置位置信息,从所述 混合声音信号中识别出声源数量、每个声源的位置信息,并分离出对应于每个声源的对象 声音信号。
[0104] 作为一示例性实施例,可以根据如每个声源发出的声音信号在各个麦克风之间形 成的幅度差与相位差等特征信息,直接从混合声音信号中识别出声源数量、每个声源的位 置信息,并分离出对应于每个声源的对象声音信号。
[0105] 作为另一示例性实施例,可以首先根据如上述的幅度差与相位差等特征信息,基 于混合声音信号,以及每个麦克风的设置位置信息,从混合声音信号中识别出声源数量、每 个声源的位置信息;然后,根据如上述的幅度差与相位差等特征信息,基于混合声音信号, 以及每个麦克风的设置位置信息,从混合声音信号中分离出对应于每个声源的对象声音信 号。
[0106] 在步骤306中,组合各个声源的位置信息和对象声音信号,得到对象音频格式的 音频数据。
[0107] 在本实施例中,对象音频(ObjectAudio)可以泛指各种用于描述声音对象(Audio Object)的声音格式。其中,含有位置信息的点声源,或可以大致判断出中心位置的面声源 都可以作为声音对象(AudioObject)。
[0108] 在本实施例中,对象音频包括声源的位置和对象声音信号两个部分,其中对象 声音信号本身可以看作单声道音频信号,其形式可以是PCM(Pulse-codemodulation)、 DSD(DirectStreamDigital)等未压缩格式,也可以是MP3(MPEG_lorMPEG_2AudioLayer III)、AAC(AdvancedAudioCoding)、DolbyDigital等压缩格式,本公开并不对此进行限 制。
[0109] 由上述实施例可知,本公开通过设置多个麦克风同时执行声音采集,使得到的混 合声音信号中包含了各个麦克风采集到的声音信号,并通过结合各个麦克风之间的设置位 置信息,对每个声源进行识别及分离对应的对象声音信号,从而无需对每个声源的声音信 号进行单独采集,降低了对硬件设备的依赖和需求,能够直接得到对象音频格式的音频数 据。
[0110] 图4是根据本公开一示例性实施例示出的另一种实现对象音频录音的方法的流 程图,如图4所示,该方法可以包括以下步骤。
[0111] 在步骤402中,通过多个MIC同时进行声音采集,得到混合声音信号。
[0112] 在本实施例中,若麦克风的数量为两个,则可以对处于同一平面内的多个声源进 行对象音频录音操作;若麦克风的数量为三个或三个以上,则可以对处于任意立体空间内 的多个声源进行对象音频录音操作。其中,对于同样的声源设置,麦克风的数量越多,则越 有利于对声源数量和位置信息的识别,以及分离出各个声源的对象声音信号。
[0113] 在步骤404中,获取每个MIC的位置情况。
[0114] 在本实施例中,如图5所示,每个MIC在执行对象音频录音的过程中,位置情况保 持不变;即便声源的位置信息发生变化,MIC也无需改变自身的位置情况,因为声源的位置 变化可以体现在采集到的混合声音信号中,可以通过后续步骤识别出来。同时,MIC与声源 之间并非一一对应,无论多少声源都可以通过至少两个MIC进行声音信号采集,并得到相 应的混合声音信号。
[0115] 因此,与图1和图2所示的实施例相比,本实施例既能够真实、准确地识别出各个 声源的实际位置,又无需很多MIC,并且无需使MIC随声源同步运动,有助于降低硬件成本 和系统复杂度,并且提升对象音频的质量。
[0116] 在本实施例中,MIC的位置情况包括:MIC的设置位置信息。可以采用坐标的方式 来记录每个MIC的位置情况。举例而言,以任意位置(比如听者(Audience)的位置)为原 点建立空间坐标系;该空间坐标系可以为直角坐标系(〇-xyz)、球坐标系(0-0Yr),这两 个坐标系之间的转换关系如下:
[0118] 其中,x、y、z分别表示MIC或声源(object)在直角坐标系的X轴(前后方向)、 y轴(左右方向)、z轴(上下方向)上的位置坐标。0、y、r分别表示MIC或声源在球坐 标系上的水平方向角度(MIC或声源和原点的连线在水平面上的投影与X轴的夹角)、垂直 方向角度(MIC或声源和原点的连线与水平面的夹角)、MIC或声源离原点的直线距离。
[0119] 当然,可以分别单独记录每个MIC的位置情况;或者,也可以记录各个MIC之间的 相对位置情况,并据此推断出每个MIC的单独位置情况。
[0120] 在步骤406中,根据各个MIC的位置情况,从混合声音信号中识别出声源,并获取 声源数量以及每个声源的位置信息。
[0121] 作为一示例性实施例,可以根据每个声源发出的声音信号在各个麦克风之间形成 的幅度差与相位差,识别出声源数量和每个声源的位置信息。在该实施例中,可以通过每个 声源发出的声音信号到达各个麦克风的时间差,体现出相应的相位差。
[0122] 实际上,相关技术中的所有基于幅度差与相位差的声源识别(判断是否存在 声源)以及识别声源数量、位置信息的技术方案,均可以应用于该步骤406的处理过 程;举例而言,比如MUSIC(MUtipleSIgnalClassfication,多重信号分类)法、波束成形 (Beamforming)法、CSP(crosspower-spectrumphase,互功率谱相位)法等,不胜枚举。
[0123]当然,相关技术中还有其他基于幅度差与相位差来识别声源数量、位置信息的算 法,并且相关技术中还有基于其他原理来识别声源数量、位置信息的算法,均可以应用于本 公开的实施例中,本公开并不对此进行限制。
[0124] 在步骤408中,根据各个MIC的位置情况,以及声源数量和每个声源的位置信息, 从混合声音信号中分离出每个声源对应的对象声音信号。
[0125] 作为一示例性实施例,可以根据每个声源发出的声音信号在各个麦克风之间形成 的幅度差与相位差,分离出对应于每个声源的对象声音信号。举例而言,可以通过相关技 术中的波束成形(Beamforming)法、GHDSS(GeometricHigh-orderDecorrelation-based SourceSeparation)法等实现。
[0126] 作为另一示例性实施例,可以根据每个声源发出的声音信号在预设维度形成的特 征量,建立对应的统计模型;通过所述统计模型识别并分离出所述混合声音信号中符合任 一声源的位置信息的声音信号,作为对应于所述任一声源的对象声音信号。其中,统计模型 可以采用所有能够得到的维度的特征量,比如频谱差异、音量差、相位差、基频频率差异和 基频能量差异、共振峰值差异等,均可以应用于此。该实施例的原理在于:通过统计模型来 识别某个声音信号是否属于某个特定的声场空间(即推测出来的声源位置)。举例而言,可 以通过GMM(GaussianMixtureModel,高斯混合模型)等算法实现。
[0127]当然,相关技术中还有其他基于幅度差与相位差或统计模型来分离对象声音信号 的算法,并且相关技术
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1