实现对象音频录音的方法及装置、电子设备的制造方法_3

文档序号:9351149阅读:来源:国知局
中还有基于其他原理来分离对象声音信号的算法,均可以应用于本 公开的实施例中,本公开并不对此进行限制。
[0128] 此外,图4中采用了步骤406和步骤408进行分别描述;实际上,在一些情况下,确 实需要分别实现步骤406和步骤408的处理过程;而在另一些情况下,比如基于上述的如波 束成形等原理,可以同时实现对声源数量和位置信息的获知,以及对各个声源的对象声音 信号进行分离,而无需两个步骤进行分别处理。
[0129] 在步骤410中,将各个声源的对象声音信号和位置信息进行组合,得到对象音频。
[0130] 针对步骤410中的组合操作,下面结合图6进行详细描述。其中,图6是根据本公 开一示例性实施例示出的又一种实现对象音频录音的方法的流程图,如图6所示,该方法 可以包括以下步骤。
[0131] 在步骤602中,获取声源数量、每个声源的位置信息,以及每个声源的对象声音信 号。
[0132] 在步骤604中,确定用户选取的保存模式,若为文件保存模式(FilePacking Mode),则转入步骤606,若为低延迟模式(LowDelayMode),则转入步骤616。
[0133] 1、File Packing Mode
[0134] 在步骤606中,生成头文件。
[0135] 在本实施例中,该头文件中包含有描述该对象音频的预设参数,比如ID信息、版 本号等;作为一示例性实施例,该头文件的格式和内容如表1所示。
[0136]

[0137] 表I
[0138] 在步骤608中,按照各个声源之间的排列顺序,对相应的对象声音信号进行组合, 得到多对象音频数据。
[0139] 在本实施例中,组合对象声音信号的过程可以包括:
[0140] 1)按照预设采样频率,在每个采样时间点分别对各个声源对应的对象声音信号进 行采样,并按照所述排列顺序对所有采样信号进行排列,得到组合采样信号。
[0141] 2)按照采样顺序,将每个采样时间点得到的组合采样信号进行依次排列,得到所 述多对象音频数据。
[0142] 举例而言,如图7所示,在一示例性实施例的对象音频的数据结构中,t0、tl等为 对应于预设采样频率的各个采样时间点。以采样时间点t0为例,假定存在A、B、C和D共4 个声源,且各个声源之间的排列顺序依次为A-B-C-D,则按照该顺序依次对4个声源 进行采样得到采样信号A0、采样信号B0、采样信号C0、采样信号D0,并生成对应的组合采样 信号〇 ;类似的,通过在每个采样时间点均采用相同的方式进行采样,即可得到每个采样时 间点t0、tl等分别对应的组合采样信号0、组合采样信号1等。最后,按照各个组合采样信 号对应的采样顺序进行排列,即可得到多对象音频数据。
[0143] 在步骤610中,按照各个声源之间的排列顺序,对各个声源的位置进行组合,得到 对象音频辅助数据。
[0144] 作为一示例性实施方式,组合对象声音信号的过程可以包括:
[0145] 1)按照预设采样频率,在每个采样时间点分别对各个声源对应的位置信息进行采 样,并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录,得到 组合采样位置信息。
[0146] 2)按照采样顺序,将每个采样时间点得到的组合采样位置信息进行依次排列,得 到所述对象音频辅助数据。
[0147] 在实施方式中,对象音频辅助数据的生成过程,与上述多对象音频数据的生成过 程相似。仍以图7为例,对于采样时间点t0,假定存在A、B、C和D共4个声源,且各个声源 之间的排列顺序依次为A-B-C-D,则按照该顺序依次对4个声源的位置信息进行采 样,得到采样位置信息a0、采样位置信息b0、采样位置信息cO、采样位置信息d0,并生成对 应的组合采样位置信息0 ;类似的,通过在每个采样时间点均采用相同的方式进行采样,即 可得到每个采样时间点t0、tl等分别对应的组合采样位置信息0、组合采样位置信息1等。 最后,按照各个组合采样位置信息对应的采样顺序进行排列,即可得到对象音频辅助数据。
[0148] 在该实施例中,所有声源在所有采样时间点的位置信息均被记录于对象音频辅助 数据中;然而,由于声源并非一直移动,因此可以通过对声源位置信息的差异化记录,降低 对象音频辅助数据的数据量,该差异化记录的方式由下述实施方式进行阐述。
[0149] 作为另一示例性实施方式,组合对象声音信号的过程可以包括:按照预设采样频 率,分别对各个声源对应的位置信息进行采样;其中,
[0150] 若当前采样点为首个采样时间点,则将得到的每个采样位置信息与对应的声源信 息、采样时间点信息进行关联记录;
[0151] 若当前采样点为非首个采样时间点,则将得到的每个声源的采样位置信息与已记 录的同一声源的上一采样位置信息进行比较,并将比较结果为不同的采样位置信息与对应 的声源信息、采样时间点信息进行关联记录。
[0152] 举例而言,如图8所示,假定存在A、B、C和D共4个声源,且各个声源之间的排列 顺序依次为A-B-C-D,则对于采样时间点t0,由于采样时间点t0为首个采样时间点, 因而按照图7所示的实施方式,依次对4个声源的位置信息进行采样,得到由采样位置信息 a0、采样位置信息b0、采样位置信息cO和采样位置信息d0构成的组合采样位置信息0。
[0153] 而对于除t0之外的其他采样时间点,比如采样时间点tl,虽然可以依次对4个声 源的位置信息进行采样,得到对应的采样位置信息al、采样位置信息bl、采样位置信息cl 和采样位置信息dl,但如果声源A对应的采样位置信息al与上一采样位置信息a0相同, 就不需要对该采样位置信息al进行记录。因此,假定采样位置信息al与采样位置信息a0 相同、采样位置信息dl与采样位置信息d0相同,而采样位置信息bl与采样位置信息b0不 同、采样位置信息cl与采样位置信息cO不同,则最终对应于采样时间点tl的组合采样位 置信息1中仅包括采样位置信息bl和采样位置信息cl。
[0154] 在步骤612中,将头文件、多对象音频数据和对象音频辅助数据进行依次拼接,得 到对象音频格式的音频数据。
[0155] 在本实施例中,如图7-8所示,对象音频格式的音频数据中,包括依次拼接的头文 件、多对象音频数据和对象音频辅助数据;在播放该音频数据时,通过头文件可以读取对该 音频数据的描述信息和参数,然后从多对象音频数据中依次提取对应于每个采样时间点的 组合采样信号,并从对象音频辅助数据中依次提取对应于每个采样时间点的组合采样位置 信息,从而实现相应的播放操作。
[0156] 在步骤614中,保存得到的对象音频。
[0157] 2、LowDelayMode
[0158] 在步骤616中,生成包含预设参数的头文件信息,并发送至预设音频处理设备;其 中,所述头文件信息中包含每帧音频数据的时间长度。
[0159] 在本实施例中,该头文件中包含有描述该对象音频的预设参数,比如ID信息、版 本号等,与FilePackingMode相似;同时,不同于FilePackingMode的是,该头文件中还 包含每帧音频数据的时间长度。在该实施例中,通过预定义并记录每帧音频数据的时间长 度,可以在生成对象音频的过程中,按照该每帧音频数据的时间长度为单位,将整个对象音 频分为若干部分,从而通过将每个部分的对象音频片段发送至音频处理设备,由该音频处 理设备进行实时播放或存储,从而体现了低延迟(LowDelay)、实时性高的特点。
[0160] 作为一示例性实施例,该头文件的格式和内容如表2所示。
[0161]
[0163] 表 2
[0164] 在步骤618中,采用参数i对已处理的帧进行计数,并设该参数i的初始值为i= 0。若当前转入该步骤618时,所有音频数据均已处理完毕,则结束;若尚有未处理的音频数 据,则将参数i的数值增加1,并转入步骤620。
[0165] 在下述的步骤620-622中,仅对参数i的数值所对应的帧内的数据进行处理,且处 理方式与前述的步骤608-610相同,此处不再赘述。
[0166] 在步骤624中,将步骤620和步骤622分别得到的一帧内的多对象音频数据和对 象音频辅助数据进行拼接,得到一帧对象音频。然后,转入步骤618进行下一帧的处理,并 且转入步骤626进行音频处理。
[0167] 在步骤626中,将生成的每一帧对象音频,分别发送至音频处理设备进行实时播 放或存储。
[0168] 通过上述实施例,如图9所示,得到的对象音频的结构中,除了头部的头文件之 外,其余部分被分割为若干帧,比如第一帧为P〇帧、第二帧为Pl帧等,并且每一帧均包含 对应拼接的多对象音频数据和对象音频辅助数据。相应的,在播放该音频数据时,音频处 理设备通过头文件可以读取对该音频数据的描述信息和参数(包括每帧音频数据的时间 长度),然后依次从接收到的每帧对象音频中提取出多对象音频数据和对象音频辅助数据, 再分别从多对象音频数据中依次提取对应于每个采样时间点的组合采样信号、从对象音频 辅助数据中依次提取对应于每个采样时间点的组合采样位置信息,从而实现相应的播放操 作。
[0169] 与前述的实现对象音频录音的方法的实施例相对应,本公开还提供了实现对象音 频录音的装置的实施例。
[0170] 图10是根据一示例性实施例示出的一种实现对象音频录音的装置框图。参照图 10,该装置包括采集单元1001、识别单元1002、分离单元1003和组合单元1004。
[0171] 其中,采集单元1001,被配置为通过多个麦克风同时执行声音采集操作,得到混合 声音信号;
[0172] 处理单元1002,被配置为根据所述混合声音信号,以及每个麦克风的设置位置信 息,从所述混合声音信号中识别出声源数量、每个声源的位置信息,并分离出对应于每个声 源的对象声音信号;
[0173] 组合单元1004,被配置为组合各个声源的位置位置和对象声音信号,得到对象音 频格式的音频数据。
[0174] 如图11所示,图11是根据一示例性实施例示出的另一种实现对象音频录音的装 置的框图,该实施例在前述图10所示实施例的基础上,处理单元1002包括:处理子单元 1002A〇
[0175] 其中,处理子单元1002A,被配置为根据每个声源发出的声音信号在各个麦克风之 间形成的幅度差与相位差,从所述混合声音信号中识别出声源数量、每个声源的位置信息, 并分离出对应于每个声源的对象声音信号。
[0176] 如图12所示,图12是根据一示例性实施例示出的另一种实现对象音频录音的装 置的框图,该实施例在前述图10所示实施例的基础上,处理单元1002包括:识别子单元 1002B和分离子单元1002C。
[0177] 其中,识别子单元1002B,被配置为根据所述混合声音信号,以及每个麦克风的设 置位置信息,从所述混合声音信号中识别出声源数量和每个声源的位置信息;
[0178] 分离子单元1002C,被配置为根据所述混合声音信号,每个麦克风的设置位置信 息,以及所述声源数量和所述声源的位置信息,从所述混合声音信号中分离出对应于每个 声源的对象声音信号。
[0179] 需要说明的是,上述图12所示的装置实施例中的识别子单元1002B和分离子单元 1002C的结构也可以包含在前述图11的装置实施例中,对此本公开不进行限制。
[0180] 如图13所示,图13是根据一示例性实施例示出的另一种实现对象音频录音的装 置的框图
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1