实现对象音频录音的方法及装置、电子设备的制造方法

文档序号：9351149阅读：317来源：国知局

实现对象音频录音的方法及装置、电子设备的制造方法
【技术领域】
[0001] 本公开涉及录音技术领域，尤其涉及实现对象音频录音的方法及装置、电子设备。
【背景技术】
[0002] 2〇lf5 年 2 月，MPEG(MovingPictureExpertsGroup，动态图像专家组）的下一代音频编解码标准MPEG-H3DAudio正式成为IS0/IEC23008-3国际标准，在这个标准框架中使用了一种全新的音频格式--对象音频（ObjectAudio)，可以标记声音的方位，使听者无论是用耳机还是音响、无论音响的喇叭数是多少，都可以听到特定方位传来的声音。

【发明内容】

[0003] 本公开提供实现对象音频录音的方法及装置、电子设备，以解决相关技术中的不足。
[0004] 根据本公开实施例的第一方面，提供一种实现对象音频录音的方法，包括：
[0005] 通过多个麦克风同时执行声音采集操作，得到混合声音信号；
[0006] 根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；
[0007] 组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。
[0008] 可选的，所述根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号，包括：
[0009] 根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量和每个声源的位置信息，并分离出对应于每个声源的对象声音信号。
[0010] 可选的，所述根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号，包括：
[0011] 根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量和每个声源的位置信息；
[0012] 根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号。
[0013] 可选的，所述根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号，包括：
[0014] 根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；
[0015] 通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。
[0016] 可选的，所述组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：
[0017] 按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；
[0018] 按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；
[0019] 将包含预设参数的头文件信息、所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到所述对象音频格式的音频数据。
[0020] 可选的，所述组合每个声源的位置信息和对象声音信号，得到对象音频格式的音频数据，包括：
[0021] 生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度；
[0022] 通过下述步骤生成符合所述每帧音频数据的时间长度的每帧对象音频格式的音频数据，并依次将每帧对象音频格式的音频数据发送至所述预设音频处理设备：
[0023] 按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；
[0024] 按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；
[0025] 将所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到每帧对象音频格式的音频数据。
[0026] 可选的，所述按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据，包括：
[0027] 按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号；
[0028] 按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。
[0029] 可选的，所述按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据，包括：
[0030] 按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息；
[0031] 按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。
[0032] 可选的，所述按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据，包括：
[0033] 按照预设采样频率，分别对各个声源对应的位置信息进行采样；
[0034] 其中，若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。
[0035] 根据本公开实施例的第二方面，提供一种实现对象音频录音的装置，包括：
[0036] 采集单元，通过多个麦克风同时执行声音采集操作，得到混合声音信号；
[0037] 处理单元，根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；
[0038] 组合单元，组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。
[0039] 可选的，所述处理单元包括：
[0040] 处理子单元，根据每个声源发出的声音信号在各个麦克风之间形成的幅度差与相位差，从所述混合声音信号中识别出声源数量和每个声源的位置信息，并分离出对应于每个声源的对象声音信号。
[0041] 可选的，所述处理单元包括：
[0042] 识别子单元，根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量和每个声源的位置信息；
[0043] 分离子单元，根据所述混合声音信号，每个麦克风的设置位置信息，以及所述声源数量和所述声源的位置信息，从所述混合声音信号中分离出对应于每个声源的对象声音信号。
[0044] 可选的，所述分离子单元包括：
[0045] 模型建立模块，根据每个声源发出的声音信号在预设维度形成的特征量，建立对应的统计模型；
[0046] 分离模块，通过所述统计模型识别并分离出所述混合声音信号中符合任一声源的位置信息的声音信号，作为对应于所述任一声源的对象声音信号。
[0047] 可选的，所述组合单元包括：
[0048] 信号组合子单元，按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；
[0049] 位置组合子单元，按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；
[0050] 第一拼接子单元，将包含预设参数的头文件信息、所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到所述对象音频格式的音频数据。
[0051] 可选的，所述组合单元包括：
[0052] 头文件发送子单元，生成包含预设参数的头文件信息，并发送至预设音频处理设备；其中，所述头文件信息中包含每帧音频数据的时间长度，以使信号组合子单元、位置组合子单元和拼接子单元生成符合所述每帧音频数据的时间长度的每帧对象音频格式的音频数据；
[0053] 信号组合子单元，按照各个声源之间的排列顺序，对相应的对象声音信号进行组合，得到多对象音频数据；
[0054] 位置组合子单元，按照所述排列顺序对各个声源的位置信息进行组合，得到对象音频辅助数据；
[0055] 第二拼接子单元，将所述多对象音频数据和所述对象音频辅助数据进行依次拼接，得到每帧对象音频格式的音频数据；
[0056] 音频数据发送子单元，依次将每帧对象音频格式的音频数据发送至所述预设音频处理设备。
[0057] 可选的，所述信号组合子单元包括：
[0058] 信号采样模块，按照预设采样频率，在每个采样时间点分别对各个声源对应的对象声音信号进行采样，并按照所述排列顺序对所有采样信号进行排列，得到组合采样信号；
[0059] 信号排列模块，按照采样顺序，将每个采样时间点得到的组合采样信号进行依次排列，得到所述多对象音频数据。
[0060] 可选的，所述位置组合子单元包括：
[0061] 第一位置记录模块，按照预设采样频率，在每个采样时间点分别对各个声源对应的位置信息进行采样，并将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录，得到组合采样位置信息；
[0062] 位置排列模块，按照采样顺序，将每个采样时间点得到的组合采样位置信息进行依次排列，得到所述对象音频辅助数据。
[0063] 可选的，所述位置组合子单元包括：
[0064] 位置采样模块，按照预设采样频率，分别对各个声源对应的位置信息进行采样；
[0065] 第二位置记录模块，若当前采样点为首个采样时间点，则将得到的每个采样位置信息与对应的声源信息、采样时间点信息进行关联记录；若当前采样点为非首个采样时间点，则将得到的每个声源的采样位置信息与已记录的同一声源的上一采样位置信息进行比较，并将比较结果为不同的采样位置信息与对应的声源信息、采样时间点信息进行关联记录。
[0066] 根据本公开实施例的第三方面，提供一种电子设备，包括：
[0067] 处理器；
[0068] 用于存储处理器可执行指令的存储器；
[0069] 其中，所述处理器被配置为：
[0070] 通过多个麦克风同时执行声音采集操作，得到混合声音信号；
[0071] 根据所述混合声音信号，以及每个麦克风的设置位置信息，从所述混合声音信号中识别出声源数量、每个声源的位置信息，并分离出对应于每个声源的对象声音信号；
[0072] 组合各个声源的位置信息和对象声音信号，得到对象音频格式的音频数据。
[0073] 本公开的实施例提供的技术方案可以包括以下有益效果：
[0074] 由上述实施例可知，本公开通过设置多个麦克风同时执行声音采集，使得到的混合声音信号中包含了各个麦克风采集到的声音信号，并通过结合各个麦克风之间的设置位置信息，对每个声源进行识别及分离对应的对象声音信号，从而无需对每个声源的声音信号进行单独采集，降低了对硬件设备的依赖和需求，能够直接得到对象音频格式的音频数据。
[0075] 应当理解的是，以上的一般描述和后文的细节描述仅

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：史润宇;颜嘉甫;杜慧;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。