录音方法、装置及终端与流程

文档序号：12749360阅读：271来源：国知局

本发明涉及音频处理领域，尤其涉及一种录音方法、装置及终端。

背景技术：

录音即是将音频数据通过麦克、放大器转换为电信号，用不同的材料和工艺记录在媒质上的过程。当前，录音后得到的录音文件中，会记录录音过程中麦克接收到的所有发声对象的音频数据，例如：在会议过程中，会议录音会记录参加会议的所有发言者的语音信号，以及，与会人员的肢体动作等发出的噪音等。

发明人在实现本发明实施例的过程中发现，由于录音文件中会记录麦克接收到的多个发言者在不同时间段的语音信号，而且，每个发言者的语音靠人耳非常难以区分，因此，在想要有针对性的获取录音文件中指定发言者的发言内容时，可能需要反复播放录音文件，导致浪费时间精力，效率低。

技术实现要素：

为克服相关技术中存在的问题，本发明提供一种录音方法、装置及终端。

根据本发明实施例的第一方面，提供一种录音方法，包括：

接收至少两个声源发出的多个音频数据；

根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置；

根据所确定的所述至少两个声源中的每个声源的声源方向和/或位置，确定与所述至少两个声源一一对应的至少两个目标扇区，并为所确定的至少两个目标扇区中的每个目标扇区分配扇区标识；

生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

可选地，所述至少两个目标扇区彼此不重叠，每个目标扇区仅覆盖相对应的声源的声源方向和/或位置。

可选地，所述方法还包括：

获取具有相同扇区标识的音频数据；

提取所述音频数据中的声纹特征；

根据所述声纹特征，判断所述目标扇区内的音频数据是否来自同一声源；

当所述目标扇区内的音频数据不来自同一声源时，为所述目标扇区内来自不同声源的音频数据分别设置不同的声源标识。

可选地，所述生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件，包括：

生成第一音频文件，其中，所述第一音频文件中的多个音频数据按照采集时间的先后顺序排序，并且所述多个音频数据中的每个音频数据均具有相应的扇区标识。

可选地，所述生成包含所述音频数据与扇区标识的对应关系的至少一个音频文件，还包括：

生成至少两个第二音频文件，其中，每个所述第二音频文件用于保存具有相同扇区标识的音频数据。

可选地，所述接收至少两个声源发出的多个音频数据，包括：

获取每个声音采集设备采集的音频数据的声音信息；

根据所述声音信息确定距离声源位置最近的声音采集设备为主声音采集设备，确定除所述主声音采集设备之外的声音采集设备为辅声音采集设备；

确定所述主声音采集设备采集的主音频数据，确定所述辅声音采集设备采集的辅音频数据；

将所述主音频数据与所述辅音频数据的反相位进行相位叠加，得到声源数据，

确定所述声源数据为所述声音采集设备采集的声源的音频数据。

根据本发明实施例的第二方面，提供一种录音装置，应用于包含多个声音采集设备的终端，包括：

接收模块，用于接收至少两个声源发出的多个音频数据；

第一确定模块，用于根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置；

第二确定模块，用于根据所确定的所述至少两个声源中的每个声源的声源方向和/或位置，确定与所述至少两个声源一一对应的至少两个目标扇区，并为所确定的至少两个目标扇区中的每个目标扇区分配扇区标识；

生成模块，用于生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

可选地，第二确定模块，还用于，所述至少两个目标扇区彼此不重叠，每个目标扇区仅覆盖相对应的声源的声源方向和/或位置。

可选地，所述装置还包括：

获取模块，用于获取具有相同扇区标识的音频数据；

提取模块，用于提取所述音频数据中的声纹特征；

判断模块，用于根据所述声纹特征，判断所述目标扇区内的音频数据是否来自同一声源；

设置模块，用于当所述目标扇区内的音频数据不来自同一声源时，为所述目标扇区内来自不同声源的音频数据分别设置不同的声源标识。

可选地，所述生成模块用于：

可选地，所述生成模块还用于：

生成至少两个第二音频文件，其中，每个所述第二音频文件用于保存具有相同扇区标识的音频数据。

可选地，所述多个声音采集设备中的任意两个所述声音采集设备之间的距离大于预设距离，所述接收模块，包括：

获取子模块，用于获取每个声音采集设备采集的音频数据的声音信息；

确定子模块，用于根据所述声音信息确定距离声源位置最近的声音采集设备为主声音采集设备，确定除所述主声音采集设备之外的声音采集设备为辅声音采集设备；

第一确定子模块，用于确定所述主声音采集设备采集的主音频数据，确定所述辅声音采集设备采集的辅音频数据；

叠加子模块，用于将所述主音频数据的反相位与所述辅音频数据的相位叠加，得到声源数据；

第三确定子模块，用于确定所述声源数据为所述声音采集设备采集的声源的音频数据。

根据本发明实施例的第三方面，提供一种终端，所述终端包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收至少两个声源发出的多个音频数据；

根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置；

生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

根据本发明实施例的第四方面，还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可实现本发明第一方面提供一种录音方法的各实现方式中的部分或全部步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明首先通过接收至少两个声源发出的多个音频数据，根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置；进而确定与所述至少两个声源一一对应的至少两个目标扇区，并为所确定的至少两个目标扇区中的每个目标扇区分配扇区标识，最后生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

在本发明实施例提供的该方法，能够根据音频数据所属的声音识别扇区，将声音采集设备采集的多个音频数据分别设置扇区标识，然后生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件，这样能够便于根据某一扇区标识获取该扇区标识对应的音频数据，能够简化声音内容获取流程，节省时间，提高效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种录音方法的流程图；

图2是根据一示例性实施例示出的一种录音方法的另一种流程图；

图3是图1中步骤S101的流程图；

图4是根据一示例性实施例示出的一种录音装置的一种结构图；

图5是根据一示例性实施例示出的一种录音装置的另一种结构图；

图6是根据一示例性实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

由于录音文件中会记录麦克接收到的多个发言者在不同时间段的语音信号，而且，每个发言者的语音靠人耳非常难以识别，因此，在想要有针对性的获取录音文件中指定发言者的发言内容时，可能需要反复播放录音文件，导致浪费时间精力，效率低，为此，如图1所示，在本发明的一个实施例中，提供一种录音方法，应用于包含多个声音采集设备的终端，这个声音采集设备的数量可以是3个、4个或者5个等等，所述多个声音采集设备中的任意两个所述声音采集设备之间的距离可以大于预设距离，这里预设距离可以大于等于30毫米，例如：30毫米、35毫米或者40毫米等等，具体可以根据终端的实际尺寸确定，所述方法包括以下步骤。

在步骤S101中，接收至少两个声源发出的多个音频数据。

在本发明实施例中，音频数据可以指声音采集设备在工作状态采集的所有音频数据，这里的音频数据可以是多个声源发出的声音信号，例如：人说话的语音信号、肢体动作导致的物体碰撞的声音信号和室内环境的噪声等等，每个声音采集设备可以采集其拾音有效范围内的音频数据。

在该步骤中，在声音采集设备采集到音频数据后，会将采集到的音频数据发送给终端中的处理器，处理器接收多个声音采集设备采集的音频数据。

在步骤S102中，根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置。

在该步骤中，以终端为中心，由于在声音采集设备拾音有效范围内，任意一点的发出的声音到达每个声音采集设备的时沿、响度和相位不同，所以可以根据接收到的多个音频数据确定每个声源的声源方向和/或位置。

在步骤S103中，根据所确定的所述至少两个声源中的每个声源的声源方向和/或位置，确定与所述至少两个声源一一对应的至少两个目标扇区，并为所确定的至少两个目标扇区中的每个目标扇区分配扇区标识。

在本发明实施例中，声音采集设备的有效拾音范围可以抽象为一个2D平面，并且可以预先将2D平面平均划分为若干个预设声音识别扇区，例如，可以将2D平面平均划分为4个预设声音识别扇区、划分为6个预设声音识别扇区或者划分为8个预设声音识别扇区等等。

在该步骤中，可以根据声源方向和/或位置确定每个音频数据所属的预设声音识别扇区，将覆盖有音频数据的声源方向和/或位置的预设声音识别扇区确定为目标扇区，所述至少两个目标扇区彼此不重叠，每个目标扇区仅覆盖相对应的声源的声源方向和/或位置，可以为每个目标扇区分配扇区标识，例如A、B或C等等。

例如，当音频采集设备同时采集到3个音频数据1、音频数据2和音频数据3，则可以首先确定音频数据1、音频数据2和音频数据3的声源位置，以将有效拾音范围划分为以终端为中心的4个预设声音识别扇区(对应的扇区标识分别为A、B、C和D)为例，假设音频数据1的声源位置位于A对应的预设声音识别扇区，音频数据2和音频数据3位于C对应的预设声音识别扇区，可以确定A对应的预设声音识别扇区和C对应的预设声音识别扇区为目标扇区，这样音频数据1对应的扇区标识为A，音频数据2对应的扇区标识为C，音频数据3对应的扇区标识为C等。

在步骤S104中，生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

在该步骤中，可以生成一个音频文件，该音频文件中的多个音频数据按照采集时间的先后顺序排序，每个音频数据分别用其对应的扇区标识标记；和/或，生成至少两个音频文件，每个所述第二音频文件中包含具有相同扇区标识的至少一个音频数据。

由于在实际应用中，同一预设声音识别扇区中可能包含两个声源或者更多，或者多个发言人处于同一方位时，在同一声音识别扇区中每个声源的音频数据靠人耳仍然难以区分，为此，如图2所示，在本发明的又一实施例中，可采用声纹的方式进一步区分，所述方法还包括以下步骤。

在步骤S201中，获取具有相同扇区标识的音频数据。

在该步骤中，可以针对每个目标扇区的扇区标识查找其对应的音频数据，例如，可以根据扇区标识“A”查找到音频数据1，根据扇区标识“C”查找到音频数据2和音频数据3。

在步骤S202中，提取所述音频数据中的声纹特征。

在该步骤中，可以采用声纹识别技术等方式提取音频数据中的声纹特征。

在步骤S203中，根据所述声纹特征，判断所述目标扇区内的音频数据是否来自同一声源。

在该步骤中，由于不同声源的声纹是不同的，所以可以根据声纹特征，确定目标扇区内的音频数据是否不来自同一声源，当目标扇区内的音频数据的声纹不同时，可以确定目标扇区内的音频数据不来自同一声源。

当所述目标扇区内的音频数据不来自同一声源时，在步骤S204中，为所述目标扇区内来自不同声源的音频数据分别设置不同的声源标识。

在该步骤中，可以为目标扇区内的每个音频数据分别设置一个声源标识，例如，(1)、(2)或(3)等，假设该目标扇区的扇区标识为C，假设任一音频数据为C对应的预设声音识别区域中(1)号声源发出的，则该音频数据的声源标识可以设置为C(1)等。

本发明通过首先获取具有相同扇区标识的音频数据，然后提取所述音频数据中的声纹特征，再根据所述声纹特征，判断所述目标扇区内的音频数据是否来自同一声源，当所述目标扇区内的音频数据不来自同一声源时，可以为所述目标扇区内每个声源的音频数据分别设置声源标识。

本发明实施例提供的该方法，能够在同一预设声音识别扇区中包含两个声源或者更多，或者多个发言人处于同一方位时，可以通过声纹识别的方式区分同一声音识别扇区中多个声源的音频数据，并为每个来自不同声源的音频数据设置不同的声源标识，这样能够便于根据某一扇区标识获取该扇区标识对应的音频数据，能够简化声音内容获取流程，节省时间，提高效率。

在本发明的又一实施例中，所述步骤S104包括：

在该步骤中，可以生成一个包含多个音频数据的第一音频文件，在第一音频文件中，每个音频数据均具有扇区标识的标签，方便用户后续查询。

在本发明的又一实施例中，所述步骤S104还包括：

生成至少两个第二音频文件，其中，每个所述第二音频文件用于保存具有相同扇区标识的音频数据。

在该步骤中，可以针对每个扇区标识，分别生成一个音频文件，例如，可以将具有相同的扇区标识“C”的音频数据2和音频数据3，生成一个音频文件，将具有扇区标识“A”的音频数据1生成一个音频文件等。

在实际应用中，声音采集设备采集到的音频数据会包含很多环境声音数据，例如，环境噪声等，又由于任意一个声源的发出的声音到达每个声音采集设备的时延、响度和/或相位是不同的，为了能够获取到不同声源的高品质的音频数据，如图3所示，在本发明的又一实施例中，所述步骤S101，包括以下步骤。

在步骤S301中，获取每个声音采集设备采集的音频数据的声音信息。

在本发明实施例中，声音信息可以指音频数据的时延、响度和/或相位等。

在该步骤中，可以提取每个声音采集设备接收的音频数据的时延、响度和/或相位等声音信息。

在步骤S302中，根据所述声音信息确定距离声源位置最近的声音采集设备为主声音采集设备，确定除所述主声音采集设备之外的声音采集设备为辅声音采集设备。

在该步骤中，可以通过对比响度和时延确定距离声源位置最近的声音采集设备，并将该距离声源位置最近的声音采集设备确定为主声音采集设备，将终端上的其他声音采集设备确定为辅声音采集设备。

在步骤S303中，确定所述主声音采集设备采集的主音频数据，确定所述辅声音采集设备采集的辅音频数据。

在本发明实施例中，所述主音频数据中包含，和辅音频数据中均包括声源数据和环境声音数据。可以将辅音频数据的声音能量判定为环境声音(噪音or非主要音源声音)，主音频数据的声音能量判定为主要音源声音+环境声音。

在步骤S304中，将所述主音频数据与所述辅音频数据的反相位进行相位叠加，得到声源数据。

在本发明实施例中，由于环境声音集中在低频，主音频数据具有中高频的特征能量，因此，可以以此作为区分生源数据和环境声音的依据，又由于环境声音对于所有声音采集设备来说能量是基本相同的，因此可以通过将辅音频数据的相位反向(假设辅音频数据的相位为0度，那么反向后的相位为180度)，与主音频数据的声音能量相加对消，这样即可保证滤除其他噪声声源的声音仅得到声源发出的声源数据。

在该步骤中后，可以通过滤波处理、稳态消噪及非稳态能量补偿等修正方式，使声源数据的能量得到充分补充，使噪声及环境声音得到足够减弱，提升录音的信噪比。

在步骤S305中，确定所述声源数据为所述声音采集设备采集的声源的音频数据。

在该步骤中，可以将得到的声源数据确定为声音采集设备采集的音频数据。

如图4所示，在本发明的又一实施例中，提供一种录音装置，应用于包含多个声音采集设备的终端，包括：接收模块41、第一确定模块42、第二确定模块43和生成模块44。

接收模块41，用于接收至少两个声源发出的多个音频数据。

第一确定模块42，用于根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置。

第二确定模块43，用于根据所确定的所述至少两个声源中的每个声源的声源方向和/或位置，确定与所述至少两个声源一一对应的至少两个目标扇区，并为所确定的至少两个目标扇区中的每个目标扇区分配扇区标识。

生成模块44，用于生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

在本发明的又一实施例中，第二确定模块，还用于，所述至少两个目标扇区彼此不重叠，每个目标扇区仅覆盖相对应的声源的声源方向和/或位置。

如图5所示，在本发明的又一实施例中，所述装置还包括：获取模块51、提取模块52、判断模块53和设置模块54。

获取模块51，用于获取具有相同扇区标识的音频数据。

提取模块52，用于提取所述音频数据中的声纹特征。

判断模块53，用于根据所述声纹特征，判断所述目标扇区内的音频数据是否来自同一声源.

设置模块54，用于当所述目标扇区内的音频数据不来自同一声源时，为所述目标扇区内来自不同声源的音频数据分别设置不同的声源标识。

在本发明的又一实施例中，所述生成模块用于：

在本发明的又一实施例中，所述生成模块还用于：

生成至少两个第二音频文件，其中，每个所述第二音频文件用于保存具有相同扇区标识的音频数据。

在本发明的又一实施例中，所述多个声音采集设备中的任意两个所述声音采集设备之间的距离大于预设距离，所述接收模块，包括：获取子模块、确定子模块、第一确定子模块、叠加子模块和第三确定子模块。

获取子模块，用于获取每个声音采集设备采集的音频数据的声音信息；

第一确定子模块，用于确定所述主声音采集设备采集的主音频数据，确定所述辅声音采集设备采集的辅音频数据；

叠加子模块，用于将所述主音频数据的反相位与所述辅音频数据的相位叠加，得到声源数据；

第三确定子模块，用于确定所述声源数据为所述声音采集设备采集的声源的音频数据。

图6是根据一示例性实施例示出的一种应用程序安装装置的框图。参照图6，该装置包括：

处理器21；

用于存储处理器21可执行指令的存储器22；

其中，所述处理器21被配置为：

接收至少两个声源发出的多个音频数据；

根据所接收到的所述多个音频数据确定所述至少两个声源中的每个声源的声源方向和/或位置；

生成包含所述音频数据与所述扇区标识的对应关系的至少一个音频文件。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可实现图1-图3所示实施例提供的录音方法的各实现方式中的部分或全部步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘志刚;于铎;谢莹;
技术所有人：乐视控股（北京）有限公司;乐视移动智能信息技术（北京）有限公司;
我是此专利的发明人

上一篇：音频播放方法和装置与流程
上一篇：一种基于云计算的语音识别系统的制作方法与工艺