音频信息处理方法、服务器、设备、存储介质和客户端与流程

文档序号：19125498发布日期：2019-11-13 02:04阅读：183来源：国知局

本说明书涉及计算机技术领域，特别涉及一种音频信息处理方法、服务器、设备、存储介质和客户端。

背景技术：

现实的生活中，人们会在一起沟通，讨论事项。具体的，例如，在工作过程中，多人进行的会议讨论等。在一些场景中，人们会针对沟通的过程进行录音，如此便于后续回顾。

技术实现要素：

本说明书实施方式提供一种较为准确区分不同声源的音频信息处理方法、服务器、设备、存储介质和客户端。

本说明书提供一种音频信息处理方法，所述方法包括：接收音频采集终端生成的音频信息；确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种客户端，包括：音域识别模块，用于接收音频采集终端生成的音频信息，确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；处理模块，用于基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种客户端，包括：至少两个音频采集终端、处理器；所述至少两个音频采集终端用于生成音频信息；所述处理器用于确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被处理器执行时实现：接收音频采集终端生成的音频信息；确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的声波的信号强度。

本说明书提供一种音频信息处理方法，所述方法包括：接收音频采集终端生成的音频信息；确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；将所述空间区域对应的音频信息发送给服务器，以用于所述服务器基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种客户端，包括：音域识别模块，用于接收音频采集终端生成的音频信息，确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；发送模块，用于将所述空间区域对应的音频信息发送给服务器，以用于所述服务器基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种客户端，包括：至少两个音频采集终端、处理器和网络通信单元；所述至少两个音频采集终端用于生成音频信息；所述处理器用于确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；所述网络通信单元用于将所述空间区域对应的音频信息发送给服务器，以用于所述服务器基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被处理器执行时实现：接收音频采集终端生成的音频信息；确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；将所述空间区域对应的音频信息发送给服务器，以用于所述服务器基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种音频信息处理方法，包括：接收客户端生成的与空间区域对应的音频信息；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种服务器，包括：接收模块，用于接收客户端生成的与空间区域对应的音频信息；处理模块，用于基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种电子设备，包括网络通信单元和处理器；所述网络通信单元用于接收客户端生成的与空间区域对应的音频信息；所述处理器用于基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被执行时实现：接收客户端生成的与空间区域对应的音频信息；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种音频信息处理方法，包括：接收音频采集终端生成的音频信息；将所述音频信息发送给服务器，以用于所述服务器确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种客户端，包括：网络通信单元和至少两个音频采集终端；所述至少两个音频采集终端用于生成音频信息；所述网络通信单元用于将所述音频信息发送给服务器，以用于所述服务器确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域中声源的音频数据的信号强度。

本说明书提供一种音频信息处理方法，包括：接收客户端生成的音频信息；所述音频信息为所述客户端的音频采集终端生成；确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种服务器，包括：音域识别模块，用于接收客户端生成的音频信息，所述音频信息为所述客户端的音频采集终端生成；确定所述音频信息对应的空间区域；其中，所述音频信息的至少部分声源位于所述空间区域中；处理模块，用于基于所述空间区域与声源的位置关系，对所述空间区域对应的音频信息进行处理得到表征音频信息；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种电子设备，包括网络通信单元、处理器；所述网络通信单元用于接收客户端生成的音频信息；所述音频信息为所述客户端的音频采集终端生成；所述处理器用于确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被执行时实现：接收客户端生成的音频信息，所述音频信息为所述客户端的音频采集终端生成；确定所述音频信息对应的空间区域，其中，所述音频信息的至少部分声源位于所述空间区域中；基于所述空间区域与声源的位置关系，对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种声音处理装置，包括：壳体；设置在所述壳体的显示器和扬声器；设置在所述壳体的麦克风阵列；其中，所述麦克风阵列包括至少二个麦克风；能将所述麦克风阵列生成的音频信息发送给指定电子设备的传输单元；以用于所述指定电子设备确定所述音频信息对应的空间区域，基于所述空间区域与声源的位置关系，对所述空间区域对应的音频信息进行处理得到表征音频信息；其中，所述音频信息的至少部分声源位于所述空间区域中；其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

本说明书提供一种会议音频处理方法，使用麦克风阵列接收会议中多人说话的语音信息；根据第一说话人的语音信息，确定所述第一说话人对应的第一空间区域；其中，所述第一说话人位于所述第一空间区域内；所述第一说话人的语音信息与所述第一空间区域相对应；根据第二说话人的语音信息，确定所述第二说话人对应的第二空间区域；其中，所述第二说话人位于所述第二空间区域内；所述第二说话人的语音信息与所述第二空间区域相对应；对所述第一空间区域对应的语音信息进行处理得到第一表征音频信息，以及对所述第二空间区域对应的语音信息进行处理得到第二表征音频信息；其中，所述第一表征音频信息中属于所述第一说话人的音频数据的信号强度，高于不属于所述第一说话人的音频数据的信号强度；所述第二表征音频信息中属于所述第二说话人的音频数据的信号强度，高于不属于所述第二说话人的音频数据的信号强度。

由以上本说明书实施方式提供的技术方案可见，通过对不同声源相对于音频采集终端的方位，划分对应的空间区域。如此，可以对空间区域对应的音频信息中，不是与该空间区域对应的声源的信号进行压制。从而使得每个空间区域对应的表征音频信息可以较为准确的表达对应的声源的内容。

附图说明

为了更清楚地说明本说明书实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施方式提供的一种音频信息处理系统的模块示意图；

图2为本说明书实施方式提供的一种音频信息处理系统的应用场景示意图；

图3为本说明书实施方式提供的一种空间区域划分的示意图；

图4为本说明书实施方式提供的一种音频信息处理系统的交互示意图；

图5为本说明书实施方式提供的一种音频信息处理系统的功能示意图；

图6为本说明书实施方式提供的一种声音处理装置的示意图；

图7为本说明书实施方式提供的一种会议音频处理方法。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施方式中的附图，对本说明书实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本说明书一部分实施方式，而不是全部的实施方式。基于本说明书中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本说明书保护的范围。

请参阅图2和图4。在一个具体的场景示例中。在一个会议中，会议记录人员使用的音频设备可以为智能音箱。该智能音箱中集成有音频采集终端阵列、网络通信单元和处理器。具体的，例如音频采集终端阵列中音频采集终端的数量可以为4个。每个音频采集终端均可以将会议过程中参与人员的发言录制成音频信息。所述处理器可以运行有前述音域识别模块和处理模块。

在本场景示例中，开会的场景中4个人可以围绕一个会议桌。其中，两个人位于同一侧，另外两个人分别位于会议桌的一侧。在会议桌上放置有所述音频设备。

在本场景示例中，第一参会人对大家说：“今天召集大家的目的是为了讨论智能音箱项目”。此时，智能音箱的4个音频采集终端分别生成音频信息。处理器运行的音域识别模块进行进一步处理。

请一并参阅图3。在本场景示例中，音域识别模块可以根据第一参会人初次说话的音频信息，为第一参会人分配空间区域。音域识别某块可以根据不同音频采集终端采集到声波的时间差，计算得出第一参会人相对于音频设备的方位。以图示为例，音域识别模块可以以图中箭头所示方向为0度，沿着周向划分为第一空间区域。划分的第一空间区域可以为0度至180度的空间区域。划分后的第一空间区域与所述第一参会人相对应。即根据第一参会人的语音采集到的音频文件与所述第一空间区域相对应。

在本场景示例中，音域识别模块可以根据声源的方位对已经划分的空间区域进行调整。具体的，例如，第二参会人说：“这个项目，我们开发团队正在开发中”。音域识别模块可以根据该句话对应的音频信息得出第二参会人的方位。发现第二参会人的方位部分位于第一空间区域。音域识别模块可以重新划分第一空间区域为0度至134度。为第二参会人分配第二空间区域为135度至224度的空间区域。

在本场景示例中，第三参会人和第四参会人可能同时分别说话“我们市场推广的文案已经做好了”、“采购部一定全力做好采购工作”。音频采集终端生成的音频信息中，可能会同时包括有二者的声音形成的音频数据。音域处理模块可以根据音频信息中音频数据所表示的声波的传播方向，以及到达不同音频采集终端的时间差，分别确定第三参会人和第四参会人的方位。音域处理模块可以为第三参会人分配第三空间区域为224度至291度。为第四参会人分配第四空间区域为292度至360度。

在本场景示例中，所述处理模块分别对第一空间区域、第二空间区域、第三空间区域和第四空间区域对应的音频信息进行处理。具体的，例如，处理模块对第一空间区域对应的第一参会人说：“今天召集大家的目的是为了讨论智能音箱项目”的音频信息进行处理时，可以对音频信息中该句话对应的音频数据进行信号强度增强处理。如此，使得该句话对应的音频信息相对于环境声音更加容易区分。同理，对第二空间区域对应的第二参会人的音频信息也可以类似处理。

在本场景示例中，第三参会人和第四参会人趋于同时说话，使得音频信息同时与第三空间区域和第四空间区域相对应。处理模块在针对第三空间区域对应的音频信息处理时，可以将第三参会人说的话：“我们市场推广的文案已经做好了”对应的音频数据，进行信号强度增强处理。或者，处理模块在针对第三空间区域对应的音频信息处理时，也可以对除表示第三参会人语音之外的音频数据进行信号减弱处理。如此，以增大表示第三参会人的语言的音频数据与其它音频数据的区别。同理，处理模块对第四空间区域对应的第四参会人的音频信息也可以类似处理。

在本场景示例中，处理模块对应每个空间区域生成一个表征音频信息。具体的，对应第一参会人的语音每个音频采集模块会对应生成一个音频信息。处理模块可以针对该4个音频信息进行前述处理后，针对该4个音频信息，根据神经网络算法进行合成生成一个表征音频信息。同理，处理模块分别针对每个空间区域依照前述处理后的音频信息，进行合成生成分别与每个空间区域对应的表征音频信息。

在本场景示例中，处理模块生成表征音频信息之后，可以交由网络通信单元将表征音频信息发送给服务器。在服务器中可以运行有所述语音识别模块。从而实现可以针对表征音频信息进行语音识别，得出对应每个空间区域的文本信息。每个文本信息可以用于表示对应的表征音频信息。再者，由于每个表征音频信息与空间区域对应，使得可以通过空间区域区分不同的用户。具体的，例如，得到的文本信息可以是“第一参会人：‘今天召集大家的目的是为了讨论智能音箱项目’。第二参会人：‘这个项目，我们开发团队正在开发中’。第三参会人：‘我们市场推广的文案已经做好了’。第四参会人：‘采购部一定全力做好采购工作’”。如此，实现可以快速生成会议记录，便于相关人员查阅。

请参阅图1。本说明书实施方式提供一种音频信息处理系统。所述音频信息处理系统可以包括音域识别模块和处理模块。

在本实施方式中，音域识别模块可以接收音频采集终端生成的音频信息，根据所述音频信息确定所述音频信息对应的空间区域。

在本实施方式中，音频信息可以是音频采集终端输入的音频数据形成的数据流。音域识别模块接收到数据流之后，可以将数据流按照一定规则划分数据段，根据划分后的数据段确定音频信息对应的空间区域。具体的，例如，音频信息可以根据时长、或数量大小对数据流进行划分数据段。在一些情况下，音频信息可以是指已经被划分的数据段，音域识别模块可以根据音频信息确定对应的空间区域。具体的，例如，将音频信息的每20毫秒为一个数据段。当然，数据段可以不限于20毫秒，其具体时长可以选自20毫秒至500毫秒。或者，按照数据量进行划分音频信息。例如，每个数据段最多5mb。或者，按照音频数据中声音波形的连续情况划分数据段，比如在相邻两个连续的波形之间存在持续一定时长的无声部分，将该数据流中每个连续的声音波形划分为一个数据段。

在本实施方式中，音域识别模块可以接收二个以上音频采集终端提供音频信息。音域识别模块可以分别接收每个音频采集终端生成的音频信息。必要时，可以分别针对每个音频信息采集终端生成的音频信息进行处理。

在本实施方式中，所述空间区域可以是依照声源与音频采集终端的相对位置，对所述音频采集终端所处的空间进行划分得到。具体的，例如，在一个场景下，两个人对话，在音频采集终端位于两个人之间。可以沿着竖直方向，将相较于音频采集终端0度至180度的半圆空间，作为一个空间区域。将相较于音频采集终端180度至360度的半圆空间，作为另一个空间区域。每个人可以位于一个空间区域内。

在一个实施方式中，音域识别模块可以根据至少两个音频采集终端采集到音频信息，确定音频信息对应的空间区域。通常声波会按照一定的方向传播。在到达至少两个音频采集终端时，不同音频采集终端因相对于声源位置不同，使得采集到的同一声波的音频信息的时间可能不同。所以不同音频采集终端的音频信息可能会存在时间差。从而可以根据先后采集到同一声波的音频采集终端的相对位置，确定声波的传播方向。再者，音域识别模块也可以根据音频信息的音频数据表示的声波的特征，确定音频信息对应的空间区域。例如，可以根据音频数据所表示的声波的波形等特征，确定音频信息对应的空间区域。当然，所属领域技术人员在本说明书的技术精髓的启示下，还可能采用其它的变更方案，但只要其实现的功能和效果，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在一个实施方式中，所述音域识别模块可以确定所述音频信息的声源相对于所述音频采集终端的方位；根据所述方位沿所述音频采集终端的周向确定所述声源对应的空间区域。音域识别模块可以根据声波的传播方向，确定发出声波的声源相较于所述音频采集终端的方位，实现将所述音频信息与已经划分的空间区域相对应，或者，为声源划分对应的空间区域。音域识别模块根据音频信息得出音频信息表示的声波的方向，并确定了声源的方位之后，可以判断声源的方位是否属于已经划分的空间区域。如果属于已经划分的空间区域，可以认为该音频信息与该空间区域相对应。如果不属于已经划分的空间区域，或者尚未划分空间区域，可以根据声源的方位划分空间区域。

在一个实施方式中，在所述音频信息的声源与已经划分的空间区域没有对应关系，且所述声源至少部分位于已经划分的空间区域内的情况下，调整已经划分的空间区域，以使所述声源具有对应的空间区域。本实施方式中，可以为已经完成空间区域整体划分之后，新增声源的场景，或者，也可以为初始划分空间区域的过程中。针对一个声源划分空间区域之后，出现了一个新增声源，该新增声源可能也位于已经划分的空间区域内，也可能是已经划分的空间区域的边界与该新增声源较为接近，或所述新增声源位于所述边界。此时可以调整已经划分的空间区域，使得新增声源所在的位置可以划分出一个新增空间区域。以使该新增空间区域可以与所述新增声源之间进行对应。

在本实施方式中，所述音频信息的至少部分声源位于所述空间区域中。音域识别模块可以根据声源的数量，以及声源相对于音频采集终端的方位，沿所述音频采集终端的周向划分空间区域。每个空间区域中可以具有至少一个声源。优选的，每个空间区域内具有一个声源。具体的，例如，三个人进行对话，音频采集终端位于三个人的中心位置，可以相对于音频采集终端周向划分三个空间区域，每个空间区域沿着周向的角度可以为120度。当然，可以根据声源相对于音频采集终端的方位，对空间区域的角度进行调整，而并不限于平均分配角度。

在本实施方式中，声源在一个空间区域中，可以认为其发出的声波相较于音频采集终端，具有大致的同向性。大致的同向性可以理解为声波相较于音频采集终端整体上向着一个方位传播，并不限定全部声波的传播方向完全一致。

在本实施方式中，音频信息可以对应一个或多个空间区域。在一些情况下，在同一时间可能会有多个人在发言。该多个人可能相对于音频采集终端处于多个空间区域内。比如，三个人开会的场景，音频采集终端可能位于三人的中间。在同一时间，可能会出现三个人中的两个人或三个人，均同时说话的情况。那么，一个音频信息可能包括二个人的语音或者三个人的语音。如此，便可以将该包括多个人说话的语音的音频信息对应至多个空间区域。

所述处理模块用于基于所述空间区域与声源的位置关系，对音频信息进行处理得到表征音频信息。其中，所述表征音频信息中属于所述空间区域内声源的音频数据的信号强度，高于所述表征音频信息中不属于所述空间区域内声源的音频数据的信号强度。

在本实施方式中，处理模块在对空间区域对应的音频数据进行处理时，可以将音频数据中表达的声波分为：在所述空间区域内的声源发出的声波，和不在所述空间区域内的声源发出的声波。处理模块可以将在所述空间区域内的声源的音频数据的信号强度进行增强。具体的，例如，通过beamforming(波束形成技术)对存在所述对应关系的声波的音频数据的信号强度进行增强处理。当然，处理模块也可以将不在所述空间区域内的声源发出的声波的音频数据的信号强度进行减弱。如此，实现存在对应关系的声波与没有对应关系的声波之间的差别较为明显，从而有利于进行进一步的使用。具体的，例如，对音频数据的信号强度进行增强处理，可以是依照音频数据所表示的声音能量，按照一定倍数放大；对音频数据的信号强度进行减弱，可以是依照音频数据表示的声音能量，按照一定倍数减小，或者进行数据过滤、或者滤波等，以去除或减小与空间区域不对应的音频数据。当然，本说明书实施方式并不限于beamforming技术，还可以采用其它滤波技术等，在此不再赘述。

在本实施方式中，在同一个时段，音域识别模块提供的对应于音频采集终端数量的音频信息，可能会对应多个空间区域。所述处理模块可以分别将每个空间区域对应的音频信息进行处理，输出与每个所述空间区域对应的表征音频信息。

在本实施方式中，所述表征音频信息用于表征空间区域对应的音频信息。在一些情况下，多个音频采集终端可能提供了多个音频信息。在一个时间段，该多个音频信息可以均对应一个空间区域。为了便于进一步运算，可以进行处理得到一个音频信息作为表征音频信息。具体的，例如，可以在该多个音频信息中，选在与空间区域对应的声波的信号强度较强的音频信息，作为表征音频信息。或者，随机选择一个作为表征音频信息。或者，可以根据一些算法将多个音频信息进行合成，得到表征音频信息。例如，采用神经网络算法等。

在一个实施方式中，所述处理模块还可以对所述表征音频信息进行滤波，以降低音频信息中的噪音数据。具体的，所述处理模块可以对音频信息进行端点检测处理。端点检测处理的方法可以包括但不限于基于能量的端点检测、基于倒谱特征的端点检测、基于信息熵的端点检测、基于自身相关相似距离的端点检测等，在此不再列举。

在一个实施方式中，所述音频信息处理系统还可以包括语音识别模块。所述语音识别模块可以用于根据所述表征音频信息生成文本信息。

在本实施方式中，语音识别模块可以采用语音识别算法对表征音频信息进行处理，得出音频信息中表达的文本信息。具体的，例如，语音识别算法可以采用隐式马尔科夫算法或神经网络算法等，对音频信息进行语音识别。

本说明书实施方式还提供一种音频信息处理系统，所述信息处理系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以是一种音频设备。具体的，客户端可以包括至少两个音频采集终端、处理器和网络通信单元。

在本实施方式中，所述音频采集终端可以用于将用户的语音录制生成音频信息。将所述音频信息提供给音域识别模块。每个音频采集终端可以是一个传声器，或者是设置了传声器的麦克风。所述传声器用于将声音信号转换成电信号，得到音频信息。所述网络通信单元可以遵循网络通信协议进行网络数据通信。具体的，例如，所述客户端可以是具有较弱的数据处理能力，可以是类似物联网设备等电子设备。在本实施方式中，客户端可以具有两个以上音频采集终端形成的阵列。如此，可以提升音域识别模块的识别准确度。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit，asic)、可编程逻辑控制器和嵌入微控制器的形式等等。

在本实施方式中，所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然，上述服务器也可以是指运行于所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。

在本实施方式中，所述客户端可以运行有所述音域识别模块，所述服务器可以运行所述处理模块。所述客户端可以运行有发送模块，该发送模块用于将所述空间区域对应的音频信息发送给服务器。相应的，所述服务器可以运行有接收模块，用于接收客户端生成的与空间区域对应的音频信息。当然，所述服务器还可以运行所述语音识别模块。在本实施方式中，所述客户端可以具有一定的数据处理能力。具体的，例如，所述客户端可以是智能可穿戴设备、智能手机、或者智能音箱等。

在另一个实施方式中，所述客户端可以具有较强的数据处理能力。使得，所述客户端至少可以运行所述音域识别模块和所述处理模块，而无需与所述服务器进行数据交互。或者，所述客户端可以运行所述音域识别模块、所述处理模块和所述语音识别模块。具体的，例如，所述客户端可以是具有较高性能的智能手机、智能音箱、平板电脑、笔记本电脑、台式电脑等。本实施方式中，客户端可以包括至少两个音频采集终端和处理器，不设置有网络通信单元。

本说明书实施方式还提供一种音频信息处理系统。所述信息处理系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括至少两个音频采集终端和网络通信单元。所述客户端可以通过至少两个音频采集终端采集音频信息后，通过所述网络通信单元将所述音频信息发送给所述服务器。所述客户端具备较弱的数据处理能力，采集到音频信息之后，便提供给服务器进行处理。具体的，例如，客户端可以为物联网设备、便携式会议终端设备等。

在本实施方式中，前述所述信息处理系统中的模块包括但不限于音域识别模块和处理模块可以运行于所述服务器中。本实施方式中，运行在服务器中的音域识别模块可以接收客户端生成的音频信息。具体的，所述音频信息为所述客户端的音频采集终端生成。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得目前数据处理能力较弱的电子设备，也可能具备较佳的数据处理能力。所以上述实施方式中，对软件模块运行于硬件设备中的划分，并不构成对本申请的限定。所属领域技术人员还可能对上述软件的模块进行进一步功能拆分，并相应的放置于客户端或服务器中运行。但只要其实现的功能和效果与本说明书相同或相似，均应涵盖于本申请保护范围内。

请参阅图5。在一个实施方式中所述音频信息处理系统实现的功能，可以被划分为空间区域识别、空间区域动态划分、语音分离和语音识别等几个部分。

在本实施方式中，所述空间区域识别可以为音域识别模块确定音频信息对应的空间区域的过程中，将音频信息关联至已经划分的空间区域。该部分功能，可以主要实现以空间区域维度，划分出多个虚拟的数据通道。可以理解为，将一个空间区域关联的音频信息，放入该空间区域对应的数据通道中。进而，可以将一个数据通道中的音频信息进行统一处理。具体的，例如，可以认为一个空间区域是与一个用户对应的，即该用于处于所述空间区域中。所述用户的音频信息会放入所述空间区域的数据通道，进而可以针对该数据通道的音频信息进行一定处理，得出较为清晰的关于所述用户的音频信息。

在本实施方式中，所述空间区域动态划分可以是音域识别模块针对已经划分的空间区域进行调整的功能。在所述音频信息的声源与已经划分的空间区域没有对应关系的情况下，调整已经划分的空间区域，以使所述声源具有对应的空间区域。当然，空间区域动态划分的功能，可以是在空间语音识别功能的执行过程中，难以将音频信息划分至已经划分的空间区域时，执行该空间区域动态划分的功能。具体的，例如，音频信息的声源位于尚未划分的空间区域；或者，音频信息的声源部分位于已经划分的空间区域。

在本实施方式中，所述语音分离可以是处理模块对空间区域对应的音频信息进行处理得到表征音频信息的功能。具体的，可以参见前前文，在此不再赘述。经过执行语音分离功能之后，每个数据通道中的表征音频信息，可以较为准确的对应一个用户。如此，实现了对于一个数据通道来说，数据通道的表征音频信息可以相对较为纯粹的表示对应用户的语音，可以理解为，将用户的语音从环境中进行分离。如此，存在多个数据通道，多个数据通道分别对应不同用户，实现在一个会话场景中，将不用用户的语音进行分离。进一步的，还可以对数据通道中的表征音频信息进行降噪处理，使得每个数据通道中的表征音频信息更加准确，降低了噪声干扰。便于后续对表征音频信息的使用。

在本实施方式中，所述语音识别可以是所述语音识别模块运行时，将每个数据通道的表征音频信息转化为文字的功能。如此，可以对应得到每个数据通道对应用户的发言内容。由于前文语音分离之后的表征音频信息，可以更加准确的表达用户的语音，使得最终得到的文字内容，也相对较为准确。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被处理器执行时实现：接收音频采集终端生成的音频信息；根据所述音频信息确定所述音频信息对应的空间区域，其中，所述音频信息中至少部分声波的声源位于所述空间区域中；对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内的所述声源的声波的信号强度，高于所述表征音频信息中不属于所述声源的声波的信号强度。

在本实施方式中，所述计算机存储介质可以包括但不限于随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、缓存(cache)、硬盘(harddiskdrive,hdd)或者存储卡(memorycard)。

在本实施方式中，所述计算机程序指令被执行时实现的功能和效果，可以参照其它实施方式对照解释。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被处理器执行时实现：接收音频采集终端生成的音频信息；根据所述音频信息确定所述音频信息对应的空间区域，其中，所述音频信息中至少部分声波的声源位于所述空间区域中；将所述空间区域对应的音频信息发送给服务器，以用于所述服务器对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内的所述声源的声波的信号强度，高于所述表征音频信息中不属于所述声源的声波的信号强度。

在本实施方式中，所述计算机程序指令被执行时实现的功能和效果，可以参照其它实施方式对照解释。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被执行时实现：接收客户端生成的与空间区域对应的音频信息；对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内的所述声源的声波的信号强度，高于所述表征音频信息中不属于所述声源的声波的信号强度。

在本实施方式中，所述计算机程序指令被执行时实现的功能和效果，可以参照其它实施方式对照解释。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序指令，所述计算机程序指令被执行时实现：接收客户端生成的音频信息，所述音频信息为所述客户端的音频采集终端生成；根据所述音频信息确定所述音频信息对应的空间区域，其中，所述音频信息中至少部分声波的声源位于所述空间区域中；对所述空间区域对应的音频信息进行处理得到表征音频信息，其中，所述表征音频信息中属于所述空间区域内的所述声源的声波的信号强度，高于所述表征音频信息中不属于所述声源的声波的信号强度。

在本实施方式中，所述计算机程序指令被执行时实现的功能和效果，可以参照其它实施方式对照解释。

请参阅图6。本说明书实施方式还提供一种声音处理装置100。所述声音处理装置包括：壳体101；设置在所述壳体101的显示器103和扬声器105；设置在所述壳体101的麦克风阵列107；其中，所述麦克风阵列107包括至少二个麦克风；能将所述麦克风阵列107生成的音频信息发送给指定电子设备的传输单元109；以用于所述指定电子设备根据所述音频信息确定所述音频信息对应的空间区域，对所述空间区域对应的音频信息进行处理得到表征音频信息；其中，所述音频信息中至少部分声波的声源位于所述空间区域中；其中，所述表征音频信息中属于所述空间区域内的所述声源的声波的信号强度，高于所述表征音频信息中不属于所述声源的声波的信号强度。具体的，所述声音处理装置100可以是一个能够便携的客户端。例如，所述声音处理装置100可以是智能音箱、智能可穿戴设备或智能手机等。

在本实施方式中，所述壳体101可以为所述声音处理装置100构建基本形状和框架。所述声音处理装置100的其余元件，可以被限位于所述壳体101上。进一步的，所述壳体101可以为设置其余元件，预先设置不同的安装位置。以可以较为便捷的匹配安装所述声音处理装置100的其余元件。

在本实施方式中，所述显示器103可以用于显示信息提供给用户。所述显示器103可以是lcd显示器，或者可以是led显示器。当然，本说明书并不限制所述显示器103的具体类型，其还可能是其它类型的显示器，如crt。在一个具体的实施方式中，所述显示器103可以是led显示器，并具有触摸控制功能。在所述显示器103上可以提供有控制扬声器音量的按钮。进一步的，所述显示器103还可以显示有时间。当然，所述显示器103显示的时间可以是当前时间，也可以是当前使用状态的持续时长。

在本实施方式中，所述扬声器105用于播放音频信息。所述音频信息可以是所述传输单元109接收的所述指定电子设备提供的音频信息。具体的，例如，用户通过语音与所述声音处理装置100进行交互，所述声音处理装置100可以将麦克风阵列107生成的音频信息提供给所述指定电子设备。所述指定电子设备分析所述用户的音频信息之后，反馈答复所述用户的音频信息。所述扬声器105可以播放答复所述用户的音频信息，如此实现与用户进行语音交互。当然，在一些情况下，所述声音处理装置100可以具有处理器和存储器，使得声音处理装置100具备一定的数据处理能力。此时，所述声音处理装置100也可以直接与用户进行语音交互，并不必然将所述音频信息发送给所述指定电子设备。

在本实施方式中，麦克风可以是一个音频采集终端。如此，所述麦克风阵列107可以为音频采集终端阵列。麦克风阵列107中的麦克风的数量为二个以上，设置数量较多的麦克风，有助于对音频信息进行处理的更加准确。比如，更加准确的将音频信息划分不同的空间区域。

在本实施方式中，所述指定电子设备可以是具有一定数据处理能力的计算机设备。所述指定电子设备可以根据音频信息进行进一步运算处理，得出音频信息对应的空间区域。以及划分空间区域等。所述指定电子设备可以是一个与网络连通的服务器，也可以是具有较高配置的电脑，或者工作站等。

在一个实施方式中，所述麦克风阵列107分布的位置，环绕所述显示器103。如此，可以使得麦克风设置于显示器103的周向。在空间上，为麦克风阵列107提供了一定的距离，如此，便于识别音频信息对应的空间区域。

请参阅图7，本说明书实施方式还提供一种会议音频处理方法，使用麦克风阵列接收会议中多人说话的语音信息；所述方法可以包括以下步骤。

步骤s51：根据第一说话人的语音信息，确定所述第一说话人对应的第一空间区域；其中，所述第一说话人位于所述第一空间区域内；所述第一说话人的语音信息与所述第一空间区域相对应。

步骤s53：根据第二说话人的语音信息，确定所述第二说话人对应的第二空间区域；其中，所述第二说话人位于所述第二空间区域内；所述第二说话人的语音信息与所述第二空间区域相对应。

步骤s55：对所述第一空间区域对应的语音信息进行处理得到第一表征音频信息，以及对所述第二空间区域对应的语音信息进行处理得到第二表征音频信息；其中，所述第一表征音频信息中属于所述第一说话人的音频数据的信号强度，高于不属于所述第一说话人的音频数据的信号强度；所述第二表征音频信息中属于所述第二说话人的音频数据的信号强度，高于不属于所述第二说话人的音频数据的信号强度。

本实施方式涉及的内容，可以参阅前述实施方式对照解释。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardwaredescriptionlanguage，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等，目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式或者实施方式的某些部分所述的方法。

虽然通过实施方式描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余涛;李威;徐冲
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。