音频信号处理方法、装置及电子设备与流程

文档序号：29796120发布日期：2022-04-23 18:52阅读：100来源：国知局

1.本技术涉及音频信号识别技术领域，特别是涉及音频信号处理方法、装置及电子设备。

背景技术：

2.在会议、庭审现场等多人发言场景中，通常会存在对会议内容等进行记录的需求。在传统的方式下，通常需要专门的书记员在现场进行记录，记录下具体的发言内容以及对应的发言人。记录的方式通常是由书记员将现场听到的发言内容通过打字的方式输入到电脑等计算机设备中。但是，这对于书记员的专业能力以及专注度等都具有较高的要求。一旦某时刻发生发言人变化或者有人“抢话”等情况，需要及时地变更发言人信息，并进行发言内容的记录。因此，可能会出现记录错误或者漏掉部分内容等情况。
3.虽然现有技术中存在一些语音识别相关的产品，但是通常只能将采集到的语音信号转换成文本，还需要书记员再对文本串进行分割，标记上具体的发言人信息，等等，因此，仍然需要大量的人工操作，而且仍然会产生较高的出错率。
4.为此，如何进一步降低多人发言场景中会议记录工作人员的工作量，提升所记录内容的准确度，成为需要本领域技术人员解决的技术问题。

技术实现要素：

5.本技术提供了音频信号处理方法、装置及电子设备，能够提高会议记录的效率以及准确度，降低会议记录工作人员的工作量。
6.本技术提供了如下方案：
7.一种音频信号处理方法，包括：
8.对多人发言场景下采集到的音频信号进行语音识别以及声源定位；其中，在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
9.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
10.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
11.根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。
12.一种声源定位方法，包括：
13.确定待处理的音频信号；
14.获取所述音频信号中当前信号帧及其前后目标数量的信号帧的波达方向谱图信息；
15.对所述信号帧及其前后目标数量的信号帧的波达方向谱图信息组成的矩阵谱图进行平滑处理；
16.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果。
17.一种生成会议记录的方法，包括：
18.对多人发言的会议场景下采集到的音频信号进行语音识别以及声源定位；其中，在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
19.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
20.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
21.根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
22.根据分隔出的多个文本段生成所述会议的会议记录。
23.一种直播视频处理方法，包括：
24.对多人发言的视频直播场景下采集到的音频信号进行语音识别以及声源定位，其中，多个发言人位于同一空间场所中；在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
25.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
26.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
27.根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
28.根据分隔出的多个文本段对应的时间轴信息，将所述文本段添加到所述视频直播场景下采集到的视频图像中，以生成带字幕的直播视频图像。
29.一种音频信号处理装置，包括：
30.识别定位单元，用于对多人发言场景下采集到的音频信号进行语音识别以及声源定位；其中，所述识别定位单元在对所述音频信号进行声源定位时，包括以下子单元：
31.信号谱图处理子单元，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
32.定位结果确定子单元，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
33.识别文本处理单元，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。
34.一种拾音器，包括所述的音频信号处理装置。
35.一种声源定位装置，包括：
36.音频信号确定单元，用于确定待处理的音频信号；
37.方向谱图确定单元，用于获取所述音频信号中当前信号帧及其前后目标数量的信
号帧的波达方向谱图信息；
38.平滑处理单元，用于对所述信号帧及其前后目标数量的信号帧的波达方向谱图信息组成的矩阵谱图进行平滑处理；
39.单位结果确定单元，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果。
40.一种拾音器，包括所述的声源定位装置。
41.一种生成会议记录的装置，包括：
42.识别定位单元，用于对多人发言的会议场景下采集到的音频信号进行语音识别以及声源定位；其中，所述识别定位单元在对所述音频信号进行声源定位时包括子单元：
43.信号谱图处理子单元，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
44.定位结果确定子单元，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
45.识别文本处理单元，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
46.会议记录生成单元，用于根据分隔出的多个文本段生成所述会议的会议记录。
47.一种直播视频处理装置，包括：
48.识别定位单元，用于对多人发言的视频直播场景下采集到的音频信号进行语音识别以及声源定位，其中，所述识别定位单元在对所述音频信号进行声源定位时包括子单元：
49.信号谱图处理子单元，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
50.定位结果确定子单元，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
51.识别文本处理单元，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
52.字幕添加单元，用于根据分隔出的多个文本段对应的时间轴信息，将所述文本段添加到所述视频直播场景下采集到的视频图像中，以生成带字幕的直播视频图像。
53.根据本技术提供的具体实施例，本技术公开了以下技术效果：
54.通过本技术实施例，可以对多人发言场景中采集到音频信号进行语音识别以及声源定位，其中，在进行声源定位时，还可以以当前信号帧为中心，取目标长度的窗口内的多个信号帧，并分别获取各信号帧的波达方向谱图信息，以此获得更多可以参与计算以及处理的数据，并在此基础上进行平滑处理，之后，可以根据当前信号帧对应的平滑处理后的波达方向谱图，确定出当前信号帧的声源定位结果。通过这种方式，由于可以以信号帧为单位进行声源定位，因此可以使得实时性得到保证，另外，由于可以将多个信号帧的波达方向谱图信息都参与计算及处理，因此，也使得声源定位的准确度更高。在这种高精度以及高实时性的声源定位的基础上，即使出现“抢话”等情况，也可以及时地根据所述声源定位结果检测出发言人变更事件及其对应的发生位置，进而可以根据所述发言人变更事件的发生位置
将语音识别得到的文本进行分隔。这样，可以使得语音识别结果不再是一整段文本内容，而是根据发生发言人变更的位置进行了分隔，因此可以便于后续为具体的语音识别结果添加发言人标签，提高效率以及准确度，降低会议记录工作人员的工作量。
55.当然，实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
56.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
57.图1是本技术实施例提供的系统架构的示意图；
58.图2是本技术实施例提供的第一方法的流程图；
59.图3-1、3-2是本技术实施例提供的会议记录生成界面的示意图；
60.图4是本技术实施例提供的第二方法的流程图；
61.图5是本技术实施例提供的第三方法的流程图；
62.图6是本技术实施例提供的第四方法的流程图；
63.图7是本技术实施例提供的第一装置的示意图；
64.图8是本技术实施例提供的第二装置的示意图；
65.图9是本技术实施例提供的第三装置的示意图；
66.图10是本技术实施例提供的第四装置的示意图；
67.图11是本技术实施例提供的电子设备的示意图。
具体实施方式
68.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本技术保护的范围。
69.在本技术实施例中，针对多人发言场景，除了可以对采集到的音频信号进行语音识别，还可以进行声源定位。也就是说，由于具体的多人发言场景中，例如，多人会议等，具体发言人通常可以在自己的座位等处进行发言，在会议过程中，发言人的位置通常不会发生变化，因此，可以通过识别出声源方向的突变，来判断是否存在发言人变更的事件。如果存在，还可以确定出发生发言人变更的位置，并在对应的位置将语音识别结果进行截断分隔。这样，语音识别结果不再是一整段文本内容，而是可以按照发言人变更的时间点分隔成多段，以便于进行后续进一步的发言人标记工作。
70.或者，在可选的方式下，还可以根据声源定位结果自动对分隔出的文本段进行发言人标记，来自同一声源方向的文本段还可以自动打上相同的标记，例如，可以标记为1、2、3，或者a、b、c等id类的标识。后续还可以通过手动修改等方式添加发言人姓名等信息，并且同一id对应的发言人姓名可以自动全部修改。另外，如果能够预先获取到具体场景中位次与发言人姓名等对应关系，则还可以直接将具体声源方向对应的文本段添加具体发言人姓
名标识，等等。通过上述方式，可以减少人工标记的工作量，并且也有利于提高准确度，降低出错率。
71.在实现上述方案的过程中，由于具体的多人发言场景中，具体发言人变更时刻的发生时间是不固定的，在一些争论比较激烈的场景中，还随时可能发生“抢话”等现象，也即，其中一个人打断另一个人的发言，因此，在具体进行声源定位时，如何精确地识别任意时刻发生的发言人变化、抢话等情况，是很重要的。
72.为此，在本技术实施例中，可以利用麦克风阵列进行音频信号的接收，并且，可以基于波达方向谱图进行计算和处理。具体的，由于波达方向谱图对应多维向量，例如，具体可以是360维的向量，每个维度对应一个相位差(角度)，这样，每一信号帧都可以有360个值。另外，针对每一信号帧，还可以在其前后一个目标长度的窗口，例如，窗口长度可以为9，等等，这样，总共可以有360*9＝3240个数值，利用这些数值可以做更多的计算和处理，具体可以包括滤波处理等，例如，可以通过平滑处理，将信号中一些不重要的成分滤除，使得人声分辨度更高的成为更加凸显，等等。通过这种方式，可以使得声源定位结果更加准确，并且，由于是以信号帧为单位进行处理，而每个信号帧通常是毫秒级的(例如，20ms)，即使需要目标长度的窗口，总共的时间也是比较短的，通常小于发言过程中单个字或音节的发音持续时间，因此，可以更及时发现发言人变更事件，并确定出对应的发生位置。
73.具体实现时，从系统架构角度而言，本技术实施例具体可以对应“智能拾音器”等产品。参见图1，具体可以包括硬件以及软件两部分，其中，硬件的部分主要对应麦克风阵列等，用于对多人发言场景进行音频信号的采集。具体实现时，由于会议过程中，与会者通常可以围坐在会议桌的周围，因此，为了更好的进行语音识别以及声源定位，可以将智能拾音器等设备放置于会议桌的中心区域。
74.软件的部分则主要用于对具体采集到的音频信号进行处理，可以包括语音识别以及声源定位两个模块。基于语音识别以及声源定位的结果，可以将音频信号识别为多个文本段，每个文本段的截断位置对应着发言人变更事件的发生位置。其中，对于具体的声源定位模块，可以通过根据信号帧及其前后目标数据信号帧的波达方向谱图信息进行计算和处理，以提升声源定位的精度以及实时性，以更精确、及时地发现发言人变更事件，并确定出对应的位置。
75.其中，软件的部分可以以应用程序等形式运行在个人计算机等终端设备上，例如，具体可以是在负责会议记录的用户计算机设备上运行上述应用程序，智能拾音器等麦克风阵列可以与该计算机设备连接，这样，智能拾音器采集到的音频信号可以传到该计算机设备上，由计算机设备中运行的该应用程序进行具体的数据处理，还可以提供相应的界面，将语音识别结果，以及根据声源定位结果进行拆解或标注后的文本段进行展示，最终可以生成对应的会议记录等。
76.下面对本技术实施例提供的具体实现方式进行详细介绍。
77.实施例一
78.该实施例一是针对图1所示的多人发言场景，提供了一种音频信号处理方法，参见图2，该方法具体可以包括：
79.s210：对多人发言场景下采集到的音频信号进行语音识别以及声源定位；其中，在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
80.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
81.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果。
82.其中，关于语音识别，具体就是让机器通过识别和理解过程把语音信号转变为相应的文本，关于其具体实现方式，本技术实施例中不进行详述。
83.关于声源定位，在本技术实施例中，主要可以是指基于麦克风阵列的声源定位，具体的，主要可以对声音来源的方向(可以通过角度进行表示)进行判定。由于在会议等场景中，麦克风以及每个发言人的位置通常是固定不变的，在发言人发生改变时，具体的声音到达麦克风的方向角度会发生变化，因此，可以通过对声源方向进行检测，来判断发言过程中是否发生变更发言人的事件。例如，某与会者a所在的座位相对于麦克风基准角度(例如，以北向为0度，等等)为45度，与会者b所在的座位相对于麦克风基准角度为90度，如果在与会者a发言过程中的某时刻t，与会者b突然打断了a，开始发言，此时，通过声源定位，可以确定出某信号帧的声源定位结果是45度，下一信号帧的声源定位结果突然变为90度，因此，可以将该信号帧所在的位置确定为发言人发生变更的位置，等等。
84.其中，为了能够精确且及时地进行上述声源定位，在本技术实施例中，可以首先获取当前信号帧及其前后目标数量(例如，前后各4个)的信号帧的波达方向谱图信息组成矩阵谱图，其中，由于波达方向谱图可以包括多个角度对应的数值，因此，可以基于这些数据进行更多的计算以及处理。其中，就可以包括对所述矩阵谱图进行平滑处理。也即，通过当前信号帧及其前后目标数量的信号帧的信息进行平滑处理，以此过滤到一些不重要的成分(例如，非人声的声音)，并将重要的成分(例如，人声分辨率较高的声音)更加突出。这样，可以使得声源定位的结果更加精确。
85.其中，具体对信号帧的定义可以有多种，例如，可以将每20ms的音频数据确定为一个信号帧，以此使得声源定位的实时性得到保障。关于具体所选择的窗口的长度，也可以根据实际需要进行设定，但是，不能过长，否则可能影响声源定位结果的实时性，也不能过短，否则可能影响平滑处理的效果，等等。因此，在可选的实施方式中，具体可以将窗口长度取为9。也就是说，可以以当前帧为中心，往前取4帧，往后取4帧，以此选取一个长度为9的窗口。每个当前帧都可以用这样的方式进行窗口的选取。
86.另外，窗口中的每个信号帧都可以分别获取其波达方向谱图。其中，获取波达方向谱图的方式也可以有多种，例如，可以通过gcc-phat(generalized cross-correlation，广义互相关)等技术，为具体的信号帧计算出一个长度为360的向量，代表0-360度，该向量就表示该信号帧的波达方向谱图。这样，每个信号帧都可以得到一个360维的向量，在窗口长度为9的情况下，可以得到大小为360*9的矩阵谱图。
87.具体在进行平滑处理时，可以有多种方式。例如，在一种方式下，可以首先针对所述当前信号帧及其前后目标数量的信号帧，分别计算对应的峰度，然后，利用目标滤波器以及所述峰度信息，对所述矩阵谱图进行平滑处理。具体的，对矩阵谱图中的每一信号帧，计算对应的kurtosis(峰度，表征概率密度分布曲线在平均值处峰值高低的特征数，直观看来，峰度反映了峰部的尖度，峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的)，分别获得9个kurtosis值。滤波器的选择也可以有多种，例如，一种可选
的滤波器可以是卡尔曼滤波器(kalman filter)等，可以利用该卡尔曼滤波器和9个kurtosis值作为权重，对360*9的矩阵谱图进行平滑处理。卡尔曼滤波是一种利用线性系统状态方程，利用对系统的观测数据，对系统状态进行最优估计的算法。由于观测数据受到系统中的噪声和干扰的影响，所以系统状态的估计过程也可看作是滤波过程。
88.在完成平滑处理后，可以根据平滑后的矩阵谱图的当前帧，取其中数值满足条件(例如最大值)对应的角度，该角度就可以确定为该当前帧的声源定位结果。
89.s220：根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。
90.通过本技术实施例提供的方式，对于每一信号帧，都可以获得具体的声源定位结果。在获得每个信号帧的声源定位结果后，还可以确定出当前信号帧的声源定位结果与上一信号帧的声源定位结果之间的差值，如果该差值大于阈值，则可以确定发生发言人变更事件，并可以将该当前信号帧所在的位置确定为所述发言人变更事件的发生位置。其中，所谓的发言人变更事件是指，发言的人发生变化的事件，例如，从t1到t2时刻，a在发言，从t2时刻开始，b开始发言，则该t2时刻就发生了一次发言人变更事件，相应的，t2时刻在时间轴上的位置，就是发言人变更事件的发生位置。其中，由于a所在的位置与b所在的位置不同，因此，各自的发言时，产生的声波到达拾音器的方向是不同的，本技术实施例就是通过对波达方向谱图进行分析，识别出这种t2时刻所在的位置。
91.其中，关于上述阈值的设置可以根据实际情况而定，并且该阈值是可以动态设定的，例如，可以在具体的客户端界面中提供用于对阈值进行设定的操作选项，这样，可以根据会议室的大小、与会人员的密度等，设定不同的阈值。例如，如果与会人员的密度越大，相邻与会者相对于麦克风的相位差会越接近，此时，可以设定较小的阈值，等等。
92.另外，在具体实现时，还可以通过对发言人音色特征的提取，对通过声源定位的方式确定的发言人变更事件的发生位置进行验证。也就是说，不同发言人在音色上往往是不同的，因此，在通过声源定位的方式进行发言人变更事件检测的过程中，还可以利用该特点，对发言人变更事件的检测结果进行验证。例如，通过本技术实施例通过的声源定位的方式检测到某t2时刻发生了发言人变更事件，之后，还可以对该t2时刻前后数个信号帧中的音色特征进行提取，并进行比对，如果确实存在明显的不同，则可以进一步提升声源定位方式检测结果的可信度。如果通过音色特征对比，发现t2时刻前后的音色特征并没有发生明显变化，则在输出分隔后的文本时，还可以在该位置处添加标记，提醒后续的编辑人员等对该位置进行进一步的确认，等等。
93.通过上述方式，由于可以识别出发言人变更事件对应的发生位置，因此，可以将具体的语音识别结果截断为多个文本段，后续可以由具体的书记员等用户为文本段关联上具体的发言人姓名等信息。也就是说，对音频信号进行语音识别得到的结果是整段的文本内容，当然，这些文本内容也可以与具体音频信号的时间轴关联。本技术实施例中，通过对音频信号中发言人变更时间点的识别，可以确定出在哪些时间点发生了发言人变更，进而根据这些时间点在时间轴上的位置，可以将语音识别出的整段文本内容分隔成多个文本段，每个文本段可以是一个句子，或者多个句子，等等。
94.或者，在另一种方式下，为了进一步降低书记员的工作量，还可以自动为分隔出的文本添加发言人标识。如前文所述，可以为具体的文本段添加标签，具体的标签内容可以是
发言人的id等。其中，发言人的id可以是在具体进行音频信号处理的过程进行确定的，并且还可以为对应同一发言人的不同文本段添加相同的标签。也就是说，在多人发言过程中，同一个发言人可能会在不同的时间段多次发言，由于在本技术实施例的场景中，通常可以是会议等场景，因此，发言人通常是在自己的座位上进行发言，因此，同一个发言人在不同时间段发言时，对具体时间段内产生信号帧的声源定位结果应该是相同或者在同一范围内。通过该原理，不仅可以识别出发言人变更事件的发生位置，还可以对不同时间段对应的发言人进行同人识别。具体的，可以根据所述发言人变更事件的发生位置分隔出多个时间段，并分别对同一时间段中多个信号帧的声源定位结果进行统计，确定每个时间段的声源定位结果的区间范围。然后，根据不同时间段之间所述区间范围的相似度，对所述多个时间段对应的发言人进行同人判断。之后，再为对应同一发言人的不同时间端段对应的文本段添加相同的标签。
95.具体从程序实现角度而言，某发言人开始发言后，可以识别出该发言人对应的声源定位结果(体可以是某角度值)，并且可以判断该用户是否为首次发言，如果尚未发言过，则为该发言人分配新的id，并添加为当前分隔出的文本段的发言人标签。如果该发言人曾经发言过，则可以将之前已经为其分配的id添加为当前分隔出的文本段的标签。
96.其中，具体在确定一个发言人是否为首次发言时，可以有多种方式。例如，在首次识别出发言人变更后，可以将分配给该用户的id与声源定位结果之间的对应关系进行保存；后续再次识别出发言人变更时，判断发生变更的位置处信号帧对应的声源定位结果，是否出现在之前保存的对应关系中，如果没有出现，则证明是首次发言，为其分配新的id，否则不是首次发言，使用该声源定位结果对应的id为分隔出的文本段进行标记即可。
97.当然，由于一个信号帧对应的时间为毫秒级，因此，一个发言人在发言过程中会涉及到多个信号帧，并且每个信号帧都可以对应一个声源定位结果；而用户在发言过程中几乎不可能完全静止不动，再加上声源定位本身存在的误差等，使得即使是未发生发言人变更，每一帧对应的声源定位结果可能也不是完全相同的。但是，只要发言人未发生变更，多个信号帧的声源定位结果就会在一定的范围内(如果偏离太多，甚至超过了阈值，就会被判定为发言人变更了)，例如，都是在45度附近，等等。因此，在识别出一次发言人变更事件后，在发言人再次发生变更之前，可以对该时间段内的信号帧对应的声源定位结果进行统计，确定出对应的发言人对应的声源定位结果的区间范围，然后，将该发言人对应的id与该声源定位结果的区间范围信息之间的对应关系进行保存。例如，某发言人的声源定位结果可能在43度到47度之间，等等。也就是说，已经进行过发言的与会者会被分配发言人id，并与一个声源定位结果的区间范围相对应。这样，后续在检测到新的发言人变更时间后，可以判断出发生变更处的信号帧对应的声源定位结果是否出现在某个发言人id对应的声源定位结果的区间范围内，如果是，则该发言人不是首次发言，并且可以将新分隔出的文本段关联该发言人id，否则，该发言人为首次发言，因此，可以重新为该发言人分配新的id，等等。
98.通过这种方式，除了可以根据发生发言人变更的位置分隔出多个文本段，还可以为文本段添加上发言人标识，并且，虽然这种标识可以通过id的方式进行标记，但是，由于还可以进行“同人判断”，因此，还可以将相同发言人对应的文本段标记为相同的发言人id。这样，后续具体在对具体的发言人姓名进行编辑时，对其中一个发言人id进行编辑，修改为发言人的姓名等之后，相同发言人id对应的其他文本段的标签也可以自动完成修改。具体
的，可以提供用于对所述文本段的标签进行编辑的操作选项，在接收到关于其中一文本段的编辑结果后，可以确定与该文本段对应相同标签的其他文本段，并将所述其他文本段的标签修改为所述编辑结果。通过这种方式，可以实现对发言人姓名等信息的批量编辑，以此进一步提升效率，降低出错的概率。
99.例如，如图3-1所示，其为一种具体实现方式下，应用程序的识别结果界面图，从图中可以看出，本技术实施例可以将具体的音频信号识别为文本，并根据声源定位结果将文本在发言人变更位置处截断，生成多个文本段，并且可以为不同的文本段添加发言人标签，不同的文本段对应相同的发言人时，还添加相同的标签。例如，在图3-1所示的例子中，文本段1和文本段3对应的都是用户2，文本段2对应的是用户1，等等。另外，还可以为具体的文本段提供用于对标签进行编辑的操作选项，例如，如图3-1中的31处所示，用户可以通过该操作选项对文本段的标签进行修改，并且，可以实现对关联相同标签的多个不同文本段的批量修改。例如，如图3-2所示，假设用户将文本段1的标签编辑为“张三”，则文本三对应的标签也可以同步自动修改为“张三”，等等。
100.另外，在具体实现时，还可以根据预先获取的不同发言人的声音特征信息及其对应的发言人标识，提供推荐的标签。例如，具体的，可以预先对某次会议的参会者预先进行声音特征提取，并与具体的发言人标识相对应，并进行保存。这样，假设通过声源定位结果确定出某t2时刻发生了发言人变更，则可以对该时刻之后的信号帧进行声音特征提取，根据提取出的声音特征，对之前保存的声音特征进行检索，如果与其中某人的声音特征匹配，则可以利用该声音特征对应的发言人标识，提供推荐的标签。例如，具体索引中保存的发言人标识可以是发言人的姓名、工号等身份信息，则可以利用这种姓名或者工号信息提供推荐的标签。这样，如果识别正确，则可以进一步减少后续人工编辑的工作量。
101.需要说明的是，在具体实现时，本技术实施例提供的音频信号处理方法可以有多种具体的应用场景，例如，可以是多人发言的会议场景(包括讨论会、庭审现场会议，等等)。或者，还可以包括多人发言的视频直播场景，等等。无论具体何种场景，多个发言人都可以是位于同一空间场所中，以此通过声源定位的方式对发言人变更事件进行检测。
102.其中，对于多人发言的视频直播场景等关联有视频信号的情况，在可选的实施方式中，还可以在对所述语音识别得到的文本进行分隔后，根据分隔出的多个文本段对应的时间轴信息(对于具体的视频而言，视频信号、音频信号以及具体语音识别出的文本信息，都可以对应相同的时间轴)添加到关联的视频图像中，以生成带字幕的视频图像。上述添加字幕的过程中可以是在直播过程中，针对实时采集到的直播数据流来进行的，因此，具体的语音识别以及声源定位等，都可以是基于直播数据流来进行。
103.总之，通过本技术实施例，可以对多人发言场景中采集到音频信号进行语音识别以及声源定位，其中，在进行声源定位时，还可以以当前信号帧为中心，取目标长度的窗口内的多个信号帧，并分别获取各信号帧的波达方向谱图信息，以此获得更多可以参与计算以及处理的数据，并在此基础上进行平滑处理，之后，可以根据当前信号帧对应的平滑处理后的波达方向谱图，确定出当前信号帧的声源定位结果。通过这种方式，由于可以以信号帧为单位进行声源定位，因此可以使得实时性得到保证，另外，由于可以将多个信号帧的波达方向谱图信息都参与计算及处理，因此，也使得声源定位的准确度更高。在这种高精度以及高实时性的声源定位的基础上，即使出现“抢话”等情况，也可以及时地根据所述声源定位
结果检测出发言人变更事件及其对应的发生位置，进而可以根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。这样，可以使得语音识别结果不再是一整段文本内容，而是根据发生发言人变更的位置进行了分隔，因此可以便于后续为具体的语音识别结果添加发言人标签，提高效率以及准确度。
104.实施例二
105.前述实施例一中，对具体多人发言场景中的信息处理方法进行了介绍，其中涉及到具体的声源定位方法，而该声源定位方法在其他应用场景中也可以使用。为此，在本技术实施例二中，单独提供了一种声源定位方法，参见图4，该方法具体可以包括：
106.s410：确定待处理的音频信号；
107.待处理的音频信号可以有多种，例如，可以是在某场景中实时采集到的音频信号，还可以是录音结果，等等。
108.s420：获取所述音频信号中当前信号帧及其前后目标数量的信号帧的波达方向谱图信息；
109.s430：对所述信号帧及其前后目标数量的信号帧的波达方向谱图信息组成的矩阵谱图进行平滑处理；
110.s440：根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果。
111.实施例三
112.该实施例三针对多人发言的会议场景，提供了一种具体的应用方案。具体的，该实施例三提供了一种生成会议记录的方法，参见图5，该方法可以包括：
113.s510：对多人发言的会议场景下采集到的音频信号进行语音识别以及声源定位；其中，在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
114.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
115.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
116.s520：根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
117.s530：根据分隔出的多个文本段生成所述会议的会议记录。
118.具体实现时，还可以为所述分隔出的多个文本段添加标签，所述标签用于代表发言人标识。
119.另外，还可以为对应同一发言人的不同文本段添加相同的标签。
120.再者，还可以提供用于对所述文本段的标签进行编辑的操作选项；在接收到关于其中一文本段的编辑结果后，确定与该文本段对应相同标签的其他文本段，并将所述其他文本段的标签修改为所述编辑结果，所述编辑结果对应所述发言人的身份信息。
121.实施例四
122.该实施例四是针对在直播视频场景中的应用，提供了一种直播视频处理方法，参见图6，该方法可以包括：
123.s610：对多人发言的视频直播场景下采集到的音频信号进行语音识别以及声源定位，其中，多个发言人位于同一空间场所中；在对所述音频信号进行声源定位时，以所述音频信号中的信号帧为单位，分别进行以下处理：
124.获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
125.根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
126.s620：根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
127.s630：根据分隔出的多个文本段对应的时间轴信息，将所述文本段添加到所述视频直播场景下采集到的视频图像中，以生成带字幕的直播视频图像。
128.关于上述实施例二至实施例四中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。
129.需要说明的是，本技术实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
130.与实施例一相对应，本技术实施例还提供了一种音频信号处理装置，参见图7，该装置可以包括：
131.识别定位单元710，用于对多人发言场景下采集到的音频信号进行语音识别以及声源定位；其中，所述识别定位单元在对所述音频信号进行声源定位时包括子单元：
132.信号谱图处理子单元711，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
133.定位结果确定子单元712，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
134.识别文本处理单元720，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔。
135.具体实现时，所述信号谱图处理单元具体可以用于：
136.针对所述当前信号帧及其前后目标数量的信号帧，分别计算对应的峰度；利用目标滤波器以及所述峰度信息，对所述矩阵谱图进行平滑处理。
137.其中，所述识别文本处理单元具体可以用于：
138.确定所述当前信号帧的声源定位结果与上一信号帧的声源定位结果之间的差值；如果所述差值大于目标阈值，则确定发生发言人变更事件，并将该当前信号帧所在的位置确定为所述发言人变更事件的发生位置。
139.其中，所述目标阈值可以是根据所述多人发言场景关联的空间面积而进行动态设定。
140.具体实现时，该装置还可以包括：
141.标签添加单元，用于为分隔出的文本段添加标签，所述标签用于代表发言人标识。
142.具体的，所述标签添加单元可以用于：
143.为对应同一发言人的不同文本段添加相同的标签。
144.具体实现时，该装置还可以包括：
145.统计单元，用于根据所述发言人变更事件的发生位置分隔出多个时间段，并分别对同一时间段中多个信号帧的声源定位结果进行统计，确定每个时间段的声源定位结果的区间范围；
146.同人判断单元，用于根据不同时间段之间所述区间范围的相似度，对所述多个时间段对应的发言人进行同人判断；
147.所述标签添加单元可以用于：
148.为对应同一发言人的不同时间端段对应的文本段添加相同的标签。
149.另外，该装置还可以包括：
150.操作选项提供单元，用于提供用于对所述文本段的标签进行编辑的操作选项；
151.编辑单元，用于在接收到关于其中一文本段的编辑结果后，确定与该文本段对应相同标签的其他文本段，并将所述其他文本段的标签修改为所述编辑结果。
152.再者，该装置还可以包括：
153.标签推荐单元，用于根据预先获取的不同发言人的声音特征信息及其对应的发言人标识，提供推荐的标签。
154.验证单元，用于通过对发言人音色特征的提取，对通过声源定位的方式确定的发言人变更事件的发生位置进行验证。
155.其中，所述多人发言场景包括多人发言的会议场景，其中，多个发言人位于同一空间场所中。
156.另外，所述音频信号还可以关联有视频信号；
157.此时，该装置还可以包括：
158.字幕添加单元，用于对所述语音识别得到的文本进行分隔后，根据分隔出的多个文本段对应的时间轴信息添加到关联的视频图像中，以生成带字幕的视频图像。
159.其中，所述多人发言场景包括多人发言的视频直播场景，其中，多个发言人位于同一空间场所中。
160.另外，本技术实施例还提供了一种拾音器，该拾音器可以包括前述音频信号处理装置。
161.与实施例二相对应，本技术实施例还提供了一种声源定位装置，参见图8，该装置可以包括：
162.音频信号确定单元810，用于确定待处理的音频信号；
163.方向谱图确定单元820，用于获取所述音频信号中当前信号帧及其前后目标数量的信号帧的波达方向谱图信息；
164.平滑处理单元830，用于对所述信号帧及其前后目标数量的信号帧的波达方向谱图信息组成的矩阵谱图进行平滑处理；
165.单位结果确定单元840，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果。
166.另外，本技术实施例还提供了一种拾音器，该拾音器可以包括前述声源定位装置。
167.与实施例三相对应，本技术实施例还提供了一种生成会议记录的装置，参见图9，
该装置可以包括：
168.识别定位单元910，用于对多人发言的会议场景下采集到的音频信号进行语音识别以及声源定位；其中，所述识别定位单元在对所述音频信号进行声源定位时包括子单元：
169.信号谱图处理子单元911，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
170.定位结果确定子单元912，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
171.识别文本处理单元920，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
172.会议记录生成单元930，用于根据分隔出的多个文本段生成所述会议的会议记录。
173.具体实现时，该装置还可以包括：
174.标签添加单元，用于为分隔出的文本段添加标签，所述标签用于代表发言人标识。
175.具体的，所述标签添加单元可以用于：
176.为对应同一发言人的不同文本段添加相同的标签。
177.另外，该装置还可以包括：
178.操作选项提供单元，用于提供用于对所述文本段的标签进行编辑的操作选项；
179.编辑单元，用于在接收到关于其中一文本段的编辑结果后，确定与该文本段对应相同标签的其他文本段，并将所述其他文本段的标签修改为所述编辑结果。
180.与实施例四相对应，本技术实施例还提供了一种直播视频处理装置，参见图10，该装置可以包括：
181.识别定位单元1010，用于对多人发言的视频直播场景下采集到的音频信号进行语音识别以及声源定位，其中，所述识别定位单元在对所述音频信号进行声源定位时包括子单元：
182.信号谱图处理子单元1011，用于以所述音频信号中的信号帧为单位，获取当前信号帧及其前后目标数量的信号帧的波达方向谱图信息组成矩阵谱图，并对所述矩阵谱图进行平滑处理；
183.定位结果确定子单元1012，用于根据当前信号帧对应的平滑处理后的波达方向谱图中，满足目标条件的取值对应的角度，确定所述当前信号帧的声源定位结果；
184.识别文本处理单元1020，用于根据多个信号帧的声源定位结果确定发言人变更事件的发生位置，并根据所述发言人变更事件的发生位置将语音识别得到的文本进行分隔；
185.字幕添加单元1030，用于根据分隔出的多个文本段对应的时间轴信息，将所述文本段添加到所述视频直播场景下采集到的视频图像中，以生成带字幕的直播视频图像。
186.另外，本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
187.以及一种电子设备，包括：
188.一个或多个处理器；以及
189.与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法
的步骤。
190.其中，图11示例性的展示出了电子设备的架构，具体可以包括处理器1110，视频显示适配器1111，磁盘驱动器1112，输入/输出接口1113，网络接口1114，以及存储器1120。上述处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114，与存储器1120之间可以通过通信总线1130进行通信连接。
191.其中，处理器1110可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术所提供的技术方案。
192.存储器1120可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1120可以存储用于控制电子设备1100运行的操作系统1121，用于控制电子设备1100的低级别操作的基本输入输出系统(bios)。另外，还可以存储网页浏览器1123，数据存储管理系统1124，以及音频信号处理系统1125等等。上述音频信号处理系统1125就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本技术所提供的技术方案时，相关的程序代码保存在存储器1120中，并由处理器1110来调用执行。
193.输入/输出接口1113用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
194.网络接口1114用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
195.总线1130包括一通路，在设备的各个组件(例如处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114，与存储器1120)之间传输信息。
196.需要说明的是，尽管上述设备仅示出了处理器1110、视频显示适配器1111、磁盘驱动器1112、输入/输出接口1113、网络接口1114，存储器1120，总线1130等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本技术方案所必需的组件，而不必包含图中所示的全部组件。
197.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
198.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为
分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
199.以上对本技术所提供的音频信号处理方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本技术的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑斯奇索宏彬
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种经桡动脉入路脑血管介入套管组件的制作方法
上一篇：一种基于智能算法的杆塔沉降风险预测方法与流程