本公开涉及信息,尤其涉及一种音频信号处理方法、装置、设备及存储介质。
背景技术:
1、随着科技的不断发展,通过对音频信号进行处理,可以获得一些有用的信息,例如,可以分析出一段音频信号中有几个人说话,以及每个人的说话内容。
2、但是,在多人对话的场景中,如果有些人的音色很像,将很难区分出不同人的说话内容。
技术实现思路
1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频信号处理方法、装置、设备及存储介质,本公开结合多模态信息生成的包含说话人标签的语音识别结果更加精准,特别是有些人的音色很像的情况下,通过文本模态的信息可以很好的校准音频模态的信息,因此,可以精准的区分出不同人的说话内容。
2、第一方面,本公开实施例提供一种音频信号处理方法,包括:
3、对音频信号进行语音识别,得到语音识别结果;
4、从所述语音识别结果中获取局部文本内容,并对所述局部文本内容进行标注,所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话;
5、根据所述语音识别结果,从所述音频信号中获取多个音频片段,并提取每个音频片段的音色信息;
6、根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息,生成包含说话人标签的语音识别结果。
7、第二方面,本公开实施例提供一种音频信号处理装置,包括:
8、语音识别模块,用于对音频信号进行语音识别,得到语音识别结果;
9、第一获取模块,用于从所述语音识别结果中获取局部文本内容;
10、标注模块,用于对所述局部文本内容进行标注,所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话;
11、第二获取模块,用于根据所述语音识别结果,从所述音频信号中获取多个音频片段,并提取每个音频片段的音色信息;
12、生成模块,用于根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息,生成包含说话人标签的语音识别结果。
13、第三方面,本公开实施例提供一种电子设备,包括:
14、存储器;
15、处理器;以及
16、计算机程序;
17、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
18、第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
19、本公开实施例提供的音频信号处理方法、装置、设备及存储介质,通过从所述语音识别结果中获取局部文本内容,并对所述局部文本内容进行标注,所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话。根据所述语音识别结果,从所述音频信号中获取多个音频片段,并提取每个音频片段的音色信息。进一步,根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息,生成包含说话人标签的语音识别结果。由于本实施例结合了文本模态的信息例如局部文本内容的标注结果、以及音频模态的信息例如多个音频片段分别的音色信息,因此,相比于现有技术中只使用语音单模态信息而言,本实施例结合多模态信息生成的包含说话人标签的语音识别结果更加精准,特别是有些人的音色很像的情况下,通过文本模态的信息可以很好的校准音频模态的信息,因此,可以精准的区分出不同人的说话内容。
1.一种音频信号处理方法,其中,所述方法包括:
2.根据权利要求1所述的方法,其中,从所述语音识别结果中获取局部文本内容,包括:
3.根据权利要求1所述的方法,其中,对所述局部文本内容进行标注,包括:
4.根据权利要求1所述的方法,其中,根据所述语音识别结果,从所述音频信号中获取多个音频片段,包括:
5.根据权利要求1所述的方法,其中,根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息,生成包含说话人标签的语音识别结果,包括:
6.根据权利要求5所述的方法,其中,对所述多个音频片段分别的音色信息进行聚类处理,得到聚类结果,包括:
7.根据权利要求5所述的方法,其中,对所述多个音频片段分别的音色信息进行聚类处理,得到聚类结果,包括:
8.一种音频信号处理装置,其中,包括:
9.一种电子设备,其中,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。