音频信号处理方法、装置、设备及存储介质与流程

文档序号：34284927发布日期：2023-05-27 16:38阅读：93来源：国知局

技术简介：
本专利针对多人对话中音色相似导致说话人识别困难的问题，提出结合文本标注与音色信息的多模态融合方法。通过语音识别获取文本内容并标注对话段落，提取音频片段的音色特征进行聚类，最终生成带说话人标签的识别结果，有效提升相似音色场景下的识别精度。
关键词：多模态识别,说话人标签

本公开涉及信息，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术：

1、随着科技的不断发展，通过对音频信号进行处理，可以获得一些有用的信息，例如，可以分析出一段音频信号中有几个人说话，以及每个人的说话内容。

2、但是，在多人对话的场景中，如果有些人的音色很像，将很难区分出不同人的说话内容。

技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频信号处理方法、装置、设备及存储介质，本公开结合多模态信息生成的包含说话人标签的语音识别结果更加精准，特别是有些人的音色很像的情况下，通过文本模态的信息可以很好的校准音频模态的信息，因此，可以精准的区分出不同人的说话内容。

2、第一方面，本公开实施例提供一种音频信号处理方法，包括：

3、对音频信号进行语音识别，得到语音识别结果；

4、从所述语音识别结果中获取局部文本内容，并对所述局部文本内容进行标注，所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话；

5、根据所述语音识别结果，从所述音频信号中获取多个音频片段，并提取每个音频片段的音色信息；

6、根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果。

7、第二方面，本公开实施例提供一种音频信号处理装置，包括：

8、语音识别模块，用于对音频信号进行语音识别，得到语音识别结果；

9、第一获取模块，用于从所述语音识别结果中获取局部文本内容；

10、标注模块，用于对所述局部文本内容进行标注，所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话；

11、第二获取模块，用于根据所述语音识别结果，从所述音频信号中获取多个音频片段，并提取每个音频片段的音色信息；

12、生成模块，用于根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果。

13、第三方面，本公开实施例提供一种电子设备，包括：

14、存储器；

15、处理器；以及

16、计算机程序；

17、其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

18、第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

19、本公开实施例提供的音频信号处理方法、装置、设备及存储介质，通过从所述语音识别结果中获取局部文本内容，并对所述局部文本内容进行标注，所述局部文本内容的标注结果用于表示所述局部文本内容是否是一段对话。根据所述语音识别结果，从所述音频信号中获取多个音频片段，并提取每个音频片段的音色信息。进一步，根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果。由于本实施例结合了文本模态的信息例如局部文本内容的标注结果、以及音频模态的信息例如多个音频片段分别的音色信息，因此，相比于现有技术中只使用语音单模态信息而言，本实施例结合多模态信息生成的包含说话人标签的语音识别结果更加精准，特别是有些人的音色很像的情况下，通过文本模态的信息可以很好的校准音频模态的信息，因此，可以精准的区分出不同人的说话内容。

技术特征：

1.一种音频信号处理方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，从所述语音识别结果中获取局部文本内容，包括：

3.根据权利要求1所述的方法，其中，对所述局部文本内容进行标注，包括：

4.根据权利要求1所述的方法，其中，根据所述语音识别结果，从所述音频信号中获取多个音频片段，包括：

5.根据权利要求1所述的方法，其中，根据所述局部文本内容的标注结果、以及所述多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果，包括：

6.根据权利要求5所述的方法，其中，对所述多个音频片段分别的音色信息进行聚类处理，得到聚类结果，包括：

7.根据权利要求5所述的方法，其中，对所述多个音频片段分别的音色信息进行聚类处理，得到聚类结果，包括：

8.一种音频信号处理装置，其中，包括：

9.一种电子设备，其中，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结
本公开涉及一种音频信号处理方法、装置、设备及存储介质。本公开通过从语音识别结果中获取局部文本内容，并对局部文本内容进行标注，局部文本内容的标注结果用于表示局部文本内容是否是一段对话。根据语音识别结果，从音频信号中获取多个音频片段，并提取每个音频片段的音色信息。进一步，根据局部文本内容的标注结果、以及多个音频片段分别的音色信息，生成包含说话人标签的语音识别结果。由于本实施例结合了文本模态的信息例如局部文本内容的标注结果、以及音频模态的信息例如多个音频片段分别的音色信息，因此，相比于现有技术中只使用语音单模态信息而言，本实施例结合多模态信息生成的包含说话人标签的语音识别结果更加精准。

技术研发人员：程路遥,郑斯奇,陈亚峰,王绘
受保护的技术使用者：阿里巴巴（中国）有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程路遥郑斯奇陈亚峰王绘
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！