用于对混合带宽语音信号执行说话人分割聚类的方法和装置与流程

文档序号：38562718发布日期：2024-07-05 11:33阅读：81来源：国知局

本公开涉及一种用于识别音频流中的不同说话人的方法和装置，特别是从混合带宽语音信号中识别说话人，并根据说话人的识别来分析音频流。

背景技术：

1、说话人分割聚类是标注音频流中的不同说话人、在多说话人会话中回答问题“谁在何时说话”、或者确定仅存在一个说话人的处理。说话人分割聚类在各种应用(诸如会议会话分析和多媒体信息检索)中具有潜力。例如，对于会议会话分析，说话人分割聚类可用作自动语音识别(asr)的前端组件，从而根据参与者提供改进的asr准确度和丰富的分析。

2、不同的设备和装备通常以不同的采样率捕获语音数据。例如，智能电话支持宽带采样率(例如，16khz)并且通过陆线电话网络的电话呼叫或一些蓝牙设备提供窄带采样率(8khz)。因此，任何群呼会话可能具有混合带宽(宽带和窄带)语音信号或音频记录。

3、当从多个设备接收到包括窄带语音数据和宽带语音数据的混合带宽语音信号时，信号处理器可对宽带语音数据进行下采样或扩展窄带语音数据的带宽，使得宽带语音数据和窄带语音数据可被组合在单个信道中。

4、在处理混合带宽语音数据时，如果对宽带语音数据执行下采样以将宽带语音数据和窄带语音数据两者置于一个带宽中，则与原始宽带信号相比，语音信号中的高频信息将丢失并且准确度将降低。

5、如果对窄带语音数据执行上采样以将宽带语音数据和窄带语音数据两者置于一个带宽中，则高频信号可能没有有用信息。由于经上采样的窄带语音数据的频谱特性不同于原始宽带语音数据，因此当同一说话人在不同带宽中说话时，对窄带语音数据进行上采样的说话人分割聚类系统可能将来自同一说话人的话语确定为来自两个不同的说话人。

6、对宽带信号进行下采样和对窄带信号进行上采样是可能将不准确性引入说话人分割聚类系统的方式的示例。作为另一示例，如果说话人分割聚类系统将窄带语音信号视为噪声，则系统可能无法从窄带语音信号中提取适当的说话人嵌入(embedding)，因此当宽带信号和窄带信号在音频流中混合时，分割聚类准确度可能会降低。因此，需要以高准确率从混合带宽语音信号中提取说话人嵌入并识别说话人。

技术实现思路

1、技术方案

2、根据本公开的一个方面，提供了一种用于处理语音数据的装置，包括：存储器，存储指令；以及至少一个处理器，被配置为执行指令以执行以下操作：将输入语音分离成语音信号；识别所述语音信号中的每个语音信号的带宽；使用被配置为接收所述语音信号并输出说话人嵌入的至少一个神经网络，基于所述语音信号中的每个语音信号的带宽从所述语音信号中提取所述说话人嵌入；以及将所述说话人嵌入聚类为一个或更多个说话人聚类，其中，每个说话人聚类与说话人标识对应。

3、根据本公开的另一方面，一种用于处理语音数据的方法可包括：将输入语音分离成语音信号；识别所述语音信号中的每个语音信号的带宽；使用被配置为接收所述语音信号并输出说话人嵌入的至少一个神经网络，基于所述语音信号中的每个语音信号的带宽从所述语音信号中提取所述说话人嵌入；以及将所述说话人嵌入聚类为一个或更多个说话人聚类，其中，每个说话人聚类与说话人标识对应。

4、根据本公开的一个方面，提供了一种包含指令的计算机可读介质，所述指令在被执行时使得装置的至少一个处理器执行与用于处理语音数据的方法对应的操作。

技术特征：

1.一种用于处理语音数据的装置，所述装置包括：

2.如权利要求1所述的装置，其中，所述至少一个处理器(1020)还被配置为执行所述指令以执行以下操作：

3.如权利要求1或2所述的装置，其中，所述至少一个处理器(1020)还被配置为执行所述指令以执行以下操作：

4.如权利要求1至3中任一项所述的装置，其中，所述不同带宽包括第一带宽和第二带宽，并且所述多个不同的语音嵌入提取模型包括基于第一带宽训练的第一模型和基于第二带宽训练的第二模型，

5.如权利要求1至4中任一项所述的装置，其中，所述多个不同的语音嵌入提取模型中的每个语音嵌入提取模型包括：

6.如权利要求1至5中任一项所述的装置，其中，识别出的带宽包括第一带宽和第二带宽，

7.如权利要求1至6中任一项所述的装置，其中，所述至少一个处理器(1020)还被配置为执行所述指令以执行以下操作：

8.一种用于处理语音数据的方法，所述方法包括：

9.如权利要求8所述的方法，其中，所述将所述说话人嵌入聚类为一个或更多个说话人聚类，包括：

10.如权利要求8或9所述的方法，其中，所述提取所述说话人嵌入，包括：

11.如权利要求8至10中任一项所述的方法，其中，所述不同带宽包括第一带宽和第二带宽，并且所述多个不同的语音嵌入提取模型包括基于第一带宽训练的第一模型和基于第二带宽训练的第二模型，

12.如权利要求8至11中任一项所述的方法，其中，所述至少一个神经网络包括多个帧级层、池化层、多个段级层和输出层，

13.如权利要求8至12中任一项所述的方法，其中，识别出的带宽包括第一带宽和第二带宽，

14.如权利要求8至13中任一项所述的方法，还包括：

15.一种包含指令的计算机可读介质，所述指令在被执行时使得装置的至少一个处理器(1020)执行与权利要求8-14中任一项所述的方法对应的操作。

技术总结
一种用于处理语音数据的装置可包括：处理器，被配置为：将输入语音分离成语音信号；识别语音信号中的每个语音信号的带宽；使用被配置为接收语音信号并输出说话人嵌入的至少一个神经网络，基于语音信号中的每个语音信号的带宽从语音信号中提取说话人嵌入；以及将说话人嵌入聚类为一个或更多个说话人聚类，其中，每个说话人聚类与说话人标识对应。

技术研发人员：金明锺,维坚德拉·拉杰·安普辛格卡尔,艾维亚乐·安舒,奇泰延
受保护的技术使用者：三星电子株式会社
技术研发日：
技术公布日：2024/7/4

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金明锺,维坚德拉·拉杰·安普辛格卡尔,艾维亚乐·安舒,奇泰延
技术所有人：三星电子株式会社
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！