1.一种方法,所述方法包括以下步骤:
接收音频信号;
基于所述音频信号获得多个多维特征;
基于所述多个多维特征获得多个段级表示;
基于所述多个段级表示获得话语级表示;以及
基于所述话语级表示从所述音频信号中识别讲话者。
2.根据权利要求1所述的方法,其中,所述音频信号包括来自多个讲话者的具有噪声干扰的语音。
3.根据权利要求1所述的方法,其中,在接收音频信号的步骤之后,所述方法进一步包括以下步骤:
使用预定窗口大小和预定窗口移位将所述音频信号分成多个帧;以及
将所述多个帧分组成多个段,所述多个段中的各个段包括预定数量的帧。
4.根据权利要求1所述的方法,其中,在基于所述音频信号获得多个多维特征的步骤之后,所述方法进一步包括以下步骤:对所述多个多维特征进行归一化。
5.根据权利要求2所述的方法,其中,基于所述音频信号获得多个多维特征的步骤包括:将所述多个帧转换成多个多维滤波器组特征。
6.根据权利要求1所述的方法,其中,基于所述多个多维特征获得多个段级表示的步骤通过卷积神经网络cnn执行。
7.根据权利要求1所述的方法,其中,基于所述多个段级表示获得话语级表示的步骤通过递归神经网络rnn执行。
8.根据权利要求1所述的方法,其中,基于所述话语级表示从所述音频信号中识别讲话者的步骤包括:将所述话语级表示分类成与所述讲话者的身份id相关联的类别。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由一个或更多个处理器执行的计算机可读指令,所述计算机可读指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行操作,所述操作包括:
基于所述音频信号获得多个多维特征;
基于所述多个多维特征获得多个段级表示;
基于所述多个段级表示获得话语级表示;以及
基于所述话语级表示从所述音频信号中识别讲话者。
10.根据权利要求9所述的计算机可读存储介质,其中,所述音频信号包括来自多个讲话者的具有噪声干扰的语音。
11.根据权利要求9所述的计算机可读存储介质,其中,在接收音频信号的操作之后,所述操作进一步包括:
使用预定窗口大小和预定窗口移位将所述音频信号分成多个帧;以及
将所述多个帧分组成多个段,所述多个段中的各个段包括预定数量的帧。
12.根据权利要求9所述的计算机可读存储介质,其中,在基于所述音频信号获得多个多维特征的操作之后,所述操作进一步包括:对所述多个多维特征进行归一化。
13.根据权利要求10所述的计算机可读存储介质,其中,基于所述音频信号获得多个多维特征的操作包括:将所述多个帧转换成多个多维滤波器组特征。
14.根据权利要求9所述的计算机可读存储介质,其中,基于所述多个多维特征获得多个段级表示的操作通过cnn执行。
15.根据权利要求9所述的计算机可读存储介质,其中,基于所述多个段级表示获得话语级表示的操作通过rnn执行。
16.根据权利要求9所述的计算机可读存储介质,其中,基于所述话语级表示从所述音频信号中识别讲话者的操作包括操作进一步包括:将所述话语级表示分类成与所述讲话者的id相关联的类别。
17.一种系统,所述系统包括:
一个或更多个处理器;以及
存储器,所述存储器以通信的方式联接至所述一个或更多个处理器,所述存储器存储有能够由所述一个或更多个处理器执行的计算机可执行模块,所述计算机可执行模块包括:
数据准备模块,所述数据准备模块被配置为接收音频信号并基于所述音频信号获得多个多维特征;
段级嵌入提取模块,所述段级嵌入提取模块被配置为基于所述多个多维特征获得多个段级表示;
话语级嵌入提取模块,所述话语级嵌入提取模块被配置为基于所述多个段级表示获取话语级表示;以及
分类模块,所述分类模块被配置为通过将所述话语级表示分类成与讲话者的id相关联的类别来基于所述话语级表示从所述音频信号中识别所述讲话者。
18.根据权利要求17所述的系统,其中,所述音频信号包括来自多个讲话者的具有噪声干扰的语音。
19.根据权利要求17所述的系统,其中,所述数据准备模块进一步被配置为:
使用预定窗口大小和预定窗口移位将所述音频信号分成多个帧;
将所述多个帧分组成多个段,所述多个段中的各个段包括预定数量的帧;
将所述多个帧转换成多个多维滤波器组特征;以及
对所述多个多维滤波器组特征进行归一化。
20.根据权利要求17所述的系统,其中,所述段级嵌入提取模块包括cnn,并且所述话语级嵌入提取模块包括rnn。