语音分离方法、装置、电子设备及计算机可读存储介质与流程

文档序号:19747598发布日期:2020-01-21 18:47阅读:191来源:国知局
语音分离方法、装置、电子设备及计算机可读存储介质与流程

本申请涉及语音处理技术领域,具体而言,本申请涉及一种语音分离方法、装置、电子设备及计算机可读存储介质。



背景技术:

随着多媒体技术的发展,大量的音频文件不断增加。如何对海量的音频信息进行有效地管理和应用,使音频数据从“无序”变成“有序”是一个很重要的问题,而对音频进行说话人分割,是解决这一问题的关键技术。

目前,对音频进行语音分割是通过跳变点检测和聚类的方法实现的,即先利用说话者跳变点检测方法,将语音分割成很多语音小段,再采用自底向上聚类,把相同说话人归并到一起。然而,由于没有语音中说话人信息的先验知识,在分割和聚类的过程中,说话者信息利用不够充分,所以会影响音频切分的准确度。因此,现有的通过跳变点检测和聚类的方法实现语音分割的方法,存在说话者信息利用不够充分,语音切分准确度低的问题。



技术实现要素:

本申请提供了一种语音分离方法、装置、电子设备及计算机可读存储介质,用于提升信用卡申请审核的效率、降低新增申请的欺诈风险以及发现存量申请中的欺诈申请,本申请采用的技术方案如下:

第一方面,提供了一种语音分离方法,该方法包括,

获取目标通话音频对应的声谱图;

基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征;

对三维特征在频率维度进行平均池化处理,得到池化处理后的特征;

将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签;

基于时间维度上的分割标签对目标通话音频进行语音分离。

可选地,获取目标通话音频对应的声谱图,之前包括:

获取目标通话音频;

对目标通话音频进行标准化处理,得到目标通话音频对应的数字信号;

基于数字信号通过滑动窗口方法以及fft变换,得到目标通话音频对应的声谱图。

可选地,基于时间维度上的分割标签对目标通话音频进行语音分离,包括:

基于时间维度上的分割标签将目标通话音频分割为多个音频片段;

将相同的时间维度上的分割标签对应的各个音频片段进行拼接,得到目标通话音频进行分离处理后的音频。

可选地,该方法还包括:

提取任一分割标签对应的音频片段的声纹特征;

计算任一分割标签对应的音频片段的声纹特征与预存储的至少一个客服的声纹特征的相似度;

基于第一相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

可选地,该方法还包括:

提取目标通话音频进行分离处理后的音频的声纹特征;

计算目标通话音频进行分离处理后的音频的声纹特征与预存储的至少一个客服的声纹特征的相似度;

基于第二相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

可选地,目标通话音频为信用卡申请人与客服的通话音频。

可选地,该方法还包括:对目标通话音频进行语音分离得到信用卡申请人的音频;

基于信用卡申请人的音频进行欺诈识别。

第二方面,提供了一种语音分离装置,该装置包括,

第一获取模块,用于获取目标通话音频对应的声谱图;

提取模块,用于基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征;

池化处理模块,用于对三维特征在频率维度进行平均池化处理,得到池化处理后的特征;

分割标签模块,用于将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签;

语音分离模块,用于基于时间维度上的分割标签对目标通话音频进行语音分离。

可选地,该装置还包括:

第二获取模块,用于获取目标通话音频;

处理模块,用于对目标通话音频进行标准化处理,得到目标通话音频对应的数字信号;

变换模块,用于基于数字信号通过滑动窗口方法以及fft变换,得到目标通话音频对应的声谱图。

可选地,语音分离模块包括:

分割单元,用于基于时间维度上的分割标签将目标通话音频分割为多个音频片段;

拼接单元,用于将相同的时间维度上的分割标签对应的各个音频片段进行拼接,得到目标通话音频进行分离处理后的音频。

可选地,该装置还包括:

第一提取模块,用于提取任一分割标签对应的音频片段的声纹特征;

第一计算模块,用于计算任一分割标签对应的音频片段的声纹特征与预存储的至少一个客服的声纹特征的相似度;

第一确定模块,用于基于第一相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

可选地,该装置还包括:

第二提取模块,用于提取目标通话音频进行分离处理后的音频的声纹特征;

第二计算模块,用于计算目标通话音频进行分离处理后的音频的声纹特征与预存储的至少一个客服的声纹特征的相似度;

第二确定模块,用于基于第二相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

可选地,目标通话音频为信用卡申请人与客服的通话音频。

可选地,该装置还包括:

分离模块,用于对目标通话音频进行语音分离得到信用卡申请人的音频;

识别模块,用于基于信用卡申请人的音频进行欺诈识别。

第三方面,提供了一种电子设备,该电子设备包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的语音分离方法。

第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的语音分离方法。

本申请提供了一种语音分离方法、装置、电子设备及计算机可读存储介质,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例的一种语音分离方法的流程示意图;

图2为本申请实施例的一种语音分离装置的结构示意图;

图3为本申请实施例的另一种语音分离装置的结构示意图;

图4为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请实施例提供了一种语音分离方法,如图1所示,该方法可以包括以下步骤:

步骤s101,获取目标通话音频对应的声谱图;

具体地,通过相应的数据获取方法获取目标通话音频对应的声谱图,其中,该目标通话音频可以是两人或多人的通话音频,具体地,可以是信用卡申请人与客服之间的通话音频。

步骤s102,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征;

具体地,通过预训练的卷积神经网络(如resnet-18,、vgg-16等)提取声谱图的三维特征;其中,可以将二维声谱图(f,t)输入卷积神经网络得到三维的特征图(f,t,c),其中,f为频率维度,t为时间维度,c为channel(通道)维度,通道维度与卷积层的卷积核数量有关。

步骤s103,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征;

具体地,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,从而将三维的特征图转为二维特征图,同时保留了时间上的维度长度,而二维特征图的另一个维度尺寸,则由卷积网络输出特征图的卷积核数量决定,从而可以处理不同长度的通话语音。

示例性地,channel=6,f=28,t=28,将三维特征图转为二维特征图的过程可以是:沿频率f方向做meanpooling,也就是沿频率方向取各个时间点上28个数值的平均值,从而得到一个一维的28位数的向量;然后,将6个channel处理得到的一维向量堆叠在一起,得到最终的二维特征(6行28列)。

步骤s104,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签;

具体地,将池化处理后的特征输入预训练的循环神经网络,得到时间维度上的分割标签,采用循环神经网络可以对卷积神经网络提取的时间维度上的特征做序列分析,通过关联前后一段时间的输入来计算,可以有效地准确输处相应时间点上的说话者标签,进而可以通过这些标签达到说话者语音分离的目的;其中,该循环神经网络可以是lstm网络(longshortmemorynetwork,长短时记忆网络),也可以是能够实现本申请的其他循环神经网络,本申请此处不做限定。

步骤s105,基于时间维度上的分割标签对目标通话音频进行语音分离。

具体地,基于时间维度上的分割标签对目标通话音频进行语音分离,可以基于分割标签与相应的音频段之间的映射关系,将目标通话音频进行语音分离。

本申请实施例提供了一种欺诈识别方法,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本申请实施例提供了一种可能的实现方式,步骤s101之前包括:

步骤s106(图中未示出),获取目标通话音频;

具体地,通过手机等终端设备的音频获取装置获取目标通话音频。

步骤s107(图中未示出),对目标通话音频进行标准化处理,得到目标通话音频对应的数字信号;

具体地,声音信号通过手机、电话麦克风后转换成电子信息,然后通过16k或者更高的采样率采样,输出一串经过16位量化的数字信号。由于录音设置不同,输出的语音数字信号可能是双声道,即包含两路相近的数字序列,此时取其中一路作为话者分离的信号;当采样率不是16k时,通过重采样或者插值的方式把信号转换成16k,当量化的信号不是16位整型时,通过线性映射的方式转换成16位量化。

步骤s108(图中未示出),基于数字信号通过滑动窗口方法以及fft变换,得到目标通话音频对应的声谱图。

具体地,标准化处理后的声音变为一串数字信号(数组)。该数组通过滑动窗口每隔一段间隔(如0.025秒)取一块数据(如512长度,对应512/16k=0.032秒)进行fft变换;进行fft变换前可对拟变换的信号段加窗处理(即与一个窗口函数相乘,以强调该信号段的中间部分,降低fft变换的边缘效应);将声音的每个时间间隔计算完fft后得到的复数信号的绝对值作为图像的一列按时间顺序排列,即得到声谱图。

对于本申请实施例,解决了目标通话音频对应的声谱图的取得问题。

本申请实施例提供了一种可能的实现方式,具体地,步骤s105包括:

步骤s1051(图中未示出),基于时间维度上的分割标签将目标通话音频分割为多个音频片段;

具体地,将cnn网络提取和处理的特征,输入到一个rnn网络,rnn网络输出在时间维度上的分割掩码标签,该标签的长度对应了声谱图的长度,由于声谱图与原始音频存在对应关系,因此输出的分割标签对应了原始的音频;基于时间维度上的分割标签将目标通话音频分割为多个音频片段。

步骤s1052(图中未示出),将相同的时间维度上的分割标签对应的各个音频片段进行拼接,得到目标通话音频进行分离处理后的音频。

示例性地,该分割标签为二值标签(如0、1标签),其中,标签为0的代表一个人的音频,标签为1的代表一个人的音频,将相同的时间维度上的分割标签对应的各个音频片段进行拼接,得到目标通话音频进行分离处理后的音频,即将标签为0的音频片段进行拼接,将标签为1的音频片段进行拼接,得到对目标通话音频进行分离处理后的音频。

对于本申请实施例,解决了如何根据分割标签进行目标通话音频的语音分离问题。

本申请实施例提供了一种可能的实现方式,进一步地,该方法包括,

步骤s109(图中未示出),提取任一分割标签对应的音频片段的声纹特征;

具体地,通过相应的声纹特征提取方法(如深度学习的方法),提取任一分割标签对应的音频片段的声纹特征;接上述示例,可以是标签为0的音频片段,也可以是标签为1的音频片段。

步骤s110(图中未示出),计算任一分割标签对应的音频片段的声纹特征与预存储的至少一个客服的声纹特征的相似度;

具体地,计算任一分割标签对应的音频片段的声纹特征与预存储的至少一个客服的声纹特征的相似度,其中,该相似度可以是通过计算向量之间的距离来实现的,其中,该距离可以是余弦距离、欧式距离、汉明距离等,此处不做具体限定。

步骤s111(图中未示出),基于第一相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

具体地,基于第一相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

具体地,当预存储的只有一名客服的声纹特征时,如果任一分割标签对应的音频片段的声纹特征与预存储的该客服的声纹特征的相似度小于预定的阈值时,则该分割标签对应的音频为目标对象(即信用卡申请人的音频);如果任一分割标签对应的音频片段的声纹特征与预存储的该客服的声纹特征的相似度大于预定的阈值时,则该分割标签对应的音频为客服的音频,另一分割标签对应的音频为目标对象(即信用卡申请人)的音频。

具体地,当预存储有多名客服的声纹特征时,分别计算任一分割标签对应的音频片段的声纹特征与预存储的各个客服的声纹特征的相似度,得到多个相似度值;如果有任一相似度值大于预定的阈值,则说明该分割标签对应的音频为客服的音频;如果所有的相似度值皆小于预定的阈值,则说明该分割标签对应的音频为目标对象(即信用卡申请者)的音频。

对于本申请实施例,解决了目标通话音频分离后的音频是目标对象的音频或者是客服的音频的确定问题。

本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:

步骤s112(图中未示出),提取目标通话音频进行分离处理后的音频的声纹特征;

步骤s113(图中未示出),计算目标通话音频进行分离处理后的音频的声纹特征与预存储的至少一个客服的声纹特征的相似度;

步骤s114(图中未示出),基于第二相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

具体地,通过相应的声纹特征提取方法(如深度学习的方法),提取目标通话音频进行分离处理后的音频的声纹特征。

示例性地,该分割标签为二值标签,即目标通话音频进行分离处理后,可以得到两个人的音频,提取任一人对应的音频的声纹特征,并计算该任一人对应的音频的声纹特征与预存储的客服的声纹特征的相似度,基于相似度计算结果,确定目标通话音频分离后的音频是目标对象的音频或客服的音频。其中,预存储的客服的声纹特征可以为一个,也可以为多个,基于相应数量客服声纹特征确定目标通话音频分离后的音频是目标对象的音频或客服的音频的方法可以参照上述实施例,此处不再赘述。

对于本申请实施例,解决了目标通话音频分离后的音频是目标对象的音频或者是客服的音频的确定问题。

本申请实施例提供了一种可能的实现方式,其中,目标通话音频为信用卡申请人与客服的通话音频。

具体地,目标通话音频为信用卡申请人与客服的通话音频,其具体的应用场景可以是信用卡申请人通过语音通话进行信用卡申请的场景中。

对于本申请实施例,目标通话音频为信用卡申请人与客服的通话音频,解决了信用卡申请场景下的语音分离问题。

本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:

步骤s115(图中未示出),对目标通话音频进行语音分离得到信用卡申请人的音频;

步骤s116(图中未示出),基于信用卡申请人的音频进行欺诈识别。

具体地,目标通话音频为信用卡申请人与客服的通话音频,对目标通话音频进行语音分离可以得到信用卡申请人的音频,进一步地,可以根据信用卡申请人的音频进行欺诈识别。

其中,该欺诈识别的步骤可以是:获取多个申请人的音频信息;基于多个申请人的音频信息,通过预训练的第一深度学习模型提取各个目标对象的声纹特征得到声纹特征池;通过聚类算法对声纹特征池中的各个声纹特征进行分团聚类处理得到至少一个分团,并根据各个分团的相似度对各个分团进行排序;基于各个分团的排序结果确定欺诈申请人,其中,可以选择排序靠前的n个分团中的所有申请人为欺诈申请人,也可以选择相似度超过一定阈值的分团中的所有申请人为欺诈申请人。

对于本申请实施例,基于信用卡申请人的音频进行欺诈识别,解决了信用卡欺诈申请的识别问题。

图2为本申请实施例提供的一种语音分离装置,该装置20包括:第一获取模块201、提取模块202、池化处理模块203、分割标签模块204以及语音分离模块205,其中,

第一获取模块201,用于获取目标通话音频对应的声谱图;

提取模块202,用于基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征;

池化处理模块203,用于对三维特征在频率维度进行平均池化处理,得到池化处理后的特征;

分割标签模块204,用于将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签;

语音分离模块205,用于基于时间维度上的分割标签对目标通话音频进行语音分离。

本申请实施例提供了一种语音分离装置,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请实施例通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本实施例的语音分离装置可执行本申请上述实施例中提供的一种欺诈识别方法,其实现原理相类似,此处不再赘述。

如图3所示,本申请实施例提供了另一种语音分离装置,该装置30包括:第一获取模块301、提取模块302、池化处理模块303、分割标签模块304以及语音分离模块305,其中,

第一获取模块301,用于获取目标通话音频对应的声谱图;

其中,图3中的第一获取模块301与图2中的第一获取模块201的功能相同或者相似。

提取模块302,用于基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征;

其中,图3中的提取模块302与图2中的提取模块201的功能相同或者相似。

池化处理模块303,用于对三维特征在频率维度进行平均池化处理,得到池化处理后的特征;

其中,图3中的池化处理模块303与图2中的池化处理模块203的功能相同或者相似。

分割标签模块304,用于将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签;

其中,图3中的分割标签模块304与图2中的分割标签模块204的功能相同或者相似。

语音分离模块305,用于基于时间维度上的分割标签对目标通话音频进行语音分离。

其中,图3中的语音分离模块305与图2中的语音分离模块205的功能相同或者相似。

本申请实施例提供了一种可能的实现方式,进一步地,该装置还包括:

第二获取模块306,用于获取目标通话音频;

处理模块307,用于对目标通话音频进行标准化处理,得到目标通话音频对应的数字信号;

变换模块308,用于基于数字信号通过滑动窗口方法以及fft变换,得到目标通话音频对应的声谱图。

对于本申请实施例,解决了目标通话音频对应的声谱图的取得问题。

本申请实施例提供了一种可能的实现方式,语音分离模块305包括:

分割单元3051(图中未示出),用于基于时间维度上的分割标签将目标通话音频分割为多个音频片段;

拼接单元3052(图中未示出),用于将相同的时间维度上的分割标签对应的各个音频片段进行拼接,得到目标通话音频进行分离处理后的音频。

对于本申请实施例,解决了如何根据分割标签进行目标通话音频的语音分离问题。

本申请实施例提供了一种可能的实现方式,进一步地,该装置30还包括:

第一提取模块309,用于提取任一分割标签对应的音频片段的声纹特征;

第一计算模块310,用于计算任一分割标签对应的音频片段的声纹特征与预存储的至少一个客服的声纹特征的相似度;

第一确定模块311,用于基于第一相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

对于本申请实施例,解决了目标通话音频分离后的音频是目标对象的音频或者是客服的音频的确定问题。

本申请实施例提供了一种可能的实现方式,进一步地,该装置30还包括:

第二提取模块312,用于提取目标通话音频进行分离处理后的音频的声纹特征;

第二计算模块313,用于计算目标通话音频进行分离处理后的音频的声纹特征与预存储的至少一个客服的声纹特征的相似度;

第二确定模块314,用于基于第二相似度计算结果确定待识别的目标通话音频分离后的音频是目标对象的音频或客服的音频。

对于本申请实施例,解决了目标通话音频分离后的音频是目标对象的音频或者是客服的音频的确定问题。

本申请实施例提供了一种可能的实现方式,其中,目标通话音频为信用卡申请人与客服的通话音频。

对于本申请实施例,目标通话音频为信用卡申请人与客服的通话音频,解决了信用卡申请场景下的语音分离问题。

本申请实施例提供了一种可能的实现方式,进一步地,该装置30还包括:

分离模块315,用于对目标通话音频进行语音分离得到信用卡申请人的音频;

识别模块316,用于基于信用卡申请人的音频进行欺诈识别。

对于本申请实施例,基于信用卡申请人的音频进行欺诈识别,解决了信用卡欺诈申请的识别问题。

本申请实施例提供了一种语音分离装置,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请实施例通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本申请实施例提供了一种语音分离装置,适用于上述实施例所示的方法,在此不再赘述。

本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2或图3所示的第一获取模块、提取模块、池化处理模块、分割标签模块以及语音分离模块的功能,以及图3所示的第二获取模块、处理模块、变换模块、第一提取模块、第一计算模块、第一确定模块、第二提取模块、第二计算模块、第二确定模块、分离模块以及识别模块的功能。收发器404包括接收机和发射机。

处理器401可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线402可包括一通路,在上述组件之间传送信息。总线402可以是pci总线或eisa总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器403可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图2或图3所示实施例提供的语音分离装置的功能。

本申请实施例提供了一种电子设备,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请实施例通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。

本申请实施例提供了一种计算机可读存储介质,与现有技术通过跳变点检测和聚类的方法进行语音分离相比,本申请实施例通过获取目标通话音频对应的声谱图,基于预训练的卷积神经网络提取声谱图的三维特征,三维特征包括时间维度特征、频率维度特征、通道维度特征,对三维特征在频率维度进行平均池化处理,得到池化处理后的特征,将池化处理后的特征输入至预训练的循环神经网络,得到时间维度上的分割标签,基于时间维度上的分割标签对目标通话音频进行语音分离。即本申请提取目标通话音频对应的声谱图的三维特征,充分利用了说话者的信息,能够提升语音切分的准确性;此外,通过预训练的循环神经网络自动输出目标通话音频的分割标签,对转换点的判断更加精准,进而提升语音切分的准确性,再者,不需要另外的聚类算法进行聚类处理,从而能够实现语音分离的端到端处理。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1