一种单通道语音分离方法、系统、设备及存储介质与流程

文档序号:33481309发布日期:2023-03-15 12:23阅读:64来源:国知局
一种单通道语音分离方法、系统、设备及存储介质与流程

1.本技术实施例涉及音频技术领域,尤其涉及一种单通道语音分离方法、系统、设备及存储介质。


背景技术:

2.目前,语音降噪是语音前端信号处理常见的处理步骤。通过减少语音中的环境噪声,以提升用户听感体验。现有进行语音降噪时,通常采用深度学习的方式,通过训练一个能够筛除噪声的深度神经网络模型,以使用该深度神经网络模型将输入模型的语音进行噪声分离,进而实现人声增强。
3.但是,传统的深度神经网络模型仅用于分离语音中的噪声,对于除人声外的其他音频(如背景音乐),难以将其与人声分离。其语音分离方式存在一定的局限性,难以满足用户分离指定音频的需求,用户体验相对欠佳。


技术实现要素:

4.本技术实施例提供一种单通道语音分离方法、系统、设备及存储介质,能够分离指定音频,提升音频分离灵活性,解决语音降噪场景中难以分离指定音频的技术问题。
5.在第一方面,本技术实施例提供了一种单通道语音分离方法,包括:
6.获取混合音频,混合音频包括指定音频和非指定音频;
7.将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系;
8.基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。
9.在第二方面,本技术实施例提供了一种单通道语音分离系统,包括:
10.获取模块,配置为获取混合音频,混合音频包括指定音频和非指定音频;
11.预测模块,配置为将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系;
12.分离模块,配置为基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。
13.在第三方面,本技术实施例提供了一种单通道语音分离设备,包括:
14.存储器以及一个或多个处理器;
15.所述存储器,配置为存储一个或多个程序;
16.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理
器实现如第一方面所述的单通道语音分离方法。
17.在第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时配置为执行如第一方面所述的单通道语音分离方法。
18.在第五方面,本技术实施例提供了一种计算机程序产品,所述计算机程序产品中包含有指令,当指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面所述的单通道语音分离方法
19.本技术实施例通过获取混合音频,其中,混合音频包括指定音频和非指定音频。进而将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,该第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系。之后,基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。采用上述技术手段,通过结合混合音频中各音频幅值的三角稳定关系进行音频幅值和相位信息预测,进而基于音频幅值和相位信息预测指定音频,以此可以将指定音频精准地从混合音频中分离,提升音频分离灵活性。并且,通过适应性预测混合音频的指定音频,可以实现指定音频的语音增强,提升用户听感体验。
附图说明
20.图1是本技术实施例提供的一种单通道语音分离方法的流程图;
21.图2是本技术实施例中的语音分离模型训练流程图;
22.图3是本技术是例中音乐幅值的三角稳定关系图;
23.图4是本技术实施例中人声幅值的三角稳定关系图;
24.图5是本技术实施例中音频幅值和相位信息的确定流程图;
25.图6是本技术实施例中预测音频的生成流程图;
26.图7是本技术实施例提供的一种单通道语音分离系统的结构示意图;
27.图8是本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
28.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图对本技术具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本技术,而非对本技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
29.本技术提供的单通道语音分离方法,旨在通过结合混合音频中各音频幅值的三角稳定关系进行音频幅值和相位信息预测,进而基于音频幅值和相位信息预测指定音频,提升音频分离灵活性。对于传统的深度神经网络模型,其一般只训练分离噪声和人声的能力,
这种语音分离方式在人声降噪场景中能够得到较好的语音分离效果。而对于包含多种音频的混合音频,如人声、音乐和噪声,这种情况下传统的深度神经网络模型难以分离出混合音频的音乐部分音频。在一些需要增强音乐音频的场景,传统的深度神经网络模型的使用存在局限性,难以满足用户的音频分离需求。基于此,提供本技术实施例的一种单通道语音分离方法,以解决语音降噪场景中难以分离指定音频的技术问题。
30.实施例:
31.图1给出了本技术实施例提供的一种单通道语音分离方法的流程图,本实施例中提供的单通道语音分离方法可以由单通道语音分离设备执行,该单通道语音分离设备可以通过软件和/或硬件的方式实现,该单通道语音分离设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。一般而言,该单通道语音分离设备可以是音频处理服务器,电脑,手机,平板等处理设备。
32.下述以该单通道语音分离设备为执行单通道语音分离方法的主体为例,进行描述。参照图1,该单通道语音分离方法具体包括:
33.s110、获取混合音频,混合音频包括指定音频和非指定音频;
34.s120、将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系;
35.s130、基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。
36.本技术实施例在进行语音分离时,根据需要分离的指定音频(如人声、音乐等不同特征的音频),将包含多种音频的原始音频输入对应指定音频构建的语音分离模型,定义该原始音频为混合音频。通过语音分离模型预测混合音频中包含的指定音频,进而输出该指定音频的预测音频,以此即可实现将指定音频从混合音频中分离,满足用户对指定音频的语音增强需求。
37.其中,语音分离模型对于输入模型的混合音频进行模型运算,预测其中指定音频的音频幅值和相位信息,进而结合混合音频已知的音频幅值和相位信息,通过相位和幅值变换,即可得到指定音频的预测音频,完成指定音频的语音分离。
38.在此之前,预先构建一个用于预测混合音频中的指定音频的语音分离模型,以用于后续进行混合音频中的指定音频预测。参照图2,语音分离模型的训练流程包括:
39.s1001、将包含指定音频的目标数据和非目标数据进行音频混合构建训练样本,基于训练样本输出目标数据的音频幅值和相位信息;
40.s1002、根据目标数据的音频幅值和相位信息,以及训练样本的音频幅值和相位信息生成目标数据的预测数据;
41.s1003、基于目标数据和预测数据计算损失函数,基于损失函数调整语音分离模型的模型参数,直至语音分离模型收敛。
42.语音分离模型通过采集包含指定音频的目标数据,以及不包含指定音频的非目标数据,然后将目标数据和非目标数据进行音频混合生成训练样本,以训练语音分离模型基于训练样本预测目标数据的能力。
43.其中,在将包含指定音频的目标数据和非目标数据进行音频混合构建训练样本时,从预构建的目标数据集合随机抽取目标数据,从预构建的非目标数据集合随机抽取非目标数据;将抽取到的目标数据和非目标数据按照随机信噪比进行混合,得到训练样本。
44.示例性地,以人声、音乐的语音分离模型为例,在训练语音分离模型时,筛选标注完全干净的人声数据、音乐数据、噪声数据三类。对于每一次训练,随机从干净的人声数据、音乐数据和噪声数据集里抽取随机信号。按照随机信噪比进行混合,得到音频统一的随机切片,即训练样本。
45.可以理解的是,若语音分离模型用于分离人声,则目标数据即为人声数据,非目标数据即为音乐数据加噪声数据。同理,若语音分离模型用于分离音乐,则目标数据即为音乐数据,非目标数据即为人声数据加噪声数据。根据指定音频的类型,适应性选择目标数据和非目标数据进行语音分离模型的训练。
46.进而在基于训练样本输出目标数据的音频幅值和相位信息时,对训练样本进行短时傅里叶变换,得到训练样本的语音复数谱;基于语音复数谱进行模型运算,输出目标数据的音频幅值和相位信息。
47.通过将训练样本经过短时傅立叶变换得到语音复数谱,然后将语音复数谱送入模型训练,经过模型处理得到的目标数据的音频幅值和相位信息(相位夹角和相位旋转方向)。由于原始的训练样本的音频幅值、相位是已知的,则在音频分离时,将目标数据的音频幅值与训练样本的音频幅值相乘,将目标数据的相位角根据预测的相位夹角、相位旋转方向,从所述训练样本的相位开始进行对应的旋转,这样就可以得到对应目标数据的预测音频。其中,若目标数据为音乐数据,则通过语音分离模型可以预测音乐部分音频,将这部分音频从训练样本分离;若目标数据为人声数据,则通过语音分离模型可以预测人声部分音频,将这部分音频从训练样本分离。以此可以分别得到音乐、人声的预测信号。得到这两个预测信号后,将训练样本混合之前真实的音乐数据和预测的音乐信号送入si-sdr损失函数,基于损失函数更新模型参数。同样地,将训练样本混合之前真实的人声数据和预测的人声信号送入si-sdr损失函数,基于损失函数更新模型参数。以此类推,通过不断更新模型参数,并基于不同训练样本训练模型分离指定音频的能力,直至模型收敛。至此,得到一个可以区分音乐、人声、噪声三类音频的语音分离模型。
48.具体地,在进行模型训练过程中,将训练样本裁切为3.072s一段的语音,进而提取其语音复数谱。其中,训练样本长度根据采样点窗长和采样点帧移适应性设置为3.072s。按照16000采样率采样训练样本,以512采样点窗长、256采样点帧移进行分帧加窗。之后对每帧数据做快速傅立叶变换,并取其语音复数谱。以640ms长度,16000采样率的音频为例,其输入为(1,10240),经过短时傅立叶变换输出语音复数谱为(39,257,2)。语音复数谱以(t,257,2)为例分别定义为时间维度、频域维度、通道数。
49.进而在语音复数谱上进行模型处理,首先通过模型网络的编码器、降噪模块、解码器和残差模块等结构,分别进行训练样本的编码、降噪、解码和残差处理。
50.其中,编码器首先将频域维度0位置信息置零,去除语音直流分量。编码器部分输入为(t,256,2),其在频域维度进行一维卷积,经过六层深度可分离卷积,将频域维度压缩到16,通道数维度增加到128。同时通过额外的残差模块记录编码器从第二层开始每层编码的结果。最后在频域维度做变换器(transformer)结构运算,至此编码器将输入压缩至(t,
16,128),同时残差模块记录了每层编码结果。
51.降噪模块使用了gru(gate recurrent unit,循环神经网络)结构,此时gru结构的输入特征维度为编码器的128,每帧都可以直接得到降噪后的编码结果,最终降噪模块的输出为(t,16,128)。
52.编码器与解码器通过残差模块连接,残差模块通过记录每层编码结果,以利用残差网络学习数据输入输出的残差部分,简化运算难度,提升学习效率。
53.解码器每个时间步接收一帧降噪模块的信息,使用深度可分离反卷积增加频域维度大小。解码器一共有六层深度可分离反卷积,其中从第二层开始,将前一层解码器结果与对应的编码器结果拼接送到下一层解码器。最后一层解码器通道数设置为8,因此最终解码器输出为(t,256,8)。通过使用深度可分离卷积,可以降低参数量运算量,同时提升了模型性能。
54.基于解码器的输出结果,语音分离模型使用指定音频分离模块进行音频分离。本技术实施例基于混合音频中,音频幅值的三角稳定关系进行指定音频的分离。以训练样本的人声、音乐分离为例,对于音乐、人声和噪声混合而成的混合音频,由于音乐、人声和噪声的波形方向不同,不同方向的波形叠加,得到该混合音频的波形。因此对于音乐波形而言,其通过与非音乐波形叠加,得到混合音频。对于人声波形而言,其通过与非人声波形叠加,得到混合音频。基于此特性,可以确定目标数据和非目标数据的音频幅值在不同方向上叠加,即可得到另一个方向上训练样本的音频幅值。将即目标数据、非目标数据以及两者混合得到的训练样本满足音频幅值三角稳定关系。
55.示例性地,如图3所示。以音乐作为目标数据为例,假设混合音频的幅值为1,则如图3所示,基于三角形各条边的几何关系,音乐幅值与非音乐幅值之和应当大于1,音乐幅值与非音乐幅值之差小于1。同理参照图4,基于三角形各条边的几何关系,人声幅值与非人声幅值之和应当大于1,人声幅值与非人声幅值之差小于1。
56.对于每个时间步解码器的输出(256,8),将其拆分成两组四通道的输出特征(256,4),分别来表示音乐、人声。以音乐为例,第一个通道表示与音乐功率谱相关的模型输出,记做z_tf;第二个通道表示与非音乐功率谱相关的模型输出,记做zneg_tf;第三通道表示基于音频幅值三角稳定关系的目标约束,用于约束音乐功率谱、非音乐功率谱整体符合三角形稳定关系,即音乐幅值、非音乐幅值和混合音频幅值形成的三条边中,满足两边之和大于第三边、两边之差小于第三边,记做z_tri;第四个通道用于预测目标相位旋转方向,记做zphase。
57.基于上述四个通道输出,可以得到音频幅值:
58.mmag_mask=(1/(1+exp(zneg_tf

z_tf)))*m_tri
59.非音乐幅值:
60.mnegmag_mask=(1/(1+exp(z_tf

zneg_tf)))*m_tri
61.设定音乐幅值、非音乐幅值和混合音频幅值三条边构成的三角形底边长为1,则为了满足三角形两边之和大于、两边之差小于1,m_tri做如下区间限制:m_tri=1+z_tri,其中z_tri可以保证其数值大于0,因此两边之和大于1。另外设置最大值截断m_tri,使其满足两边之差小于1。
62.音乐幅值与混合音频有一个夹角,该角度决定了音乐信号的相位相比于混合音频
原始相位旋转了多少角度,即为相位夹角。则该相位夹角表示为:
63.cos(θ)=(1+mmag_mask**2-mnegmag_mask**2)/(2*mmag_mask)
64.进而根据第四个通道输出的目标相位旋转方向,决定是顺时针还是逆时针旋转相位夹角。至此,根据预测到的音乐数据的音频幅值和相位信息,就可以恢复出训练样本混合音频中的对应音乐部分的预测音频。参照上述预测方式。同样可以从混合音频中分类出人声。而噪声则是混合音频减去预测的音乐、人声部分音频得到的数据。
65.通过上述预测方式,即可完成语音分离模型的语音分离。对应每一个输入的训练样本,按照上述音频分离方式执行语音分离操作。并根据分离出的预测音频与真实音频计算损失函数,根据损失函数更新模型参数,直至模型收敛。
66.之后,基于训练完成的语音分离模型,通过将包含对应指定音频的混合音频输入语音分离模型。语音分离模型参照上述模型训练时的音频分离流程,预测出指定音频的音频幅值和相位信息。其中,参照图5,语音分离模型基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,包括:
67.s1201、基于语音分离模型输出指定音频的第一功率谱信息、非指定音频的第二功率谱信息、基于音频幅值三角稳定关系设置的约束信息以及相位旋转方向;
68.s1202、根据第一功率谱信息、第二功率谱信息和约束信息确定第一音频幅值和第三音频幅值,根据第一音频幅值和第三音频幅值确定相位夹角。
69.语音分离模型通过短时傅立叶变换获取混合音频的语音复数谱,进而模型处理语音复数谱得到指定音频的功率谱信息(定义为第一功率谱信息),非指定音频的功率谱信息(定义为第二功率谱信息),以及两者基于音频幅值三角稳定关系的约束信息和相位旋转方向。然后参照上述模型训练时计算目标数据的音频幅值和相位信息的方式,计算得到指定音频的音频幅值(定义为第一音频幅值)、非指定音频的音频幅值(定义为第三音频幅值),并根据第一音频幅值和第三音频幅值确定第一音频幅值相对混合音频的音频幅值(定义为第二音频幅值)的相位夹角。
70.进一步地,基于上述预测得到的相位夹角、相位旋转方向和第一音频幅值,结合混合音频已知的相位和第二音频幅值,即可分离出指定音频。其中。参照图6,基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频,包括:
71.s1301、将第一音频幅值和第二音频幅值相乘得到相乘结果;
72.s1302、基于混合音频的相位、相位夹角和相位旋转方向旋转相乘结果,得到指定音频的预测音频。
73.参照上述模型训练时目标数据预测音频的分离方式,通过将第一音频幅值和第二音频幅值相乘,进而根据指定音频预测的相位夹角和相位旋转方向,从混合音频的相位开始旋转上述相乘结果,得到最终的预测音频。
74.上述,通过获取混合音频,其中,混合音频包括指定音频和非指定音频。进而将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,该第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系。之后,基于
混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。采用上述技术手段,通过结合混合音频中各音频幅值的三角稳定关系进行音频幅值和相位信息预测,进而基于音频幅值和相位信息预测指定音频,以此可以将指定音频精准地从混合音频中分离,提升音频分离灵活性。并且,通过适应性预测混合音频的指定音频,可以实现指定音频的语音增强,提升用户听感体验。
75.在上述实施例的基础上,图7为本技术提供的一种单通道语音分离系统的结构示意图。参考图7,本实施例提供的单通道语音分离系统具体包括:获取模块21、预测模块22和分离模块23。
76.其中,获取模块21配置为获取混合音频,混合音频包括指定音频和非指定音频;
77.预测模块22配置为将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系;
78.分离模块23配置为基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。
79.具体地,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,包括:
80.基于语音分离模型输出指定音频的第一功率谱信息、非指定音频的第二功率谱信息、基于音频幅值三角稳定关系设置的约束信息以及相位旋转方向;
81.根据第一功率谱信息、第二功率谱信息和约束信息确定第一音频幅值和第三音频幅值,根据第一音频幅值和第三音频幅值确定相位夹角。
82.具体地,基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频,包括:
83.将第一音频幅值和第二音频幅值相乘得到相乘结果;
84.基于混合音频的相位、相位夹角和相位旋转方向旋转相乘结果,得到指定音频的预测音频。
85.具体地,语音分离模型的训练流程包括:
86.将包含指定音频的目标数据和非目标数据进行音频混合构建训练样本,基于训练样本输出目标数据的音频幅值和相位信息;
87.根据目标数据的音频幅值和相位信息,以及训练样本的音频幅值和相位信息生成目标数据的预测数据;
88.基于目标数据和预测数据计算损失函数,基于损失函数调整语音分离模型的模型参数,直至语音分离模型收敛。
89.其中,将包含指定音频的目标数据和非目标数据进行音频混合构建训练样本,包括:
90.从预构建的目标数据集合随机抽取目标数据,从预构建的非目标数据集合随机抽取非目标数据;
91.将抽取到的目标数据和非目标数据按照随机信噪比进行混合,得到训练样本。
92.具体地,基于训练样本输出目标数据的音频幅值和相位信息,包括:
93.对训练样本进行短时傅里叶变换,得到训练样本的语音复数谱;
94.基于语音复数谱进行模型运算,输出目标数据的音频幅值和相位信息。
95.基于语音复数谱进行模型运算,输出目标数据的音频幅值和相位信息,包括:
96.基于语音复数谱进行编码、降噪、解码和残差处理,输出目标数据的功率谱、非目标数据的功率谱、目标数据相对训练样本的目标相位旋转方向以及基于音频幅值三角稳定关系的目标约束;
97.根据目标数据的功率谱、非目标数据的功率谱、目标相位旋转方向和目标约束确定目标数据的音频幅值和相位信息。
98.上述,通过获取混合音频,其中,混合音频包括指定音频和非指定音频。进而将混合音频输入预先训练的语音分离模型,基于语音分离模型预测指定音频的第一音频幅值,以及第一音频幅值相对混合音频的第二音频幅值的相位夹角和相位旋转方向,该第一音频幅值、第二音频幅值和非指定音频的第三音频幅值满足音频幅值三角稳定关系。之后,基于混合音频的相位、相位夹角、相位旋转方向、第一音频幅值、第二音频幅值确定指定音频的预测音频。采用上述技术手段,通过结合混合音频中各音频幅值的三角稳定关系进行音频幅值和相位信息预测,进而基于音频幅值和相位信息预测指定音频,以此可以将指定音频精准地从混合音频中分离,提升音频分离灵活性。并且,通过适应性预测混合音频的指定音频,可以实现指定音频的语音增强,提升用户听感体验。
99.本技术实施例提供的单通道语音分离系统可以配置为执行上述实施例提供的单通道语音分离方法,具备相应的功能和有益效果。
100.在上述实际上例的基础上,本技术实施例还提供了一种单通道语音分离设备,参照图8,该单通道语音分离设备包括:处理器31、存储器32、通信模块33、输入装置34及输出装置35。存储器32作为一种计算机可读存储介质,可配置为存储软件程序、计算机可执行程序以及模块,如本技术任意实施例所述的单通道语音分离方法对应的程序指令/模块(例如,单通道语音分离系统中的获取模块、预测模块和分离模块)。通信模块33配置为进行数据传输。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的单通道语音分离方法。输入装置34可配置为接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。上述提供的单通道语音分离设备可配置为执行上述实施例提供的单通道语音分离方法,具备相应的功能和有益效果。
101.在上述实施例的基础上,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时配置为执行一种单通道语音分离方法,存储介质可以是任何的各种类型的存储器设备或存储设备。当然,本技术实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的单通道语音分离方法,还可以执行本技术任意实施例所提供的单通道语音分离方法中的相关操作。
102.在上述实施例的基础上,本技术实施例还提供一种计算机程序产品,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机程序产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备、移动终端或其中的处理器执行本技术各个实施例所述单通道语音分离
方法的全部或部分步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1