语音处理模型的训练方法、语音识别方法、系统及装置与流程

文档序号:19478283发布日期:2019-12-21 03:03阅读:244来源:国知局
语音处理模型的训练方法、语音识别方法、系统及装置与流程

本发明实施例信息技术领域,尤其涉及一种语音处理模型的训练方法、语音识别方法、系统及装置。



背景技术:

随着通信技术的发展,智能终端的普及,各种网络通讯工具成为大众沟通的主要工具之一。其中由于语音信息的操作和传输的便捷性,成为各种网络通讯工具的主要传输信息。而在使用各种网络通讯工具时,还涉及到将语音信息进行文本转换的过程,该过程就是语音识别技术。

语音识别技术是使得机器通过识别和理解过程把语音信息转变为相应的文本或命令的技术。通常在现有技术中,通过语音识别模型来将语音信息转换为文本信息,而语音信息在生成时会受到声学环境的影响,所以为了能够提高语音识别模型的识别精度,在语音识别模型训练过程中,会通过语音增强模型对带噪声的语音数据进行语音增强处理,语音增强处理过程中至少包括降噪处理。

现有技术中的语音增强处理方法,通常是设计一个滤波器来进行语音增强,但是现有技术中的滤波器通常是假设声学环境是平稳的,忽略了真实场景中声学环境的不确定性,所以不能适用于声学环境稳定性差的场景,鲁棒性低。



技术实现要素:

本申请实施例提供一种语音处理模型的训练方法、语音识别方法、系统及装置,能够适用于各种声学环境,提高了训练后的语音处理模型的鲁棒性。

一方面,本申请实施例提供一种语音处理模型的训练方法,所述方法包括:

对语音增强模型、语音识别模型和语音判别模型进行迭代联合训练,每次训练时的训练样本中包括带噪语音训练数据,所述语音增强模型用于对带噪语音训练数据进行语音增强处理,并将增强处理后的结果分别输入所述语音识别模型以及所述语音判别模型,所述语音判别模型用于区分增强处理后的语音特征和纯净语音特征;

针对每次训练,获得所述语音增强模型、所述语音识别模型以及所述语音识别模型的联合损失函数,以及所述语音判别模型的语音判别损失函数;

在每次训练后根据所述联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数,并根据所述语音判别损失函数调整所述语音判别模型的模型参数,直到所述联合损失函数和语音判别损失函数同时满足收敛条件时获得已训练的语音处理模型,所述已训练的语音处理模型中包括已训练的语音增强模型以及已训练的语音识别模型。

一方面,本申请实施例提供一种语音处理模型的训练装置,所述语音处理模型的训练装置用于对语音增强模型、语音识别模型和语音判别模型进行迭代联合训练,每次训练时的训练样本中包括带噪语音训练数据,所述语音增强模型用于对带噪语音训练数据进行语音增强处理,并将增强处理后的结果分别输入所述语音识别模型以及所述语音判别模型,所述语音判别模型用于区分增强处理后的语音特征和纯净语音特征;

所述语音处理模型的训练装置包括:

获取单元,用于针对每次训练,获得所述语音增强模型、所述语音识别模型以及所述语音识别模型的联合损失函数,以及所述语音判别模型的语音判别损失函数;

模型参数调整单元,用于在每次训练后根据所述联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数,并根据所述语音判别损失函数调整所述语音判别模型的模型参数,直到所述联合损失函数和语音判别损失函数同时满足收敛条件时获得已训练的语音处理模型,所述已训练的语音处理模型中包括已训练的语音增强模型以及已训练的语音识别模型。

可选的,所述获取单元具体用于:

根据各损失函数的权重值确定所述联合损失函数。

可选的,所述获取单元具体用于:

根据所述带噪语音训练数据以及所述纯净训练数据的相位敏感掩蔽误差确定第一损失函数;

根据所述语音识别结果以及所述带噪语音训练数据的文本信息的交叉熵确定第二损失函数。

可选的,所述模型参数调整单元具体用于:

在根据联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数后,根据所述语音判别损失函数调整所述语音判别模型的模型参数。

可选的,所述语音判别模型为生成式对抗网络gan,且将所述语音增强模型作为所述gan的生成器。

一方面,本申请实施例提供一种语音识别方法,包括使用上述任一种语音处理模型的训练方法获得的语音增强模型和语音识别模型,获得语音识别结果。

一方面,本申请实施例提供一种语言识别装置,包括:语音处理单元和语音识别单元,其中:

所述语音处理单元,采用使用上述任一种语音处理模型的训练方法获得的所述语音增强模型对待识别语音进行增强处理;

所述语音识别单元,采用使用上述任一种语音处理模型的训练方法获得的语音识别模型,对所述语音处理单元增强处理后的待识别语音进行语音识别。

一方面,本申请实施例提供了一种语音识别系统,所述语音识别系统至少包括训练设备以及语音解码器;

所述训练设备用于采用上述任一种语音处理模型的训练方法进行训练,并在训练结束后将获得的语音增强模型和语音识别模型加载在所述语音解码器中;

所述语音解码器用于进行语音识别。

可选的,所述训练设备具体用于:

在训练结束后将获得的语音增强模型的模型参数以及获得的语音识别模型的模型参数加载在所述语音解码器中,所述语音解码器中具有未训练的语音增强模型以及未训练的语音识别模型。

一方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种语音处理模型的训练方法的步骤。

一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述任一种语音处理模型的训练方法的步骤。

本申请实施例提供的语音处理模型的训练方法,在每次训练过程中,将带噪语音训练数据输入至语音增强模型中,进行语音增强处理,并将增强处理的结果输入到语音识别模型以及语音判别模型,分别得到语音识别结果以及语音判别结果,通过各个模型的处理结果确定了联合损失函数以及语音判别模型的损失函数。

在本申请实施例中,由于语音判别模型用于区分增强处理后的语音特征和纯净语音特征,所以语音判别结果是与语音增强模型相关的,通过语音判别结果可以指导语音增强模型的语音增强结果,使得语音增强的处理结果更加接近真实分布;并且语音处理模型的主要任务是进行语音识别,而语音增强结果又会影响语音识别的结果,所以通过联合损失函数来调整语音增强模型以及语音识别模型的模型参数;由于不只是需要通过增强处理的结果来提高,还需要通过其他数据来提高语音判别模型的性能,所以使用语音判别模型单独的损失函数来调整语音判别模型的模型参数。

通过联合训练的方法提高了语音增强模型的处理能力,减小了噪声环境语音数据和真实训练数据的分布差异,能够适用于各种声学环境,提高了语音处理模型的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景架构图;

图2为本发明实施例提供的一种应用场景架构图;

图3为本发明实施例提供的一种语音处理模型的训练方法的流程示意图;

图4为本发明实施例提供的一种语音处理模型的训练方法的流程示意图;

图5为本发明实施例提供的一种基于注意力机制的神经网络模型的结构示意图;

图6为本发明实施例提供的一种gan模型的处理流程图;

图7为本发明实施例提供的一种语音处理模型的训练方法的流程示意图;

图8为本发明实施例提供的一种语音识别方法的应用场景示意图;

图9为本发明实施例提供的一种语音处理模型的训练装置的结构示意图;

图10为本发明实施例提供的一种语音识别系统的结构示意图;

图11为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

语音增强技术,是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,并抑制、降低噪声干扰的技术。由于语音编码技术或者语音识别技术常常是在实验室条件下进行的,也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时,由于实际环境噪声与干扰的存在,会使许多方法无法使用,性能急速下降。因此研究对受噪降质语音改善其听觉效果或提高信噪比的处理,即语音增强技术是面临的必须解决的实际问题。通常可以使用深度学习或者机器学习的方法实现语音增强技术。

基于深度神经网络的语音增强技术,利用深度神经网络来学习带噪语音和纯净语音之间的映射关系,从而进行语音增强处理。常用的深度神经网络包括cnn(convolutionalneuralnetwork,卷积神经网络)以及lstm(longshort-termmemory,长短时记忆循环神经网络)。

鲁棒性,系统的健壮性,在申请实施例中指的是当声学环境与语音处理模型的训练环境差距较大时,维持语音处理模型的处理性能的特性。

滤波器,是一种选频装置,可以使信号中特定的频率成分通过,而极大地衰减其他频率成分,在语音增强处理过程中,使用滤波器将纯净语音对应的声音频率成分通过,衰减了噪音频率的成分。通常可以使用自适应滤波器、维纳滤波器的方法进行语音增强处理。

语音识别技术,让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术中通常使用模板匹配法、随机模型法和概率语法分析法三种方法。

基于注意力机制的语音识别技术,是将注意力机制与编码-解码框架进行融合的一种语音识别技术,注意力机制的原理是基于人类视觉所特有的大脑信号处理机制,注意力机制的核心目标也是从众多信息中选择出对当前任务目标更关键的信息。

判别器模型,用于确定语音增强处理后的语音是否为纯净语音,判别器模型将语音增强处理后的语音识别为纯净语音的概率越大,证明语音增强处理模型的性能越好。可以使用深度学习模型作为判别器模型,一种常用的判别器模型为gan(generativeadversarialnetworks,生成式对抗网络)。

在具体实践过程中,本申请的申请人发现,在真实环境中,语音信号不可避免地受到噪声和混响的干扰,特别在远场条件下,由于声波在传播过程中其能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别等语音交互应用的性能。现有技术中为了提高语音处理模型的噪声鲁棒性,通常会采用基于信号处理的语音增强方法,其原理是通过信号处理的知识来设计一个滤波器,将带噪语音转换为纯净语音。但是基于信号处理的语音增强方法通常假设声学环境是平稳的,忽略了真实场景中声学环境的不确定性,采用确定性统计信号模型求解最优滤波器。另一方面,基于信号处理的语音增强方法通常需要先从输入信号中估计声学环境信息,然后根据估计的声学环境信息设计滤波器,声学环境信息估计和滤波器设计分步进行,并没有有效融合到一起,增加了训练过程中的不确定性以及风险。

现有技术还提供一种基于深度学习的语音增强方法,在该方法的处理过程中,是将语音增强过程表达成一个监督式学习问题,学习原始带噪语音到纯净语音的映射关系,在该语音增强处理过程中,一般先进行特征提取,再进行监督式学习,并将监督学习输出的增强语音特征合成为语音信号。但是该方法虽然能够实时估计和感知复杂多变的声学环境,对于匹配的声学环境其性能具有显著的优势,但对于不匹配的声学环境其性能难以保障,容易产生较大的语音畸变。

基于上述现有技术的缺点,本申请的申请人构思了一种语音处理模型的训练方法,该训练方法是通过将语音增强模型、语音识别模型以及语音判别模型进行联合训练,通过模型之间的关联性来调整语音增强模型的处理能力。具体的,在每次训练过程中,将带噪语音训练数据输入至语音增强模型中,进行语音增强处理,并将增强处理后的结果输入到语音识别模型以及语音判别模型,分别得到语音识别结果以及语音判别结果,通过各模型的处理结果确定了联合损失函数以及语音判别模型的损失函数,并通过联合损失函数调整语音增强模型的模型参数以及语音识别模型的模型参数。通过申请人的构思,能够更好地提高语音增强模型的增强处理能力,有效的降低了纯净语音训练数据和带噪语音训练数据的分布差异,提高了语音处理模型的鲁棒性。

在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例中的语音处理模型的训练方法可以应用于如图1所示的应用场景,该应用场景包括终端设备101和语音服务器102。其中,终端设备101和语音服务器102之间通过无线或有线网络连接,终端设备101包括但不限于智能音箱、智能手表、智能家居等智能设备,智能机器人、ai客服、银行信用卡催单电话系统,以及具有语音交互功能智能电话、移动电脑、平板电脑等电子设备。语音服务器102可提供相关的语音服务器,如语音识别、语音合成等服务,语音服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

在一种可能的应用场景下,用户10与终端设备101进行交互,终端设备101将用户10输入的语音数据发送给语音服务器102。语音服务器102对终端设备101发送的语音数据进行语音识别处理和语义解析处理,根据语义解析结果确定出相应的语音识别文本,将语音识别文本发送给终端设备101,终端设备101进行显示或者执行语音识别文本对应的指令。

在另一种可能的应用场景下,如图2所示,终端设备101向语音服务器102发送训练指令,该语音合成请求中包含训练数据。语音服务器102利用训练数据进行训练,语音服务器102中至少包括语音增强模型10201、语音识别模型10202和语音判别模型10203,通过语音增强模型10201、语音识别模型10202和语音判别模型10203联合训练,得到联合损失函数,并通过联合损失函数调整语音增强模型10201和/或语音识别模型10202的模型参数,直到达到训练收敛条件。

值得说明的是,本申请实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本申请实施例提供的技术方案的限制,对于其它的应用场景架构和业务应用,本申请实施例提供的技术方案对于类似的问题,同样适用。

为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

基于图1以及图2所示的应用场景图,本申请实施例提供了一种语音处理模型的训练方法,该方法的流程可以由训练装置执行,如图3所示,包括:

步骤s301,对语音增强模型、语音识别模型和语音判别模型进行迭代联合训练,每次训练时的训练样本中包括带噪语音训练数据,所述语音增强模型用于对带噪语音训练数据进行语音增强处理,并将增强处理后的结果分别输入所述语音识别模型以及所述语音判别模型,所述语音判别模型用于区分增强处理后的语音特征和纯净语音特征。

在本申请实施例中,需要训练的是语音处理模型,语音处理模型至少能够对接收到的语音数据进行识别,在语音处理模型进行语音识别的过程中,至少包括将接收到的语音数据进行降噪处理,然后对降噪后的语音数据进行文本信息特区,所说义在本申请的语音处理模型中,至少包括了语音增强模型、语音识别模型以及语音判别模型,语音增强模型是用于对用户的语音数据进行增强处理,从带噪语音中恢复出用户的纯净语音。语音识别模型用于对语音增强处理后的语音数据进行识别,识别出语音数据对应的文本信息,语音判别模型用于区分增强处理后的语音特征和纯净语音特征,通过输入增强处理后的语音数据,输出是否为纯净语音数据的判别结果。

步骤s302,针对每次训练,获得所述语音增强模型、所述语音识别模型以及所述语音识别模型的联合损失函数,以及所述语音判别模型的语音判别损失函数;

在本申请实施例中,针对每次训练,各个模型都会产生损失函数,各个损失函数是通过预测结果和实际结果之间的差别来确定的,实际结果既可以指的是真实结果,例如对于语音训练数据而言,语音训练数据的真实结果就是语音训练数据对应的真实文本信息,当然,实际结果也可以是预设结果,即语音训练的实际结果可以是与语音训练数据对应的真实文本信息存在满足预设误差的文本信息。

为了更好的提高语音增强的质量,所以在本申请实施例中,确定一次训练过程中通过各个模型确定的联合损失函数,并且由于语音判别结果区分了增强语音特征以及纯净语音特征,所以语音判别结果是与语音增强模型相关的,通过语音判别结果可以指导语音增强模型的语音增强结果,使得语音增强结果更加接近真实分布,所以还需要获取语音判别模型的损失函数。

步骤s303,在每次训练后根据所述联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数,并根据所述语音判别损失函数调整所述语音判别模型的模型参数,直到所述联合损失函数和语音判别损失函数同时满足收敛条件时获得已训练的语音处理模型,所述已训练的语音处理模型中包括已训练的语音增强模型以及已训练的语音识别模型。

在本申请中,在每次训练后,根据确定的联合损失函数来调整语音识别模型以及语音增强模型的模型参数,由于联合损失函数是通过三个模型的训练结果确定的,且语音增强模型与语音识别模型的训练结果相关,语音增强模型与语音判别模型的训练结果相关,所以通过联合损失函数来调整整个语音处理模型中的模型参数,能够将语音处理模型中的各个模型的性能进行均衡调整,使得调整后的语音处理模型中各个模型的性能最佳。

在本申请实施例中,由于语音判别模型自身的性能又是指的是区分纯净语音数据以及通过语音增强模型增强处理后的带噪语音数据的能力,所以在使用联合损失函数对语音识别模型以及语音增强模型进行模型参数调整时,还需要使用语音判别模型自身的损失函数来调整语音判别模型的模型参数。

在本申请实施例中,当在多次训练过程后,联合损失函数以及语音判别损失函数同时满足了收敛条件,则认为语音处理模型已经训练完毕。收敛条件可以为训练次数、训练的误差极限,即训练次数达到预设次数后,则认为训练收敛,或者相邻多次的训练结果之间的误差小于阈值,则认为训练收敛。

上述实施例的内容只是对语音处理模型的训练方法的概括描述,下面结合示例进行具体说明。

如图4所示,图4示意性的表明了语音处理模型的训练过程,在图4中,首先获取训练数据,由于该语音处理模型的训练目标是取得良好地降噪能力,所以训练数据中至少包括带噪语音训练数据。

在本申请实施例中,可以将获取到的带噪语音数据进行分帧,也就是把带噪语音数据切分成多个小段,每小段称为一帧。可以将多帧语音数据作为一次训练的训练数据或者将多帧语音数据作为一次训练的训练数据。

在获取到训练数据后,将训练数据输入至语音增强模型进行语音增强处理,然后根据语音增强处理结果输入至语音识别模型以及语音判别模型,并通过一次训练确定了联合损失函数。

一种可选的实施例中,联合损失函数是根据一次训练后的语音识别结果以及语音判别结果来确定的,通过设定的目标结果与语音识别结果以及语音判别结果之间的差异性来确定联合损失函数。

另一种可选的实施例中,根据一次训练过程中,语音增强模型根据输出结果以及设定的目标结果确定了第一损失函数,语音识别模型根据输出结果以及设定的目标结果确定了第二损失函数,语音判别模型根据输出结果确定了第三损失函数,然后通过第一损失函数、第二损失函数以及第三损失函数确定联合损失函数。

一种可选的实施例中,第一损失函数是根据纯净语音数据的频谱特征与带噪语音数据的频谱特征来确定的,纯净语音数据的频谱特征是可以预设在语音增强模型中的,也可以是在获取到纯净语音数据后确定的。

在本申请实施例中,在输入至语音增强模型中的训练数据中还包括纯净语音训练数据,语音增强模型在确定增强处理后的带噪语音数据后,还需要确定纯净语音训练数据的频谱特征,根据纯净语音训练数据的频谱特征与带噪语音数据的频谱特征来确定第一损失函数。

一种可选的实施例中,本申请实施例中使用一种深度学习的模型作为语音增强模型,深度学习模型可以是cnn模型或者其他深度学习模型,也可以是lstm模型。

lstm模型的层数不做限定,以三层lstm模型进行举例说明,语音增强模型将带噪语音训练数据x转化为增强语音训练数据即语音增强模型的处理结果。具体的,输入到语音增强模型中的数据为带噪语音训练数据x的对数,通过lstm模型输出的结果为掩蔽值利用掩蔽值乘以带噪语音训练数据x即为增强处理后的带噪语音训练数据

在本申请实施例中,语音增强模型的第一损失函数是根据带噪语音训练数据的频谱特征以及纯净语音的频谱特征来确定的,一种可选的实施例中,是根据带噪语音训练数据的频谱特征以及纯净训练语音的频谱特征的相位敏感掩蔽误差来确定的,具体如公式1所示。

在公式1中,为第一损失函数,|x|和|x*|分别为带噪语音训练数据和纯净语音训练数据的频谱特征在t帧f频域的幅值,t帧指的是指将带噪语音训练数据以及纯净语音训练数据各自拆分为多个子帧,其中第t个子帧为t帧,f为带噪语音训练数据以及纯净语音训练数据中的任一个频域,为纯净语音训练数据和带噪语音训练数据的sift谱在t帧f频域的相位差值。

上述实施例只是以语音增强模型为lstm模型为例进行解释的,其它语音增强模型的处理过程与上述实施例描述的处理过程相同或相似,在此不做赘述。

在本申请实施例中,由于语音识别模型具有的能力是模仿人耳根据人的语音信息确定语音信息对应的文本信息的过程,而人耳对声音频谱的响应是非线性的,所以为了提高语音识别模型的识别能力,可以通过特征提取的方式将语音增强模型处理后的结果转换为非线性的处理结果,然后将非线性的处理结果输入至语音识别模型以及语音判别模型中。

可选的,在本申请实施例中,可以通过提取增强处理后的带噪语音训练数据的fbank特征,将语音增强模型处理后的结果转换为非线性的处理结果,具体的,将语音增强模型的输出结果进行fbank特征提取,得到特征提取后的结果ot。具体的,如公式2所示,

在公式2中,mel(·)为矩阵乘法,norm(·)为归一化运算。

一种可选的实施例中,第二损失函数是将根据增强处理后的结果输入至语音识别模型后,根据识别结果以及目标结果确定的,目标结果是可以预设在语音识别处理模型中,也可以从训练数据中获取,所以在本申请实施例中,训练数据中还可以包括带噪语音训练数据的文本信息,带噪语音训练数据的文本信息可以理解为带噪语音训练数据对应的纯净语音训练数据真实的文本信息。

可选的,在本申请实施例中,通常使用深度学习或者机器学习的方法来进行语音识别,语音识别模型可以为高斯混合模型(gaussianmixturemodel,gmm)和隐马尔可夫模型(hiddenmarkovmodel),即gmm-hmm模型来进行语音识别,也可以采用使用深度学习的模型,例如cnn模型、bp神经网络模型等。

如图5所示,以语音识别模型为基于注意力机制的神经网络模型解释语音识别的过程,将增强处理后的并经过fbank特征提取的带噪语音训练数据输入至语音识别模型中,即将公式2中的输入至语音识别模型中,语音识别模型为基于注意力机制的神经网络模型,神经网络模型中包括编码单元以及解码单元,将输入至编码单元,通过编码单元将映射为语义特征h,语义特征h为序列,在针对序列中第n个语义进行识别时,计算出此时的注意力权重an,并且计算出此时的内容向量cn,向量容量cn是根据第n-1个语义的注意力权重,第n-1个语义的状态向量sn-1以及高层语义特征来确定的,然后解码器根据处理内容向量cn以及第1个语义到第n-1个语义的解码结果y1:n-1,计算出第n个语义的解码结果yn,具体如公式3-公式5所示:

h=encoder(o)公式3

cn=attention(an-1,sn-1,h)公式4

yn=decoder(cn,y1:n-1)公式5

在本申请实施例中,根据语音识别模型对增强处理后的结果进行语音识别,得到语音识别结果,根据语音识别结果以及带噪语音训练数据的文本信息确定第二损失函数,也就是说通过公式5中的yn以及带噪语音训练数据的文本信息确定第二损失函数。

一种可选的实施例中,第二损失函数是根据语音识别结果以及带噪语音训练数据的文本信息的交叉熵确定的,交叉熵主要用于度量两个概率分布间的差异性信息。具体的,如公式6所示,交叉熵为

其中p(·)为交叉熵运算,y为语音识别结果,o为带噪语音训练数据的文本信息,而y又是通过每一个语义来确定的,所以是根据y1:n-1确定的。

在本申请实施例中,语音增强模型的处理结果经过fbank特征提取后,还需要输入到语音判别模型中,语音判别模型用于确定输入的特征提取后的处理结果是否为纯净语音,也就是说,在本申请实施例中,语音判别模型具有区分增强语音模型处理后的语音特征和纯净语音特征的性能。

在本申请实施例中,语音判别模型具有区分增强语音模型处理后的语音特征和纯净语音特征的性能也就是区分获取的语音训练数据是不是语音增强模型处理过后的数据还是纯净语音特征,通过语音判别模型的判别能力能够提高语音增强模型的性能。

同样的,可以使用深度学习或者机器学习来进行语音判别的过程,即语音判别模型可以是深度学习模型以及机器学习模型,一种可选的实施例中,如图6所示,使用生成式对抗网络gan来进行语音判别的过程。

在本申请实施例中,gan由生成器(g)和判别器(d)构成。生成器的功能是生成数据,并将生成数据发送给判别器中,通过判别器来识别该数据是否为生成器生成的。

当gan应用于语音处理模型中时,生成器的作用应该是生成纯净语音数据,然后通过判别器来确定该生成的纯净语音数据是否为生成器生成的,所以在本申请实施例中,将语音增强模型作为生成器,将语音增强模型处理后的带噪语音训练数据输入到判别器中,判别器用来确定该语音数据是否为语音增强模型生成的。

在本申请实施例中,一种可选的实施例中,判别器的输出结果为纯净语音数据以及非纯净语音数据,也可以理解为判别器的输出结果为语音增强模型生成的数据或者不是语音增强模型生成的数据。由于语音增强模型的处理性能会导致判别器的输出结果不同,所以第三损失函数是根据语音判别结果确定的。

具体的,在本申请实施例中,一种可选的实施例中,判别器的第三损失函数如公式7所示,

在公式7中,discriminate为判别计算,表示的是期望值,指的是语音增强模型处理后且提取了fbank特征的带噪语音训练数据的判别结果的期望值,可以设定判别结果为纯净语音时,判别器的输出值为1,判别结果为语音增强处理模型的处理结果时,判别器的输出值为0。

在本申请实施例中,在确定了第一损失函数、第二损失函数以及第三损失函数后,就可以确定联合损失函数,一种可选的实施例中,可以通过第一损失函数、第二损失函数以及第三损失函数之和来确定联合损失函数,另一种可选的实施例中,如公式8所示,也可以通过第一损失函数、第二损失函数以及第三损失函数的加权和来确定联合损失函数:

在公式8中,a、b、c为各个损失函数的权重,各个损失函数的权重可以根据各个模型的权重来确定,各个模型的权重又是可以根据训练目标、训练环境以及应用场景等多方面来确定的,一种可选的实施例中,由于需要提高语音增强的性能,所以可以将b的值设置的大于其他权重值。

在本申请实施例中,语音判别模型的判别性能是根据语音判别模型的语音判别损失函数确定的,由于第三损失函数只是根据判别器是否能够将音增强模型处理后的带噪语音训练数据识别为纯净语音数据的结果确定的,而判别器的实际应用过程中,评价判别器的性能还需要根据判别器是否能将纯净语音训练数据识别为纯净语音数据的结果来进行评价,所以一种可选的实施例中,语音判别损失函数如公式9所示:

在公式9中,表示的是纯净语音训练数据被判别为纯净语音数据的期望,表示的是语音增强模型处理后的带噪语音训练数据判别为纯净语音数据的期望。

在本身实施例中,在一次训练过程中,可以通过公式8以及公式9分别确定出联合损失函数以及语音判别损失函数,在调整语音增强模型以及语音识别模型参数的过程中,可以首先固定语音判别模型,即语音判别模型的模型参数首先不调整,然后通过联合损失函数来调整语音增强模型的参数和/或语音识别模型的参数,然后再固定语音增强模型的参数和/或语音识别模型的参数,来调整语音判别模型的参数。当然,在本申请实施例中,也可以先固定语音增强模型的参数和/或语音识别模型的参数,通过语音判别损失函数调整语音判别模型的参数,然后再固定语音判别模型的参数,根据联合损失函数调整语音增强模型的参数和/或语音识别模型的参数。

在各个模型的参数进行调整后,进入下次训练,直到联合损失函数以及语音判别损失函数同时收敛,则确定各个模型已经训练完成。

由于在本申请实施例中,语音判别模型的作用是更好的训练语音增强模型以及语音识别模型的性能,所以在训练后的语音处理模型中,不需要使用语音判别模型,只需要通过语音增强模型对语音进行增强,然后进行识别并输出结果完成了语音处理模型的处理过程。

为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的一种语音处理模型的训练方法,语音处理模型包括语音增强模型、语音识别模型以及语音判别模型,在本申请实施例中,语音增强模型为三层lstm模型,语音识别模型为基于注意力机制的编码-解码模型,语音判别模型为gan模型,且将语音增强模型作为gan模型中的生成器。

具体的,如图7所示,训练样本包括带噪语音数据、带噪语音对应的纯净语音数据以及带噪语音数据的文本信息,将训练样本输入至语音处理模型中进行训练,在一次训练过程中,语音增强模型首先对带噪语音数据进行增强,然后将增强后的语音进行fbank特征提取,提取后的语音增强结果分别输入至语音识别模型以及语音判别模型。

在本申请实施例中,语音识别模型输出识别结果,语音判别模型输出判别结果,然后各个模型确定各个模型的损失函数,其中语音判别模型输出两个损失函数,一个是第三损失函数,另一个是语音判别损失函数。

具体的,在本申请实施例中,第一损失函数是根据增强语音和对应的纯净语音stft谱的相位敏感掩蔽误差来确定的,第二损失函数是根据识别结果和标记文本信息之间的交叉熵来确定的,第三损失函数是根据增强语音的识别结果的期望确定的,语音判别损失函数是根据增强语音的识别结果的期望以及纯净语音数据的识别结果的期望确定的。

通过确定的第一损失函数、第二损失函数以及第三损失函数的加权和确定了联合损失函数,在本申请实施例中,第一损失函数的权重为4,第三损失函数的权重为0.2,通过联合损失函数来调整语音增强模型和语音识别模型的模型参数,然后再根据语音判别损失函数调整语音判别模型的模型参数,完成一次训练过程。

经过多次迭代训练,当该次迭代训练的第一损失函数、第二损失函数、第三损失函数以及语音判别损失函数同时收敛时,则确定语音处理模型训练完成。

为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的一种语音处理模型的应用方法,在本申请实施例中,语音处理模型是通过上述实施例训练得到的,语音处理模型设置在计算机设备中,如图8所示,图8中的应用场景为会议场景,会议场景中包括多名参会人员,通过话筒来进行语音采集,话筒与计算机设备通过无线方式传输,话筒将采集的音频数据传入计算机设备。在本申请实施例中,还包括显示设备,显示设备与计算机设备连接。

在具体的应用过程中,话筒采集与会人员的音频数据,然后将音频数据输入至计算机设备,计算机设备将音频数据输入至语音增强模型中,进行去噪处理,然后将去噪后的音频数据输入至语音识别模型,得到识别结果。计算机设备将语音设备结果发生给显示设备,在显示设备中显示与会人员的发言内容。

基于上述实施例,参阅图9所示,本发明实施例提供一种语音处理模型的训练装置900,包括:

所述语音处理模型的训练装置900用于对语音增强模型、语音识别模型和语音判别模型进行迭代联合训练,每次训练时的训练样本中包括带噪语音训练数据,所述语音增强模型用于对带噪语音训练数据进行语音增强处理,并将增强处理后的结果分别输入所述语音识别模型以及所述语音判别模型,所述语音判别模型用于区分增强处理后的语音特征和纯净语音特征;

所述语音处理模型的训练装置900包括:

获取单元901,用于针对每次训练,获得所述语音增强模型、所述语音识别模型以及所述语音识别模型的联合损失函数,以及所述语音判别模型的语音判别损失函数;

模型参数调整单元902,用于在每次训练后根据所述联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数,并根据所述语音判别损失函数调整所述语音判别模型的模型参数,直到所述联合损失函数和语音判别损失函数同时满足收敛条件时获得已训练的语音处理模型,所述已训练的语音处理模型中包括已训练的语音增强模型以及已训练的语音识别模型。

可选的,所述每次训练时的训练样本中还包括与所述带噪语音训练数据对应的纯净训练数据以及所述带噪语音训练数据的文本信息,所述获取单元901具体用于:

根据所述带噪语音训练数据以及所述纯净训练数据确定第一损失函数;

根据所述语音识别模型对所述增强处理后的结果进行语音识别,得到语音识别结果,根据所述语音识别结果以及所述带噪语音训练数据的文本信息确定第二损失函数;

根据所述语音判别模型对所述增强处理后的结果进行语音判别,得到语音判别结果,根据所述语音判别结果确定第三损失函数,所述语音判别结果为是纯净语音训练数据或者不是纯净语音训练数据中的一种;

根据所述第一损失函数、所述第二损失函数以及所述第三损失函数确定所述联合损失函数。

可选的,所述获取单元901具体用于:

根据各损失函数的权重值确定所述联合损失函数。

可选的,所述获取单元901具体用于:

根据所述带噪语音训练数据以及所述纯净训练数据的相位敏感掩蔽误差确定第一损失函数;

根据所述语音识别结果以及所述带噪语音训练数据的文本信息的交叉熵确定第二损失函数。

可选的,所述模型参数调整单元902具体用于:

在根据联合损失函数调整所述语音增强模型和/或所述语音识别模型的模型参数后,根据所述语音判别损失函数调整所述语音判别模型的模型参数。

可选的,所述语音判别模型为生成式对抗网络gan,且将所述语音增强模型作为所述gan的生成器。

基于相同的技术构思,本申请实施例提供了一种语音识别系统100,如图10所示,包括训练设备1001以及语音解码器1002;

训练设备1001采用前述的训练方法中所包括的步骤进行训练,并在训练结束后将获得的语音增强模型和语音识别模型加载在所述语音解码器1002中;语音解码器1002用于进行语音识别。

可选的,训练设备1001具体用于:

在训练结束后将获得的语音增强模型的模型参数以及获得的语音识别模型的模型参数加载在所述语音解码器1002中,所述语音解码器1002中具有未训练的语音增强模型以及未训练的语音识别模型。

基于相同的技术构思,本申请实施例提供了一种计算机设备,如图11所示,包括至少一个处理器1101,以及与至少一个处理器连接的存储器1102,本申请实施例中不限定处理器1101与存储器1102之间的具体连接介质,图11中处理器1101和存储器1102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中,存储器1102存储有可被至少一个处理器1101执行的指令,至少一个处理器1101通过执行存储器1102存储的指令,可以执行前述的语音处理模型的训练方法中所包括的步骤。

其中,处理器1101是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各个部分,通过运行或执行存储在存储器1102内的指令以及调用存储在存储器1102内的数据,从而获得客户端地址。可选的,处理器1101可包括一个或多个处理单元,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。在一些实施例中,处理器1101和存储器1102可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器1101可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1102可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(randomaccessmemory,ram)、静态随机访问存储器(staticrandomaccessmemory,sram)、可编程只读存储器(programmablereadonlymemory,prom)、只读存储器(readonlymemory,rom)、带电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,eeprom)、磁性存储器、磁盘、光盘等等。存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1102还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行语音处理模型的训练方法的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1