语音识别模型的训练方法、装置及设备与流程

文档序号：18708186发布日期：2019-09-18 00:02阅读：130来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型的训练方法、装置及设备。

背景技术：

随着人工智能技术的发展，语音识别技术取得了巨大的进步，并开始进入家电、通信、汽车、医疗等各个领域。

相关技术中，在训练语音识别模型时，通常选取相应的模型结构进行训练，而由于各个模型具有自身的优点和缺陷且由于训练语料规模的限制，使得语音识别模型容易陷入局部最优值，语音识别结果的质量有待提高。

技术实现要素：

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别模型的训练方法，通过多个语音识别子模型共同决策产生的目标译文，对语音识别模型进行训练，提高了语音识别的质量。

本发明的第二个目的在于提出一种语音识别模型的训练装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种计算机可读存储介质。

本发明第一方面实施例提出了一种语音识别模型的训练方法，所述语音识别模型包括多个语音识别子模型，所述方法包括：

获取待训练语音信号；

将所述待训练语音信号输入多个语音识别子模型以生成多个预测结果向量；

根据所述多个预测结果向量生成所述多个语音识别子模型共同决策产生的目标译文；以及

根据所述目标译文和每个所述语音识别子模型生成的多个预测结果向量对所述多个语音识别子模型进行训练。

本发明实施例的语音识别模型的训练方法，获取待训练语音信号，进而将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。进一步地，根据多个预测结果向量生成多个语音模型共同决策产生的目标译文，以及根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。由此，通过多个语音识别子模型共同决策产生的目标译文，对语音识别子模型进行训练，能够降低单一模型容易陷入局部最优值的缺点，基于语音识别子模型之间的学习策略，提高了语音识别的质量。

另外，根据本发明上述实施例的语音识别模型的训练方法还可以具有如下附加技术特征：

可选地，所述多个语音识别子模型包括transformer模型、rnn模型、cnn模型、ctc和ghmm中的多种。

可选地，所述根据所述多个预测结果向量生成所述多个语音识别子模型共同决策产生的目标译文，包括：根据所述多个预测结果向量生成预测结果向量集合；根据所述预测结果向量集合生成所述目标译文。

可选地，通过以下损失函数对所述多个语音识别子模型进行训练，

其中，yavg为所述目标译文，yi为第i个模型的预测结果向量，n为所述语音识别子模型的数量。

本发明第二方面实施例提出了一种语音识别模型的训练装置，所述语音识别模型包括多个语音识别子模型，所述装置包括：

获取模块，用于获取待训练语音信号；

处理模块，用于将所述待训练语音信号输入多个语音识别子模型以生成多个预测结果向量；

生成模块，用于根据所述多个预测结果向量生成所述多个语音识别子模型共同决策产生的目标译文；以及

训练模块，用于根据所述目标译文和每个所述语音识别子模型生成的多个预测结果向量对所述多个语音识别子模型进行训练。

本发明实施例的语音识别模型的训练装置，获取待训练语音信号，进而将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。进一步地，根据多个预测结果向量生成多个语音模型共同决策产生的目标译文，以及根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。由此，通过多个语音识别子模型共同决策产生的目标译文，对语音识别子模型进行训练，能够降低单一模型容易陷入局部最优值的缺点，基于语音识别子模型之间的学习策略，提高了语音识别的质量。

另外，根据本发明上述实施例的语音识别模型的训练装置还可以具有如下附加技术特征：

可选地，所述多个语音识别子模型包括transformer模型、rnn模型、cnn模型、ctc和ghmm中的多种。

可选地，所述生成模块具体用于：根据所述多个预测结果向量生成预测结果向量集合；根据所述预测结果向量集合生成所述目标译文。

可选地，通过以下损失函数对所述多个语音识别子模型进行训练，

其中，yavg为所述目标译文，yi为第i个模型的预测结果向量，n为所述语音识别子模型的数量。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的语音识别模型的训练方法。

本发明第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的语音识别模型的训练方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种语音识别模型的训练方法的流程示意图；

图2为本发明实施例所提供的一种语音识别模型的训练装置的结构示意图；

图3示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别模型的训练方法、装置及设备。

图1为本发明实施例所提供的一种语音识别模型的训练方法的流程示意图，如图1所示，该方法包括：

步骤101，获取待训练语音信号。

本实施例中，在训练语音识别模型时，可以先获取待训练的语音信号。例如，可以通过麦克风等语音接收装置采集语音信号，作为待训练的语音信号。再例如，可以从相关标注平台中获取语音信号数据作为待训练的语音信号。

其中，待训练的语音信号可以为任意语种的语音信号，例如汉语、英语、俄语等，具体可以根据语音识别模型的需要进行选取。

步骤102，将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。

本实施例中，可以预先设置多个语音识别子模型，并将待训练的语音信号分别输入到各语音识别子模型中进行处理，分别输出与各语音识别子模型对应的多个预测结果向量。

其中，可以采用具有一定差异性的多个语音识别子模型，以保证多个语音识别子模型协同学习的效果。语音识别子模型可以基于端到端模型，例如语音识别子模型可以包括transformer模型、rnn(recurrentneuralnetwork，循环神经网络)模型、cnn(convolutionalneuralnetworks，卷积神经网络)模型等，可选地，语音识别子模型还可以通过ctc(connectionisttemporalclassification，联结主义时间分类)和ghmm(混合高斯-隐马尔可夫模型)模型实现，并不局限于端到端模型。

作为一种示例，下面针对单个语音识别子模型进行说明。将待训练语音信号输入到语音识别子模型中进行处理，输出预测结果向量，比如输出预测结果向量为yt，代表t时刻的预测结果。其中，yt＝[e(t,0)…e(t,j)e(t,v-1)]，v表示词表大小，e(t,j)表示t时刻预测为词表中第j个词的概率。即预测结果向量用于预测词表中每个词的概率，例如，词表大小记为v，对于英文词表大小v可以为26，表示26个字母，预测结果向量yt中包括t时刻预测为词表中各个字母的概率；对于中文v用于表示中文字的个数，预测结果向量yt中包括t时刻预测为各个字的概率。由此，可以根据预测结果向量确定语音识别子模型预测的识别结果。

需要说明的是，本实施例中对于多个语音识别子模型中的每个子模型，可以参照上述示例中对单个语音识别子模型的说明，此处不再赘述。

可选地，多个语音识别子模型可以预先根据标注的语音训练数据分别进行训练，进而将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。例如，可以预先收集标注有对应识别文本的语音训练数据，并通过语音训练数据基于有监督的训练方式训练语音识别子模型的处理参数，使语音识别子模型输入为语音信号，输出为相应的识别文本。

在实际应用中，通常根据标注的语音训练数据训练某一预设模型的处理参数，生成语音识别模型，使语音识别模型的输入为语音信号，输出为对应的文本。例如，对于端到端的语音识别模型，可以采用transformer模型对语音信号进行识别获取识别文本。然而，由于不同的模型具有不同的优缺点，通过单一模型进行处理容易陷入局部最优值，比如对于从左到右的解码模型受限于模型能力，容易产生好的前缀和差的后缀，而对于从右到左的解码模型则容易产生好的后缀和差的前缀。因此，可以通过多个语音识别子模型进行协同训练，以避免单一模型容易陷入局部最优值的缺点，提高语音识别的质量。

步骤103，根据多个预测结果向量生成多个语音模型共同决策产生的目标译文。

本发明实施例中，可以根据多个预测结果向量生成多个语音模型共同决策产生的目标译文，以根据共同决策产生的目标译文对语音模型进行训练。

在本发明的一个实施例中，可以根据多个预测结果向量生成预测结果向量集合，进而根据预测结果向量集合生成目标译文。

作为一种示例，针对一段待训练语音信号，每个语音识别子模型可以输出多个预测结果向量y，进而根据多个预测结果向量生成的预测结果向量集合yi＝[y0，y1，…，yt，…，yn]，其中，i为语音识别子模型的数量，yi为第i个语音识别子模型根据待训练语音信号得到的输出，yi用于确定与语音信号对应的识别文本。进而，根据多个语音识别子模型获取的输出yi求平均值，获取目标译文，比如对于t时刻各语音识别子模型输出的yt求平均值，进而根据求得的平均值的向量确定该时刻的目标译文。可以理解，不同语音识别子模型针对同一待训练语音信号输出的预测结果向量可能不同，比如语音识别子模型1输出的yt＝[a1,b1,c1]，语音识别子模型2输出的yt＝[a2,b2,c2]，则通过求平均值确定共同决策产生的目标译文的向量为[(a1+a2)/2,(b1+b2)/2,(c1+c2)/2]。其中，求平均值的实现方式可以根据需要进行选择，此处不作限制。

作为另一种可能的实现方式，可以根据待训练语音信号进行标注，根据标注的识别结果确定译文，例如对于y0对应的译文为词表中第三个字母，则y0对应的译文的向量为[0,0,1,0…,v-1]。

需要说明的是，可以根据实际需要选择相应的获取目标译文的实现方式，例如为了解决解码模型解码和训练时不一致的情况，可以根据模型输出的预测结果确定目标译文，此处不作限制。

步骤104，根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。

本实施例中，在根据多个预测结果向量生成多个语音识别子模型共同决策产生的目标译文后，可以根据共同决策产生的目标译文与预测结果向量对多个语音识别子模型进行训练，以调整语音识别子模型的处理参数，由此，通过共同决策产生的目标译文训练语音识别子模型的处理参数，相对单一模型产生的识别结果能够提高语音识别的质量。

作为一种示例，通过以下损失函数对多个语音识别子模型进行训练，

其中，yavg为目标译文，yi为第i个模型的预测结果向量，n为语音识别子模型的数量。

本发明实施例的语音识别模型的训练方法，通过获取待训练语音信号，进而将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。进一步地，根据多个预测结果向量生成多个语音模型共同决策产生的目标译文，以及根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。由此，通过多个语音识别子模型共同决策产生的目标译文，对语音识别子模型进行训练，能够降低单一模型容易陷入局部最优值的缺点，基于语音识别子模型之间的学习策略，提高了语音识别的质量。

为了实现上述实施例，本发明还提出一种语音识别模型的训练装置。

图2为本发明实施例所提供的一种语音识别模型的训练装置的结构示意图，如图2所示，该语音识别模型的训练装置包括：获取模块100，处理模块200，生成模块300，训练模块400。

其中，获取模块100，用于获取待训练语音信号。

处理模块200，用于将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。

生成模块300，用于根据多个预测结果向量生成多个语音识别子模型共同决策产生的目标译文。

训练模块400，用于根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。

在本发明的一个实施例中，多个语音识别子模型包括transformer模型、rnn模型、cnn模型、ctc和ghmm中的多种。

在本发明的一个实施例中，生成模块300具体用于：根据多个预测结果向量生成预测结果向量集合；根据预测结果向量集合生成目标译文。

在本发明的一个实施例中，通过以下损失函数对多个语音识别子模型进行训练，

其中，yavg为目标译文，yi为第i个模型的预测结果向量，n为语音识别子模型的数量。

需要说明的是，前述实施例对语音识别模型的训练方法的解释说明，同样适用于本实施例的语音识别模型的训练装置，此处不再赘述。

本发明实施例的语音识别模型的训练装置，通过获取待训练语音信号，进而将待训练语音信号输入多个语音识别子模型以生成多个预测结果向量。进一步地，根据多个预测结果向量生成多个语音模型共同决策产生的目标译文，以及根据目标译文和每个语音识别子模型生成的多个预测结果向量对多个语音识别子模型进行训练。由此，通过多个语音识别子模型共同决策产生的目标译文，对语音识别子模型进行训练，能够降低单一模型容易陷入局部最优值的缺点，基于语音识别子模型之间的学习策略，提高了语音识别的质量。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的语音识别模型的训练方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的语音识别模型的训练方法。

为了实现上述实施例，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的语音识别模型的训练方法。

图3示出了适于用来实现本发明实施例的示例性计算机设备的框图。图3显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture；以下简称：isa)总线，微通道体系结构(microchannelarchitecture；以下简称：mac)总线，增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation；以下简称：vesa)局域总线以及外围组件互连(peripheralcomponentinterconnection；以下简称：pci)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(randomaccessmemory；以下简称：ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(compactdiscreadonlymemory；以下简称：cd-rom)、数字多功能只读光盘(digitalvideodiscreadonlymemory；以下简称：dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork；以下简称：lan)，广域网(wideareanetwork；以下简称：wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊皓;张睿卿;张传强;何中军;李芝;吴华;王海峰
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种易更换灯泡的路灯装置的制作方法
上一篇：LED投光灯具的制作方法