一种语音识别模型的训练方法和装置与流程

文档序号：15969587发布日期：2018-11-16 23:23阅读：165来源：国知局

本申请实施例涉及人工智能领域，尤其涉及一种语音识别模型的训练方法和装置。

背景技术

人工智能(artificialintelligence，ai)是研究和开发用于模拟、延伸和扩展人的智能的理论、方法、技术即应用系统的一门新的技术科学，人工智能是计算机科学的一个分支，人工智能领域的研究包括机器人、语音识别、图像识别和自然语言处理等等。其中，语音识别作为人工智能领域的一个重要技术，被应用于互联网，通信、智能家居等相关的各行各业。

为了得到语音识别模型，需要准备大量的语音数据和与该大量的语音数据对应的文本数据来训练，现有技术中，该文本数据是通过如下的方式获取的：组织大量的人听取语音数据，并写下正确的文本数据。然而，随着算法和计算机能力的进步，语音识别模型允许越来越多的语音数据和对应的文本数据加入训练，以提升语音识别模型的准确度，这使得人工成本成为资源投入的瓶颈。

技术实现要素：

本申请实施例提供一种语音识别模型的训练方法和装置，用于节约人工成本。

本申请实施例提供一种语音识别模型的训练方法，包括：向语音识别模型输入语音，从语音识别模型的输出侧得到语音对应的n个文本，n为正整数，将n个文本中的每个文本与预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个匹配程度值，其中，n个文本与n个匹配程度值一一对应，根据n个匹配程度值和预设条件，将n个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本，将语音和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练。由于可以直接通过由语音识别模型得到的n个文本进行删选处理，得到n个文本的n个匹配程度值与预设条件的匹配程度，进而确定出目标文本，不再需要人工标注就可以得到目标文本，如此可以节省人工成本。

可选的，将n个文本中的每个文本与预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个匹配程度值，根据n个匹配程度值和预设条件，将n个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本，包括：将n个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个第一匹配程度值，其中，n个文本与n个第一匹配程度值一一对应，从n个第一匹配程度值中确定出大于第一阈值的m个第一匹配程度值，m为不大于n的正整数，根据m个第一匹配程度值对应的m个文本，从m个文本中确定出目标文本。

可选的，针对n个文本中的每个文本，文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。

可选的，根据m个第一匹配程度值对应的m个文本，从m个文本中确定出目标文本，包括：将m个第一匹配程度值对应的m个文本与第二预设数据库中存储的多个文本进行匹配，得到m个文本对应的m个第二匹配程度值，其中，m个文本与m个第二匹配程度值一一对应，从m个第二匹配程度值中确定出大于第二阈值的k个第二匹配程度值，k为不大于m的正整数，根据k个第二匹配程度值对应的k个文本，从k个文本中确定出目标文本。

可选的，针对m个文本中的每个文本，文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与文本相匹配的数量确定的，第二预设数据库中的数据包括语音识别模型的输出侧对应的训练数据。

本申请实施例提供一种语音识别模型的训练装置，包括：获取单元，用于向语音识别模型输入语音，从语音识别模型的输出侧得到语音对应的n个文本，n为正整数，确定单元，用于将n个文本中的每个文本与预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个匹配程度值，其中，n个文本与n个匹配程度值一一对应，根据n个匹配程度值和预设条件，将n个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本，训练单元，用于将语音和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练。

可选的，确定单元，具体用于：将n个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个第一匹配程度值，其中，n个文本与n个第一匹配程度值一一对应，从n个第一匹配程度值中确定出大于第一阈值的m个第一匹配程度值，m为不大于n的正整数，根据m个第一匹配程度值对应的m个文本，从m个文本中确定出目标文本。

可选的，针对n个文本中的每个文本，文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。

可选的，确定单元，具体用于将m个第一匹配程度值对应的m个文本与第二预设数据库中存储的多个文本进行匹配，得到m个文本对应的m个第二匹配程度值，其中，m个文本与m个第二匹配程度值一一对应，从m个第二匹配程度值中确定出大于第二阈值的k个第二匹配程度值，k为不大于m的正整数，根据k个第二匹配程度值对应的k个文本，从k个文本中确定出目标文本。

本申请实施例提供一种计算机存储介质，计算机存储介质存储有计算机可执行指令，计算机可执行指令在被计算机调用时，使计算机执行上述的方法。

本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供一种语音识别模型的示意图；

图2为本申请实施例提供一种语音识别模型的训练方法的流程示意图；

图3为本申请实施例提供一种语音识别模型的训练方法的流程示意图；

图4为本申请实施例提供一种语音识别模型的训练装置的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

本申请实施例中，语音识别模型的训练可以分为两个阶段，第一阶段是获得该语音识别模型，第二阶段是对该语音识别模型进行训练。一种可选的得到该语音识别模型的实施方式中，可以先准备第一阶段所需的语音和该语音对应的文本，其中，该第一阶段所需的语音可以是通过录音设备录取而获得的语音，还可以是直接从网上下载获取的语音。而该语音对应的文本可以是由员工听取上述获取的语音后，手动撰写下来的文本，基于此种方式，第一阶段的所需的语音和该语音对应的文本的匹配度非常高。

可选的，将第一阶段所需的语音作为输入x0，将该语音对应的文本作出输出y0，训练得到该语音识别模型。图1示例性示出了本申请实施例适用的一种语音识别模型的示意图，由于输入和输出是已知的，因此可以得到语音识别模型。由于第一阶段中，获取的语音识别模型可以被认为是初始语音识别模型，使用的语音和对应的文本在数量上有一定的局限性，因此，需要更多的语音和文本对该语音识别模型进行训练，使得该语音识别模型可以应用于不同的场景。

下面介绍本申请的第二阶段，即对该语音识别模型进行训练，图2示例性示出了本申请实施例适用的一种语音识别模型的训练方法的流程示意图，包括：

步骤201，向语音识别模型输入语音，从语音识别模型的输出侧得到语音对应的n个文本，n为正整数；

步骤202，将n个文本中的每个文本与预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个匹配程度值，其中，n个文本与n个匹配程度值一一对应；

步骤203，根据n个匹配程度值和预设条件，将n个匹配程度值中的满足预设条件的匹配程度值对应的文本确定为目标文本；

步骤204，将语音和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练。

本申请实施例中，该语音识别模型可以在终端设备上进行训练，也可以在服务器中进行训练，因此，步骤201至步骤204的执行主语可以是终端设备或者服务器。

步骤201中向语音识别模型输入的语音是第二阶段的语音x1，区别于第一阶段的语音x0，比如，两个阶段的语音对应的文本是不一样的，两个阶段的语音的容量是不一致的。每个语音从语音识别模型的输入端输入后，都可以从输出端得到n个文本y11，y12，y13……y1n，换句话说，一个语音可以对应一个或者多个文本，这是由于该语音识别模型还是初始语音识别模型，所以该语音识别模型并不能唯一确定一个输出值，因此，可以把可能的文本都作为输出。可选的，一个语音对应的n个文本之间可能只有某几个字的区别。

本申请实施例中，第二阶段的语音的容量可以很大，因此，终端设备或者服务器在向语音识别模型输入之前，可以将该语音进行切分，按照预设时长切分成若干个语音片段，比如，该语音的总时长为10分钟，可以切分成5秒一个的语音片段。如此，终端设备或者服务器可以向语音识别模型输入一个个语音片段，每个语音片段可以得到对应的n个文本。

由于该语音识别模型第一阶段包含的训练样本不够多，因此，可以对语音x1得出的n个文本y11，y12，y13……y1n进行过滤，确定出目标文本。

第一种可选确定目标文本的实施方式中，可以将n个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个第一匹配程度值，其中，n个文本与n个第一匹配程度值一一对应。从n个第一匹配程度值中确定出大于第一阈值的m个第一匹配程度值，m为不大于n的正整数；根据m个第一匹配程度值对应的m个文本，从m个文本中确定出目标文本。可选的，该第一预设数据库可以是根据互联网上的文本进行收集后得到的的数据库，里面可以是公开的聊天记录，个人博客分享的文字、广告文字等等。n个文本中的每个文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与该文本相匹配的数量确定的。

举个例子，语音对应了3个文本：1号文本y11，2号文本y12和3号文本y13：

一种可选的实施方式中，假设和1号文本y11一模一样的文本在该第一预设数据库中出现了10000个，则1号文本对应的第一匹配程度值可以为10000。假设和2号文本y12一模一样的文本在该第一预设数据库中出现了500个，则2号文本对应的第一匹配程度值为500。假设和3号文本y13一模一样的文本在该第一预设数据库中出现了2000个，则3号文本对应的第一匹配程度值为2000。若第一阈值设为1000，则可以得出1号文本对应的第一匹配程度值和3号文本对应的第一匹配程度值大于第一阈值。服务器或者终端设备可以从1号文本和3号文本这2个文本中确定目标文本。可选的，可以把这2个文本中第一匹配程度值较大的那个文本(1号文本)确定为目标文本，也可以将这2个文本都确定为目标文本。

另一种可选的实施方式中，若第一预设数据库中出现12000个文本和1号文本的匹配度满足预设概率，则1号文本对应的第一匹配程度值可以为12000。具体地，1号文本中有20个字，若预设概率为95％，也就是说，12000个文本中的每个文本包含的20个字中必须满足有19个字和1号文本中的19个字一致，且该19个字在12000个文本中的每个文本中所处的位置和这19个字在1号文本中所处的位置一致。类似地，若第一预设数据库中出现700个文本和2号文本的匹配度满足预设概率，则2号文本对应的第一匹配程度值可以为700。若第一预设数据库中出现3000个文本和3号文本的匹配度满足预设概率，则3号文本对应的第一匹配程度值可以为3000。若第一阈值设为1500，则可以得出1号文本对应的第一匹配程度值和3号文本对应的第一匹配程度值大于第一阈值。服务器或者终端设备可以从1号文本和3号文本这2个文本中确定目标文本。可选的，可以把这2个文本中第一匹配程度值较大的那个文本(1号文本)确定为目标文本，也可以将这2个文本都确定为目标文本。

第二种可选的实施方式中，服务器或者终端设备根据第一种实施方式根据n个文本对应的第一匹配程度值从n个文本确定出m个文本之后，还可以将m个第一匹配程度值对应的m个文本与第二预设数据库中存储的多个文本进行匹配，得到m个文本对应的m个第二匹配程度值，其中，m个文本与m个第二匹配程度值一一对应；从m个第二匹配程度值中确定出大于第二阈值的k个第二匹配程度值，k为不大于m的正整数；根据k个第二匹配程度值对应的k个文本，从k个文本中确定出目标文本。可选的，m个文本中的每个文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与m个文本中的每个文本相匹配的数量确定的，其中，第二预设数据库中的数据包括该语音识别模型的输出侧对应的训练数据。

本申请实施例中，由于从m个文本中确定出k个文本依然属于本申请第二阶段，即对该语音识别模型进行训练阶段(或者说进行训练之前的准备阶段)，因此，该第二预设数据库中的数据可以是第一阶段该语音识别模型的输出侧的训练数据y0。服务器或者终端设备可以根据第二预设数据库得到m个文本中每个文本对应的第二匹配程度值，可选的，若m个文本中的某个文本在第二预设数据库的所有文本中想匹配的文本数量越大，则该文本对应的第二匹配程度值越大。若m个文本中的某个文本在第二预设数据库的所有文本中想匹配的文本数量越校，则该文本对应的第二匹配程度值越小，可选的，m个文本中每个文本对应的第二匹配程度值之和为1。

基于上述的例子，从3个文本中确定出1号文本和3号文本，服务器或者终端设备将1号文本和3号文本和第二预设数据库中存储的多个文本进行匹配，假设1号文本对应的第二匹配程度值为80％，3号文本对应的第二匹配程度值为20％，若第二阈值为60％，则1号文本对应的第二匹配程度值大于第一阈值，则可以将1号文本确定为目标文本。假设1号文本对应的第二匹配程度值为52％，3号文本对应的第二匹配程度值为48％，若第二阈值为45％，则k个文本为1号文本和3号文本，再从1号文本和3号文本中确定目标文本，可选的，可以将第二匹配程度值较大的那个文本确定为目标文本。

第三种可选的实施方式中，服务器或者终端设备从语音识别模型的输出端输出n个文本之前，可以将n个文本中的每个文本和和第二预设数据库中存储的多个文本进行匹配，得到n个文本中每个文本对应的第二匹配程度值，其中，n个文本中每个文本对应的第二匹配程度值之和为1，比如，语音对应的3个文本中，1号文本y11对应的第二匹配程度值为70％，2号文本y12对应的第二匹配程度值为20％，3号文本y13对应的第二匹配程度值为10％，若第二阈值为60％，则保留1号文本，再将1号文本与第一预设数据库中存储的多个文本进行匹配，获取1号文本对应的第一匹配程度值，若1号文本对应的第一匹配程度值为3000，大于第一阈值2000，则将1号文本确定目标文本，也就是该语音对应的文本。

本申请实施例中，若n个文本是先经过第一匹配程度值和第一阈值的对比，再经过第二匹配程度值和第二阈值的对比，得出多个文本，则可以将多个文本中第二匹配程度值较大的那个对应的文本确定为目标文本。若n个文本是先经过二匹配程度值和第二阈值的对比，再经过第一匹配程度值和第一阈值的对比，得到多个文本，则可以将多个文本中第一匹配程度值较大的那个对应的文本确定为目标文本。

步骤204中，可以将语音x1和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练，还可以将语音x1和语音x0，目标文本和文本y0作为语音识别模型的训练数据，对语音识别模型进行训练。

现有技术中，所有的文本都需要人工听取语音之后撰写下来，而本申请可以通过第一阶段得到的语音识别模型得到第二阶段的语音对应的文本，在通过以上实施方式删除一些不符合要求的文本，将符合要求的文本和语音作为新的训练数据对语音识别模型进行训练，虽然一开始的准确度没有人工翻译的稿，但是随着训练次数的增加，该语音识别模型的准确度也会越来越高，达到所要求的准确定。

图3示例性示出了本申请实施例适用的一种语音识别模型的训练方法的流程示意图，包括：

步骤301，向语音识别模型输入语音，从语音识别模型的输出侧得到语音对应的n个文本，n为正整数；

步骤302，将n个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个第一匹配程度值；

步骤303，将n个第一匹配程度值与第一阈值进行对比，若n个第一匹配程度值中存在m个第一匹配程度值大于第一阈值，则转至步骤304；若n个第一匹配程度值中存在n-m个第一匹配程度值不大于第一阈值，则删除该n-m个第一匹配程度值对应的n-m个文本；

步骤304，将该m个文本与第二预设数据库中存储的多个文本进行匹配，得到m个文本对应的m个第二匹配程度值；

步骤305，将m个第二匹配程度值与第二阈值进行对比，若m个第二匹配程度值中存在k个第二匹配程度值大于第二阈值，则转至步骤305；若m个第二匹配程度值中存在m-k个第二匹配程度值不大于第二阈值，则删除该m-k个第二匹配程度值对应的m-k个文本；

步骤306，将k个第二匹配程度值中最大的那个第二匹配程度值对应的文本确定为目标文本；

步骤307，将语音和目标文本作为语音识别模型的训练数据，对语音识别模型进行训练。

步骤204或者步骤307之后，还可以进行根据再次根据201-204步骤或者301-307步骤对该语音识别模型进行训练，使该语音识别模型包含的样本量越来越多，输入语音后得到文本的准确度越来越高。

基于以上实施例及相同构思，图4示出了本申请实施例提供的一种语音识别模型的训练装置的结构示意图，如图4所示，语音识别模型的训练装置400可以包括欺诈集群获取单元401、确定单元402和训练单元403。

一种可选的实施方式中，确定单元，具体用于：将n个文本中的每个文本与第一预设数据库中存储的多个文本进行匹配，得到n个文本对应的n个第一匹配程度值，其中，n个文本与n个第一匹配程度值一一对应，从n个第一匹配程度值中确定出大于第一阈值的m个第一匹配程度值，m为不大于n的正整数，根据m个第一匹配程度值对应的m个文本，从m个文本中确定出目标文本。

一种可选的实施方式中，针对n个文本中的每个文本，文本对应的第一匹配程度值是根据第一预设数据库中存储的多个文本与文本相匹配的数量确定的。

一种可选的实施方式中，确定单元，具体用于将m个第一匹配程度值对应的m个文本与第二预设数据库中存储的多个文本进行匹配，得到m个文本对应的m个第二匹配程度值，其中，m个文本与m个第二匹配程度值一一对应，从m个第二匹配程度值中确定出大于第二阈值的k个第二匹配程度值，k为不大于m的正整数，根据k个第二匹配程度值对应的k个文本，从k个文本中确定出目标文本。

一种可选的实施方式中，针对m个文本中的每个文本，文本对应的第二匹配程度值是根据第二预设数据库中存储的多个文本与文本相匹配的数量确定的，第二预设数据库中的数据包括语音识别模型的输出侧对应的训练数据。

本申请实施例提供的语音识别模型的训练装置具体阐述可参考上述实施例提供的语音识别模型的训练方法，在这里不再赘述。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现、当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。指令可以存储在计算机存储介质中，或者从一个计算机存储介质向另一个计算机存储介质传输，例如，指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带、磁光盘(mo)等)、光介质(例如，cd、dvd、bd、hvd等)、或者半导体介质(例如rom、eprom、eeprom、非易失性存储器(nandflash)、固态硬盘(solidstatedisk，ssd))等。本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张卓
技术所有人：上海依图网络科技有限公司;上海图智安网络科技有限公司;深圳依图信息技术有限公司
我是此专利的发明人

上一篇：离合器壳体用吊具的制作方法
上一篇：适用于LED性能测试的光、电、热参数在线采集系统的制作方法