模型训练方法和装置与流程

文档序号：16188366发布日期：2018-12-08 05:26阅读：204来源：国知局

本发明涉及人工智能技术领域，尤其涉及一种模型训练方法和装置。

背景技术

在涉及到语音和语义的人工智能应用场景中，除了需要训练语音模型，还需训练语义模型。比如用户通过语音输入一个命令，系统不仅需要识别语音，还要根据该语音识别用户的意图，这种场景下就需要保证语音识别和语义识别都有很高的准确率。

现有技术中，一方面，通过人工听写的方式获取语音样本对应的文本，然后对该文本进行训练，得到语音模型；另一方面，在得到上述文本的基础上，通过人工方式对该文本进行语义标注，然后对标注后的文本进行训练，得到语义模型。在实际应用时，首先将待处理的语音输入上述语音模型，得到对应的文本，然后再将该文本输入上述语义模型中，获得用户通过上述待处理语音想要表达的意图。

但是，由于上述语义模型是在人工听写的“完美”文本的基础上训练得到的，而在实际应用过程中，输入该语义模型的是由语音模型输出的存在信息折损的文本，因此，现有技术中的语义模型在实际应用过程中，会由于输入信息的不对称而导致输出结果不准确。

技术实现要素：

本发明提供一种模型训练方法和装置，用于提高语义模型输出结果准确度。

第一方面，本发明提供一种模型训练方法，包括：

步骤a：接收终端发送的语音数据；

步骤b：通过第一语音识别模型对所述语音数据进行识别，获得第一文本信息；

步骤c：接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息；

步骤d：对所述第二文本信息进行训练，得到第二语音识别模型，并且对所述语义信息进行训练，得到语义识别模型。

可选的，所述接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息之前，所述方法还包括：

将所述第一文本信息发送给所述终端。

可选的，所述对所述语音数据进行识别，获得第一文本信息之前，所述方法还包括：

对所述语音数据进行切分处理，获得至少一个语音片；

所述对所述语音数据进行识别，获得第一文本信息，包括：

分别对所述至少一个语音片中的每个语音片进行识别，获得至少一个文本信息；

将所述至少一个文本信息确定为所述第一文本信息。

可选的，所述语音数据包括至少两路音频数据；

所述对所述语音数据进行切分处理，获得至少一个语音片之前，包括：

对所述语音数据中的至少两路音频数据进行时间对齐处理，获得处理后的语音数据；

所述对所述语音数据进行切分处理，获得至少一个语音片，包括：

对处理后的语音数据进行切分处理，获得至少一个语音片。

可选的，所述通过第一语音识别模型对所述语音数据进行识别，获得第一文本信息，包括：

确定各所述语音片的起始时间；

根据各所述起始时间和各所述语音片对应的文本信息，生成上下文信息；

将所述上下文信息作为所述第一文本信息。

可选的，所述得到第二语音识别模型之后，所述方法还包括：

将所述第二语音识别模型作为新的第一语音识别模型，并重复执行步骤b-步骤d，直至所述第一语音识别模型和所述第二语音识别模型相同。

第二方面，本发明提供一种模型训练装置，包括：

接收模块，用于接收终端发送的语音数据。

获取模块，用于通过第一语音识别模型对所述语音数据进行识别，获得第一文本信息；

所述接收模块，用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息；

训练模块，用于对所述第二文本信息进行训练，得到第二语音识别模型，并且对所述语义信息进行训练，得到语义识别模型。

可选的，所述装置，还包括：

发送模块，用于将所述第一文本信息发送给所述终端。

可选的，所述装置，还包括：

切片模块，用于对所述语音数据进行切分处理，获得至少一个语音片；

所述获取模块具体用于，分别对所述至少一个语音片中的每个语音片进行识别，获得至少一个文本信息；

将所述至少一个文本信息确定为所述第一文本信息。

可选的，所述语音数据包括至少两路音频数据；所述装置，还包括，处理模块；

所述处理模块，用于对所述语音数据中的至少两路音频数据进行时间对齐处理，获得处理后的语音数据；

相应的，所述切片模块，具体用于对处理后的语音数据进行切分处理，获得至少一个语音片。

可选的，所述获取模块包括：确定单元和处理单元；

所述确定单元，用于确定各所述语音片的起始时间；

所述处理单元，用于根据各所述起始时间和各所述语音片对应的文本信息，生成上下文信息；

将所述上下文信息作为所述第一文本信息。

可选的，所述装置，还包括：迭代模块；

所述迭代模块，用于将所述第二语音识别模型作为新的第一语音识别模型，并重复执行步骤b-步骤d，直至所述第一语音识别模型和所述第二语音识别模型相同。

第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练方法。

第四方面，本发明提供一种服务器，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来实现上述模型训练方法。

本发明提供的模型训练方法，服务器在接收到终端发送的语音数据的基础上，首先通过第一语音识别模型能够对该语音数据进行识别，得到第一文本信息，然后接收用户输入的上述语音数据对应的第二文本信息和第一文本信息对应的语义信息，最后对该第二文本信息进行训练，得到第二语音识别模型，对语义信息进行训练，得到语义识别模型；使得在实际应用过程中，通过上述语义识别模型得到的语义信息准确度更高。

附图说明

图1为本发明提供的模型训练方法涉及到的系统框架图；

图2为本发明提供的模型训练方法的实施例一的流程图；

图3为本发明提供的模型训练方法的实施例二的流程图；

图4为本发明提供的一路音频数据示意图；

图5为本发明提供的另一路音频数据示意图；

图6为本发明提供的处理后的语音数据示意图；

图7为本发明提供的模型训练装置的实施例一的结构示意图；

图8为本发明提供的模型训练装置的实施例二的结构示意图；

图9为本发明提供的服务器的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，通过如下方式实现语音识别和语义识别：

第一步、获取语音模型，具体的，通过人工听写的方式获取语音样本对应的文本，然后对该文本进行训练，得到语音模型；

第二步、获取语义模型，具体的，在第一步通过人工听写的方式获取语音样本对应的文本的基础上，采用人工方式对该文本进行语义标注，然后对标注后的文本进行训练，得到语义模型。

第三步、在实际应用时，首先将待处理的语音输入上述语音模型，得到对应的文本，然后再将该文本输入上述语义模型中，获得该文本对应的语义，即用户通过上述待处理语音想要表达的意图。

本发明提供一种模型训练方法，通过将语音数据输入第一语音识别模型中，得到可能已经发生折损的第一文本信息，然后对该第一文本信息对应的语义信息进行训练得到语义模型，由于语义模型是基于可能已经发生折损的第一文本信息得到的，因此通过该方法得到的语义模型可以适应输入文本的折损，从而在实际应用时，即使输入该语义模型的是由语音模型输出的存在信息折损的文本，该语义模型也能输出准确度较高的语义信息。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图1为本发明提供的模型训练方法涉及到的系统框架图，如图1所示，本发明提供的系统框架包括：终端和服务器；

其中，上述终端为模型训练过程中需要人工配合时，对应技术人员所操作的终端。可选的，终端可以是台式电脑、笔记本、个人数字助理(personaldigitalassistant，简称：pda)或者智能手机。上述服务器的类型可以是任何能够实现本发明中的模型训练方法的服务器类型。

图2为本发明提供的模型训练方法的实施例一的流程图，本实施例提供的方法应用于服务器，如图2所示，本实施例提供的模型训练方法，包括：

s101、接收终端发送的语音数据。

其中，语音数据为预先存储的语音样本，该语音样本可以为对双轨音频进行处理后得到人机对话音频。

s102、通过第一语音识别模型对所述语音数据进行识别，获得第一文本信息。

其中，服务器接收到上述语音数据的基础上，将该语音数据输入第一语音识别模型中，以使第一语音识别模型对该语音数据进行识别，进而获得与该语音数据对应的第一文本信息。

和现有技术不同的是，现有技术是通过人工听写的方式获取语音数据对应的文本信息的，由于人是有判断能力的，在播放语音数据的过程中，人可以通过思考和判断准确地将语音数据记录为文本信息，也就是说，现有技术得到的文本信息几乎是“完美的”；而本实施例中是将语音数据输入第一语音识别模型得到第一文本信息的，而模型是不能将语音数据“完美”地转换为文本信息的，因此，本实施例得到的第一文本信息是有折损的。

s103、接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息。

其中，用户是指在模型训练过程中需要人工配合时的相关技术人员，技术人员在s101中通过终端将语音数据发送给服务器后，可将该语音数据人工转换为第二文本信息。

同时，服务器在通过s102得到第一文本信息后，可将该第一文本信息发送给技术人员的终端，以使技术人员对该第一文本信息进行标注，形成第一文本信息对应的语义信息。

技术人员得到上述第二文本信息和语义信息后，可通过终端将上述第二文本信息和语义信息发送给服务器。

s104、对所述第二文本信息进行训练，得到第二语音识别模型，并且对所述语义信息进行训练，得到语义识别模型。

其中，服务器收到上述第二文本信息后，对该第二文本信息进行训练，得到第二语音识别模型；并且对上述语义信息进行训练得到语义识别模型。在实际使用上述语义识别模型进行语义识别时，将待处理的语音先输入上述第二语音识别模型中，得到该待处理语音对应的文本信息，然后将该文本信息输入上述语义识别模型中，便可得到该文本信息对应的语义信息。

以智能呼叫中心这个场景为例进行说明，在得到座席和客户两路的语音流的基础上，对该两路语音流进行处理，得到待处理语音，然后按照上述对待处理语音的处理方法，便可得到该处理语音对应的语义信息，进而便可得到客户的意图；智能呼叫中心在得到客户意图的前提下，便可根据客户的意图处理业务。

由s102可知，第一文本信息是第一语音模型对语音数据识别后输出的，并不是人工转换的，因此第一文本信息可能已经发生了折损，也就是说，本实施中的语义模型是基于可能已经发生折损的第一文本信息得到的，因此得到的语义模型可以适应输入文本的折损，从而在实际应用时，即使输入该语义模型的是由语音模型输出的存在信息折损的文本，该语义模型也能输出准确度较高的语义信息。

本实施例提供的模型训练方法，服务器在接收到终端发送的语音数据的基础上，首先通过第一语音识别模型能够对该语音数据进行识别，得到第一文本信息，然后接收用户输入的上述语音数据对应的第二文本信息和第一文本信息对应的语义信息，最后对该第二文本信息进行训练，得到第二语音识别模型，对语义信息进行训练，得到语义识别模型；使得在实际应用过程中，通过上述语义识别模型得到的语义信息准确度更高。

图3为本发明提供的模型训练方法的实施例二的流程图，本实施例是进一步对上述实施例中获取第一文本信息的一种可实现方式的描述，如图3所示，本实施例提供的模型训练方法，在s102之前，包括：

s201、对所述语音数据进行切分处理，获得至少一个语音片。

其中，语音数据可以为至少两路的音频数据，例如可以是双轨音频，当语音数据是至少两路的音频数据时，在上述切片处理之前，还包括：对所述语音数据中的至少两路音频数据进行时间对齐处理，获得处理后的语音数据。

下面对时间对齐处理的过程进行举例说明：

参见图4和图5所示，假设上述至少两路的音频数据为两路音频数据，其中，图4为其中一路的音频数据，图5为另一路的音频数据；为方便描述，下面将图4所示的音频数据称为第一路音频数据，图5所示的音频数据称为第二路音频数据。由图3可知，第一路音频中出现语音的时间段分别是：08:30:00-08:35:00、09:00:00-09:10:00和09:15:00-09:30:00；由图4可知，第二路音频出现语音的时间段是：08:38:00-08:50:00和09:12:00-09:14:00。将该两个音频数据进行时间对其处理后得到便可得到图6所示语音数据，即本实施例中的时间对齐处理指的是将两路音频按照语音出现的先后顺序进行组合。

相应的，s102具体可以包括：

s202、分别对所述至少一个语音片中的每个语音片进行识别，获得至少一个文本信息。

s203、将所述至少一个文本信息确定为所述第一文本信息。

其中，在得到上述图6所示处理后的语音数据后，对该语音数据进行切片处理，获取至少一个语音片，以便后续通过第一语音识别模型对该至少一个语音片进行识别，获得至少一个文本信息。

继续参见图6所示，图6中有填充的时间段代表的是有语音产生的时间段，没有填充的时间段代表的是没有语音产生的时间，也就是说，该时间段为静音时间段；可选的，在对图6所示处理后的语音数据进行切片时，可将有语音产生的时间段保留，静音时间段切除。由此便可得到至少一个语音片。

在得到上述至少一个语音片的基础上，用该至少一个语音片获取第一文本信息的一种可实现的方式包括：

s204、确定各所述语音片的起始时间。

s205、根据各所述起始时间和各所述语音片对应的文本信息，生成上下文信息。

s206、将所述上下文信息作为所述第一文本信息。

其中，在得到上述至少一个语音片的基础上，对每个语音片采用第一语音识别模型进行识别，得到每一个语音片对应的文本信息，然后将该文本信息按照语音片的发生时间进行排序，从而得到两路音频对话的上下文信息，并将该上下文信息作为第一文本信息。

为了进一步提高语义模型输出结果的准确度，本实施例将s104得到的第二语音识别模型作为新的第一语音识别模型，然后重复s102-104，直至所述第一语音识别模型和所述第二语音识别模型相同。这样使得实际应用过程中，输入语义模型的文本信息和对该语义模型进行训练时使用的文本信息是对称的，进一步提高了实际应用过程中语义模型输出结果的准确度。

本实施例提供的模型训练方法，描述了获取第一文本信息的一种可实现的方式，这种方式可将至少两路音频数据中的语音对话还原，从而可使第一文本信息包含的有效信息更多，提高了第一文本信息的准确度。同时，通过对第一语音识别模型的不断迭代，使得实际应用过程中，输入语义模型的文本信息和对该语义模型进行训练时使用的文本信息是对称的，进一步提高了实际应用过程中语义模型输出结果的准确度。

图7为本发明提供的模型训练装置的实施例一的结构示意图，如图7所示，本实施例提供的模型训练装置，包括：

接收模块701，用于接收终端发送的语音数据。

获取模块702，用于通过第一语音识别模型对所述语音数据进行识别，获得第一文本信息；

所述接收模块701，用于接收用户通过终端输入的所述语音数据对应的第二文本信息和所述第一文本信息对应的语义信息；

训练模块703，用于对所述第二文本信息进行训练，得到第二语音识别模型，并且对所述语义信息进行训练，得到语义识别模型。

本实施例提供的模型训练装置，可用于执行图2所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图8为本发明提供的模型训练装置的实施例二的结构示意图，如图8所示，在上述实施例的基础上，本实施例提供的模型训练装置，还包括：

发送模块801，用于将所述第一文本信息发送给所述终端。

可选的，本实施例提供的模型训练装置，还包括：

切片模块802，用于对所述语音数据进行切分处理，获得至少一个语音片；

所述获取模块702具体用于，分别对所述至少一个语音片中的每个语音片进行识别，获得至少一个文本信息；

将所述至少一个文本信息确定为所述第一文本信息。

可选的，所述语音数据包括至少两路音频数据；所述装置，还包括，处理模块803；

所述处理模块803，用于对所述语音数据中的至少两路音频数据进行时间对齐处理，获得处理后的语音数据；

相应的，所述切片模块802，具体用于对处理后的语音数据进行切分处理，获得至少一个语音片。

可选的，所述获取模块702包括：确定单元804和处理单元805；

所述确定单元804，用于确定各所述语音片的起始时间；

所述处理单元805，用于根据各所述起始时间和各所述语音片对应的文本信息，生成上下文信息；

将所述上下文信息作为所述第一文本信息。

可选的，本实施例提供的模型训练装置，还包括：迭代模块806；

所述迭代模块806，用于将所述第二语音识别模型作为新的第一语音识别模型，并重复执行步骤b-步骤d，直至所述第一语音识别模型和所述第二语音识别模型相同。

本实施例提供的模型训练装置，可用于执行图3所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图9为本发明提供的服务器的硬件结构示意图。如图9所示，本实施例的服务器可以包括：

存储器901，用于存储程序指令。

所述处理器902，用于在所述程序指令被执行时实现上述任一实施例描述的方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的模型训练方法。

本发明还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得服务器实施上述模型训练方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴俊;刘瑛;先永春;常月;黄国瑞;张伟冬;赵亚男
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人