一种智能语义匹配模型的训练方法与流程

文档序号：18124520发布日期：2019-07-10 09:49阅读：182来源：国知局

本发明涉及数据处理技术领域，尤其涉及一种智能语义匹配模型的训练方法。

背景技术：

自然语言处理(naturallanguageprocessing，nlp)是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满挑战的。同时，语言模型(languagemodel,lm)的建立和训练时自然语言处理中非常重要的组成部分。语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种数字化的对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系，语言客观事实经过语言模型的描述，可以实现与电子计算机进行自动处理，因而语言模型对于自然语言的信息处理具有重大的意义。

技术实现要素：

本发明的目的是针对现有技术的缺陷，提供一种智能语义匹配模型的训练方法，根据的训练领域信息对比语义匹配模型提取语句匹配样本数据中的固定语信息和泛化对象信息，与标准固定语信息和标准泛化对象信息，对语义匹配模型额提取结果进行修正，从而实现语义匹配模型的学习和训练，进而形成用于语义匹配的语法规则树，使得所生成语法规则树更加合理。

为实现上述目的，本发明提供了一种智能语义匹配模型的训练方法，所述方法包括：

语义处理系统中的语义匹配模型接收语句训练样本数据；所述语句训练样本数据对应有训练领域信息和样本标注信息；

根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理，提取所述语句训练样本数据中的固定语信息和泛化对象信息；

对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息，并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息，根据对比结果更新所述语义匹配模型；

根据所述语义匹配模型生成语法规则树。

优选的，在所述语义匹配模型接收语句训练样本数据之前，所述方法还包括：

所述语义处理系统中的语音转换器接收所述语句语音数据，对所述语句语音数据进行语音识别后，得到所述语句训练样本数据。

优选的，所述语义处理系统中包括多个语义匹配模型；每个所述语义匹配模型对应一个所述训练领域信息。

进一步优选的，所述根据所述训练领域信息对所述语句训练样本数据进行句式泛化处理具体为：

根据所述语句训练样本数据对应的训练领域信息确定相应的语义匹配模型；

通过当前语义匹配模型对所述语句训练样本数据进行句式泛化处理，提取所述语句训练样本数据中的固定语信息和泛化对象信息。

优选的，在对比所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息，并对比所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息，根据对比结果更新所述语义匹配模型具体为：

当所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息不相符，或者当所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息不相符时，根据所述样本标注信息中的固定语信息和泛化对象信息更新所述语义匹配模型。

进一步优选的，当所述语句训练样本数据中的固定语信息与所述样本标注信息中的固定语信息相符，并且所述语句训练样本数据中的泛化对象信息与所述样本标注信息中的泛化对象信息相符时，所述方法还包括：

记录并更新匹配正确结果的个数；

当所述匹配正确结果的个数大于预设数量时，根据所述语义匹配模型生成所述语法规则树。

进一步优选的，在所述根据所述语义匹配模型生成所述语法规则树之前，所述方法还包括：

记录并更新匹配错误结果的个数；

根据所述匹配错误结果的个数和所述匹配正确结果的个数得到匹配成功率。

进一步优选的，当所述匹配正确结果的个数大于预设数量个，且所述匹配成功率大于预设百分比时，根据所述语义匹配模型生成所述语法规则树。

本发明实施例提供的智能语义匹配模型的训练方法，根据的训练领域信息对比语义匹配模型提取语句匹配样本数据中的固定语信息和泛化对象信息，与标准固定语信息和标准泛化对象信息，对语义匹配模型额提取结果进行修正，从而实现语义匹配模型的学习和训练，进而形成用于语义匹配的语法规则树，使得所生成语法规则树更加合理。

附图说明

图1为本发明实施例提供的智能语义匹配模型的训练方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例提供的一种智能语义匹配模型的训练方法，用于语义处理系统根据被训练的语义匹配模型得到语法规则树，从而根据语法规则树对用户输入的内容进行语义匹配。其方法流程图如图1所示，包括如下步骤：

步骤110，语义处理系统接收语句训练样本数据；

具体的，语义处理系统可以理解为一个具有语句输入、处理和输出功能的系统。语义处理系统包括多个语义匹配模型，语义匹配模型用于接收并训练语句训练样本数据，从而得到语法规则树。每个语义匹配模型对应一个所述训练领域信息。训练领域信息可以理解为当前语句训练样本所属的应用领域，应用领域可以包括“生活周边”应用领域、“笑话故事”应用领域、“听歌”应用领域、“健康”应用领域、“购票”应用领域等。

在一些优选的实施例中，语句训练样本数据的数据源可以是语音形式的数据也可以是文字形式的数据。也就是说，用户可以通过语音或文字的方式向系统输入语句训练样本数据。当语句训练样本数据为语音形式的数据时，语义处理系统中的语音转换器接收语句数据，对语句数据中的语句语音数据进行语音识别，然后得到文字形式的语句训练样本数据。

语句训练样本数据对应有训练领域信息和样本标注信息。样本标注信息可以理解为当前语句训练样本数据所代表的语句中的正确的语义主干。样本标注信息中包括固定语信息和泛化对象信息。例如，在一个“我想去电影院”的语句训练样本数据中，样本标注信息中的固定语信息为“我想去”，样本标注信息中的泛化对象信息为“电影院”，对应的训练领域信息为“生活周边”应用领域；再如，在一个“我想买电影票”的语句训练样本数据中，样本标注信息中的固定语信息为“我想买”，样本标注信息中的泛化对象信息为“电影票”，对应的训练领域信息为“购票”应用领域。

步骤120，根据训练领域信息对语句训练样本数据进行句式泛化处理，提取语句训练样本数据中的固定语信息和泛化对象信息；

具体的，句式泛化处理可以理解为通过一个语句扩展到多种语句的表达形式，并提取语句中关键要素的过程。语义匹配模型首先根据语句训练样本数据对应的训练领域信息确定与该训练领域信息相应的语义匹配模型，然后通过与当前语句训练样本数据具有相同训练领域信息的语义匹配模型对当前语句训练样本数据进行句式泛化处理，提取语句训练样本数据中的固定语信息和泛化对象信息。

在一个具体的例子中，语句训练样本数据为“我想去电影院”，语句训练样本数据对应的训练领域信息为“生活周边”应用领域，则语义处理系统选择训练领域信息为“生活周边”的语义匹配模型对该语句训练样本数据进行句式泛化处理。再如，语句训练样本数据为“我想买电影票”，语句训练样本数据对应的训练领域信息为“购票”应用领域，则语义处理系统选择训练领域信息为“购票”的语义匹配模型对该语句训练样本数据进行句式泛化处理。

步骤130，将提取到的固定语信息和泛化对象信息与样本标注信息进行对比，确定对比结果是否为第一对比结果；

具体的，语义匹配模型对比语句训练样本数据中的固定语信息与样本标注信息中的固定语信息，并对比语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息，得到对比结果。

当语句训练样本数据中的固定语信息与样本标注信息中的固定语信息不相符，或者当语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息不相符时，对比结果为第一对比结果，说明语义匹配模型对当前语句训练样本数据进行的句式泛化处理不准确，则执行下述步骤140。当语句训练样本数据中的固定语信息与样本标注信息中的固定语信息相符，并且语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息也相符时，对比结果为第二对比结果，说明语义匹配模型对当前语句训练样本数据进行的句式泛化处理是准确的，则执行下述步骤141。

步骤140，根据样本标注信息中的固定语信息和泛化对象信息更新语义匹配模型；

具体的，当对比结果为第一对比结果时，说明语句训练样本数据中的固定语信息与样本标注信息中的固定语信息不相符，或者当语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息不相符，则语义匹配模型根据样本标注信息中的固定语信息和泛化对象信息更新语义匹配模型。这一过程可以理解为，根据当前语句训练样本数据中正确的固定语信息和泛化对象信息，对语义匹配模型所提取到的固定语信息和泛化对象信息进行判定和修正，从而实现语义匹配模型自学习的过程。

在执行了本步骤之后，需要返回步骤110，也就是接续接收语句训练样本数据，并进行模型训练。

步骤141，记录并更新匹配正确结果的个数；

具体的，当对比结果不为第二对比结果，也就是当对比结果为第二对比结果时，说明语句训练样本数据中的固定语信息与样本标注信息中的固定语信息相符，并且语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息也相符，匹配正确结果的个数加一，此时，语义处理系统记录并更新匹配错误正确的个数。

步骤150，确定匹配正确结果的个数是否大于预设数量个；

具体的，语义处理系统确定匹配正确结果的个数是否大于预设数量个，当匹配正确结果的个数大于预设数量个时，说明语义匹配模型准确提取当前语句训练样本数据中的固定语信息和泛化对象信息的次数已经超过预设次数，则执行下述步骤160。当匹配正确结果的个数不大于预设数量个时，说明语义匹配模型准确提取当前语句训练样本数据中的固定语信息和泛化对象信息的次数尚未超过预设次数，则返回执行步骤110，也就是接续接收语句训练样本数据，并进行模型训练。

步骤160，根据语义匹配模型生成语法规则树；

具体的，当匹配正确结果的个数大于预设数量个时，说明对当前语义匹配模型进行的训练已满足生成语法规则树的要求，则语义处理系统根据训练后的语义匹配模型生成语法规则树。

在一些优选的实施例中，在确定语义匹配模型进行的训练是否已满足生成语法规则树的要求时，除了需要确定匹配正确结果的个数是否大于预设数量个，还需要确定当前匹配成功率是否大于预设百分比。

进一步具体的，如果语句训练样本数据中的固定语信息与样本标注信息中的固定语信息不相符，或者语句训练样本数据中的泛化对象信息与样本标注信息中的泛化对象信息不相符时，匹配错误结果的个数加一，此时，语义处理系统记录并更新匹配错误结果的个数。语义处理系统根据匹配错误结果的个数和匹配正确结果的个数得到匹配成功率，当匹配正确结果的个数大于预设数量个，且匹配成功率大于预设百分比时，不仅说明语义匹配模型准确提取当前语句训练样本数据中的固定语信息和泛化对象信息的次数已经超过预设次数，而且还说明语义匹配模型提取当前语句训练样本数据中的固定语信息和泛化对象信息的准确率已经达到预设准确率，则执行下述步骤160，否则则需要返回执行步骤110，也就是接续接收语句训练样本数据，并进行模型训练。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、用户终端执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝玲风;赵德坤;张海风
技术所有人：北京博瑞彤芸文化传播股份有限公司
我是此专利的发明人