模型训练方法及装置和关键词识别方法及装置与流程

文档序号：12596104阅读：168来源：国知局

本申请涉及文本处理领域，具体而言，涉及一种模型训练方法及装置和关键词识别方法及装置。

背景技术：

文本的语句中通常都包含有该语句所要表达的关键词，例如，用户表述“最近有点烦，我想去雍和宫玩”，其中，地点“雍和宫”为其所包含的关键词。然而，对于计算机系统而言，并不能像人一样能够准确地找出这些关键词，现有的计算机系统对于关键词的识别通常是基于语句中词语的词性或者语句结构，进行语句分词后找出目标词性的词语作为关键词，这种方式对于分词工具的依赖性较大，虽然对于单一词性的提取有效，而对于多种词性和自然语言中出现的复杂句式、新句式、非结构化句式以及新的词汇，其识别的准确性差。

针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

本申请实施例提供了一种模型训练方法及装置和关键词识别方法及装置，以至少解决现有技术中对语句中的关键词识别准确性差的技术问题。

根据本申请实施例的一个方面，提供了一种模型训练方法，包括：获取带有词性标记的文本信息，其中，所述文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记；确定所述每条语句中的每个词语的词向量，所述词向量为用于唯一表示对应的词语的多维数组；以所述文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，其中，所述神经网络模型用于对语句中的词语进行标记。

进一步地，确定所述每条语句中的每个词语的词向量包括：对所述文本信息中每条语句进行分词处理，得到所述文本信息的词语集合；查找所述词语集合中每个词语对应的词向量。

进一步地，在确定所述每条语句中的每个词语的词向量之前，所述模型训练方法还包括：获取预设数据量的文本信息，得到文本信息集合；利用机器学习方式生成所述文本信息集合中每个词语对应的词向量，得到词向量集合；其中，查找所述词语集合中每个词语对应的词向量包括：从所述词向量集合中查找所述词语集合中每个词语对应的词向量。

进一步地，所述文本信息的每条语句中的关键词标记为第一预设标记，其他词语标记为第二预设标记，以使得在利用所述神经网络模型识别词语时，将所述关键词标记为所述第一预设标记。

根据本申请实施例的另一方面，还提供了一种关键词识别方法，包括：对待测文本进行分词处理，确定出每个词语对应的词向量；以所述待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到神经网络模型中，利用所述神经网络模型标记出所述待测文本中的关键词。

根据本申请实施例的另一方面，还提供了一种模型训练装置，包括：第一获取单元，用于获取带有词性标记的文本信息，其中，所述文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记；确定单元，用于确定所述每条语句中的每个词语的词向量，所述词向量为用于唯一表示对应的词语的多维数组；训练单元，用于以所述文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，其中，所述神经网络模型用于对语句中的词语进行标记。

进一步地，所述训练单元包括：分词模块，用于对所述文本信息中每条语句进行分词处理，得到所述文本信息的词语集合；查询模块，用于查找所述词语集合中每个词语对应的词向量。

进一步地，所述模型训练装置还包括：第二获取单元，用于在确定所述每条语句中的每个词语的词向量之前，获取预设数据量的文本信息，得到文本信息集合；生成单元，用于利用机器学习方式生成所述文本信息集合中每个词语对应的词向量，得到词向量集合；其中，所述查询模块具体用于从所述词向量集合中查找所述词语集合中每个词语对应的词向量。

根据本申请实施例的另一方面，还提供了一种关键词识别装置，包括：向量确定单元，用于对待测文本进行分词处理，确定出每个词语对应的词向量；标记单元，用于以所述待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到神经网络模型中，利用所述神经网络模型标记出所述待测文本中的关键词。

根据本申请实施例，通过获取带有词性标记的文本信息，其中，文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记；确定每条语句中的每个词语的词向量，词向量为用于唯一表示对应的词语的多维数组；以文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，以便于利用神经网络模型对语句中的词语进行标记，从而识别出其中的关键词，解决了现有技术中对语句中的关键词识别准确性差的技术问题，达到了提高关键词识别的准确性的效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的模型训练方法的流程图；

图2是根据本申请实施例的关键词识别方法的流程图；

图3是根据本申请实施例的模型训练装置的示意图；

图4是根据本申请实施例的关键词识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种模型训练方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的模型训练方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取带有词性标记的文本信息，其中，文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记。

本申请实施例的带有词性标记的文本信息，可以是预先采集的文本信息的样本，通过人工对其中每条语句中感兴趣的词语进行标记，标记出感兴趣的词语的词性，形成的文本信息。其中，感兴趣的词语的词性分类可以为一个也可以为多个，如标记地点名词、人物名词等。其标注方法可以为：感兴趣地点表示为：PLACE(地点)，无效词语表示为：NUL(空)。如“我想去雍和宫玩”，分词后可能为“我想去雍和宫玩”，人工标注后为“我想NUL去NUL雍和PLACE宫PLACE玩NUL”。

步骤S104，确定每条语句中的每个词语的词向量，词向量为用于唯一表示对应的词语的多维数组。

在获取到带有词性标记的文本信息之后，确定出该文本中每条语句中词语对应的词向量，每个词语的词向量用一组多维数组来表示，不同的词语对应的词向量各不相同。其中，词语的词向量可以是已经预先定义好的，在提取出文本信息之后，从预先定义的词向量中查询出文本信息中每个词语的向量。也可以按照预先设定的词向量生成规则，生成每个词语的词向量。由于文本信息中每个词语携带有与其对应的词性标记，因此，每个词语对应的词向量也对应着与该词语相同的词性标记。

步骤S106，以文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，其中，神经网络模型用于对语句中的词语进行标记。

本实施例中，在确定出文本信息中所包含的每个词语的词向量之后，以文本信息中的语句为单位，将文本信息中的语句依次输入到循环神经网络中进行训练，输入到循环神经网络中的语句以其中每个词语对应的词向量来代替，即，将语句中每个词语对应的词向量输入到循环神经网络。通过循环神经网络对提取的文本信息进行训练，得到神经网络模型。

由于是以语句为单位将其中的词语对应的词向量输入到记忆神经网络，机器可以记忆语句中的词语、词性标记及其组合形式，并以神经网络模型中的参数(神经网络模型中参数确定，大部分为矩阵)记忆这些词语、词性标记及其组合形式，相对于现有技术中采用基于语句中词语的词性或者语句结构，进行语句分词后找出目标词性的词语作为关键词的方式，本实施例通过训练得到的神经网络模型来识别文本中的关键词，可以准确地识别出各种结构形式的语句中的关键词，对关键词识别的准确性高。

优选地，确定每条语句中的每个词语的词向量包括：对文本信息中每条语句进行分词处理，得到文本信息的词语集合；查找词语集合中每个词语对应的词向量。

本实施例中，预先生成词语的词向量，生成词向量集合。在采集到作为样本的文本信息之后，从预先生成的词向量集合中查询该文本信息的每条语句中的每个词语对应的词向量。其中，对文本信息的每条语句的分词处理可以是利用分词工具，按照一定规则进行分词，如“我想去雍和宫玩”，分词后可以是“我想去雍和宫玩”。

进一步地，在确定每条语句中的每个词语的词向量之前，模型训练方法还包括：获取预设数据量的文本信息，得到文本信息集合；利用机器学习方式生成文本信息集合中每个词语对应的词向量，得到词向量集合；其中，查找词语集合中每个词语对应的词向量包括：从词向量集合中查找词语集合中每个词语对应的词向量。

本实施例中，在确定词语对应的词向量之前，先生成词向量集合，具体地，先获取大量的文本信息，其中，预设数据量可以是预先设置的范围较大的数据量；将获取到的预设数据量的文本信息作为训练词向量的文本信息集合，然后利用机器学习方式生成其中的每个词语对应的词向量，得到词向量集合。这样，在对确定作为样本的文本信息中词语对应的词向量时，可以从该词向量集合中直接查询得到。

机器学习方式可以是利用谷歌word2vec进行词向量训练，根据输入文本，给每一个词生成一个维数相同的唯一向量，即多维数组，该数组的维数可以自定义，比如将将“高兴”可能标记为[0,1,0,…….]。

优选地，文本信息的每条语句中的关键词标记为第一预设标记，其他词语标记为第二预设标记，以使得在利用神经网络模型识别词语时，将关键词标记为第一预设标记。

本实施例中，将作为训练样本的文本信息的语句中，对感兴趣的关键词标记为第一预设标记，将其他的无效词标记为第二预设标记。在进行模型训练时，训练得到的神经网络模型可以记忆这些标记，因此，在利用训练得到的神经网络模型来识别语句中的关键词时，可以在其输出结果中将关键词标记为第一预设标记，将其他的无效词标记为第二预设标记。

例如，感兴趣词语为表示地点的词语，地点表示为：PLACE(地点)，无效词语表示为：NUL(空)。将语句“我想去雍和宫玩”，分词后进行标记，标记成“我想NUL去NUL雍和PLACE宫PLACE玩NUL”。

本申请实施例的模型训练方法的一种可选方式包括：

步骤一、采集大量的文本信息，作为词向量训练文本集1，用于训练词向量。

步骤二、对文本集1进行分词，利用机器学习方式生成词向量，得到词向量集合。其中，机器学习可以是利用谷歌word2vec进行词向量训练，根据输入文本，给每一个词生成一个维数相同的唯一向量，即多维数组，该数组的维数可以自定义，比如将“高兴”可能标记为[0,1,0,…….]。

步骤三、采集业务相关的文本信息，对每条语句进行分词，人工对每个词进行词性标记，作为训练集2，词性为感兴趣的分类。其中，感兴趣的分类可以为一个也可以为多个，如标记地点名词、人物名词等。其标记方法可以为：感兴趣地点表示为：PLACE(地点)，无效词语表示为：NUL(空)。如“我想去雍和宫玩”，分词后可能为“我想去雍和宫玩”，人工标注后为“我想NUL去NUL雍和PLACE宫PLACE玩NUL”。

步骤四、训练集2中的词语用上述步骤二中生成的词向量表示，以语句为单位，将训练集2中的词向量输入RNN(循环神经网络)进行训练，得到训练后的RNN训练模型。其中，以语句为神经网络的输入循环神经网络，机器可以记忆句子中的词语、词性标记及其组合形式，并以模型中的参数记忆这些词语、词性标记及其组合形式。

根据本申请实施例，通过将词向量和循环神经网络相结合的方式，进行模型训练，使得关键词提取对分词工具准确性依赖性小，并且鲁棒性较强(如：训练集中未出现的词语，测试中也可得到词性，识别是否为关键词)。

根据本申请实施例还提供了一种关键词识别方法，该关键词识别方法可以用于通过本申请上述实施例的模型训练方法训练得到的神经网络模型来识别关键词。如图2所示，该关键词识别方法包括：

步骤S202，对待测文本进行分词处理，确定出每个词语对应的词向量。

本实施例中，对待测文本的分词处理以及确定词向量的方式与本申请上述实施例中模型训练方法中所提到的方式相同，这里不做赘述。

步骤S204，以待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到神经网络模型中，利用神经网络模型标记出待测文本中的关键词。

本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经网络模型。

以待测文本中的语句为单位，将其中词语对应的词向量输入到神经网络模型中，利用神经网络模型识别出待测文本中的关键词，并将其标记出来。具体地，获取待测文本，进行分词，每个词语词向量表示，以语句为单位将词向量输入神经网络模型中，得到对每个词语的词性标记，即可获取感兴趣词性对应的词语。

由于是以语句为单位将其中的词语对应的词向量输入到记忆神经网络，机器可以记忆语句中的词语、词性标记及其组合形式，并以神经网络模型中的参数(神经网络模型中参数确定，大部分为矩阵)记忆这些词语、词性标记及其组合形式。相对于现有技术中采用基于语句中词语的词性或者语句结构，进行语句分词后找出目标词性的词语作为关键词的方式，本实施例通过训练得到的神经网络模型来识别文本中的关键词，可以以语句为单位，从中准确地识别出各种结构形式的语句中的关键词，对关键词识别的准确性高。

例如，“雍和宫评价怎么样”分词后为“雍和宫评价怎么样”，经过神经网络模型计算后的结果为：“雍和PLACE宫PLACE评价NUL怎么样NUL”，通过筛选，可获取感兴趣的地点名词：雍和宫。

本申请实施例还提供了一种模型训练装置，该装置可以用于执行本申请实施例的模型训练方法，如图3所示，该装置包括：第一获取单元301、确定单元303和训练单元305。

第一获取单元301用于获取带有词性标记的文本信息，其中，文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记。

本申请实施例的带有词性标记的文本信息，可以是预先采集的文本信息的样本，通过人工对其中每条语句中感兴趣的词语进行标记，标记出感兴趣的词语的词性，形成的文本信息。其中，感兴趣的词语的词性分类可以为1个也可以为多个，如标记地点名词、人物名词等。其标注方法可以为：感兴趣地点表示为：PLACE(地点)，无效词语表示为：NUL(空)。如“我想去雍和宫玩”，分词后可能为“我想去雍和宫玩”，人工标注后为“我想NUL去NUL雍和PLACE宫PLACE玩NUL”。

确定单元303用于确定每条语句中的每个词语的词向量，词向量为用于唯一表示对应的词语的多维数组。

训练单元305用于以文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，其中，神经网络模型用于对语句中的词语进行标记。

优选地，训练单元包括：分词模块，用于对文本信息中每条语句进行分词处理，得到文本信息的词语集合；查询模块，用于查找词语集合中每个词语对应的词向量。

优选地，模型训练装置还包括：第二获取单元，用于在确定每条语句中的每个词语的词向量之前，获取预设数据量的文本信息，得到文本信息集合；生成单元，用于利用机器学习方式生成文本信息集合中每个词语对应的词向量，得到词向量集合；其中，查询模块具体用于从词向量集合中查找词语集合中每个词语对应的词向量。

所述模型训练装置包括处理器和存储器，上述第一获取单元301、确定单元303和训练单元305等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来训练得到神经网络模型，用于对语句中关键词进行识别。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取带有词性标记的文本信息，其中，文本信息包括多条语句，每条语句中的每个词语携带有与其对应的词性类型的词性标记；确定每条语句中的每个词语的词向量，词向量为用于唯一表示对应的词语的多维数组；以文本信息中的语句为单位，将每条语句中每个词语对应的词性标记及其对应的词向量输入到循环神经网络，训练得到神经网络模型，其中，神经网络模型用于对语句中的词语进行标记。

本申请实施例还提供了一种关键词识别装置，该装置可以用于执行本申请实施例的关键词识别方法，如图4所示，该装置包括：向量确定单元401和标记单元403。

向量确定单元401用于对待测文本进行分词处理，确定出每个词语对应的词向量。

本实施例中，对待测文本的分词处理以及确定词向量的方式与本申请上述实施例中模型训练方法中所提到的方式相同，这里不做赘述。

标记单元403用于以待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到神经网络模型中，利用神经网络模型标记出待测文本中的关键词。

本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经网络模型。

所述关键词识别装置包括处理器和存储器，上述向量确定单元401和标记单元403等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。上述都可以存储在存储器中。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来利用神经网络模型对待测文本中关键词进行识别。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：对待测文本进行分词处理，确定出每个词语对应的词向量；以待测文本中的语句为单位，将每条语句中的每个词语对应的词向量输入到神经网络模型中，利用神经网络模型标记出待测文本中的关键词。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘粉香
技术所有人：北京国双科技有限公司
我是此专利的发明人

上一篇：一种基于STM32的分布式光伏并网发电监测装置的制作方法
上一篇：音效调整方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。