对话型文本分类的模型训练、分类、系统、设备和介质的制作方法

文档序号：20684436发布日期：2020-05-08 18:42阅读：490来源：国知局

本发明涉及文本分类领域，尤其涉及一种对话型文本分类的模型训练、分类、系统、设备和介质。

背景技术：

当前针对文本分类的模型训练方法主要分为两种，一种为把文档内的所有语句拼接起来再用基于cnn(卷积神经网络)、rnn(循环神经网络)或者bert(bidirectionalencoderrepresentationsfromtransformers，来自变压器的双向编码器表示)做文本分类建模，该模型训练方法的缺点是文本过长不仅增加了计算复杂度，而且丢失了句子间的相互关系，导致不能很好的构建上下文关系。另一种模型训练方法为限制文档内句子数量再拼接起来进行分类，相比于前一种方法虽然减少了文本长度，但是部分句子的丢失很可能会丢失语义，导致最终的分类结果精度不高。

技术实现要素：

本发明要解决的技术问题是为了克服现有技术中语句拼接丢失句与句之间的关系和限制文本内句子数量丢失语义导致分类结果准确度不高的缺陷，提供一种对话型文本分类的模型训练、分类、系统、设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

一种对话型文本分类的模型训练方法，包括以下步骤：

对训练数据进行违规标注得到第一数据，所述第一数据包括原始对话语句；

将所述第一数据切分为多个分词；

将所述分词与预训练的词向量进行匹配，得到第一分词向量；

将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

将所述第二分词向量输入到han(一种层次注意力算法)模型进行训练。

较佳地，所述对训练数据进行违规标注得到第一数据的步骤具体包括：

使用聚类算法将所述训练数据分成若干份第一样本数据；

从每份所述第一样本数据中抽取若干条数据作为第二样本数据；

计算任一条所述第二样本数据与已标注的所述训练数据的编辑距离；

若所述编辑距离大于预设值，则对所述第一样本数据进行违规标注得到第一数据。

较佳地，所述将所述第一数据切分为多个分词的步骤具体包括：

将所述第一数据进行预处理得第二数据；

将所述第二数据与预设模型数据比较滤掉所述第二数据中的无意义语句得到第三数据；

将所述第三数据切分为多个分词。

较佳地，所述将所述第二分词向量输入到han模型进行训练的步骤具体包括：

将所述第二分词向量和预设特征向量输入到han模型。

较佳地，所述模型训练方法还包括：

判断模型输出结果是否满足预设阀值，若是，则将模型输出结果作为分类结果；若否，则将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据；

将所述第四数据重新输入到所述han模型，返回所述步骤判断模型输出结果是否满足预设阀值。

一种对话型文本的分类方法，所述分类方法包括以下步骤：

获取对话型文本数据，所述对话型文本数据包括原始对话语句；

将所述对话型文本数据切分为多个分词；

将所述分词与预训练的词向量进行匹配，得到第一分词向量；

将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

将所述第二分词向量输入到采用上述任一所述的对话型文本分类的模型训练方法训练出的han模型，得到分类结果。

较佳地，所述将所述第二分词向量输入到采用上述任一所述的对话型文本分类的模型训练方法训练出的han模型，得到分类结果的步骤具体包括：

将所述第二分词向量和预设特征向量输入到采用上述任一所述的对话型文本分类的模型训练方法训练出的han模型，得到分类结果。

较佳地，所述预训练的词向量包括elmo(嵌入式语言模型)词向量和glove(词表示的全局向量)词向量；

所述预训练的字向量包括glove字向量。

一种对话型文本分类的模型训练系统，包括以下模块：

第一数据获取模块，用于对训练数据进行违规标注得到第一数据，所述第一数据包括原始对话语句；

第一分词获取模块，用于将所述第一数据切分为多个分词；

第一向量获取模块，用于将所述分词与预训练的词向量进行匹配，得到第一分词向量；

第二向量获取模块，用于将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

模型输入模块，用于将所述第二分词向量输入到han模型进行训练。

较佳地，所述第一数据获取模块包括：

第一样本获取单元，用于使用聚类算法将所述训练数据分成若干份第一样本数据；

第二样本获取单元，用于从每份所述第一样本数据中抽取若干条数据作为第二样本数据；

编辑距离计算单元，用于计算任一条所述第二样本数据与已标注的所述训练数据的编辑距离；

第一数据获取单元，用于若所述编辑距离大于预设值，则对所述第一样本数据进行违规标注得到第一数据。

较佳地，所述第一分词获取模块包括：

第二数据获取单元，用于将所述第一数据进行预处理得第二数据；

第三数据获取单元，用于将所述第二数据与预设模型数据比较滤掉所述第二数据中的无意义语句得到第三数据；

分词获取单元，用于将所述第三数据切分为多个分词。

较佳地，所述模型输入模块具体用于将所述第二分词向量和预设特征向量输入到han模型。

较佳地，所述模型训练系统还包括：

结果判断模块，用于判断模型输出结果是否满足预设阀值，

第一分类结果获取模块，用于在模型输出结果满足预设阀值时，将模型输出结果作为分类结果；

第四数据标注模块，用于在模型输出结果不满足预设阀值时，将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据；

第二分类结果获取模块，用于将所述第四数据重新输入到所述han模型，并返回所述结果判断模块。

一种对话型文本的分类系统，所述分类系统包括以下模块：

文本数据获取模块，用于获取对话型文本数据，所述对话型文本数据包括原始对话语句；

第二分词获取模块，用于将所述对话型文本数据切分为多个分词；

第一分词向量获取模块，用于将所述分词与预训练的词向量进行匹配，得到第一分词向量；

第二分词向量获取模块，用于将所述第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

第二分类结果获取模块，用于将所述第二分词向量输入到采用上述任一所述的对话型文本分类的模型训练系统进行训练的han模型，得到分类结果。

较佳地，所述第二分类结果获取模块还用于将所述第二分词向量和预设特征向量输入到采用上述任一所述的对话型文本分类的模型训练系统进行训练的han模型，得到分类结果。

较佳地，所述预训练的词向量包括elmo词向量和glove词向量；

所述预训练的字向量包括glove字向量。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的对话型文本分类的模型训练方法或所述的对话型文本的分类方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一项所述的对话型文本分类的模型训练方法或所述的对话型文本的分类方法的步骤。

本发明的积极进步效果在于：

1.采用基于层次注意力han算法对对话文本进行分类，解决了丢失句与句之间的关系和丢失语义的问题，提高了分类结果的准确度；

2.同时引入了词向量和字向量表示，减少了oov(outofvocabulary，集外词)带来的影响，增加了分类结果的准确度和模型的精度；

3.增加了特征向量信息，进一步增加分类结果的准确度和模型的精度；

4.基于主动学习的方式进行数据迭代，提升数据质量，进一步优化模型。

附图说明

图1为本发明较佳实施例1的对话型文本分类的模型训练方法流程示意图。

图2为本发明较佳实施例2的对话型文本分类的模型训练方法流程示意图。

图3为本发明较佳实施例3的对话型文本的分类方法流程示意图。

图4为本发明较佳实施例4的对话型文本分类的模型训练系统模块示意图。

图5为本发明较佳实施例5的对话型文本分类的模型训练系统模块示意图。

图6为本发明较佳实施例6的对话型文本的分类系统模块示意图。

图7为本发明较佳实施例7的电子设备的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例的对话型文本分类的模型训练方法，包括以下步骤：

s101、对训练数据进行违规标注得到第一数据，第一数据包括原始对话语句；

s102、将第一数据切分为多个分词；

s103、将分词与预训练的词向量进行匹配，得到第一分词向量；

具体地，通过前一步的分词结果从预训练的词向量中进行匹配，词向量包括glove词向量和elmo词向量。glove词向量和elmo词向量是通过收集了大量的网上开源的高质量文本数据和酒店领域内的文本数据，然后进行预处理后基于无监督学习训练得到，目的是获得一个通用的语言模型。

s104、将第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

具体地，为了减小oov的影响，增加了基于字的特征向量即glove字向量。最终结果会把词向量的字向量进行拼接得到从词到向量的结果表示。

s105、将第二分词向量输入到han模型进行训练。

本实施例的对话型文本分类的模型训练方法，使用包含原始对话语句的数据进行模型训练，保留了语句的完整性，通过上下文的对话内容便于确定对话者的关系；同时进行词向量和字向量匹配，解决了不同上下文的一词多义问题，提高了模型的精度；使用层次注意力han模型对上下文通话内容进行语义分析，能够很好的构建上下文关系，使得模型分类精度更高。

实施例2

如图2所示，本实施例的对话型文本分类的模型训练方法是对实施例1的进一步限定，具体地：

步骤s101包括：

s1010、使用聚类算法将训练数据分成若干份第一样本数据；

s1011、从每份第一样本数据中抽取若干条数据作为第二样本数据；

s1012、计算任一条第二样本数据与已标注的训练数据的编辑距离；

s1013、若编辑距离大于预设值，则对第一样本数据进行违规标注得到第一数据。

相比于其他文本类型数据，对话型文本数据的标注需要更多的人力。本实施例的对话型文本分类的模型训练方法在获取训练数据时，使用聚类算法把数据分成k份；从每份数据中随机抽取n条数据；分k组遍历剩下的数据，随机从n条数据中抽取一条计算编辑距离，目的是看剩下的数据是否与其他数据差别很大，如果差别很大说明该数据未包含在数据样本中，需要将其加入数据样本中。具体的聚类算法为levenshtein(编辑距离)算法，预设置信度为0.7或0.8，当计算编辑距离小于预设置信度，则将该数据补充到训练样本，保证了训练样本数据的充分性，减少人工标注成本。

步骤s102包括：

s1021、将第一数据进行预处理得第二数据；

s1022、将第二数据与预设模型数据比较滤掉第二数据中的无意义语句得到第三数据；

具体地，将第一数据进进行全角转半角、繁体转简体、大写转小写操作，该操作的目的是为了将文本内容统一格式；再将格式统一后的文本进行去停用词，如去掉的或了字、去低频词、过滤空值、过滤敏感词，以减少文本长度和减少无意义词得到第二数据；将第二数据与事先准备的模型数据计算相似度，进一步过滤掉了对话中部分无意义语句，如你好、再见之类，该模型数据为自定义的无意义的词模板。在分词前进行数据预处理，进一步提高了分词的准确性。

s1023、将第三数据切分为多个分词。

本实施例的对话型文本分类的模型训练方法采用了hanlp(一种语言处理器)分词器，为了增加本场景的分词准确率和覆盖度，我们在分词器中增加了自定义的领域词典，如大双床、预授权等。

步骤s105具体为：

将第二分词向量和预设特征向量输入到han模型进行训练。

具体地，采用han模型先对每一句话中的每个词进行加权得到整句话的句向量表示，再对文档下的每一句话就行加权求和得到整个文档的向量表示。为了丰富特征，我们再分类层增加了额外的特征维度，如通话时长和订单状态，可进一步提高模型准确度。

本实施例的对话型文本分类的模型训练方法还包括以下步骤：

s1061、判断模型输出结果是否满足预设阀值，若是，则执行步骤s1062：将模型输出结果作为分类结果；

具体地，设置预设阀值为迭代次数或者模型的精度或者不再有置信度低于0.9的数据。

若否，则执行步骤s1063：将模型输出结果置信度小于预设阀值的训练数据重新进行标注得到第四数据；

具体地，因为人工标注数据存在一定的误差，使用主动学习思想，把模型分类结果置信度低于0.9部分数据进行重新标注，具体采用人工重新标注。

s1064、将第四数据重新输入到han模型，返回步骤s1601；

具体地，根据模型分类结果，选择置信度最高类别作为最终的分类类别，具体分类类别分为两类，有违规或无违规。

本实施例的对话型文本分类的模型训练方法，采用聚类算法对训练数据进行预处理，保证了训练样本数据的充分性；在分词前进行数据预处理，进一步提高了分词的准确性；增加了自定义的领域词典，增加本场景的分词准确率和覆盖度；进一步增加了特征向量信息，进一步增加分类结果的准确度和模型的精度。

实施例3

如图3所示，本实施例的对话型文本的分类方法，本实施例的对话型文本的分类方法包括以下步骤：

s301、获取对话型文本数据，对话型文本数据包括原始对话语句；

s302、将对话型文本数据切分为多个分词；

s303、将分词与预训练的词向量进行匹配，得到第一分词向量；

s304、将第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

s305、将第二分词向量输入到采用实施例1或2的对话型文本分类的模型训练方法训练出的han模型，得到分类结果。

步骤s305具体为将第二分词向量和预设特征向量输入到采用实施例1或2的对话型文本分类的模型训练方法训练出的han模型，得到分类结果。

预训练的词向量包括elmo词向量和glove词向量；

预训练的字向量包括glove字向量。

本实施例的对话型文本的分类方法采用训练好的基于层次注意力的han模型对转写后的通话数据进行分类，引入了对结果判断影响比较大的因子，进一步丰富了特征信息，增加了模型的精度；选择预测概率值做大的一个类别作为最终的分类结果，使得模型分类精度更高；相比于人工抽查，召回率提升的同时且保证了精度；不仅达到了违规检测的目的，而且节省了大量的人力。

实施例4

如图4，本实施例的对话型文本分类的模型训练系统，包括以下模块：

第一数据获取模块1，用于对训练数据进行违规标注得到第一数据，第一数据包括原始对话语句；

第一分词获取模块2，用于将第一数据切分为多个分词；

第一向量获取模块3，用于将分词与预训练的词向量进行匹配，得到第一分词向量；

第二向量获取模块4，用于将第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

具体地，为了减小oov的影响，增加了基于字的特征向量即glove字向量。最终结果会把词向量的字向量进行拼接得到从词到向量的结果表示。

模型输入模块5，用于将第二分词向量输入到han模型进行训练。

本实施例的对话型文本分类的模型训练系统，使用包含原始对话语句的数据进行模型训练，保留了语句的完整性，通过上下文的对话内容便于确定对话者的关系；同时进行词向量和字向量匹配，解决了不同上下文的一词多义问题，提高了模型的精度；使用层次注意力han模型对上下文通话内容进行语义分析，能够很好的构建上下文关系，使得模型分类精度更高。

实施例5

如图5所示，本实施例的对话型文本分类的模型训练系统是对实施例4的进一步限定，具体地：

第一数据获取模块1具体包括：

第一样本获取单元11，用于使用聚类算法将训练数据分成若干份第一样本数据；

第二样本获取单元12，用于从每份第一样本数据中抽取若干条数据作为第二样本数据；

编辑距离计算单元13，用于计算任一条第二样本数据与已标注的训练数据的编辑距离；

第一数据获取单元14，用于若编辑距离大于预设值，则对第一样本数据进行违规标注得到第一数据。

相比于其他文本类型数据，对话型文本数据的标注需要更多的人力。本实施例的对话型文本分类的模型训练方法在获取训练数据时，使用聚类算法把数据分成k份；从每份数据中随机抽取n条数据；分k组遍历剩下的数据，随机从n条数据中抽取一条计算编辑距离，目的是看剩下的数据是否与其他数据差别很大，如果差别很大说明该数据未包含在数据样本中，需要将其加入数据样本中。具体的聚类算法为levenshtein算法，预设置信度为0.7或0.8，当计算编辑距离小于预设置信度，则将该数据补充到训练样本，保证了训练样本数据的充分性，减少人工标注成本。

第一分词获取模块2具体包括：

第二数据获取单元21，用于将第一数据进行预处理得第二数据；

第三数据获取单元22，用于将第二数据与预设模型数据比较滤掉第二数据中的无意义语句得到第三数据；

分词获取单元23，用于将第三数据切分为多个分词。

本实施例的对话型文本分类的模型训练方法采用了hanlp分词器，为了增加本场景的分词准确率和覆盖度，我们在分词器中增加了自定义的领域词典，如大双床、预授权等。

模型输入模块5，具体用于将第二分词向量和预设特征向量输入到han模型。

本实施例的对话型文本分类的模型训练系统还包括以下模块：

结果判断模块6，用于判断模型输出结果是否满足预设阀值；

具体地，设置预设阀值为迭代次数或者模型的精度或者不再有置信度低于0.9的数据。

第一分类结果获取模块7，用于在模型输出结果满足预设阀值时，将模型输出结果作为分类结果；

第四数据标注模块8，用于在模型输出结果不满足预设阀值时，将模型输出结果置信度小于预设阀值的所述训练数据重新进行标注得到第四数据；

具体地，因为人工标注数据存在一定的误差，使用主动学习思想，把模型分类结果置信度低于0.9部分数据进行重新标注，具体采用人工重新标注。

第二分类结果获取模块9，用于将所述第四数据重新输入到所述han模型，并返回所述结果判断模块。

具体地，根据模型分类结果，选择置信度最高类别作为最终的分类类别，具体分类类别分为两类，有违规或无违规。

实施例6

如图6所示，本实施例的对话型文本的分类系统采用实施例4或5中任一对话型文本分类的模型训练系统，本实施例的对话型文本的分类系统包括以下模块：

文本数据获取模块60，用于获取对话型文本数据，对话型文本数据包括原始对话语句；

第二分词获取模块61，用于将对话型文本数据切分为多个分词；

第一分词向量获取模块62，用于将分词与预训练的词向量进行匹配，得到第一分词向量；

第二分词向量获取模块63，用于将第一分词向量与预训练的字向量进行匹配，得到第二分词向量；

第二分类结果获取模块64，用于将第二分词向量输入到预训练的han模型，得到分类结果。

第二分类结果获取模块64具体用于将第二分词向量和预设特征向量输入到采用实施例4或5的对话型文本分类的模型训练系统训练出的han模型，得到分类结果。

预训练的词向量包括elmo词向量和glove词向量；

预训练的字向量包括glove字向量。

本实施例的对话型文本的分类系统采用训练好的基于层次注意力的han模型对转写后的通话数据进行分类，引入了对结果判断影响比较大的因子，进一步丰富了特征信息，增加了模型的精度；选择预测概率值做大的一个类别作为最终的分类结果，使得模型分类精度更高；相比于人工抽查，召回率提升的同时且保证了精度；不仅达到了违规检测的目的，而且节省了大量的人力。

实施例7

图7为本发明实施例7提供的一种电子设备的模块示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例1或2所提供的对话型文本分类的模型训练方法或3的对话型文本的分类方法。图7显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(ram)321和/或高速缓存存储器322，还可以进一步包括只读存储器(rom)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或2所提供的对话型文本分类的模型训练方法或3所提供的对话型文本的分类方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现实施例1或2所提供的对话型文本分类的模型训练方法或3所提供的对话型文本的分类方法步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现实施例1或2所提供的对话型文本分类的模型训练方法或3的对话型文本的分类方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨森;罗超;胡泓;王思博
技术所有人：携程计算机技术(上海)有限公司
我是此专利的发明人

上一篇：一种判断静电传感器工作是否正常的方法与流程
上一篇：支架蛋白的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。