基于预训练语言模型和主题增强的农业问句分类方法

文档序号:35462916发布日期:2023-09-16 01:43阅读:38来源:国知局
基于预训练语言模型和主题增强的农业问句分类方法

本发明涉及农业问句分类,具体为一种基于预训练语言模型和主题增强的农业问句分类方法。


背景技术:

1、问答系统是人工智能领域的重要研究方向之一,其目的是让机器能够理解人类自然语言,并能够准确地回答用户提出的问题,问答系统的核心部分包括问句理解和答案生成两个部分,其中,问句分类是问句理解的关键步骤之一,其作用是将用户提出的问题进行分类,以便更好地进行答案生成,因此,问句分类在问答系统中具有重要的地位,关于问答系统中问句分类的研究,用机器学习方法和深度学习方法均取得了一定的成果,在机器学习方法中,支持向量机(svm)、knn、隐马尔可夫模型(hmm)、朴素贝叶斯模型等已经达到了较好的分类效果,但由于其过度依赖人工定义特征,模型的泛化能力不够理想,并且存在验证的数据稀疏问题影响分类效果,在深度学习方法中,cnn、rnn、lstm、gru等模型也取得了较好的分类效果,但都存在着一些欠缺,如:cnn未考虑文本的语序,不能获取上下文信息;rnn虽然能对上下文信息进行记忆,但它长期依赖学习特征,容易出现梯度弥散的问题,并且rnn对局部的关键信息提取不够敏感,为了更好地提取文本关键信息,注意力机制被广泛应用于文本分类问题,其通过模仿人的注意力分配机制来计算不同词向量的权重,使关键词语的权重更高,从而获得高质量的文本特征信息,在此基础上,人们又提出了bert模型使问句分类效果得到极大的提升。

2、对用户问题的有效分类是实现智能问答的关键技术,在农业领域,大量的用户问题数据语义信息复杂,变异性大,为了提高问题分类的准确性,本文构建了topic_bert的问题分类模型,根据以往的数据信息,将信息服务平台分为15个主题类别,然后应用lda模型生成20维的主题特征向量,并将生成的主题特征向量与bert输出的文本特征向量进行线性组合,输入到全连接层进行预测,实验结果表明,本文使用的模型可以帮助对用户提出的问题按话题进行分类,f1值为71.96%,与其他分类方法相比,有明显的改善。


技术实现思路

1、针对现有技术的不足,本发明提供了一种基于预训练语言模型和主题增强的农业问句分类方法,具备显示出更好的分类结果等优点,解决了大量的用户问题数据语义信息复杂,变异性大的问题。

2、为实现上述目的,本发明提供如下技术方案:基于预训练语言模型和主题增强的农业问句分类方法,包括以下步骤:

3、s1、将农业问句分类文本数据进行预处理;

4、s2、输入bert模型得到文本的语义信息;

5、s3、输入lda模型得到文本的主题信息;

6、s4、进行线性组合。

7、进一步,所述步骤s1预处理的过程中,具体如下:

8、1)使用分词工具将中文句子分割成一个个词语或字;

9、2)在分词后的序列中添加特殊的起始标记[cls]和终止标记[sep],以便bert模型理解句子的开头和结尾;

10、3)由于bert模型对输入序列的长度有限制,需要将所有句子调整为相同的长度,对于较短的句子,可以通过添加特殊的填充标记[pad]来达到相同长度;

11、4)为了使bert能够理解句子中不同单词之间的相对位置信息,需要为每个单词或子词添加位置嵌入;

12、5)由于bert模型可以处理可变长度的序列,但为了更好地控制信息流动,需要创建一个注意力掩码来指示哪些标记是真实的输入,哪些是填充标记。

13、进一步,所述步骤s1中对文本预处理后,经过前面的预处理步骤的文本数据转换为模型可接受的张量形式,才能输入到bert模型中进行计算。

14、进一步,所述步骤s2中,输入的一个句子[cls]e1,e2,e3...en[sep]经过bert模型后输出为[cls]h1,h2,h3...hn[sep],输入到bert模型的句子集合最后得到c1,c2,c3...cn。

15、进一步,所述s3中具体如下:

16、1)对输入到lda模型的文本数据进行预处理,对中文句子进行分词、去除停用词、文本向量化等操作;

17、2)设置lda模型的训练参数;

18、3)通过研究每个话题的概率分布,确定每个文档的感兴趣的话题。

19、进一步,所述步骤s4中将bert模型输出的c1,c2,c3...cn与lda模型输出的t1,t2,t3...tm进行线性组合起来作为topic_bert模型的最终输出。

20、进一步,所述lda为文档主题生成模型,也被称为三层贝叶斯概率模型,包含词、主题和文档三层结构,是无监督的机器学习技术,它采用词袋的方法,这种方法将每篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。

21、进一步,所述lda是对上述文档生成过程的反推,它将根据得到的文章找出文章的主题和这些主题对应的词,它将文档集中每个文档的主题作为一个概率分布,然后通过分析分类在同一主题下的文档来提取实际的主题,根据主题分布对文本进行分类。

22、进一步,所述bert是基于transformer的深度双向语言表征模型,其本质上是一个预训练的语言表示模型,在bert中,预训练是通过使用transformer结构建立一个多层双向编码器网络来实现的,bert强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked-language-model(mlm),以致能生成深度的双向语言表征,在bert中,通过随机选择一些词,用mask符号替换,然后让模型尝试预测这些被屏蔽的词,这种掩蔽方法使模型在预测时可以使用来自左右两个方向的信息,从而对语言进行更深入的表述。

23、进一步,所述topic_bert模型中,bert模型的初始输入是一组句子,然而,文本数据不能直接作为bert模型的输入形式,在将文本数据输入bert模型之前,需要对文本数据进行预处理,bert模型通过查询词向量表,将文本中的每个词转换为一维结构的特征向量作为输入,在文本数据预处理过程中,通过在文本序列的第一个位置添加特殊标记[cls]和在句子的分隔处添加[sep]来表示一个文本或句子的衔接。

24、与现有技术相比,本技术的技术方案具备以下有益效果:

25、该基于预训练语言模型和主题增强的农业问句分类方法,在改进的bert模型—chinese-bert-wwm模型的基础上,通过加入主题概率模型lda的特征,对"中国农技推广信息服务平台"中的用户问题进行分类,与其他模型相比,这个改进的模型在数据集上显示出更好的分类结果,具体来说,本文采用了两阶段的方法进行问题分类,首先,我们使用chines-bert-wwm模型作为基础模型,对问句进行编码,得到问句的向量表示,然后,我们使用lda模型来提取问句的主题特征向量,并将主题特征向量与问句的向量表示进行线性组合,得到新的问句表示,由此来强化主题这个特征的重要性,实验结果表明,本文提出的方法比其他模型有更好的分类性能,与bert模型相比,本文提出的模型在f1指标上提高了2.88%,与其他组合模型相比,本文提出的模型在f1指标上比其他组合模型效果都要好,实验结果表明,本文提出的方法能够更准确地对农民提问进行分类,为“中国农技推广信息服务平台”的用户提供更好的服务。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1