一种关键词确定方法及装置与流程

文档序号:30453135发布日期:2022-06-18 02:29阅读:来源:国知局

技术特征:
1.一种关键词确定方法,其特征在于,包括:获取待处理文本;对所述待处理文本包括的每个词语进行词性识别,得到每个词语的词性;根据所述待处理文本包括的每个字的先后顺序,确定每个字的位置信息;根据每个字的位置信息,确定每个词语的词性的位置信息;采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,所述目标特征信息包括目标嵌入信息和目标位置信息,所述目标嵌入信息包括每个字的字向量和每个词语的词性,所述目标位置信息包括每个字的位置信息和每个词语的词性的位置信息;确定所述待处理文本的目标关键词,所述目标关键词包括所述第一关键词集合中的词语。2.根据权利要求1所述的方法,其特征在于,所述根据每个字的位置信息,确定每个词语的词性的位置信息,包括:将每个词语中的第一个字的位置信息,确定为每个词语的词性的位置信息;或者,将每个词语中的最后一个字的位置信息,确定为每个词语的词性的位置信息。3.根据权利要求1或2所述的方法,其特征在于,所述确定所述待处理文本的目标关键词,包括:将所述第一关键词集合中的词语确定为所述目标关键词;或者,采用词典匹配技术,确定所述待处理文本的第二关键词集合;将所述第一关键词集合和所述第二关键词集合的并集,确定为目标关键词集合;采用预设规则,从所述目标关键词集合包括的词语中确定所述目标关键词。4.根据权利要求1或2所述的方法,其特征在于,所述目标特征信息还包括目标片段信息,所述方法还包括:获取预存的目标片段信息,所述目标片段信息包括第一信息和第二信息,所述第一信息用于指示所述目标嵌入信息中的字向量,所述第二信息用于指示所述目标嵌入信息中的词性。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:根据所述待处理文本包括的每个字在预存的字典中的位置,确定每个字的字向量。6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:确定所述待处理文本包括的每个句子;在每个句子包括的所有字向量之后拼接每个句子包括的所有词语的词性,得到所述目标嵌入信息;或者,在所述待处理文本包括的所有字向量之后拼接所述待处理文本包括的所有词语的词性,得到所述目标特征信息还包括所述目标片段信息。7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:获取多个文本样本和每个文本样本的标签信息,每个标签信息用于标识每个文本样本中的关键词;
对每个文本样本进行特征提取处理,得到每个文本样本对应的目标特征信息;以每个文本样本对应的目标特征信息为深度神经网络模型的输入,以每个文本样本的标签信息为所述深度神经网络模型的输出,对所述深度神经网络模型进行训练,得到所述关键词识别模型。8.一种关键词确定装置,其特征在于,包括:获取模块,用于获取待处理文本;词性识别模块,用于对所述获取模块获取的所述待处理文本包括的每个词语进行词性识别,得到每个词语的词性;第一确定模块,用于根据所述获取模块获取的所述待处理文本包括的每个字的先后顺序,确定每个字的位置信息;第二确定模块,用于根据所述第一确定模块确定的每个字的位置信息,确定每个词语的词性的位置信息;关键词识别模块,用于采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,所述目标特征信息包括目标嵌入信息和目标位置信息,所述目标嵌入信息包括每个字的字向量和所述词性识别模块识别的每个词语的词性,所述目标位置信息包括所述第一确定模块确定的每个字的位置信息和所述第二确定模块确定的每个词语的词性的位置信息;第三确定模块,用于确定所述待处理文本的目标关键词,所述目标关键词包括所述关键词识别模块识别的所述第一关键词集合中的词语。9.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;当所述处理器执行所述计算机指令时,所述计算机设备执行如权利要求1-7中任意一项所述的关键词确定方法。10.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-7中任意一项所述的关键词确定方法。

技术总结
本发明公开一种关键词确定方法及装置,涉及自然语言处理技术领域。具体方案包括:计算机设备获取待处理文本,对待处理文本包括的每个词语进行词性识别,得到每个词语的词性,并根据待处理文本包括的每个字的先后顺序,确定每个字的位置信息,根据每个字的位置信息,确定每个词语的词性的位置信息,而后采用关键词识别模型对目标特征信息进行关键词识别,得到第一关键词集合,其中,目标特征信息包括目标嵌入信息和目标位置信息,目标嵌入信息包括每个字的字向量和每个词语的词性,目标位置信息包括每个字的位置信息和每个词性的位置信息,最后确定待处理文本的目标关键词。本发明能够提高关键词抽取的准确率和识别率。提高关键词抽取的准确率和识别率。提高关键词抽取的准确率和识别率。


技术研发人员:李剑锋
受保护的技术使用者:武汉路特斯汽车有限公司
技术研发日:2022.02.10
技术公布日:2022/6/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1