关键词提取方法、装置、计算机设备及存储介质与流程

文档序号:35126013发布日期:2023-08-14 19:48阅读:34来源:国知局
关键词提取方法、装置、计算机设备及存储介质与流程

本发明涉及信息提取,尤其涉及一种关键词提取方法、装置、计算机设备及存储介质。


背景技术:

1、随着科学技术的发展,自然语言处理技术也随之快速发展。例如,短语抽取技术、关键词抽取技术或者实体识别技术等。

2、现有技术中,针对关键词抽取技术存在两种方法:其一是基于标注样本数据对模型进行有监督训练,以增强模型的关键词抽取能力。但是在一些应用领域下没有大量的标注样本数据。其二,基于统计学方法对模型进行无监督训练,该方法依赖对文本的分词结果,并缺乏对文本语义的利用。而且,无监督的方法主要有以下两个缺点:(1)分词准确率问题:由于现有技术中的分词器是基于通用语料,而不是业务语料训练的,所以对于包含很多业务专有名词的数据,分词效果不佳。(2)难以发现关键短语:很多业务数据中都会包含很多关键短语,这些短语通常有2~3个词组合得到,现有的关键词算法都是针对词粒度进行挖掘,难以找到短语形式存在的关键词。因此,上述方法无法准确提取文本中专有名词的关键词,导致关键词提取准确率较低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种关键词提取方法、装置、计算机设备及存储介质,以解决现有技术中对文本分词准确率较低的问题。

2、一种关键词提取方法,包括:

3、获取待处理文本,对所述待处理文本进行分词处理,得到至少一个分词结果;

4、通过预设实体识别模型对所有所述分词结果进行实体识别,得到至少一个实体识别结果;

5、对所有所述实体识别结果进行词性标注,得到词性标注结果;

6、通过预设评分指标对所有所述词性标注结果进行评分,得到评分值;

7、通过所有所述评分值对所有所述词性标注结果进行过滤,得到至少一个目标字词;

8、对所有所述目标字词进行词共现度统计,得到词共现值,并通过所述词共现值对所有所述目标字词进行关键词提取,得到关键词提取结果。

9、一种关键词提取装置,包括:

10、分词处理模块,用于获取待处理文本,对所述待处理文本进行分词处理,得到至少一个分词结果;

11、实体识别模块,用于通过预设实体识别模型对所有所述分词结果进行实体识别,得到至少一个实体识别结果;

12、词性标注模块,用于对所有所述实体识别结果进行词性标注,得到词性标注结果;

13、特征评分模块,用于通过预设评分指标对所有所述词性标注结果进行评分,得到评分值;

14、字词过滤模块,用于通过所有所述评分值对所有所述词性标注结果进行过滤,得到至少一个目标字词;

15、提取结果模块,用于对所有所述目标字词进行词共现度统计,得到词共现值,并通过所述词共现值对所有所述目标字词进行关键词提取,得到关键词提取结果。

16、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述关键词提取方法。

17、一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述关键词提取方法。

18、上述关键词提取方法、装置、计算机设备及存储介质,该方法通过预设实体识别模型对与待处理文本对应的所有分词结果进行实体识别,实现了分别对分词结果的实体识别,进而实现了对实体识别结果的获取。通过对所有实体识别结果进行词性标注及评分,实现了对词性标注结果的确定,以及实现了对评分值的获取。通过所有评分值对所有词性标注结果进行过滤,实现了对噪音词的过滤,进而实现了对目标字词的筛选。对所有目标字词进行词共现度统计,实现了对词共现值的计算,实现了对关键词的提取,进而实现了对短语式关键词的提取,提高了关键词提取的准确率。



技术特征:

1.一种关键词提取方法,其特征在于,包括:

2.如权利要求1所述的关键词提取方法,其特征在于,所述预设实体识别模型包括第一实体识别模块和第二实体识别模块;

3.如权利要求1所述的关键词提取方法,其特征在于,所述对所有所述实体识别结果进行词性标注,得到词性标注结果,包括:

4.如权利要求1所述的关键词提取方法,其特征在于,所述通过预设评分指标对所有所述词性标注结果进行评分,得到评分值,包括:

5.如权利要求1所述的关键词提取方法,其特征在于,所述通过所有所述评分值对所有所述词性标注结果进行过滤,得到至少一个目标字词,包括:

6.如权利要求1所述的关键词提取方法,其特征在于,所述对所有所述目标字词进行词共现度统计,得到词共现值,包括:

7.如权利要求1所述的关键词提取方法,其特征在于,所述通过预设实体识别模型对所有所述分词结果进行实体识别之前,包括:

8.一种关键词提取装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述关键词提取方法。

10.一个或多个存储有计算机可读指令的可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述关键词提取方法。


技术总结
本发明涉及信息提取技术领域,尤其涉及一种关键词提取方法。其方法包括:获取待处理文本,对待处理文本进行分词处理,得到至少一个分词结果;通过预设实体识别模型对所有分词结果进行实体识别,得到至少一个实体识别结果;对所有实体识别结果进行词性标注,得到词性标注结果;通过预设评分指标对所有词性标注结果进行评分,得到评分值;通过所有评分值对所有词性标注结果进行过滤,得到至少一个目标字词;对所有目标字词进行词共现度统计,得到词共现值,并通过词共现值对所有目标字词进行关键词提取,得到关键词提取结果。本发明实现了对关键词的提取,实现了对短语式关键词的提取,进而提高了关键词提取的准确率。

技术研发人员:刘赫阳,林跃,卢品吟,李运阳
受保护的技术使用者:深圳市东信云科技有限公司
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1