一种关键词的确定方法、装置、电子设备和存储介质与流程

文档序号:20918221发布日期:2020-05-29 13:48阅读:来源:国知局

技术特征:

1.一种关键词的确定方法,其特征在于,包括:

利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;

对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;

根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;

根据所述相似度,确定所述目标文本的关键词。

2.如权利要求1所述的确定方法,其特征在于,所述特征维度包括以下至少两种:

实体词语、名词词语,以及各所述待召回词语和目标文本关联程度的统计结果。

3.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述实体词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:

对每个所述待召回词语进行实体识别,确定该待召回词语是否为所述实体词语,以识别出的各所述待召回词语中的所述实体词语作为所述召回结果。

4.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述名词词语时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:

对每个所述待召回词语进行词性识别,确定该待召回词语是否为所述名词词语,以将识别出的各所述待召回词语中的所述名词词语作为所述召回结果。

5.如权利要求2所述的确定方法,其特征在于,当所述特征维度为所述统计结果时,对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果,包括:

确定各所述待召回词语在所述目标文本中出现的频率,以及各所述待召回词语在目标语料库中的逆文档频率;

计算所述频率和所述逆文档频率的乘积;

对所述待召回词语分别对应的所述乘积进行第一排序,以将第一排序结果中排名位于前k个的所述乘积对应的所述待召回词语作为所述召回结果;

其中,k为正整数。

6.如权利要求1所述的确定方法,其特征在于,根据所述相似度,确定所述目标文本的关键词,包括:

对所述相似度进行第二排序,以将第二排序结果中排名位于前t个的所述相似度对应的所述召回结果确定为所述关键词;

其中,t为正整数。

7.如权利要求1所述的确定方法,其特征在于,所述方法还包括:

获取预设时间段内在目标应用程序中进行搜索时使用的搜索语句;

确定所述搜索语句中包括的最细粒度单元能够构成的新词;

将所述新词添加到指定分词词典中,以得到所述目标分词词典。

8.如权利要求7所述的确定方法,其特征在于,确定所述搜索语句中包括的最细粒度单元能够构成的新词,包括:

计算每两个所述最细粒度单元之间的关联性特征值;

将所述关联性特征值作为输入参数输入到指定的树模型中,以得到所述两个最细粒度单元能够构成词语的概率;

对所述概率和预设阈值进行比较,以将超过所述预设阈值的所述概率对应的两个所述最细粒度单元构成的词语确定为所述新词。

9.如权利要求8所述的确定方法,其特征在于,所述关联性特征值包括以下至少一种:

每两个所述最细粒度单元之间共现频率、每两个所述最细粒度单元之间点互信息pmi、每两个所述最细粒度单元之间右熵、每两个所述最细粒度单元之间左熵,以及每两个所述最细粒度单元构成词语时在所述搜索语句中出现的频率。

10.一种关键词的确定装置,其特征在于,包括:

第一切词单元,用于利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;

召回单元,用于对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;

计算单元,用于根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;

确定单元,用于根据所述相似度,确定所述目标文本的关键词。

11.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至9中任一项所述的确定方法的步骤。

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至9中任一项所述的确定方法的步骤。


技术总结
本公开提供了一种关键词的确定方法、装置、电子设备和存储介质,其中,该方法包括:利用目标分词词典对目标文本进行切词处理,得到所述目标文本包括的待召回词语;对各所述待召回词语按照不同特征维度进行召回,得到不同特征维度下的召回结果;根据所述召回结果中包含的各个词语的词向量,确定每个所述词向量和所述目标文本的文本向量之间的相似度;根据所述相似度,确定所述目标文本的关键词,通过上述方法确定出来的关键词为与目标文本关联程度相对较高的关键词,因此通过上述方法有利于提高确定出的关键词的准确度,进而可以为目标文本的准确推荐和准确搜索提供支持。

技术研发人员:邓江东;黄亚建
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2020.01.02
技术公布日:2020.05.29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1