新词发现方法及装置、电子设备、存储介质与流程

文档序号:34261416发布日期:2023-05-25 04:48阅读:24来源:国知局
新词发现方法及装置、电子设备、存储介质与流程

本申请涉及自然语言处理领域,特别涉及一种新词发现方法及装置、电子设备、存储介质。


背景技术:

1、在自然语言领域的实际应用中,有些场景需要确定具备新的特定含义的词语,这些具备新的特定含义的词语即为新词。例如,针对某些特定领域,需要对对应的文本或语料进行处理,以发现属于该领域的新词。

2、在相关技术中,通常只依赖于文本或语料中字符串的统计特征来发现新词,未充分考虑其他因素对新词发现的影响,从而可能导致确定的新词准确性不高,或者遗漏部分新词。


技术实现思路

1、本申请提供一种新词发现方法及装置、电子设备、存储介质,可以提高新词的准确性,并且还能减少遗漏的新词。

2、第一方面,本申请提供了一种新词发现方法,该新词发现方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据所述第一候选词集合和所述第二候选词集合,确定目标新词。

3、第二方面,本申请提供了一种新词发现装置,该新词发现装置包括:分词模块,用于对待处理文本进行分词处理,获得多个初始候选词;第一筛选模块,用于确定各个所述初始候选词的特征属性信息,并根据所述特征属性信息从多个所述初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合;第二筛选模块,用于确定所述待处理文本与多个所述初始候选词之间的语义相似度,并根据所述语义相似度从多个所述初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;确定模块,用于根据所述第一候选词集合和所述第二候选词集合,确定目标新词。

4、第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的新词发现方法。

5、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的新词发现方法。

6、本申请所提供的实施例,首先,通过对待处理文本进行分词处理,可以获得多个初始候选词,为后续发现新词提供词汇基础;在获得初始候选词的情况下,一方面通过初始候选词的特征属性信息,从初始候选词中筛选出一个或多个第一中间候选词,构成第一候选词集合,另一方面通过待处理文本与初始候选词之间的语义相似度,从初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;最后,通过第一候选词集合和第二候选词集合共同确定目标新词,而且,由于第一候选词集合中的第一中间候选词是通过特征属性筛选的,其侧重于表征词的特征属性,而第二候选词集合中的第二中间候选词是通过语义相似度筛选的,其侧重于候选词与待处理文本之间在语义层面的相似性,因此,通过第一候选词集合和第二候选词集合共同确定出来的目标新词,综合考虑了词的特征属性和其与待处理文本的语义相似性,获得的新词的准确性较高,还能降低漏选新词的可能性。

7、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种新词发现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述特征属性信息包括词频属性信息、熵属性信息和点间互属性信息中的至少一种;

3.根据权利要求2所述的方法,其特征在于,所述词频属性信息包括词频值,所述熵属性信息包括信息熵值,所述点间互属性信息包括点间互值;

4.根据权利要求1所述的方法,其特征在于,所述待处理文本包括多个语句;

5.根据权利要求4所述的方法,其特征在于,所述语义相似度包括相似值,所述预设筛选条件包括预设相似阈值或者预设数量;

6.根据权利要求1所述的方法,其特征在于,所述根据所述第一候选词集合和所述第二候选词集合,确定目标新词,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述交集或者并集中的候选新词,确定所述目标新词,包括:

8.一种新词发现装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的新词发现方法。


技术总结
本申请提供了一种新词发现方法及装置、电子设备、存储介质,属于自然语言处理领域。该新词生成方法包括:对待处理文本进行分词处理,获得多个初始候选词;确定各个初始候选词的特征属性信息,并根据特征属性信息从多个初始候选词中筛选出一个或多个第一中间候选词,获得第一候选词集合,特征属性信息是用于表征初始候选词的特征的信息;确定待处理文本与多个初始候选词之间的语义相似度,并根据语义相似度从多个初始候选词中筛选出一个或多个第二中间候选词,获得第二候选词集合;根据第一候选词集合和第二候选词集合,确定目标新词。根据本申请的实施例能够提高新词的准确性,并且还能减少遗漏的新词。

技术研发人员:夏志超,赵辑淼,蒋宁,夏粉,肖冰,马超
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1