同义词获取方法、装置、设备、存储介质及程序产品与流程

文档序号:37423996发布日期:2024-03-25 19:11阅读:19来源:国知局
同义词获取方法、装置、设备、存储介质及程序产品与流程

本申请属于人工智能,尤其涉及一种同义词获取方法、装置、设备、存储介质及程序产品。


背景技术:

1、同义词是自然语言中的一个独特现象,同义词获取在自然语言处理中是一项非常重要的基础工作,也是一项非常重要有意义的工作,它的实现对于搜索查询替换,改写,丰富搜索结果,提升查询体验有很大的帮助。然而目前的相关技术中,通常只是使用简单的相似度算法来进行挖掘,这种相似度算法过度依赖语义,容易影响同义词获取的准确性;或是通过人工标注同义词的方法进行挖掘,人工标注的方式标注出来的同义词有限,同样会影响了同义词获取的准确性。


技术实现思路

1、本申请实施例提供了一种同义词获取方法、装置、设备、存储介质及程序产品,能够解决现有的同义词获取的准确性和丰富性较差的问题。

2、第一方面,本申请实施例提供一种同义词获取方法,方法包括:

3、获取种子词;

4、根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词;

5、在所述疑似同义词和所述种子词的垂直领域相同的情况下,将所述疑似同义词确定为同义词。

6、在一些实施例中,所述在所述疑似同义词和所述种子词的垂直领域相同的情况下,将所述疑似同义词确定为同义词之前,所述方法还包括:

7、将所述疑似同义词向量化,得到第一向量;

8、将所述第一向量输入与所述种子词的垂直领域对应的判别模型,其中,所述判别模型的输出为第一数值或第二数值,所述第一数值表征所述判别模型的输入对应的垂直领域与所述种子词的垂直领域相同,所述第二数值表征所述判别模型的输入对应的垂直领域与所述种子词的垂直领域不同;

9、在所述判别模型的输出为所述第一数值的情况下,确定所述疑似同义词和所述种子词的垂直领域相同。

10、在一些实施例中,所述根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词,包括:

11、将用户在第一时长内搜索过的至少两个词语确定为一个词组;

12、在任意两个词组中存在至少一个相同的词语的情况下,确定所述两个词组存在关联关系;

13、在存在关联关系的词组中存在所述种子词的情况下,将所述存在关联关系的词组中的所述种子词之外的词语确定为所述种子词的疑似同义词。

14、在一些实施例中,所述根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词之前,所述方法还包括:

15、获取所述种子词所在垂直领域的文本数据;

16、对所述文本数据进行分词处理,得到至少一个第一分词;

17、将所述至少一个第一分词进行向量化,得到至少一个第二向量;

18、基于所述第二向量构建语义模型;

19、所述根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词,包括:

20、将所述种子词输入所述语义模型,得到所述种子词的疑似同义词。

21、在一些实施例中,所述获取种子词,包括:

22、获取目标垂直领域;

23、获取所述目标垂直领域中的第一术语;

24、将所述第一术语进行分词处理,得到至少一个第二分词;

25、根据所述至少一个第二分词的词性从所述至少一个第二分词中获取种子词。

26、在一些实施例中,所述获取种子词,包括:

27、获取用户的历史搜索记录;

28、将所述历史搜索记录中搜索次数大于第一阈值的词语确定为种子词。

29、第二方面,本申请实施例提供一种同义词获取装置,装置包括:

30、获取模块,用于获取种子词;

31、确定模块,用于根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词;

32、判别模块,用于在所述疑似同义词和所述种子词的垂直领域相同的情况下,将所述疑似同义词确定为同义词。

33、第三方面,本申请实施例提供了一种同义词获取设备,设备包括:处理器以及存储有计算机程序指令的存储器;

34、处理器执行计算机程序指令时实现如上的同义词获取方法。

35、第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如上的同义词获取方法。

36、第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现如上的同义词获取方法。

37、本申请中,在获取种子词之后,通过根据种子词的语义,以及用户与种子词相关的搜索行为来确定疑似同义词,并通过对种子词的疑似同义词的垂直领域进行判别,将垂直领域与种子词相同的疑似同义词确定为最终的同义词,与现有技术中仅依赖语义来挖掘同义词相比,既丰富了疑似同义词的来源,又能够保证种子词和同义词同属于一个细分的领域内,从而有效的保证了同义词获取的准确性和丰富性。



技术特征:

1.一种同义词获取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的同义词获取方法,其特征在于,所述在所述疑似同义词和所述种子词的垂直领域相同的情况下,将所述疑似同义词确定为同义词之前,所述方法还包括:

3.根据权利要求1所述的同义词获取方法,其特征在于,所述根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词,包括:

4.根据权利要求1所述的同义词获取方法,其特征在于,所述根据所述种子词的语义,和用户与所述种子词相关的搜索行为确定所述种子词的疑似同义词之前,所述方法还包括:

5.根据权利要求1所述的同义词获取方法,其特征在于,所述获取种子词,包括:

6.根据权利要求1所述的同义词获取方法,其特征在于,所述获取种子词,包括:

7.一种同义词获取装置,其特征在于,所述装置包括:

8.一种同义词获取设备,其特征在于,所述同义词获取设备包括:处理器以及存储有计算机程序指令的存储器;

9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6中任一项所述的同义词获取方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-6中任一项所述的同义词获取方法。


技术总结
本申请公开了一种同义词获取方法、装置、设备、存储介质及程序产品。该方法包括:获取种子词,根据种子词的语义,和用户与种子词相关的搜索行为确定种子词的疑似同义词,在疑似同义词和种子词的垂直领域相同的情况下,将疑似同义词确定为同义词。本申请能够提升获取的同义词的准确性和丰富性。

技术研发人员:黄海涛,张睿,焦俊铭,杜鹏,邵春昌,乔举义,孙玉龙
受保护的技术使用者:北京罗克维尔斯科技有限公司
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1