一种关键词的标注方法、装置、存储介质及电子设备与流程

文档序号:34108206发布日期:2023-05-10 21:09阅读:38来源:国知局
一种关键词的标注方法、装置、存储介质及电子设备与流程

本说明书涉及计算机,尤其涉及一种关键词的标注方法、装置、存储介质及电子设备。


背景技术:

1、科技的发展在为人们的工作和生活提供便利的同时,用户的隐私以及财产安全也面临着巨大的考验,为了保障用户的财产安全,通常需要对用户的交互数据进行分析以及评估,从而甄别出可能出现的风险并及时提醒用户,以实现对风险的有效控制。在此过程中,为了提高风险识别的效率,通常需要通过自然语言处理算法,来提取出用户的交互数据中出现的关键词,从而根据这些关键词进行进一步的风险判断。

2、然而,目前的关键词提取方法通常会根据不同词语在文本或对话中出现的频率来确定关键词,但是这种方法提取出的关键词并不符合原本对话的语义,无法将原本对话所要表达的意思进行准确的概括,从而导致后续风险识别的准确性较低,甚至会对风险识别的过程造成误导,导致出现错误的风险识别结果。

3、因此,如何准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词,从而提高后续风险识别过程的准确性以及效率,是一个亟待解决的问题。


技术实现思路

1、本说明书提供一种关键词的标注方法、装置、存储介质及电子设备。以准确的确定出与对话语句的语义信息相匹配,且能够准确的概括出对话内容的关键词。

2、本说明书采用下述技术方案:

3、本说明书提供了一种关键词的标注方法,包括:

4、获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;

5、针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;

6、根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;

7、将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;

8、根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。

9、可选地,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度,具体包括:

10、针对每个分词,根据该分词在所述对话语句中出现的频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。

11、可选地,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分词在预设语句库中包含的其他对话语句中出现的频率呈负相关。

12、可选地,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,具体包括:

13、将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;

14、将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。

15、可选地,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,具体包括:

16、针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;

17、若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。

18、可选地,所述方法还包括:

19、根据标注出的各关键词,对所述用户执行的业务进行风险识别。

20、可选地,训练所述语句生成模型,具体包括:

21、获取历史对话语句;

22、对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;

23、针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;

24、根据所述历史对话语句中的每个分词对应的历史重要程度,选择预设数量的分词,作为历史候选词;

25、将各历史候选词输入所述语句生成模型中,以确定历史重构语句;

26、以最小化所述历史对话语句和所述历史重构语句之间的偏差为优化目标,对所述语句生成模型进行训练。

27、本说明书提供了一种关键词的标注装置,包括:

28、获取模块,获取用户的对话语句,并对所述对话语句进行分词处理,确定所述对话语句中包含的各分词;

29、确定模块,针对每个分词,根据该分词在所述对话语句中出现的频率,确定该分词对应的重要程度;

30、选择模块,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词;

31、输入模块,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词;

32、标注模块根据各重构对话语句与所述对话语句之间的语义匹配度,确定所述对话语句中的各关键词,并对所述各关键词进行标注。

33、可选地,所述确定模块用于,针对每个分词,根据该分词在所述对话语句中出现的频率,以及该分词在预设语句库中包含的其他对话语句中出现的频率,确定该分词对应的重要程度。

34、可选地,所述重要程度与该分词在所述对话语句中出现的频率呈正相关,与该分词在预设语句库中包含的其他对话语句中出现的频率呈负相关。

35、可选地,所述选择模块具体用于,将各分词按照所述重要程度由大到小的顺序进行排序,并确定位于预设位次之前的各分词;将位于所述预设位次之前的分词进行随机删除,并将剩余的位于所述预设位次之前的各分词作为所述候选词。

36、可选地,所述输入模块具体用于,针对任意一个确定出的候选词组,将该候选词组输入预先训练的语句生成模型中,以确定该候选词组对应的重构对话语句;若该候选词组对应的重构对话语句与所述对话语句之间的匹配度大于该候选词组对应的匹配度阈值,则在该候选词组中添加候选词,得到重新确定出的候选词组,并将重新确定出的候选词组输入到所述语句生成模型,以生成重新确定出的候选词组对应的重构对话语句,其中,候选词组中包含的候选词的数量越大,该候选词组对应的匹配度阈值越大。

37、可选地,所述装置还包括:

38、训练模块,用于获取历史对话语句;对所述历史对话语句进行分词处理,确定所述历史对话语句中包含的各分词;针对所述历史对话语句中的每个分词,根据该分词在所述历史对话语句中出现的频率,确定该分词对应的历史重要程度;根据所述历史对话语句中的每个分词对应的历史重要程度,选择预设数量的分词,作为历史候选词;将各历史候选词输入所述语句生成模型中,以确定历史重构语句;以最小化所述历史对话语句和所述历史重构语句之间的偏差为优化目标,对所述语句生成模型进行训练。

39、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述关键词的标注方法。

40、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述关键词的标注方法。

41、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

42、在本说明书提供的关键词的标注方法中,服务器获获取用户的对话语句,并对对话语句进行分词处理,确定对话语句中包含的各分词,针对每个分词,根据该分词在对话语句中出现的频率,确定该分词对应的重要程度,根据每个分词对应的重要程度,选择预设数量的分词,作为候选词,将确定出的各候选词组输入预先训练的语句生成模型中,以确定每个候选词组对应的重构对话语句,一个候选词组中包含有至少一个候选词,根据各重构对话语句与所述对话语句之间的语义匹配度,确定对话语句中的各关键词,并对各关键词进行标注。

43、从上述方法可以看出,本方案在确定对话语句中的关键词时,会根据对话语句中各分词出现的频率,以及各候选词所重构出的重构对话语句与对话语句之间的语义匹配度进行确定,相比于目前仅根据词频确定关键词的方法,本方案确定出的关键词与对话语句的语义信息更加匹配,且能够准确的概括出对话内容,从而进一步提高后续风险判断过程的准确性以及效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1