本技术涉及自然语言处理,特别是涉及一种交互式用户词典构建方法、装置和设备。
背景技术:
1、自然语言处理(natural language processing,nlp)中,通常会采用用户词典提高分词、命名体识别和关键词抽取等应用的性能。用户词典与应用场景对应,针对某些专业领域的应用场景(如民航飞行培训的教员评语量化分析,又如电力作业工作票、操作票的规范化验证),高质量的用户词典对提升nlp算法在这些应用场景的性能尤其重要。但是,目前,构建用户词典的方式为:标注人员对专业领域的语料库进行标注,这对标注人员的专业知识要求较高,导致该用户词典的构建需要较高的成本。
技术实现思路
1、本技术提供了一种交互式用户词典构建方法、装置和设备,能够高效的、低成本地构建出专业领域的高质量的用户词典,从而提升nlp中应用的性能。
2、第一方面,本技术提供了一种交互式用户词典构建方法,包括:
3、响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
4、基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
5、若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
6、基于所述第三词典,获得所述目标领域的目标用户词典。
7、可选地,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。
8、可选地,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
9、将所述第三词典作为所述目标用户词典;或者,
10、基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
11、基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
12、可选地,所述响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,包括:
13、响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
14、基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
15、可选地,所述方法还包括:
16、获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
17、可选地,所述基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,包括:
18、对所述至少一个语料库进行分词,获得所述分词词语;
19、从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
20、基于所述第二词语构建所述第二词典。
21、可选地,所述方法还包括:
22、若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
23、若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
24、可选地,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
25、从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
26、响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
27、基于更新后的所述第三词典,获得所述目标用户词典。
28、第二方面,本技术还提供了一种交互式用户词典构建装置,包括:
29、第一获得单元,用于响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
30、第二获得单元,用于基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
31、第三获得单元,用于若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
32、第四获得单元,用于基于所述第三词典,获得所述目标领域的目标用户词典。
33、可选地,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。
34、可选地,所述第四获得单元,具体用于:
35、将所述第三词典作为所述目标用户词典;或者,
36、基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
37、基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
38、可选地,所述第一获得单元,包括:
39、第一获得子单元,用于响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
40、第二获得子单元,用于基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
41、可选地,所述装置还包括:
42、第五获得单元,用于获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
43、可选地,所述第二获得单元,包括:
44、分词子单元,用于对所述至少一个语料库进行分词,获得所述分词词语;
45、第三获得子单元,用于从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
46、构建子单元,用于基于所述第二词语构建所述第二词典。
47、可选地,所述装置还包括:
48、第六获得单元,用于若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
49、第七获得单元,用于若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
50、可选地,所述第四获得单元,包括:
51、抽取子单元,用于从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
52、更新子单元,用于响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
53、第四获得子单元,用于基于更新后的所述第三词典,获得所述目标用户词典。
54、第三方面,本技术还提供了一种电子设备,所述电子设备包括处理器以及存储器:
55、所述存储器用于存储计算机程序;
56、所述处理器用于根据所述计算机程序执行上述第一方面提供的所述方法。
57、第四方面,本技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述方法。
58、由此可见,本技术具有如下有益效果:
59、本技术提供了一种交互式用户词典构建方法,该方法例如可以包括:首先,响应于目标领域的专家提供的属于目标领域的至少一个专业词语,获得第一词典,该第一词典包括第一词语,第一词语包括至少一个专业词语;接着,基于目标领域的至少一个语料库的分词词语和第一词典,获得第二词典,第二词典所包括的第二词语属于分词词语但与第一词语不同;然后,若确定第二词语与第一词语相似,则将第二词语添加到第一词典,获得第三词典;从而,基于第三词典,获得目标领域的目标用户词典。这样,在需要构建目标领域的用户词典时,仅需要专业领域的专家提供少量的专业词汇,即可基于这些专业词汇和该目标领域的语料库自动构建出该目标领域的目标用户词典,无需标注人员对目标领域的语料库进行全量的标注,对于标注人员不具有目标领域的专业知识的情况,节约了对标注人员的培训以及对目标用户词典的审核成本,或者,对于标注人员为目标领域的专家的情况,大大降低了专家的标注工作量,可见,该方法所构建的目标用户词典不仅质量有保障,而且构建效率也较高,为提升nlp中应用的性能提供了方便和可靠的依据。