本发明涉及信息处理,尤其涉及一种文本分类模型的解析方法及装置。
背景技术:
1、文本分类技术是一种自然语言处理技术。文本分类是指给定一个文本集合和一个标签集合,通过机器学习或深度学习的方法将文本集合中的文本映射到标签集合中的标签,而获取映射关系的载体称为文本分类模型。
2、目前,深度学习在自然语言处理领域取得很大进展,文本分类模型的层数越来越多,结构越来越复杂,文本分类模型也变得难以解释。基于机器学习或深度学习的训练得到的文本分类模型如同一个黑盒,虽然给训练好的文本分类模型输入一条文本数据,文本分类模型即可返回一个分类结果,但是却无法知晓文本分类模型为什么会给输入的文本数据返回这个分类结果,也无法知晓文本分类模型在这个分类结果上都学到了那些文本特征。
技术实现思路
1、有鉴于此,本发明提供了一种文本分类模型的解析方法及装置,用于解决文本分类模型难以解释的问题。
2、为了实现上述目的,本发明实施例提供技术方案如下:
3、第一方面,本发明的实施例提供了一种文本分类模型的解析方法,包括:
4、对目标文本进行分词处理,获取所述目标文本对应的文本片段集合,所述文本片段集合包括多个文本片段;
5、根据所述文本片段集合生成多个采样集合,任一所述采样集合包括所述文本片段集合中的至少一个文本片段;
6、基于预设文本分类模型分别对所述文本片段集合和各个所述采样集合进行分类,获取所述文本片段集合的目标文本类别和各个所述采样集合的文本类别;
7、根据所述目标文本类别、各个所述采样集合的文本类别以及各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度,所述贡献度用于表征所述文本片段对所述预设文本分类模型将所述文本片段集合进行所述目标文本类别的分类的影响程度。
8、作为本发明实施例一种可选的实施方式,所述根据所述文本片段集合生成多个采样集合,包括:
9、基于预设选中概率逐一对所述文本片段集合中的文本片段进行选取;
10、确定选取的文本片段组成的集合是否为空集;
11、若选取的文本片段组成的集合不为空集,则将选取的文本片段组成的集合确定为一个所述采样集合。
12、作为本发明实施例一种可选的实施方式,所述根据所述目标文本类别和各个所述采样集合的文本类别以及各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度,包括:
13、确定各个所述采样集合的文本类别是否为所述目标文本类别,获取确定结果;
14、根据所述确定结果和各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度。
15、作为本发明实施例一种可选的实施方式,所述根据所述确定结果和各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度,包括:
16、根据各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的被采样次数,所述被采样次数为包括所述文本片段的采样集合的数量;
17、根据各个所述采样集合的文本类别是否为所述目标文本类别,获取所述文本片段集合中的各个文本片段的命中次数差值;所述命中次数差值为所述文本片段的正确次数与所述文本片段的错误次数的差值,所述正确次数为包含所述文本片段且文本类别为所述目标文本类别的采样集合的数量,所述错误次数为包含所述文本片段且文本类别不为所述目标文本类别的采样集合的数量;
18、根据所述文本片段集合中的各个文本片段的被采样次数和命中次数差值,获取所述文本片段集合中的各个文本片段的贡献度。
19、作为本发明实施例一种可选的实施方式,所述根据所述文本片段集合中的各个文本片段的被采样次数和命中次数差值,获取所述文本片段集合中的各个文本片段的贡献度,包括:
20、确定所述文本片段集合中的各个文本片段的命中次数差值与所述文本片段集合中的各个文本片段的被采样次数的比值,以获取所述文本片段集合中的各个文本片段的贡献度。
21、作为本发明实施例一种可选的实施方式,所述根据所述目标文本类别和各个所述采样集合的文本类别,获取所述文本片段集合中的各个文本片段的贡献度,包括:
22、获取所述文本片段集合中的各个相同的文本片段的贡献度;
23、确定各个相同的文本片段的贡献度的平均值,获取平均贡献度;
24、将所述平均贡献度确定为各个相同的文本片段的贡献度。
25、作为本发明实施例一种可选的实施方式,所述对目标文本进行分词处理,获取所述目标文本对应的文本片段集合,包括:
26、基于字节对编码bpe算法对所述目标文本进行分词处理,获取所述目标文本对应的文本片段集合。
27、作为本发明实施例一种可选的实施方式,所述方法还包括:
28、获取目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度,所述目标文本集合包括至少一个所述目标文本;
29、根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定的所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度。
30、作为本发明实施例一种可选的实施方式,在根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度之后,所述方法还包括:
31、获取各个文本类别的正向文本片段;
32、其中,任一文本类别的正向文本片段为各个文本片段中对应该文本类别的贡献度大于第一阈值贡献度的文本片段,或者任一文本类别的正向文本片段为各个文本片段中对应该文本类别的贡献度最大的第一预设数量个文本片段。
33、作为本发明实施例一种可选的实施方式,在根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度之后,所述方法还包括:
34、获取各个文本类别的负向文本片段;
35、其中,任一文本类别的负向文本片段为各个文本片段中对应该文本类别的贡献度小于第二阈值贡献度的文本片段,或者任一文本类别的负向文本片段为各个文本片段中对应该文本类别的贡献度最小的第二预设数量个文本片段。
36、第二方面,本发明实施例提供了一种文本分类模型的解析装置,包括:
37、分词单元,用于对目标文本进行分词处理,获取所述目标文本对应的文本片段集合,所述文本片段集合包括多个文本片段;
38、采样单元,用于根据所述文本片段集合生成多个采样集合,任一所述采样集合包括所述文本片段集合中的至少一个文本片段;
39、分类单元,用于基于预设文本分类模型分别对所述文本片段集合和各个所述采样集合进行分类,获取所述文本片段集合的目标文本类别和各个所述采样集合的文本类别;
40、处理单元,用于根据所述目标文本类别、各个所述采样集合的文本类别以及各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度,所述贡献度用于表征所述文本片段对所述预设文本分类模型将所述文本片段集合进行所述目标文本类别的分类的影响程度。
41、作为本发明实施例一种可选的实施方式,
42、所述采样单元,具体用于:
43、基于预设选中概率逐一对所述文本片段集合中的文本片段进行选取;
44、确定选取的文本片段组成的集合是否为空集;
45、若选取的文本片段组成的集合不为空集,则将选取的文本片段组成的集合确定为一个所述采样集合。
46、作为本发明实施例一种可选的实施方式,
47、所述处理单元,具体用于:
48、确定各个所述采样集合的文本类别是否为所述目标文本类别,获取确定结果;
49、根据所述确定结果和各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度。
50、作为本发明实施例一种可选的实施方式,
51、所述处理单元,具体用于:
52、根据各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的被采样次数,所述被采样次数为包括所述文本片段的采样集合的数量;
53、根据各个所述采样集合的文本类别是否为所述目标文本类别,获取所述文本片段集合中的各个文本片段的命中次数差值;所述命中次数差值为所述文本片段的正确次数与所述文本片段的错误次数的差值,所述正确次数为包含所述文本片段且文本类别为所述目标文本类别的采样集合的数量,所述错误次数为包含所述文本片段且文本类别不为所述目标文本类别的采样集合的数量;
54、根据所述文本片段集合中的各个文本片段的被采样次数和命中次数差值,获取所述文本片段集合中的各个文本片段的贡献度。
55、作为本发明实施例一种可选的实施方式,
56、所述处理单元,具体用于:
57、确定所述文本片段集合中的各个文本片段的命中次数差值与所述文本片段集合中的各个文本片段的被采样次数的比值,以获取所述文本片段集合中的各个文本片段的贡献度。
58、作为本发明实施例一种可选的实施方式,
59、所述处理单元,具体用于:
60、获取所述文本片段集合中的各个相同的文本片段的贡献度;
61、确定各个相同的文本片段的贡献度的平均值,获取平均贡献度;
62、将所述平均贡献度确定为各个相同的文本片段的贡献度。
63、作为本发明实施例一种可选的实施方式,所述分词单元,具体用于基于字节对编码bpe算法对所述目标文本进行分词处理,获取所述目标文本对应的文本片段集合。
64、作为本发明实施例一种可选的实施方式,
65、所述获取单元,还用于:
66、获取目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度,所述目标文本集合包括至少一个所述目标文本;
67、根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定的所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度。
68、作为本发明实施例一种可选的实施方式,
69、所述处理单元,还用于:
70、在根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度之后,获取各个文本类别的正向文本片段;
71、其中,任一文本类别的正向文本片段为各个文本片段中对应该文本类别的贡献度大于第一阈值贡献度的文本片段,或者任一文本类别的正向文本片段为各个文本片段中对应该文本类别的贡献度最大的第一预设数量个文本片段。
72、作为本发明实施例一种可选的实施方式,
73、所述处理单元,还用于:
74、在根据所述目标文本集合中的各个文本对应的文本片段集合中的各个文本片段的贡献度和所述预设文本分类模型确定所述目标文本集合中的各个文本对应的文本片段集合的文本类别,获取所述预设文本分类模型的各个文本类别对应的各个文本片段的贡献度之后,获取各个文本类别的负向文本片段;
75、其中,任一文本类别的负向文本片段为各个文本片段中对应该文本类别的贡献度小于第二阈值贡献度的文本片段,或者任一文本类别的负向文本片段为各个文本片段中对应该文本类别的贡献度最小的第二预设数量个文本片段。
76、第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行第一方面或第一方面任一种可选的实施方式所述的文本分类模型的解析方法。
77、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面或第一方面任一种可选的实施方式所述的文本分类模型的解析方法。
78、第五方面,本发明实施例提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机实现第一方面或第一方面任一种可选的实施方式所述的文本分类模型的解析方法。
79、本发明实施例提供的文本分类模型的解析方法首先对目标文本进行分词处理获取所述目标文本对应的包括多个文本片段的文本片段集合,然后根据所述文本片段集合生成多个采样集合,再基于预设文本分类模型分别对所述文本片段集合和各个所述采样集合进行分类获取所述文本片段集合的目标文本类别和各个所述采样集合的文本类别,并根据所述目标文本类别、各个所述采样集合的文本类别以及各个所述采样集合中包含的文本片段,获取所述文本片段集合中的各个文本片段的贡献度。由于所述贡献度能够表征所述文本片段对所述预设文本分类模型将所述文本片段集合进行所述目标文本类别的分类的影响程度,因此通过所述文本片段集合中的各个文本片段的贡献度即可解释所述预设文本分类模型将所述文本片段集合分类为所述目标文本类别的原因,因此本发明实施例可以解决文本分类模型难以解释的问题。