本公开涉及大数据数据处理,特别是涉及一种垂直领域内的文本分类方法、装置、计算机设备。
背景技术:
1、随着人工智能的发展,自然语言处理技术在近10年,20年迎来了高速发展,从word2vec到深度学习的序列模型,到transformer、bert以及近几年推出的gpt。在银行业随着金融科技的发展,nlp技术也是得到了广泛应用。内容智能化在财富管理领域的应用也越来越受到重视,应用也越来越丰富。
2、内容智能化应用在财富管理领域的投前投教、投中营销、投后陪伴以及其它场景的客户关系维护都有着很重要的作用。其中内容智能化应用的一个基础能力就是对内容的理解。内容理解最重要的方式就是对内容进行分类和标签化,建立内容的分类体系和标签体系。内容分类和内容的自动标签标注或者是内容的多标签分类属于自然语言处理中的一个很重要的任务。在互联网的各大内容平台都是有着非常深入和广泛的应用。
3、然而,传统技术中的内容分类和内容自动生成标签主要是采用一些深度学习算法,例如利用一些序列模型、卷积神经网络、bert等方法直接进行分类或多标签分类的处理。传统技术中的方法无法针对细分的垂直领域的分类进行处理。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够针对细分的垂直领域的文本进行分类的垂直领域内的文本分类方法、装置、计算机设备。
2、第一方面,本公开提供了一种垂直领域内的文本分类方法。所述方法包括:
3、获取待分类文本,提取所述待分类文本中文本特征,其中,所述待分类文本为目标行业的垂直领域内的文本;
4、基于所述待分类文本、预先确定的与所述目标行业的垂直领域相对应的分类标签体系,确定分类标签体系中每个层级中的待分类文本对应的标签的先验概率,以及确定所述待分类文本对应的多个标签;
5、根据所述文本特征和每个层级中所述待分类文本对应的标签的数量,计算得到每个层级中的条件概率;
6、基于每个层级中的待分类文本对应的标签的先验概率和所述每个层级中的条件概率,并利用朴素贝叶斯公式计算得到所述待分类文本对应的内容分类标签。
7、在其中一个实施例中,所述根据所述文本特征和每个层级中所述待分类文本对应的标签的数量,计算得到每个层级中的条件概率,包括:
8、基于预先确定的扩展库对所述文本特征进行扩展,得到扩展特征组,其中,所述扩展特征组中包括多个与所述文本特征相关联的扩展特征,所述扩展特征之间,所述扩展特征与所述文本特征之间均存在权重关系;所述扩展库包括:所述目标行业的领域词典和知识图谱;
9、根据扩展特征组中与所述文本特征相关联的扩展特征对应的权重关系,确定所述文本特征的综合频次,并根据每个层级中待分类文本对应的标签的数量,计算得到每个层级中的条件概率。
10、在其中一个实施例中,所述扩展特征组采用哈希表的方式进行存储,和/或,对所述扩展特征组构建倒排索引。
11、在其中一个实施例中,所述权重关系基于所述扩展特征之间,所述扩展特征与所述文本特征之间的相关程度确定;所述根据扩展特征组中与所述文本特征相关联的扩展特征对应的权重关系,确定所述文本特征的综合频次,并根据每个层级中待分类文本对应的标签的数量,计算得到每个层级中的条件概率,包括:
12、获取与每个所述文本特征直接或者间接相关联的关联扩展特征,并确定关联扩展特征所对应的权重关系;
13、根据所述关联扩展特征所对应的权重关系之和,确定每个所述文本特征的综合频次;
14、根据目标文本特征和每个层级中待分类文本对应的标签的数量,计算得到每个层级中的条件概率,其中,所述目标文本特征为综合频次最大的文本特征。
15、在其中一个实施例中,所述分类标签体系中包括多个层级,每个层级中存在多个标签;其中,所述层级和所述标签是基于所述目标行业的垂直领域确定的;所述基于所述待分类文本、预先确定的与所述目标行业的垂直领域相对应的分类标签体系,确定分类标签体系中每个层级中的待分类文本对应的标签的先验概率,包括:
16、根据第一个层级中所述待分类文本的标签的数量和所述标签的总数量,确定第一个层级中待分类文本的标签对应的先验概率;
17、根据所述第一个层级中待分类文本的标签对应的先验概率、所述待分类文本在每个层级中对应的标签的数量、每个层级中标签的总数量,确定每个层级中的待分类文本的标签对应的先验概率。
18、在其中一个实施例中,所述根据所述第一个层级中待分类文本的标签对应的先验概率、所述待分类文本在每个层级中对应的标签的数量、每个层级中标签的总数量,确定每个层级中的待分类文本的标签对应的先验概率,包括:
19、计算待分类文本在每个层级中对应的标签的数量与每个层级中标签的总数量的每个层级中标签的数量比值;
20、将所述数量比值进行归一化,根据归一化后的数量比值和所述第一个层级中各个标签对应的先验概率,确定每个层级中的各个标签对应的先验概率。
21、在其中一个实施例中,所述提取所述待分类文本中文本特征,包括:
22、利用关键词抽取技术对所述待分类文本进行特征提取,得到第一特征信息;其中,所述第一特征信息的权重值为预设的第一数值;
23、利用语义分析规则抽取所述待分类文本中的目标语句,基于所述目标语句进行依存分析和语义角色分析;
24、基于依存分析和语义角色分析结果得到第二特征信息;其中,所述第二特征信息的权重值为预设的第二数值;
25、利用预先确定的扩展库对所述待分类文本进行实体匹配抽取,得到第三特征信息,其中,所述第三特征信息的权重值为预设的第三数值;所述第一数值、第二数值、第三数值的大小依次递增;
26、基于所述第一特征信息的权重值、所述第二特征信息的权重值、所述第三特征信息的权重值,提取出所述待分类文本中文本特征。
27、在其中一个实施例中,所述基于所述第一特征信息的权重值、所述第二特征信息的权重值、所述第三特征信息的权重值,提取出所述待分类文本中文本特征,包括:
28、响应于第一特征信息、第二特征信息、第三特征信息中存在相同特征信息,根据相同的第一特征信息、第二特征信息、第三特征信息,确定第四特征信息,以及第四特征信息的权重值;其中,所述第四特征信息的权重值是根据相同的第一特征信息、第二特征信息、第三特征信息对应的权重值相加得到的;
29、根据第一特征信息、第二特征信息、第三特征信息、第四特征信息对应的权重值,提取出所述待分类文本中文本特征。
30、在其中一个实施例中,所述提取所述待分类文本中文本特征之前,所述方法还包括:
31、对所述待分类文本进行预处理,所述预处理包括:利用所述目标行业的领域词典对所述待分类文本进行分词、去停用词。
32、第二方面,本公开还提供了一种垂直领域内的文本分类方法,所述方法包括:
33、获取待分类文本;
34、将所述待分类文本输入至预先训练得到的分类模型中,经由分类模型输出所述待分类文本对应的内容分类标签;
35、其中,所述分类模型包括采用下述方式训练得到:获取训练分类文本,采用上述任一实施例所述方法对所述训练分类文本进行处理,确定所述训练分类文本对应的内容分类标签;基于所述训练分类文本和所述训练分类文本对应的内容分类标签训练语言处理模型后得到分类模型。
36、第三方面,本公开还提供了一种垂直领域内的文本分类装置。所述装置包括:
37、特征提取模块,用于获取待分类文本,提取所述待分类文本中文本特征,其中,所述待分类文本为目标行业的垂直领域内的文本;
38、先验概率确定模块,用于基于所述待分类文本、预先确定的与所述目标行业的垂直领域相对应的分类标签体系,确定分类标签体系中每个层级中的待分类文本对应的标签的先验概率,以及确定所述待分类文本对应的多个标签;
39、条件概率确定模块,用于根据所述文本特征和每个层级中所述待分类文本对应的标签的数量,计算得到每个层级中的条件概率;
40、分类模块,用于基于每个层级中的待分类文本对应的标签的先验概率和所述每个层级中的条件概率,并利用朴素贝叶斯公式计算得到所述待分类文本对应的内容分类标签。
41、在其中一个实施例中,所述条件概率确定模块,包括:
42、特征扩展模块,用于基于预先确定的扩展库对所述文本特征进行扩展,得到扩展特征组,其中,所述扩展特征组中包括多个与所述文本特征相关联的扩展特征,所述扩展特征之间,所述扩展特征与所述文本特征之间均存在权重关系;所述扩展库包括:所述目标行业的领域词典和知识图谱;
43、条件概率计算模块,用于根据扩展特征组中与所述文本特征相关联的扩展特征对应的权重关系,确定所述文本特征的综合频次,并根据每个层级中待分类文本对应的标签的数量,计算得到每个层级中的条件概率。
44、在其中一个实施例中,所述扩展特征组采用哈希表的方式进行存储,和/或,所述扩展特征组存在对应的构建倒排索引。
45、在其中一个实施例中,所述权重关系基于所述扩展特征之间,所述扩展特征与所述文本特征之间的相关程度确定;所述条件概率计算模块,包括:
46、权重关系确定模块,用于获取与每个所述文本特征直接或者间接相关联的关联扩展特征,并确定关联扩展特征所对应的权重关系;
47、综合频次确定模块,用于根据所述关联扩展特征所对应的权重关系之和,确定每个所述文本特征的综合频次;
48、计算子模块,用于根据目标文本特征和每个层级中待分类文本对应的标签的数量,计算得到每个层级中的条件概率,其中,所述目标文本特征为综合频次最大的文本特征。
49、在其中一个实施例中,所述分类标签体系中包括多个层级,每个层级中存在多个标签;其中,所述层级和所述标签是基于所述目标行业的垂直领域确定的;所述先验概率确定模块,包括:
50、第一确定模块,用于根据第一个层级中所述待分类文本的标签的数量和所述标签的总数量,确定第一个层级中待分类文本的标签对应的先验概率;
51、第二确定模块,用于根据所述第一个层级中待分类文本的标签对应的先验概率、所述待分类文本在每个层级中对应的标签的数量、每个层级中标签的总数量,确定每个层级中的待分类文本的标签对应的先验概率。
52、在其中一个实施例中,所述第二确定模块,还用于计算待分类文本在每个层级中对应的标签的数量与每个层级中标签的总数量的每个层级中标签的数量比值;将所述数量比值进行归一化,根据归一化后的数量比值和所述第一个层级中各个标签对应的先验概率,确定每个层级中的各个标签对应的先验概率。
53、在其中一个实施例中,所述特征提取模块,包括:
54、第一提取模块,用于利用关键词抽取技术对所述待分类文本进行特征提取,得到第一特征信息;其中,所述第一特征信息的权重值为预设的第一数值;
55、第二提取模块,用于利用语义分析规则抽取所述待分类文本中的目标语句,基于所述目标语句进行依存分析和语义角色分析;基于依存分析和语义角色分析结果得到第二特征信息;其中,所述第二特征信息的权重值为预设的第二数值;
56、第三提取模块,用于利用预先确定的扩展库对所述待分类文本进行实体匹配抽取,得到第三特征信息,其中,所述第三特征信息的权重值为预设的第三数值;所述第一数值、第二数值、第三数值的大小依次递增;
57、特征确定模块,用于基于所述第一特征信息的权重值、所述第二特征信息的权重值、所述第三特征信息的权重值,提取出所述待分类文本中文本特征。
58、在其中一个实施例中,所述特征确定模块,还用于响应于第一特征信息、第二特征信息、第三特征信息中存在相同特征信息,根据相同的第一特征信息、第二特征信息、第三特征信息,确定第四特征信息,以及第四特征信息的权重值;其中,所述第四特征信息的权重值是根据相同的第一特征信息、第二特征信息、第三特征信息对应的权重值相加得到的;根据第一特征信息、第二特征信息、第三特征信息、第四特征信息对应的权重值,提取出所述待分类文本中文本特征。
59、在其中一个实施例中,所述装置还包括:文本处理模块,用于对所述待分类文本进行预处理,所述预处理包括:利用所述目标行业的领域词典对所述待分类文本进行分词、去停用词。
60、第四方面,本公开还提供了一种垂直领域内的文本分类装置,所述装置包括:数据获取模块,用于获取待分类文本;
61、模型处理模块,用于将所述待分类文本输入至预先训练得到的分类模型中,经由分类模型输出所述待分类文本对应的内容分类标签;其中,所述分类模型包括采用下述方式训练得到:获取训练分类文本,采用上述任一项实施例中所述方法对所述训练分类文本进行处理,确定所述训练分类文本对应的内容分类标签;基于所述训练分类文本和所述训练分类文本对应的内容分类标签训练语言处理模型后得到分类模型。
62、第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法实施例中的步骤。
63、第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
64、第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
65、上述各实施例中,当需要对目标行业的垂直领域内的文本进行分类时,由于目标行业的垂直领域内存在一些专业的知识,传统技术中的处理方式无法进行全面覆盖,因此可以按照待分类文本、预先确定的与所述目标行业的垂直领域相对应的分类标签体系,来确定出每个层级中的待分类文本对应的标签的先验概率,以及确定待分类文本对应的多个标签。能够将待分类文本按照目标行业的垂直领域相对应的分类标签体系进行划分,从而使得待分类文本对应的多个标签均在目标行业的垂直领域内,保证内容分类的专业性,能够更加适配目标行业的垂直领域。并且可以将目标行业垂直领域中的文本的内容分类问题转化为层次多标签分类问题。计算得到先验概率后,通常还需要使用条件概率才能计算得到后验概率。因此还可以提取待分类文本的文本特征,根据所述文本特征和每个层级中所述待分类文本对应的标签的数量,计算得到每个层级中的条件概率。进而根据基于每个层级中的待分类文本对应的标签的先验概率和每个层级中的条件概率,计算得到每个层级中标签的概率,进而利用朴素贝叶斯公式计算得到所述待分类文本对应的内容分类标签。另外,通过使用不同类型的分类标签体系,能够同时兼容处理二分类、多分类、层次分类、层次多标签分类等常见的所有文本分类问题。