面向多级标签的文本分类方法、装置、设备及存储介质

文档序号:30623277发布日期:2022-07-02 05:17阅读:81来源:国知局
面向多级标签的文本分类方法、装置、设备及存储介质

1.本公开实施例涉及自然语言处理技术领域,尤其涉及一种面向多级标签的文本分类方法、装置、设备及存储介质。


背景技术:

2.近年来,为实现信息资源的高效存储、管理和交换,许多行业都开始开展数据平台的建设。随着信息资源的汇集,对资源的科学管理越发重要,其中,信息标签标注是对信息进行高效检索和管理的重要技术。信息标签标注指对文章的标题和内容进行深度分析,在定义好的标签体系中,找到反映文本主题、话题的一个或者多个标签的任务,也称为多标签分类任务。
3.目前,多标签分类任务主要是在行业标签体系的基础上,每个标签总结子标签或关键词,通过采用关键词匹配的方法,返回关键词对应的标签。近年来,随着深度学习算法的兴起,许多深度学习方法也被应用到多标签分类任务中。
4.但是相关技术对文本进行多标签分类时需要大量的有标注的标签数据,而标签体系大多靠人工构建和维护,存在主观性高,费用高,更新速度慢的问题;通过关键词匹配的标签通常会有很多噪声和误判,造成文本和标签弱相关的情况,准确率较低。另一方面,基于深度学习的多标签分类方法需要大量人工标注的标签,而多标签数据由于标签空间的增加,标注起来更加困难,特别是在文本篇幅比较长的情况下,标注者很可能无法遍历所有标签,而是只给出真实标签的子集;同时,多标签分类相关技术通常只考虑标签而忽略关键词信息,进而容易造成标签召回率低的问题。因而亟需一种简便的面向多级标签的文本分类方法来提高标签标注的准确率。


技术实现要素:

5.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种面向多级标签的文本分类方法、装置、设备及存储介质。
6.本公开实施例的第一方面提供了一种面向多级标签的文本分类方法,该方法包括:
7.获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。
8.本公开实施例的第二方面提供了一种面向多级标签的文本分类装置,该装置包括:
9.获取模块,用于获取文本以及文本中关键词对应的标签;
10.编码模块,用于基于预设的面向多级标签的文本分类模型中的文本编码模型对文
本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;
11.计算模块,用于分别计算文本的特征向量与每个标签的向量之间的余弦相似度;
12.确定模块,用于将余弦相似度大于预设阈值的标签确定为文本的标签。
13.本公开实施例的第三方面提供了一种计算设备,该设备包括存储器和处理器,其中,存储器中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
14.本公开实施例的第四方面提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述第一方面的方法。
15.本公开实施例提供的技术方案与现有技术相比具有如下优点:
16.本公开实施例,通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。本公开实施例通过对文本和现有的类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,减轻了对大量人工标注标签的依赖,降低了人工标注和标签体系的维护成本,提高了标签标注的准确率,使文本分类结果更准确。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
18.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本公开实施例提供的一种面向多级标签的文本分类模型的训练方法的流程图;
20.图2是本公开实施例提供的一种面向多级标签的文本分类模型的bert模型的嵌入层结构示意图;
21.图3是本公开实施例提供的一种面向多级标签的文本分类方法的流程图;
22.图4是本公开实施例提供的一种面向多级标签的文本分类装置的结构示意图。
具体实施方式
23.为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
24.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施
例,而不是全部的实施例。
25.图1是本公开实施例提供的一种面向多级标签的文本分类模型的训练方法的流程图,该方法可以由一种计算设备来执行,该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图1所示,本实施例提供的面向多级标签的文本分类模型的训练方法包括如下步骤:
26.步骤101、获取文本以及文本中关键词对应的标签,构成原始数据集。
27.本公开实施例中,获取文本以及文本中关键词对应的标签可以通过步骤s11-s12获得:
28.s11、基于已有的关键词表,从文本中匹配得到关键词。
29.本公开实施例所称的关键词表可以理解为某个领域预先定义好的关键词的集合,从一个文本中可以匹配得到一个或多个关键词,在一种实施例中,从一个文本中也可能匹配不到关键词,则可以将该文本的标签设置为“其他”。
30.s12、基于关键词和标签之间的映射关系,确定得到文本中的关键词对应的标签。
31.其中,关键词和标签之间的映射关系可以通过已有的标签-关键词体系得到,一个标签可以对应多个关键词,每个文本可以对应一个或者多个标签,该标签-关键词体系可以通过人工构建得到,相关构建技术为现有技术,这里不再赘述。
32.例如,文本“xxx公司制造了首架3d打印无人机,并成功完成了试飞”出现了关键词“3d打印”和“试飞”,因此,在已有的关键词和标签之间的映射关系中,该文本的标签为关键词“3d打印”对应的“结构强度技术”和关键词“试飞”对应的“飞行试验技术”。这里仅是对获取文本中关键词对应的标签的示例性说明,而不是唯一说明。
33.通过上述方式获得多个文本及每个文本对应的多个标签,构成原始数据集,一个文本及其对应的多个标签构成一个样本,原始数据集中包括多个样本。需要说明的是,上述方式中的文本不需要人工标注标签,而是通过文本数据本身获得近似的标签,获得的标签中可能存在噪声,即与文本语义不相符的标签。
34.步骤102、将原始数据集划分成训练集和验证集,将训练集输入面向多级标签的文本分类模型进行训练,在每个批batch内构建正样本和负样本。
35.本公开实施例所称的面向多级标签的文本分类模型是基于对比学习训练的模型,需要将原始数据集划分成训练集和验证集,将训练集输入面向多级标签的文本分类模型进行训练,在每个批batch内构建正样本和负样本。
36.在本公开实施例中,在每个batch内构建正样本和负样本,具体的,可以从数据集中随机抽取n个样本构成一个batch,batch内的任意一个样本包括文本及该文本对应的k个标签,该文本和文本对应的k个标签构成k个正样本,该文本和全量标签集中的其他k-k个标签构成k-k个负样本,这里的全量标签集可以理解为已构建的标签体系中的所有标签,k为全量标签的标签总数。最终,每个batch得到n
·
k个样本,n、k和k为正整数,k≤k。
37.步骤103、对样本中的文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,对标签进行编码处理,得到标签的向量。
38.本公开实施例的面向多级标签的文本分类模型需要正样本和负样本在特征空间进行学习,因此,需将样本中的文本和标签转化为向量表示。
39.本公开实施例所称的文本的特征向量对文本的关键词进行敏感表征,可以理解为
在文本的特征向量中强调关键词信息,体现出该文本匹配到了哪些关键词。在一种实施方式中,可以将非关键词内容和关键词内容分别用不同的方式表示,对关键词进行敏感表征。
40.在本公开实施例中,对文本进行编码处理,可以采用现有的编码模型对文本进行编码,为了强调文本匹配的关键词信息,可以在该编码模型中建立一个关键词嵌入层,将匹配的关键词信息注入到关键词嵌入层中,然后将文本信息转化为文本的特征向量,该文本的特征向量中包含文本的关键词信息,并对文本的关键词进行敏感表征。
41.在本公开实施例的一种实施方式中,对文本进行编码处理的编码模型可以采用bert(bidirectional encoder representations from transformers)模型对文本进行特征向量表示。其中,bert是一种深度双向预训练语言模型,可以通过在大规模语料上运行自监督学习的方法,学习到大量语言、句法、语义信息,可以通过双向表示输出融合上下文语义的文本的特征向量。
42.在bert模型嵌入层原有的三个嵌入特征的基础上,即在标记嵌入层(token embedding),段嵌入层(segment embedding)和位置嵌入层(position embedding)的基础上,添加关键词嵌入层(keyword embedding),将从文本中提取的关键词信息注入该关键词嵌入层,形成对关键字的敏感表征。
43.示例性的,如图2所示的bert模型的嵌入层结构示意图,在bert模型中输入文本“xxxx完成新型雷达飞行测试”,cls(classification)表示分类,[cls]位于输入文本句子的首位,表示可以进行后续的分类任务,sep(separator)表示分隔,[sep]位于输入文本的中间或末尾,用于分开两个输入句子,该文本命中了关键词“飞行测试”,因此在关键词嵌入层,可以将“飞行测试”关键词对应的位置表示为ek,其他位置表示为en,形成了对关键词“飞行测试”的敏感表征。在后续的模型训练过程中,可以随机初始化ek和en的参数,通过最小化损失函数的方法,对模型参数进行更新。
[0044]
bert模型的嵌入层处理完文本信息后,将处理完后的数据输入bert模型中的transformer网络架构,该transformer网络架构可以使输出的文本特征向量表达和包含文本语义信息,经过transformer的网络架构处理后,bert模型最终输出文本的特征向量,该文本的特征向量包含文本的关键词信息。
[0045]
在本公开实施例的一些实施方式中,文本的特征向量可以是transformer最后一层占位符[cls]对应的向量,也可以是transformer第一层和最后一层的输出累加后平均池化得到的向量,这里不作限定。
[0046]
在本公开的一些实施例中,对文本进行编码处理时,编码模型能够接收的文字数量可能是有限的,比如bert模型最多可接受512个字的输入。遇到文本篇幅较长的情况,可以通过从文本中提取标题以及首段和尾段的内容,并对标题以及首段和尾段的内容进行拼接,基于拼接得到的文本内容进行编码处理,得到文本的特征向量。在另一些实施方式中,可以从文本中提取标题和摘要,并对标题和摘要进行拼接,基于拼接得到的文本内容进行编码处理,得到文本的特征向量。
[0047]
在本公开的实施例中,在对文本进行编码之前,为了减少词的变化,降低文本噪声,还可以对文本进行预处理,预处理的方式至少包括删除超文本标记语言(hyper text markup language,html)、繁体字转为简体字、英文大小写统一、删除符合预设正则表达式的内容中的一种。比如对于文本中出现的作者、来源、发布时间等信息,可以通过正则表达
式去除。其中,正则表达式为现有成熟技术,这里不再赘述。
[0048]
在本公开的实施例中,对标签进行编码处理时,由于在很多场景中,标签通常为概括性词语,包括的语义范围较广,表达的语义信息不够具体,具体对应的内容需结合领域知识和关键词加以理解,计算设备很难通过标签字面含义理解其内容。例如,一种标签为“飞行器总体综合设计技术”,对应的关键词包括“飞行器外形设计技术”、“气动布局技术”、“隐身技术”等,如果将“飞行器总体综合设计技术”这个标签输入计算设备,计算设备很难确定该标签具体对应哪些语义信息。因此,在本公开的实施例中,为了避免对标签进行语义表示造成语义复杂度增加的问题,可以采用现有的编码模型对标签进行编码,将标签信息转化为标签的向量,该标签的向量中不包含标签的语义信息,模型仅对文本的特征向量和标签的向量之间映射关系进行建模。
[0049]
在本公开实施例的一种实施方式中,可以将离散标签通过one-hot编码映射成向量表示,然后通过矩阵变换改变该向量维度,使得到的标签的向量和文本的特征向量维度相同,输出标签的向量,在模型训练过程中构建并随机初始化矩阵,通过反向传播和最小化损失函数,确定矩阵中的参数,实现对文本的特征向量和标签的向量之间映射关系进行建模的目的。这里的one-hot编码为现有成熟技术,这里不再赘述。
[0050]
示例性的,假设one-hot向量为其中,r表示实数集,即包含所有有理数和无理数的集合,k是标签的总数。在模型训练过程中,构建并随机初始化矩阵a,a∈r
m*k
,其中m为bert模型的特征维度,则标签的向量的计算公式为在模型训练过程中通过反向传播和最小化损失函数,确定矩阵a中的参数。
[0051]
步骤104、将文本的特征向量和每个标签的向量输入损失函数,确定损失值,通过最小化损失函数的方法迭代更新模型参数。
[0052]
本公开实施例中所称的损失函数,可以理解为将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型的准确率。
[0053]
本公开实施例中的损失函数可以采用infonce(information noise contrastive estimation)损失函数,该函数是一种用于自监督学习的对比损失函数,其中nce(noise contrastive estimation)表示噪声对比估计。具体的,将上述步骤获得的正样本的文本的特征向量和每个标签的向量以及该正样本对应的负样本的文本的特征向量和每个标签的向量输入该损失函数中,该损失函数可以表示为下列形式:
[0054][0055]
其中,(qi,p
i+
)表示第i个样本且属于正样本集合,其中qi表示文章的特征向量,p
i+
表示标签的向量;
[0056]
(qj,p
j+
)表示第j个样本且属于正样本集合,其中qj表示的文章的特征向量,p
j+
表示标签的向量;
[0057]
(qj,p
j-)表示第j个样本且属于负样本集合,其中qj表示的文章的特征向量,p
j-表示标签的向量;
[0058]
sim表示余弦相似度;
[0059]
τ表示温度参数,是模型超参数;
[0060]
i表示第i个样本输入;
[0061]
j表示第j个样本输入;
[0062]k+
表示正样本集合,k-表示负样本集合。
[0063]
这里的余弦相似度,可以理解为两个向量夹角的余弦值,是基于空间中两个向量的角度比较的,两向量在空间中的角度越近,两向量越相似,余弦相似度可以作为比较文本的特征向量与标签的向量之间相似度的度量标准,这里的余弦相似度的范围为0到1,余弦相似度越大,则两向量越相似。
[0064]
本公开实施例中的损失函数的值可以定义为损失值,可以理解为一个非负实数,表示面向多级标签的文本分类模型的损失或误差,损失值越小,说明文本的特征向量与标签的向量之间的余弦相似度越大,模型的准确率越高。
[0065]
在本公开实施例的一种实施方式中,可以在反向传播过程中,使用adam优化器通过最小化损失函数的方法迭代更新模型参数,直到达到停止条件,这里的adam优化器为现有成熟技术,这里不再赘述。也可以使用其他相关技术最小化损失函数,这里不作限制。
[0066]
步骤105、基于训练集对面向多级标签的文本分类模型进行训练,基于验证集对面向多级标签的文本分类模型进行验证,计算模型在验证集上的损失值,直到模型在验证集上的损失值小于或等于第一预设阈值,停止训练,确定该面向多级标签的文本分类模型的最终参数。
[0067]
在本公开实施例中,损失值的第一预设阈值可以设置为损失函数的最小值,即损失函数的值达到最小,可以理解为损失值收敛保持不变或不再下降,即模型的准确率达到最高,说明文本的特征向量和标签的向量相似的概率达到了最大,也就是说,文本的特征向量与该标签的向量的余弦相似度达到最大,此时标签的向量对应的标签即为最接近该文本语义的标签。
[0068]
本公开的另一些实施例中,损失值的第一预设阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,对此不作限定。
[0069]
基于训练集对面向多级标签的文本分类模型进行训练,基于验证集对面向多级标签的文本分类模型进行验证,计算模型在验证集上的损失值,若损失值大于第一预设阈值,则继续对模型进行训练;若损失值小于或等于第一预设阈值,则停止训练,将此时损失值小于或等于第一预设阈值的面向多级标签的文本分类模型的参数确定为模型的最终参数。
[0070]
在本公开的另一些实施例中,基于验证集对面向多级标签的文本分类模型进行验证,还可以在预设的周期次数内进行验证,在每一个预设周期计算模型在验证集上的损失值,当模型在预设的周期次数内验证集的损失值没有进一步下降,则停止训练,将上周期迭代结果中的参数确定为模型的最终参数。
[0071]
本公开实施例中的面向多级标签的文本分类模型,通过大量数据的多次训练,拉近正样本(相似样本)在特征空间的距离、拉远负样本在特征空间的距离,来刻画样本的特征表示,学习到针对文本的文本编码模型和针对标签的标签编码模型。在标签包含噪声的数据条件下,只要数据量够大,模型依然可以学习到标签和文本的正确对应关系。
[0072]
本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0073]
本公开实施例,通过获取文本以及文本中关键词对应的标签,构成原始数据集;将原始数据集划分成训练集和验证集,将训练集输入面向多级标签的文本分类模型进行训练,在每个批处理batch内构建正样本和负样本;对样本中的文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,对标签进行编码处理,得到标签的向量;将文本的特征向量和每个标签的向量输入损失函数,确定损失值;基于训练集对面向多级标签的文本分类模型进行训练,基于验证集对面向多级标签的文本分类模型进行验证,计算模型在验证集上的损失值,直到模型在验证集上的损失值小于或等于第一预设阈值,停止训练,确定该面向多级标签的文本分类模型的最终参数,得到面向多级标签的文本分类模型,可以应用于面向多级标签的文本分类。本公开实施例通过对文本和现有的类别标签进行面向多级标签的文本分类模型的训练得到面向多级标签的文本分类模型,在面向多级标签的文本分类模型的输入中添加关键词嵌入层,将文本中的关键词有效地注入到模型中,形成对关键词的敏感表征,将海量噪声数据当做训练信号,通过对比学习的方法,学习到针对文本的文本编码模型和针对标签的标签编码模型,达到文本和相关的标签距离近,不相关的标签距离远的效果,模型应用于面向多级标签的文本分类,可以大大减轻对大量人工标注标签的依赖,提高标签标注的准确率,使文本分类结果更准确,而且模型除了学习到已有的关键词和标签之间的映射关系,还可以学习到新的关键词和标签之间的映射关系,具有良好的泛化能力,降低了人工标注和标签体系的维护成本。
[0074]
图3是本公开实施例提供的一种面向多级标签的文本分类方法的流程图,该方法可以由一种计算设备来执行。该计算设备可以理解为任意一种具有计算功能和处理能力的设备。如图3所示,本实施例提供的面向多级标签的文本分类方法包括如下步骤:
[0075]
步骤301、获取文本以及文本中关键词对应的标签。
[0076]
本公开实施例中的获取文本以及文本中关键词对应的标签的方式与上述步骤101中的步骤s11-s12相同,这里不再赘述。
[0077]
步骤302、基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量。
[0078]
本公开实施例所称的文本的特征向量对文本的关键词进行敏感表征,可以理解为在文本的特征向量中强调关键词信息,体现出该文本匹配到了哪些关键词。在一种实施方式中,可以将非关键词内容和关键词内容分别用不同的方式表示,对关键词进行敏感表征。
[0079]
本公开实施例所称的预设的面向多级标签的文本分类模型为图1中训练得到的面向多级标签的文本分类模型,将获得的文本输入图1中训练得到的面向多级标签的文本分类模型中的文本编码模型,将获得的标签输入图1中训练得到的面向多级标签的文本分类模型中的标签编码模型,基于该文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于该标签编码模型对标签进行编码处理,得到标签的向量。
[0080]
在本公开的实施例中,在对文本进行编码之前,为了减少词的变化,降低文本噪声,还可以对文本进行预处理,预处理的方式至少包括删除超文本标记语言(hyper text markup language,html)、繁体字转为简体字、英文大小写统一、删除符合预设正则表达式
的内容中的一种。比如对于文本中出现的作者、来源、发布时间等信息,可以通过正则表达式去除。其中,正则表达式为现有成熟技术,这里不再赘述。
[0081]
本公开实施例中,对文本进行编码处理时,面向多级标签的文本分类模型能够接收的文字数量可能是有限的。遇到文本篇幅较长的情况,可以通过从文本中提取标题以及首段和尾段的内容,并对标题以及首段和尾段的内容进行拼接,基于拼接得到的文本内容进行编码处理,得到文本的特征向量。在另一些实施方式中,可以从文本中提取标题和摘要,并对标题和摘要进行拼接,基于拼接得到的文本内容进行编码处理,得到文本的特征向量。
[0082]
步骤303、分别计算文本的特征向量与每个标签的向量之间的余弦相似度。
[0083]
本公开实施例中所称的余弦相似度,可以理解为通过计算两个向量的夹角的余弦值来评估它们之间的相似度。本公开实施例中的余弦相似度的范围为0到1,余弦相似度越大,则可以理解为文本的特征向量与标签的向量越相似。余弦相似度的计算方式已在相关技术中公开,可以参考相关技术进行计算,这里不再赘述。
[0084]
步骤304、将余弦相似度大于预设阈值的标签确定为文本的标签。
[0085]
本公开实施例中,余弦相似度的预设阈值可以由用户根据实际需求进行设置,也可以由计算设备默认设置,对此不作限定。
[0086]
本公开实施例中,若余弦相似度小于或等于预设阈值,则舍弃余弦相似度小于或等于预设阈值对应的标签;若余弦相似度大于预设阈值,则将余弦相似度大于预设阈值对应的标签确定为文本的标签,该标签可能有一个或多个,都可以认为是最接近文本语义的标签。
[0087]
本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0088]
本公开实施例通过获取文本以及文本中关键词对应的标签;基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;分别计算文本的特征向量与每个标签的向量之间的余弦相似度;将余弦相似度大于预设阈值的标签确定为文本的标签。本公开实施例通过对文本和现有的类别标签进行编码处理和余弦相似度计算处理,选择出文本内容相匹配的标签,大大减轻了对大量人工标注标签的依赖,降低了人工标注和标签体系的维护成本,提高了标签标注的准确率,使文本分类结果更准确。
[0089]
图4是本公开实施例提供的一种面向多级标签的文本分类装置的结构示意图,该装置可以被理解为上述计算设备或者上述计算设备中的部分功能模块。如图4所示,该面向多级标签的文本分类装置400包括:
[0090]
获取模块410,用于获取文本以及文本中关键词对应的标签;
[0091]
编码模块420,用于基于预设的面向多级标签的文本分类模型中的文本编码模型对文本进行编码处理,得到文本的特征向量,文本的特征向量对文本的关键词进行敏感表征,基于预设的面向多级标签的文本分类模型中的标签编码模型,对标签进行编码处理,得到标签的向量;
[0092]
计算模块430,用于分别计算文本的特征向量与每个标签的向量之间的余弦相似度;
[0093]
确定模块440,用于将余弦相似度大于预设阈值的标签确定为文本的标签。
[0094]
可选的,上述获取模块410,包括:
[0095]
第一匹配子模块,用于基于已有的关键词表,从文本中匹配得到关键词;
[0096]
第一确定子模块,用于基于关键词和标签之间的映射关系,确定得到文本中的关键词对应的标签。
[0097]
可选的,该面向多级标签的文本分类装置400还包括:
[0098]
预处理模块,用于对文本进行预处理,预处理的方式至少包括删除超文本标记语言、繁体字转为简体字、英文大小写统一、删除符合预设正则表达式的内容中的一种。
[0099]
可选的,上述编码模块420,包括:
[0100]
第一拼接子模块,用于从文本中提取标题以及首段和尾段的内容,并对标题以及首段和尾段的内容进行拼接,或者从文本中提取标题和摘要,并对标题和摘要进行拼接;
[0101]
第一编码子模块,用于基于拼接得到的文本内容进行编码处理,得到特征向量。
[0102]
本实施例提供的面向多级标签的文本分类装置能够执行上述图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
[0103]
本公开实施例还提供一种计算设备,该计算设备包括处理器和存储器,其中,存储器中存储有计算机程序,当该计算机程序被该处理器执行时可以实现上述图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
[0104]
本公开实施例提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,当该计算机程序被处理器执行时,可以实现上述图3中任一实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
[0105]
上述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0106]
上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0107]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0108]
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1