获得文本分类模型的方法，文本分类的方法及装置与流程

文档序号：31726144发布日期：2022-10-05 00:37阅读：39来源：国知局

1.本说明书实施例涉及计算机技术领域，特别涉及获得文本分类模型的方法，文本分类的方法。

背景技术：

2.文本分类是文本处理中重要的处理方式，应用也非常广泛，例如，实体识别，垃圾过滤，新闻分类，词性标注等等。目前，文本分类的方法中，先由人工对大量文本进行标注，获得分类样本及对应的标签，然后通过监督模型学习输入序列到标签序列的映射关系，实现自动分类。
3.但是，目前的文本分类方法有时仍难以取得较好的分类效果，因此，如何取得更好的文本分类效果是文本处理中亟需解决的问题。

技术实现要素：

4.有鉴于此，本说明书实施例提供了一种获得文本分类模型的方法，一种文本分类的方法。本说明书一个或者多个实施例同时涉及一种获得文本分类模型的装置，一种文本分类的装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
5.根据本说明书实施例的第一方面，提供了一种获得文本分类模型的方法，包括：获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息；将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型；其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
6.可选地，所述文本分类模型还包括：序列特征提取层；所述序列特征提取层，用于获取所述信息提取层输出的所述文本元素的向量，将所述文本元素序列与其他文本元素序列之间的上下文特征融合到所述向量中。
7.可选地，所述文本分类模型基于transformer-lstm模型构建，所述信息提取层对应transformer模型，所述序列特征提取层对应lstm模型。
8.可选地，所述文本元素序列为字符序列，其中，每条字符序列包括若干个字符以及每个字符的字符位置，所述位置信息为所述规则在所述若干个字符中匹配的字符的字符位置。
9.可选地，所述规则的规则信息为规则唯一标识。
10.可选地，所述文本分类模型，用于对文本中的实体进行识别。
11.可选地，还包括：获取文本元素序列；利用预设的多个实体识别规则对所述文本元素序列进行实体识别；根据所述实体识别的结果，将从所述文本元素序列中识别出实体的实体识别规则确定为所述文本元素序列匹配的规则，并根据所述实体识别的结果获得所述
规则在所述文本元素序列中匹配位置的位置信息。
12.可选地，所述将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型，包括：从输入序列的集合中，获取任一条输入序列，其中，所述输入序列集包含多条输入序列；将获取的所述任一条输入序列输入文本分类模型，得到所述文本分类模型输出的分类结果；根据所述分类结果与所述任一条输入序列的标签，计算得到损失值；若所述损失值大于预设损失阈值，调整所述文本分类模型的模型参数，返回到所述从输入序列的集合中，获取任一条输入序列的步骤以便继续训练；若所述损失值小于等于预设损失阈值，得到训练后的文本分类模型。
13.根据本说明书实施例的第二方面，提供了一种文本分类的方法，包括：获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息；将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如权利要求1所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
14.根据本说明书实施例的第三方面，提供了一种文本分类的装置，包括：文本获取模块，被配置为获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。分类执行模块，被配置为将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
15.根据本说明书实施例的第四方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书任意实施例所述获得文本分类模型的方法，或者，实现本说明书任意实施例所述文本分类的方法的步骤。
16.根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本说明书任意实施例所述获得文本分类模型的方法，或者，实现本说明书任意实施例所述文本分类的方法的步骤。
17.本说明书一个实施例提供了获得文本分类模型的方法，由于该方法先获取输入序列的集合，其中，所述输入序列包括：文本元素序列、所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息，然后将输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型，文本分类模型的信息提取层在计算文本元素的向量时，能够基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，使得模型可以从大规模标注数据中学习规则与文本向量的关联关系，自主决定规则的生效时机，相当于将规则匹配信息动态融入到文本分类模型，从而基于该文本分类模型进行文本分类时，能够使规则与模型相辅相成，更加有效地提高文本分类的精度。
附图说明
18.图1是本说明书一个实施例提供的获得文本分类模型的具体处理场景示意图；
19.图2是本说明书一个实施例提供的获得文本分类模型的方法的流程图；
20.图3是本说明书一个实施例提供的获得文本分类模型的方法的处理过程流程图；
21.图4是本说明书一个实施例提供的获得文本分类模型的装置的结构示意图；
22.图5是本说明书一个实施例提供的文本分类的方法的结构示意图；
23.图6是本说明书一个实施例提供的文本分类的装置的结构示意图；
24.图7是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
25.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
26.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
27.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
28.在文本分类处理中，可以有两种途径实现分类：规则模型以及监督模型。
29.规则模型，是指人工总结规则(如正则表达式)，通过规则匹配的方式实现分类。例如，在实体识别场景中，如实体识别规则“手机号-131[0-9]{8}”(表示识别以131开头的11位数字)，对于输入“我的手机号是13112344321”能够识别出手机号：13112344321。规则模型的方法的优点是可解释性强，准确率高。
[0030]
监督模型，是指先有人工对大量文本进行标注，例如，在实体识别场景中，可以标记文本中实体的位置，然后通过监督模型(如crf，conditional random field,条件随机场)学习输入序列到标签序列的映射关系，实现自动打标。这种方法的优点是泛化性强。
[0031]
在实际应用中，这两种方法可以结合的方式包括：规则作为前处理；规则独立使用；规则作为后处理。这几种方式中，规则的生效时机都由人规定，监督模型的训练与规则预测方式不一致(也即监督模型预测受到规则干预)，导致训练所得的模型在预测时不一定是优化的模型，难以有效提高分类效果。
[0032]
有鉴于此，在本说明书中，提供了一种获得文本分类模型的方法，一种文本分类的方法，本说明书同时涉及一种获得文本分类模型的装置，一种文本分类装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。
[0033]
本说明书实施例提供的获得文本分类模型的方法提出了基于监督学习的文本分类模型中融入规则的方式，结合二者的优点，能够从大规模标注数据中学习与上下文的关联。具体地，例如，如图1所示的获得文本分类模型的具体处理场景示意图所示的，将文本元素序列，规则信息以及规则在文本元素序列中匹配位置的位置信息输入文本分类模型进行
训练。其中，文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，使得模型能够自主选择规则生效时机，两种模型可以更加有效的结合，有效提高分类效果。在图1所示的处理场景中，文本分类模型中的信息提取层具体表现为transformer模型。另外，文本分类模型还可以包括序列特征提取层。其中，序列特征提取层例如可以基于lstm(long short-term memory,长短期记忆网络)实现。
[0034]
参见图2，图2示出了根据本说明书一个实施例提供的一种获得文本分类模型的方法的流程图，具体包括以下步骤。
[0035]
步骤202：获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息。
[0036]
所述文本元素序列，是指具有顺序的若干个文本元素组成的序列。其中，文本元素是指字符，词等按场景需要的任意规格划分的文本元素。例如，可以预先对大规模文本进行文本元素序列的划分，并对文本元素序列进行标注以确定对应的标签，从而取得包含大量文本元素序列的文本样本集，以便利用该文本样本集实现对文本分类模型的训练。例如，如图1所示的处理场景示意图，文本元素序列以“cls”前缀来区分各个序列，“qc300上市”是一条由字符组成的文本元素序列，每个字符具有各自的位置编码。如字符“q”的位置编码为“1”以及“1”。其中上面的“1”表示开始位置，下面的“1”表示结束位置。
[0037]
所述规则，是指用于对文本进行分类的表达式。例如，所述规则可以是文本分类的正则表达式。如正则表达式：“手机号-131[0-9]{8}”。所述规则信息，可以是能够确定某个具体规则的信息，例如，规则名称，规则唯一标识等。例如，如图1所示的处理场景示意图，所述规则信息为规则唯一标识“r1”。
[0038]
所述位置信息，是指规则在所述文本元素序列中匹配位置的位置信息。例如，如图1所示的处理场景示意图，规则“r1”在“qc300上市”中匹配的字符包括“qc300”，因此，所述规则在文本元素序列中匹配位置的位置信息为“1”和“5”，表示规则所匹配的字符为从“1”到“5”范围内的字符。
[0039]
步骤204：将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型；其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
[0040]
结合图1所示场景，本说明书一个或多个实施例中，所述文本元素序列可以为字符序列，其中，每条字符序列包括若干个字符以及每个字符的字符位置，所述位置信息为所述规则在所述若干个字符中匹配的字符的字符位置。
[0041]
相应地，将输入序列输入文本分类模型进行训练，可以包括：
[0042]
将字符序列，字符序列匹配的规则的规则信息，以及规则在所述字符序列中匹配位置的位置信息输入文本分类模型进行训练。
[0043]
在该实施例中，以字符划分文本元素，在例如识别电话号码等实体识别任务中，字符的向量中融合了匹配的规则信息以及位置信息，能够使实体识别规则与文本分类模型相辅相成，准确地识别出实体。
[0044]
其中，所述文本分类模型，由于其输入为文本元素序列，且信息提取层支持位置编码的注意力机制，因此，所述文本分类模型的信息提取层具体可以表现为序列标注模型transformer。
[0045]
为了使本说明书实施例提供的方法更加易于理解，下面对transformer模型进行示意性说明。在transformer模型中，输入为具有顺序的多个元素(本说明书中表现为文本元素以及规则信息元素)的序列。
[0046]
以单头transformer为例进行说明，对于一个长度为n的输入序列x,其中，x＝(x1,
…
，xn)，xi表示任一元素(包括文本元素，规则信息元素),i的取值范围为(1,
…
，n)。通过transformer的处理，输出得到序列z,其中，z＝(z1,
…
，zn),zi表示元素xi对应的向量。zi的计算方式为x中各元素的加权和，如下公式：
[0047][0048]
其中，wv是transformer模型参数，a
i,j
对应如下的支持位置编码的注意力机制的计算方法得到的权重a
i,j
：
[0049][0050]
其中，w
qt
，w
k,r
均为模型参数，表示xi的向量，表示xj的向量，r
i-j
表示相对位置编码。
[0051]
可以理解的是，相对位置编码中，包括文本元素在文本序列中的相对位置的位置信息，以及，规则所匹配位置的位置信息，因此，基于上述公式计算出的zi中融入了规则匹配信息，，能够使规则与模型相辅相成，更加有效地提高文本分类的精度。
[0052]
可见，由于该方法先获取输入序列的集合，其中，所述输入序列包括：文本元素序列、所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息，然后将输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型，文本分类模型的信息提取层在计算文本元素的向量时，能够基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，使得模型可以从大规模标注数据中学习规则与文本向量的关联关系，自主决定规则的生效时机，相当于将规则匹配信息动态融入到文本分类模型，从而基于该文本分类模型进行文本分类时，能够使规则与模型相辅相成，更加有效地提高文本分类的精度。
[0053]
另外，所述文本分类模型还可以包括：序列特征提取层。所述序列特征提取层，用于获取所述信息提取层输出的所述文本元素的向量，将所述文本元素序列与其他文本元素序列之间的上下文特征融合到所述向量中。可以理解的是，所述序列特征提取层为所述文本分类模型的可选层，在实际应用场景中，可以根据实际需要选择采用或不采用该序列特征提取层。在采用序列特征提取层的情况下，可以有效提取上下文特征，获取每个文本元素融合了上下文信息的向量表示。
[0054]
其中，所述序列特征提取层的具体实现方式不限，例如，在图1中，序列特征提取层以lstm为例，实际应用中可以通过其他方式实现。再例如，可以通过叠加transformer模型来实现序列特征提取层。
[0055]
本说明书一个或多个实施例中，所述文本分类模型基于transformer-lstm模型构建，所述信息提取层对应transformer模型，所述序列特征提取层对应lstm模型。
[0056]
本说明书实施例提供的文本分类模型的具体应用场景不限。例如，一个或多个实施例中，所述文本分类模型，为用于对文本中的实体进行识别的模型。实体识别是指从文本序列中找出属于预定义类别的一串或多串文字。
[0057]
本说明书实施例提供的方法中获取文本元素序列的方式不限，例如，在获得相关授权的情况下，可以通过网络交易平台获得大规模网络交易文本，再例如，可以通过人机对话的对话日志获得大规模人机对话文本，等等。
[0058]
结合上述对实体进行识别的实施方式，在获得文本元素序列之后，为了便于快速获得文本元素序列匹配的规则以及匹配位置的位置信息，可以利用预设的多个实体识别规则对所述文本元素序列进行实体识别，根据所述实体识别的结果，将从所述文本元素序列中识别出实体的实体识别规则确定为所述文本元素序列匹配的规则，并根据所述实体识别的结果获得所述规则在所述文本元素序列中匹配位置的位置信息。
[0059]
下述结合附图3，以本说明书提供的获得文本分类模型的方法在实体识别的应用为例，对所述获得文本分类模型的方法进行进一步说明。在该实施例中，所述文本分类模型，用于对文本中的实体进行识别。其中，图3示出了本说明书一个实施例提供的一种获得文本分类模型的方法的处理过程流程图，具体包括以下步骤。
[0060]
步骤302：获取字符序列的集合。
[0061]
步骤304：利用预设的多个实体识别规则对所述字符序列进行实体识别。
[0062]
步骤306：根据所述实体识别的结果，将从所述字符序列中识别出实体的实体识别规则确定为所述字符序列匹配的规则，并根据所述实体识别的结果获得所述规则在所述字符序列中匹配位置的位置信息。
[0063]
步骤308：根据所述字符序列的集合，所述字符序列匹配的规则，以及所述规则在所述字符序列中匹配位置的位置信息，得到输入序列的集合。
[0064]
步骤310：将输入序列的集合中的输入序列逐条输入文本分类模型进行训练，获得训练后的文本分类模型。
[0065]
例如，如图1所示的处理场景示意图，输入序列包含两类信息：字符序列(包括多个字符和每个字符的位置信息)、规则匹配信息(包括规则唯一标识和匹配位置的位置信息)。
[0066]
如对于输入字符序列“qc300上市”匹配到规则项“[a-za-z0-9]+”,那么规则匹配信息部分包含：规则唯一标识“r1”和匹配位置的位置信息“1
”‑“
5”。
[0067]
在上述实施例中，通过支持位置编码的注意力机制，模型将规则匹配信息融合到输入字符的隐层向量表示计算过程。
[0068]
需要说明的是，本说明书实施例提供的获得文本分类模型的方法，在对文本分类模型进行文本分类的训练时，可以通过大量的输入序列对文本分类模型进行训练。具体地，例如，所述将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型，可以包括：
[0069]
从输入序列的集合中，获取任一条输入序列，其中，所述输入序列集包含多条输入序列；
[0070]
将获取的所述任一条输入序列输入文本分类模型，得到所述文本分类模型输出的
分类结果；
[0071]
根据所述分类结果与所述任一条输入序列的标签，计算得到损失值；
[0072]
若所述损失值大于预设损失阈值，调整所述文本分类模型的模型参数，返回到所述从输入序列的集合中，获取任一条输入序列的步骤以便继续训练；
[0073]
若所述损失值小于等于预设损失阈值，得到训练后的文本分类模型。
[0074]
通过上述训练过程，可以得到分类的损失达到最小的文本分类模型。
[0075]
与上述获得文本分类模型的方法实施例相对应，本说明书还提供了获得文本分类模型的装置实施例，图4示出了本说明书一个实施例提供的一种获得文本分类模型的装置的结构示意图。如图4所示，该装置包括：
[0076]
样本获取模块402，可以被配置为获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息。
[0077]
训练模块404，可以被配置为将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型。
[0078]
其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
[0079]
由于该装置先获取输入序列的集合，其中，所述输入序列包括：文本元素序列、所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息，然后将输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型，文本分类模型的信息提取层在计算文本元素的向量时，能够基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，使得模型可以从大规模标注数据中学习规则与文本向量的关联关系，自主决定规则的生效时机，相当于将规则匹配信息动态融入到文本分类模型，从而基于该文本分类模型进行文本分类时，能够使规则与模型相辅相成，更加有效地提高文本分类的精度。
[0080]
本说明书一个或多个实施例中，所述文本分类模型还包括：序列特征提取层。所述序列特征提取层，用于获取所述信息提取层输出的所述文本元素的向量，将所述文本元素序列与其他文本元素序列之间的上下文特征融合到所述向量中。
[0081]
本说明书一个或多个实施例中，所述文本分类模型基于transformer-lstm模型构建，所述信息提取层对应transformer模型，所述序列特征提取层对应lstm模型。
[0082]
本说明书一个或多个实施例中，所述文本元素序列为字符序列，其中，每条字符序列包括若干个字符以及每个字符的字符位置，所述位置信息为所述规则在所述若干个字符中匹配的字符的字符位置。
[0083]
本说明书一个或多个实施例中，所述规则的规则信息为规则唯一标识。
[0084]
本说明书一个或多个实施例中，所述文本分类模型，用于对文本中的实体进行识别。
[0085]
本说明书一个或多个实施例中，所述装置还可以包括：
[0086]
实体识别模块，被配置为获取文本元素序列，利用预设的多个实体识别规则对所述文本元素序列进行实体识别；
[0087]
位置确定模块，被配置为根据所述实体识别的结果，将从所述文本元素序列中识
别出实体的实体识别规则确定为所述文本元素序列匹配的规则，并根据所述实体识别的结果获得所述规则在所述文本元素序列中匹配位置的位置信息。
[0088]
本说明书一个或多个实施例中，所述训练模块404，可以包括：
[0089]
样本抽取子模块，可以被配置为从输入序列的集合中，获取任一条输入序列，其中，所述输入序列集包含多条输入序列。
[0090]
样本输入子模块，可以被配置为将获取的所述任一条输入序列输入文本分类模型，得到所述文本分类模型输出的分类结果。
[0091]
损失计算子模块，可以被配置为根据所述分类结果与所述任一条输入序列的标签，计算得到损失值。
[0092]
参数调整子模块，可以被配置为若所述损失值大于预设损失阈值，调整所述文本分类模型的模型参数，返回到所述从输入序列的集合中，获取任一条输入序列的步骤以便继续训练；
[0093]
模型获得子模块，可以被配置为若所述损失值小于等于预设损失阈值，得到训练后的文本分类模型。
[0094]
上述为本实施例的一种获得文本分类模型的装置的示意性方案。需要说明的是，该获得文本分类模型的装置的技术方案与上述的获得文本分类模型的方法的技术方案属于同一构思，获得文本分类模型的装置的技术方案未详细描述的细节内容，均可以参见上述获得文本分类模型的方法的技术方案的描述。
[0095]
与上述获得文本分类模型的方法实施例相对应，本说明书还提供了文本分类的方法实施例，图5示出了本说明书一个实施例提供的一种文本分类的方法的结构示意图。如图5所示，该方法包括：
[0096]
步骤502：获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。
[0097]
步骤504：将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
[0098]
由于该方法使用的文本分类模型的信息提取层在计算文本元素的向量时，能够基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，该模型从大规模标注数据中学习到了规则与文本向量的关联关系，因此，在实际分类时，能够自主决定规则的生效时机，使规则与模型相辅相成，更加有效地提高文本分类的精度。
[0099]
本说明书实施例提供的文本分类的方法的应用场景不限，例如，可以应用于实体识别的场景。在该应用场景中，可以先将预设的多个实体识别规则对待分类文本元素序列进行实体识别，根据所述实体识别的结果，将从所述待分类文本元素序列中识别出实体的实体识别规则确定为所述待分类文本元素序列匹配的规则，并根据所述实体识别的结果获得所述规则在所述待分类文本元素序列中匹配位置的位置信息。进而，可以将待分类文本元素序列以及匹配的规则的规则信息以及匹配位置的位置信息输入训练后的文本分类模型，从而获得文本分类模型识别出的实体。
[0100]
与上述文本分类的方法实施例相对应，本说明书还提供了文本分类的装置实施
例，图6示出了本说明书一个实施例提供的一种文本分类的装置的结构示意图。如图6所示，该装置包括：
[0101]
文本获取模块602，可以被配置为获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。
[0102]
分类执行模块604，可以被配置为将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
[0103]
由于该装置使用的文本分类模型的信息提取层在计算文本元素的向量时，能够基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中，该模型从大规模标注数据中学习到了规则与文本向量的关联关系，因此，在实际分类时，能够自主决定规则的生效时机，使规则与模型相辅相成，更加有效地提高文本分类的精度。
[0104]
图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。
[0105]
计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
[0106]
在本说明书的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
[0107]
计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
[0108]
其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述获得文本分类模型的方法的步骤。例如，包括：
[0109]
获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息；
[0110]
将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型；
[0111]
其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
[0112]
或者，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本分类的方法的步骤。例如，包括：
[0113]
获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。
[0114]
将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
[0115]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的获得文本分类模型的方法，文本分类的方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述获得文本分类模型的方法，文本分类的方法的技术方案的描述。
[0116]
本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述获得文本分类模型的方法的步骤。例如，包括：
[0117]
获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息；
[0118]
将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型；
[0119]
其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
[0120]
或者，该计算机可执行指令被处理器执行时实现上述文本分类的方法的步骤。例如，包括：
[0121]
获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。
[0122]
将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
[0123]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的获得文本分类模型的方法，文本分类的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述获得文本分类模型的方法，文本分类的方法的技术方案的描述。
[0124]
本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述获得文本分类模型的方法的步骤。例如，包括：
[0125]
获取输入序列的集合，其中，所述输入序列包括：文本元素序列，所述文本元素序列匹配的规则的规则信息、以及所述规则在所述文本元素序列中匹配位置的位置信息；
[0126]
将所述输入序列集合中的输入序列输入文本分类模型进行文本分类的训练，得到训练后的文本分类模型；
[0127]
其中，所述文本分类模型的信息提取层在计算文本元素的向量时，基于支持位置编码的注意力机制，将所述规则信息以及所述位置信息融合到所述文本元素的向量中。
[0128]
或者，当所述计算机程序在计算机中执行时，令计算机执行上述文本分类的方法的步骤。
[0129]
例如，包括：
[0130]
获取待分类文本元素序列以及所述待分类文本匹配的规则的规则信息、以及所述规则在所述待分类文本元素序列中匹配位置的位置信息。
[0131]
将所述待分类文本元素序列，所述规则信息以及所述位置信息输入如本说明书任意实施例所述的获得文本分类模型的方法得到的训练后的文本分类模型进行文本分类，得到分类结果。
[0132]
上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的获得文本分类模型的方法，文本分类的方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述获得文本分类模型的方法，文本分类的方法的技术方案的描述。
[0133]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0134]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0135]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0136]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0137]
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王潇斌黄申丁瑞雪刘楚谢朋峻
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。