文本识别模型的训练方法、装置、电子设备及存储介质与流程

文档序号：27824381发布日期：2021-12-07 19:44阅读：86来源：国知局

1.本公开涉及计算机技术领域，具体涉及一种文本识别模型的训练方法、装置、电子设备及存储介质。

背景技术：

2.随着人工智能技术的发展，文本内容的审核大多依赖于机器自动审核。文本内容的审核主要是指针对所发布的文本内容进行有害或垃圾信息的过滤，以符合法律法规及业务诉求等。通常的做法是使用敏感词过滤系统，审核系统预先设定一批关键词库并对词组进行排列组合，之后根据敏感性对关键词组合进行分类，在内容审核时筛选出含有敏感词的文本，并作进一步处理，例如人工再次审核等。但是通过这种方式造成的误差较大，造成审核结果不准确，并且需要人工进一步审核，效率低下。因此，如何提供文本内容的审核准确率是本领域人员需要解决的技术问题之一。

技术实现要素：

3.本公开实施例提供一种文本识别模型的训练方法、装置、电子设备及计算机可读存储介质。
4.第一方面，本公开实施例中提供了一种文本识别模型的训练方法，所述文本识别模型包括主干模型和至少一个辅助模型，包括：
5.获取样本文本中样本句子的多个样本分词；
6.通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果，以及通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果；所述第一输出结果至少用于表示所述样本句子是否涉及目标内容，所述第二输出结果至少用于表示所述样本分词是否涉及所述目标内容；
7.利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整；所述主干模型和辅助模型共享至少一部分模型参数。
8.进一步地，通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果，包括：
9.获取所述样本分词的初始词向量；
10.通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型，获取所述样本句子的样本句子向量，以及通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果。
11.进一步地，通过将所述样本句子中所述样本分词对应的所述初始词向量输入至所述主干模型中的句子向量表示模型，获取所述样本句子的样本句子向量，包括：
12.通过将所述样本分词对应的所述初始词向量输入至所述句子向量表示模型中的第一上下文信息表示模型，获取所述样本分词的上下文词向量；
13.利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重；
14.利用所述样本分词的所述词语注意力权重以及所述上下文词向量获取所述样本句子的样本句子向量。
15.进一步地，利用注意力机制以及所述上下文词向量确定所述样本分词的词语注意力权重，包括：
16.利用全连接层对所述样本分词对应的所述上下文词向量进行处理得到对应的第一输出向量；其中，所述主干模型和所述辅助模型共享所述全连接层的模型参数；
17.根据所述第一输出向量计算得到所述样本分词的词语注意力权重。
18.进一步地，通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果，包括：
19.利用所述第一输出向量确定所述样本分词对应的所述第二输出结果。
20.进一步地，通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果，包括：
21.利用全连接层对所述样本分词对应的初始词向量进行处理得到对应的第二输出向量；所述主干模型和所述辅助模型共享所述全连接层的模型参数；
22.根据所述第二输出向量确定所述样本分词对应的所述第二输出结果。
23.进一步地，通过将所述样本句子向量输入至所述主干模型中的句子识别模型获取所述第一输出结果，包括：
24.通过将所述样本句子向量输入至所述主干模型中的第二上下文信息表示模型，获取所述样本句子的上下文句子向量；
25.根据所述上下文句子向量确定所述第一输出结果。
26.进一步地，利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整，包括：
27.通过对所述样本文本中多个所述样本句子对应的第一输出结果确定所述样本文本是否涉及目标内容的第三输出结果；
28.通过分别拟合所述第三输出结果与所述样本句子是否涉及目标内容的第一真实标签、所述第二输出结果与所述样本分词是否涉及目标内容的第二真实标签，对所述主干模型和所述辅助模型的模型参数进行调整。
29.第二方面，本公开实施例中提供了一种文本识别方法，包括：
30.获取待识别文本；
31.利用文本识别模型中的主干模型识别所述待识别文本是否涉及目标内容；其中，所述文本识别模型利用第一方面所述的方法训练得到。
32.第三方面，本公开实施例中提供了一种句子向量表示方法，包括：
33.获取目标句子中的多个分词；
34.利用第一上下文信息表示模型获取所述分词的上下文向量词；
35.利用自注意力机制以及所述上下文词向量确定所述分词的词语注意力权重；
36.利用所述分词的所述词语注意力权重以及所述上下文词向量确定所述目标句子的句子向量。
37.进一步地，利用第一上下文信息表示模型获取所述分词的上下文向量词，包括：
38.获取所述分词对应的初始词向量；
39.通过将多个所述分词对应的所述初始词向量构成的词向量序列输入至所述第一上下文信息表示模型，获取所述分词对应的所述上下文词向量。
40.进一步地，利用注意力机制以及所述上下文词向量确定所述分词的词语注意力权重，包括：
41.将所述上下文词向量输入至全连接层得到输出向量；
42.利用所述输出向量计算得到所述分词的词语注意力权重。
43.第四方面，本公开实施例中提供了一种文本识别方法，包括：
44.获取待识别文本中的多个目标句子；
45.确定所述目标句子的句子向量；所述句子向量利用第三方面所述的方法确定；
46.利用所述句子向量确定所述目标句子的第一识别结果；所述第一识别结果至少用于表示所述目标句子是否涉及目标内容；
47.根据所述第一识别结果确定所述待识别文本的第二识别结果；所述第二识别结果至少用于表示所述待识别本是否涉及所述目标内容。
48.进一步地，利用所述句子向量确定所述目标句子的第一识别结果，包括：
49.通过将所述句子向量输入至第二上下文信息表示模型获取所述目标句子的上下文句子向量；
50.根据所述上下文句子向量确定所述第一识别结果。
51.第五方面，本公开实施例中提供了一种文本识别模型的训练装置，所述文本识别模型包括主干模型和至少一个辅助模型，包括：
52.第一获取模块，被配置为获取样本文本中样本句子的多个样本分词；
53.第二获取模块，被配置为通过将所述样本分词输入至所述主干模型获取对应于所述样本句子的第一输出结果，以及通过将所述样本分词输入至所述辅助模型获取对应于所述样本分词的第二输出结果；所述第一输出结果至少用于表示所述主干模型所述样本句子是否涉及目标内容，所述第二输出结果至少用于表示所述样本分词是否涉及所述目标内容；
54.调整模块，被配置为利用所述第一输出结果和第二输出结果对所述主干模型和所述辅助模型的模型参数进行调整；所述主干模型和辅助模型共享至少一部分模型参数。
55.第六方面，本公开实施例中提供了一种文本识别装置，包括：
56.第三获取模块，被配置为获取待识别文本；
57.第一识别模块，被配置为利用文本识别模型中的主干模型识别所述待识别文本是否涉及目标内容；其中，所述文本识别模型利用权利要求15所述的装置训练得到。
58.第七方面，本公开实施例中提供了一种句子向量表示装置，包括：
59.第四获取模块，被配置为获取目标句子中的多个分词；
60.第五获取模块，被配置为利用第一上下文信息表示模型获取所述分词的上下文向量词；
61.第一确定模块，被配置为利用自注意力机制以及所述上下文词向量确定所述分词的词语注意力权重；
62.第二确定模块，被配置为利用所述分词的所述词语注意力权重以及所述上下文词向量确定所述目标句子的句子向量。
63.第八方面，本公开实施例中提供了一种文本识别装置，包括：
64.第六获取模块，被配置为获取待识别文本中的多个目标句子；
65.第三确定模块，被配置为确定所述目标句子的句子向量；所述句子向量利用第七方面所述的装置确定；
66.第四确定模块，被配置为利用所述句子向量确定所述目标句子的第一识别结果；所述第一识别结果至少用于表示所述目标句子是否涉及目标内容；
67.第五确定模块，被配置为根据所述第一识别结果确定所述待识别文本的第二识别结果；所述第二识别结果至少用于表示所述待识别本是否涉及所述目标内容。
68.所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
69.在一个可能的设计中，上述装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持上述装置执行上述对应方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。上述装置还可以包括通信接口，用于上述装置与其他设备或通信网络通信。
70.第九方面，本公开实施例提供了一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方面所述的方法。
71.第十方面，本公开实施例提供了一种计算机可读存储介质，用于存储上述任一装置所用的计算机指令，其包含用于执行上述任一方面所述方法所涉及的计算机指令。
72.本公开实施例提供的技术方案可以包括以下有益效果：
73.本公开实施例在文本识别模型的训练过程中，利用主干模型从句子级别学习样本文本中样本句子涉及目标内容的特征，而利用辅助模型从词语级别学习样本文本中样本句子的样本分词所涉及的目标内容的特征，使得整个文本识别模型从句子级别以及词语级别学习样本文本中涉及目标内容的特征，大大提高了文本识别模型的识别能力。
74.本公开实施例在文本识别过程中，首先获得目标句子中各个分词的上下文词向量，之后再利用注意力机制以及上下文词向量获得分词的词语注意力权重，进而根据词语注意力机制以及上下文词向量得到目标句子的句子向量，之后再通过句子向量识别目标句子是否涉及目标内容，以及根据目标句子是否涉及目标内容来确定待识别文本是否涉及目标内容。通过上述方式，本公开实施例在句子向量表示的过程中，考虑了分词在目标句子中上下文信息，并针对句子中的分词加入了注意力机制，使得涉及目标内容的分词在句子向量表示中更加重要，提升了目标句子是否涉及目标内容的识别能力，进而提升了从句子级别识别待识别文本是否涉及目标内容的识别能力。
75.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
76.结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：
77.图1示出根据本公开一实施方式的文本识别模型的训练方法的流程图；
78.图2(a)～(b)示出根据本公开一实施方式在涉黄应用场景下的文本识别模型的结构以及训练流程示意图；
79.图3示出根据本公开一实施方式的文本识别方法的流程图；
80.图4示出根据本公开一实施方式的句子向量表示方法的流程图；
81.图5示出根据本公开另一实施方式的文本识别方法的流程图；
82.图6是适于用来实现根据本公开一实施方式的文本识别模型的训练方法、文本识别方法和/或句子向量表示方法的电子设备的结构示意图。
具体实施方式
83.下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。
84.在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
85.另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
86.对于长文本而言，句子之间存在语义联系。如果按照相关技术中只考虑单句是否涉及有害信息或者是否为垃圾信息等方式，则会导致文本内容的识别准确率下降。此外，相关技术中基于文档标识的文本识别模型只借助文档级别的标签信息，对长文本进行向量表示时会引入许多跟审核无关的噪音信息，会导致文本识别模型无法聚焦于真正存在问题的内容片段，因此利用这种文本识别模型很难识别长文本中是否存在需要审核出来的内容，例如是否涉黄等。
87.因此，本公开实施例提出了一种句子向量表示方法、文本识别方法以及文本识别模型的训练方法。本公开实施例在识别文本过程中，通过对文本中的句子进行向量表示，并且在句子向量表示的过程中，考虑了句子的上下文信息，并在针对句子中的分词加入了注意力机制，进而再利用这种方式表示出来的句子向量识别文本是否涉及目标内容，能够提高文本识别的准确率。此外，在文本识别过程中，通过识别文本中的句子是否涉及目标内容(例如是否存在违法信息比如涉黄、是否为垃圾信息等)来鉴别文本是否涉及目标内容，也即本公开实施例中的文本识别方法是从句子级别对文本进行识别，能够进一步提升文本识别的性能。
88.下面通过具体实施例详细介绍本公开实施例的细节。
89.图1示出根据本公开一实施方式的文本识别模型的训练方法流程图。如图1所示，该文本识别模型的训练方法包括以下步骤：
90.在步骤s101中，获取样本文本中样本句子的多个样本分词；
91.在步骤s102中，通过将样本分词输入至主干模型获取对应于样本句子的第一输出结果，以及通过将样本分词输入至辅助模型获取对应于样本分词的第二输出结果；第一输出结果至少用于表示样本句子是否涉及目标内容，第二输出结果至少用于表示样本分词是否涉及目标内容；
92.在步骤s103中，利用第一输出结果和第二输出结果对主干模型和辅助模型的模型参数进行调整；主干模型和辅助模型共享至少一部分模型参数。
93.本实施例中，文本识别模型包括主干模型和至少一个辅助模型。主干模型主要是从句子级别学习样本文本中涉及目标内容的特征，而辅助模型主要是从词级别学习样本分词中涉及目标内容的特征。目标内容可以基于应用场景的不同而不同，例如目标内容可以是信息安全相关的内容，比如涉黄内容等。
94.针对每个样本文本，首先对其进行切分得到多个样本句子，之后可以对样本句子进行切分，得到多个样本分词。也即，一个样本文本可以对应多个样本句子，而一个样本句子可以对应多个样本分词。对样本文本的切分可以基于标点符号进行切分，例如通过识别句子结尾常用标点符号“。”、“？”、“！”等进行切分。可以理解的是，待识别文本中包括的多个样本句子可以是待识别文本中包括的所有句子、也可以是部分句子，具体可以根据实际应用而定，在此不做限制。
95.主干模型的输入可以是整个样本文本中所有或部分样本句子的所有或部分样本分词，其输出是用于表示该样本文本中的样本句子是否涉及目标内容的第一输出结果(在模型训练过程中，该第一输出结果与真实结果差别较大)。而辅助模型的输入是样本文本中一个样本句子的样本分词，其输出是用于表示该样本句子中各个样本分词是否涉及目标内容的第二输出结果(在模型训练过程中，该第二输出结果与真实结果差别较大)，因此在训练过程中可以通过将样本文本中多个样本句子对应的多个样本分词分别输入至辅助模型得到各个样本语句中各个样本分词对应的第二输出结果。
96.在获得第一输出结果和第二输出结果之后，可以根据第一输出结果和第二输出结果对主干模型和辅助模型的模型参数进行调整，参数调整过程与所建立的目标函数相关，建立的目标函数中可以分别拟合主干模型对于样本文本的预测结果(根据第一输出结果确定)与样本文本的真实结果(也即预先标注的用于表示该样本文本是否涉及目标内容的真实标签)、以及第二输出结果与样本分词的真实结果(也即预先标注的用于表示该样本分词是否涉及目标内容的真实标签)，并且以样本文本对应的预测结果与样本文本的真实结果无限接近、而第二输出结果与样本分词的真实结果无限接近为目标对模型参数调整，经过大量样本文本的上述训练过程，可以得到收敛后的模型参数，并最终完成文本识别模型的训练。
97.辅助模型针对样本句子中各样本分词进行特征学习，而主干模型的学习过程包括样本句子中各样本分词的特征学习以及样本文本中各样本句子的特征学习，因此辅助模型和主干模型可以共享部分模型参数，该部分模型参数包括样本句子中各样本分词的特征学习部分对应的模型参数。
98.在一些实施例中，主干模型对样本文本的处理过程可以包括：提取样本文本中所有样本句子对应的样本分词的词向量特征，再针对词向量特征获得样本句子的句子向量特征，最后根据样本句子的句子向量特征得到样本句子的第一输出结果；而辅助模型对样本分词的处理结果可以包括：提取样本文本中所有样本句子对应的样本分词的词向量特征，再根据该词向量特征确定样本分词的第二输出结果。因此主干模型和辅助模型可以共享提取样本文本中所有样本句子对应的样本分词的词向量特征这部分的模型参数，也即主干模型和辅助模型共享的部分模型参数可以包括样本分词的特征提取部分涉及的模型参数。
99.本公开实施例在文本识别模型的训练过程中，利用主干模型从句子级别学习样本文本中样本句子涉及目标内容的特征，而利用辅助模型从词语级别学习样本文本中样本句子的样本分词所涉及的目标内容的特征，使得整个文本识别模型从句子级别以及词语级别学习样本文本中涉及目标内容的特征，大大提高了文本识别模型的识别能力。
100.在本实施例的一个可选实现方式中，步骤s102中通过将样本分词输入至主干模型获取对应于样本句子的第一输出结果的步骤，进一步包括以下步骤：
101.获取样本分词的初始词向量；
102.通过将样本句子中样本分词对应的初始词向量输入至主干模型中的句子向量表示模型，获取样本句子的样本句子向量，以及通过将样本句子向量输入至主干模型中的句子识别模型获取第一输出结果。
103.该可选的实现方式中，样本分词对应的初始词向量可以是预先训练得到的词向量。例如，可以通过样本语料预先训练得到词语集合中各个词语对应的词向量，比如可以通过word2vec预先确定词语集合中各个词语的词向量，以得到对应于词语集合的词向量集合；样本分词对应的初始词向量可以是词语集合中与该样本分词相匹配的词语对应的词向量。
104.主干模型可以包括词向量查询模型、句子向量表示模型、句子识别模型，词向量查询模型的功能可以是根据样本分词以及预先训练得到的词向量集合获得样本句子中各样本分词对应的初始词向量，而句子向量表示模型的功能可以是根据样本句子中各个样本分词的初始词向量获得样本句子的样本句子向量，而句子识别模型的功能可以是根据样本句子的样本句子向量识别样本句子是否涉及目标内容。可以将样本句子对应的各样本分词的初始词向量构成的词向量序列输入至句子向量表示模型，进而再由该句子向量表示模型根据各个样本分词的初始词向量得到该样本句子的样本句子向量，之后再将样本文本中各样本句子对应的样本句子向量输入至主干模型中的句子识别模型中进行处理，得到该样本句子是否涉及目标内容的第一输出结果。
105.在本实施例的一个可选实现方式中，通过将样本句子中样本分词对应的初始词向量输入至主干模型中的句子向量表示模型，获取样本句子的样本句子向量的步骤，进一步包括以下步骤：
106.通过将样本分词对应的初始词向量输入至句子向量表示模型中的第一上下文信息表示模型，获取样本分词的上下文词向量；
107.利用注意力机制以及上下文词向量确定样本分词的词语注意力权重；
108.利用样本分词的词语注意力权重以及上下文词向量获取样本句子的样本句子向量。
109.该可选的实现方式中，第一上下文信息表示模型可以是能够提取出分词在目标句子中上下文信息的模型，例如可以是bi-lstm(长短期记忆网络，bi-directional long short-term memory)、rnn(循环神经网络模型，recurrent neural network)、transformer编码器等。当然，可以理解的是第一上下文信息表示模型不限于上述三种，只要是能够通过句子的分词获得分词的词向量，并且该词向量为体现分词上下文语义信息的上下文词向量即可。
110.第一上下文信息表示模型的输入可以是样本句子中各样本分词的初始词向量，第
一上下文信息表示模型可以根据样本句子中样本分词的上下文语义关系对初始词向量进行处理后提取出各分词对应的上下文词向量，使得涉及目标内容的样本分词以及与涉及目标内容的样本分词具有上下文语义关系的样本分词对应的上下文词向量在向量空间中更加接近，也即通过上下文词向量能够将涉及目标内容的各样本分词划分为一类，并且能够识别出与涉及目标内容的各样本分词具有上下文语义关系的样本分词(这类样本分词也可以认为涉及目标内容)。可以理解为利用第一上下文信息表示模型得到的上下文词向量能够体现样本分词是否涉及目标内容的上下文语义信息。
111.在提取出样本句子中各个样本分词的上下文词向量之后，可以利用自注意力机制(self-attention mechanism)以及该上下文词向量确定该样本分词在样本句子中的词语注意力权重，该词语注意力权重越大，表明该样本分词在目标句子中的重要性越高。可以理解的是，该样本分词在样本句子中的重要性与该样本句子的样本句子向量所要表示的语义有关，也即涉及目标内容的样本分词在该样本句子中的重要性更高，进而该样本分词的词语注意力权重越大，而不涉及目标内容的样本分词的重要性更低，词语注意力权重也越小。自然语言处理中的自注意力机制可以参考相关技术。
112.下面举例说明词注意力权重的计算方式，具体参见如下公式：
[0113][0114][0115]
其中，α
in
表示词语注意力权重，n表示样本句子中的分词数量，h
in
是通过将当前样本分词的上下文词向量通过全连接层映射得到的输出向量，b
w
是常数，表示注意力机制部分涉及的模型参数的转置矩阵。
[0116]
在确定了词语注意力权重之后，可以利用词语注意力权重以及样本句子中样本分词的上下文词向量计算得到样本句子的样本句子向量。在一些实施例中，可以利用样本句子中样本分词的词语注意力权重对该样本分词的上下文词向量进行线性加权得到样本句子的样本句子向量。
[0117]
在上述公式(1)和(2)的基础上，样本句子向量可以用如下公式(3)表示：
[0118][0119]
其中，s
i
表示样本句子的句子向量，α
in
表示词语注意力权重，c
in
表示样本句子中样本分词的上下文词向量。
[0120]
在本实施例的一个可选实现方式中，利用注意力机制以及上下文词向量确定样本分词的词语注意力权重的步骤，进一步包括以下步骤：
[0121]
利用全连接层对样本分词对应的上下文词向量进行处理得到对应的第一输出向量；其中，主干模型和辅助模型共享全连接层的模型参数；
[0122]
根据第一输出向量计算得到样本分词的词语注意力权重。
[0123]
该可选的实现方式中，将上下文词向量输入至全连接层，由全连接层从中抽取相
关的信息，进而得到输出向量，根据该输出向量可以计算得到样本分词的词语注意力权重，具体计算过程可以根据实际情况选用合适的计算方式，例如可以采用公式(1)和(2)中的方式计算得到词语注意力权重。
[0124]
在本实施例的一个可选实现方式中，步骤s102中通过将样本分词输入至辅助模型获取对应于样本分词的第二输出结果的步骤，进一步包括以下步骤：
[0125]
利用第一输出向量确定样本分词对应的第二输出结果。
[0126]
该可选的实现方式中，主干模型和辅助模型可以共享第一上下文信息表示模型和全连接层的模型参数，并且可以利用第一上下文信息表示模型对样本句子中各样本分词进行处理得到样本分词的上下文词向量，之后再利用全连接层对上下文词向量进行处理，得到样本分词对应的第一输出向量，进而主干模型可以基于该第一输出向量计算样本分词的词语注意力权重，而辅助模型可以基于该输出向量得到样本分词是否涉及目标内容的第二输出结果。通过这种方式可以节省数据处理的步骤，进而能够提高模型训练效率。
[0127]
由于主干模型和辅助模型共享第一上下文信息表示模型和全连接层的模型参数。因此在最后的模型调参过程中，可以利用样本分词的真实结果也即该样本分词是否涉及目标内容的真实情况与第二输出结果之间的误差对第一上下文信息表示模型和全连接层的模型参数进行调整，同时由于该第一上下文信息表示模型和全连接层也在主干模型中使用，因此还会利用样本文本的真实结果也即该样本文本是否涉及目标内容的真实情况与样本文本的预测结果(根据第一输出结果确定)之间的误差对该全连接层的模型参数一同进行调整，这种方式能够提高第一上下文信息表示模型以及全连接层在词语级别以及语句级别上对于分词涉及目标内容的特征信息的提取能力，进而能够提高文本识别模型的识别能力。
[0128]
在本实施例的一个可选实现方式中，步骤s102中通过将样本分词输入至辅助模型获取对应于样本分词的第二输出结果的步骤，进一步包括以下步骤：
[0129]
利用全连接层对样本分词对应的初始词向量进行处理得到对应的第二输出向量；主干模型和辅助模型共享全连接层的模型参数；
[0130]
根据第二输出向量确定样本分词对应的第二输出结果。
[0131]
该可选的实现方式中，将样本分词的初始词向量输入至全连接层，由全连接层从中抽取相关的信息，进而得到第二输出向量，根据该第二输出向量可以计算得到样本分词的第二输出结果，该第二输出结果用于表示该样本分词是否涉及目标内容。主干模型和辅助模型共享该全连接层的模型参数。因此在最后的模型调参过程中，可以利用样本分词的真实结果也即该样本分词是否涉及目标内容的真实情况与第二输出结果之间的误差对该全连接层的模型参数进行调整，同时由于该全连接层也在主干模型中使用，也即通过样本分词的上下文词向量得到样本句子的样本句子向量的过程中，会利用该全连接层对上下文词向量进行处理，因此还会利用样本文本的真实结果也即该样本文本是否涉及目标内容的真实情况与针对样本文本的预测结果之间的误差对该全连接层的模型参数一同进行调整，这种方式能够提高全连接层在词语级别以及语句级别上对于分词涉及目标内容的特征信息的提取能力，进而提高文本识别模型的识别能力。
[0132]
在一些实施例中，辅助模型可以包括第一辅助模型和第二辅助模型，第一辅助模型可以为另一可选实现方式中描述的，利用第一上下文信息表示模型对样本分词的初始词
向量进行处理得到上下文词向量，之后再利用全连接层对上下文词向量进行处理得到第一输出向量，进而得到样本分词对应的第二输出结果的辅助模型，第二辅助模型可以为上述可选实现方式中描述的利用全连接层对初始词向量进行处理得到第二输出向量，进而得到样本分词对应的第一输出结果的辅助模型。当然，在另一些实施例中，可以仅适用第一辅助模型和第二辅助模型其中之一，具体可以根据实际情况而定，在此不做限制。
[0133]
在本实施例的一个可选实现方式中，通过将样本句子向量输入至主干模型中的句子识别模型获取第一输出结果的步骤，进一步还包括以下步骤：
[0134]
通过将样本句子向量输入至主干模型中的第二上下文信息表示模型，获取样本句子的上下文句子向量；
[0135]
根据上下文句子向量确定第一输出结果。
[0136]
该可选的实现方式中，第二上下文信息表示模型可以是根据样本句子的样本句子向量能够提取出样本句子在样本文本中上下文信息的模型，例如可以是bi-lstm(长短期记忆网络，bi-directional long short-term memory)、rnn(循环神经网络模型，recurrent neural network)、transformer编码器等。当然，可以理解的是第二上下文信息表示模型不限于上述三种，只要是通过样本句子向量获得能够体现样本句子上下文语义信息的上下文向量的人工智能模型即可。
[0137]
在一些实施例，第二上下文信息表示模型的输入可以是样本文本中各样本句子对应的样本句子向量，第二上下文信息表示模型可以根据样本文本中样本句子的上下文语义关系对样本句子向量进行处理后得到各样本句子对应的上下文句子向量，使得涉及目标内容的样本句子以及与涉及目标内容的样本句子具有上下文语义关系的样本句子对应的上下文句子向量在向量空间中更加接近，也即通过上下文句子向量能够识别各样本句子是否涉及目标内容以及是否与涉及目标内容的样本句子具有上下文语义关系(这类样本句子也可以认为涉及目标内容)。可以理解为利用第二上下文信息表示模型得到的上下文句子向量能够体现样本句子是否涉及目标内容的语义信息。
[0138]
在本实施例的一个可选实现方式中，步骤s103中利用第一输出结果和第二输出结果对主干模型和辅助模型的模型参数进行调整的步骤，进一步包括以下步骤：
[0139]
通过对样本文本中多个样本句子对应的第一输出结果确定样本文本是否涉及目标内容的第三输出结果；
[0140]
通过分别拟合第三输出结果与样本句子是否涉及目标内容的第一真实标签、第二输出结果与样本分词是否涉及目标内容的第二真实标签，对主干模型和辅助模型的模型参数进行调整。
[0141]
该可选的实现方式中，第一真实标签可以是通过对样本文本进行人工标注或通过其他可信的方式获得，该第一真实标签用于表明样本文本是否涉及目标内容。第二真实标签可以是利用预先构建的包括涉及目标内容的词语构成的词典来确定。例如，对于涉黄内容的文本识别过程中，可以预先获得一些涉黄的词汇，并构建涉黄词典，在涉黄文本识别模型的训练过程中，样本文本中样本句子的样本分词的第二真实标签可以通过将样本分词与涉黄词典进行匹配来确定，相匹配的样本分词的第二真实标签为涉黄，而不匹配的样本分词的第二真实标签为不涉黄。通过这种方式，可以在文本识别模型的训练过程中，利用预先构建的词典在词语级别的训练层加入先验指导信息，能够进一步提高文本识别模型的识别
能力。
[0142]
模型参数调整的过程可以参见已有技术，其原理是通过比较第三输出结果与第一真实标签之间的差异、以及比较第二输出结果与第二真实标签之间的差异反向调整文本识别模型中的模型参数，使得调整模型参数后的文本识别模型针对样本文本和样本分词的输出结果更加接近于真实结果。
[0143]
本公开实施例的上述方案可以应用于信息安全领域，利用本公开实施例提出的上述方案可以训练得到用于识别文本中信息安全相关内容的文本识别模型。信息安全相关的内容例如可以是涉及黄赌毒的内容，或者涉及其他敏感信息的内容。该文本识别模型可以部署在云端，为相关部门或者人员提供信息安全识别方面的服务。可以理解的是，还可以在云端部署用于训练文本识别模型的训练框架，并接收相关部门或者相关人员的需求信息，根据需求信息以及上述训练方法训练得到对应的文本识别模型之后提供给相关部门或者相关人员，或者部署在云端，用于在线识别相关部门或者相关人员指定的文本内容，并将识别结果输出给相关部门或者相关人员。
[0144]
下面通过文本识别模型的具体实现实例说明本公开实施例中的文本识别模型的训练流程。
[0145]
图2(a)～(b)示出根据本公开一实施方式在涉黄应用场景下的文本识别模型的结构以及训练流程示意图。文本识别模型可以包括主干模型、第一辅助模型和第二辅助模型，主干模型可以划分为两部分，第一部分201入的样本句子的所有样本分词进行一系列处理之后，得到该样本句子的样本句子向量；而第二部分202样本文本中所有样本句子的样本句子向量进行处理后，得到该样本文本是否涉及目标内容的分类结果。第一辅助模型、第二辅助模型与主干模型的第一部分共享部分模型参数。
[0146]
图2(a)示出了主干模型的第一部分结构以及第一辅助模型和第二辅助模型的结构。假设样本文本为长文本小说片段，且该文本片段包含m个句子，该m个句子是通过使用句号、感叹号、问号等句子标点符号进行切分得到，任意一个句子i的向量表示为s
i
。主干模型的第一部分结构用于对m个句子进行向量表示，以得到该m个句子的句子向量表示s
i
。
[0147]
主干模型的第一部分结构对输入数据的处理过程如下：
[0148]
1)将分词后的任意一个句子i句子的多个分词集合{w
i1
，
……
，w
in
，
……
w
in
}输入到查询层(lookup)，进而由查询层通过映射获得长度为n的句子i中每个输入分词对应的初始词向量e
in
。
[0149]
2)然后，句子i中各个分词对应的初始词向量构成的序列经过bi-lstm模型层，得到每个分词的上下文词向量表示c
in
。
[0150]
3)每个上下文词向量c
in
经过全连接层(dense layer)得到输出向量h
in
，利用自注意力机制对输出向量h
in
处理可以确定分词的词注意力权重α
in
。
[0151]
4)利用词注意力权重对各个分词的上下文词向量进行线性加权得到c
′
in
求和可以得到句子i的向量表示s
i
。
[0152]
为了学习和任务相关的词向量表示，即涉黄词语的词向量在空间上会更加接近，因此增加了词语级的第一辅助模型。第一辅助模型对输入数据的处理过程如下：
[0153]
1)经过查询层得到的各个分词的初始词向量e
in
经过全连接层后得到输出向量v
in
。
[0154]
2)输出向量v
in
经过softmax层(依次包括线性变换和softmax函数)可以得到各分词的分类结果该分类结果用于表示分词w
in
是否为涉黄词汇。
[0155]
第一辅助模型的训练中可以提供涉黄词典，使得每个词语都由对应的涉黄标签来提供监督信息。
[0156]
为了在生成句子向量表示的时候，赋予涉黄词语更大的权重来突出其对句子向量表示的重要性，因此可以添加词语级的第二辅助模型。第二辅助模型对输入数据的处理过程如下：
[0157]
通过将主干模型第一部分的全连接层得到的输出向量h
in
，输入到softmax层得到预测每个词语是否涉黄的分类结果
[0158]
图2(b)示出了主干模型的第二部分，即根据第一部分得到的句子向量表示预测长小说文本片段是否涉黄的预测结果如图2(b)所示，主干模型的第二部分对句子向量表示的处理过程如下：
[0159]
1)将长小说文本片段中所有句子的向量表示{s
i
}输入到bi-lstm层中可获得每个句子的融合上下文的上下文句子向量表示h
i
。
[0160]
2)上下文句子向量表示h
i
经过softmax层(依次包括线性变换和softmax函数)处理后，可以得到每个句子是否涉黄的分类结果
[0161]
3)如果长小说文本片段中有一个句子涉黄，则通过max函数可以判断整个长小说文本片段涉黄的预测结果
[0162]
需要说明的是，第一辅助模型、第二辅助模型和主干模型中的全连接层dense的模型参数共享。
[0163]
从图2(a)和图2(b)示出的模型结构以及上述文字描述可知，在训练过程中，样本句子中所有样本分词经过主干模型第一部分处理后得到该样本句子的句子向量表示，样本文本中所有样本句子的句子向量表示经过主干模型的第二部分处理后，可以得到样本文本的预测结果。而主干模型第一部分的中间处理结果可以提供给第一辅助模型和第二辅助模型，也即样本分词的初始词向量可以提供给第一辅助模型，用于预测样本分词是否涉黄；而样本分词的上下文向量经过全连接层处理后得到的输出向量提供给第二辅助模型，用于预测样本分词是否涉黄。
[0164]
在整个训练过程中可以得到三种预测结果，即样本文本是否涉黄的预测结果、样本分词是否涉黄的两种预测结果，在调参过程中，可以利用上述三种预测结果与对应的真实结果之间的差异对主干模型和辅助模型的模型参数进行调整，也即分别拟合样本文本的预测结果与真实结果之间的差异、样本分词的两种结果分别与真实结果之间的差异来进行调参。
[0165]
图3示出根据本公开一实施方式的文本识别方法的流程图。如图3所示，该文本识别方法包括以下步骤：
[0166]
在步骤s301中，获取待识别文本；
[0167]
在步骤s302中，利用文本识别模型中的主干模型识别待识别文本是否涉及目标内容；其中，文本识别模型利用上述文本识别模型的训练方法训练得到。
[0168]
本实施例中，待识别文本可以是用于识别是否涉及目标内容的长文本。针对该待
识别文本，可以先对其进行切分得到该待识别文本中的多个待识别句子，之后再分别对各个待识别句子进行切词得到每个待识别句子对应的多个分词。之后可以针对每个待识别句子利用主干模型的第一部分获得句子向量，并通过将待识别文本中所有待识别句子对应的句子向量表示输入至主干模型的第二部分得到每个待识别句子是否涉及目标内容的识别结果，在至少一个待识别句子的识别结果为涉及目标内容时，可以确定该待识别文本涉及目标内容。可以看出，在文本识别模型训练过程中，虽然利用第一辅助模型和第二辅助模型对模型参数进行了训练，但是训练完成后，只需要使用主干模型对待识别文本进行识别即可，这是因为第一辅助模型和第二辅助模型实际上是对主干模型的模型参数的进一步加强训练，第一辅助模型和第二辅助模型在识别过程中并不需要。
[0169]
图4示出根据本公开一实施方式的句子向量表示方法的流程图。如图4所示，该句子向量表示方法包括以下步骤：
[0170]
在步骤s401中，获取目标句子中的多个分词；
[0171]
在步骤s402中，利用第一上下文信息表示模型获取各分词的上下文向量词；
[0172]
在步骤s403中，利用自注意力机制以及上下文词向量确定分词的词语注意力权重；
[0173]
在步骤s404中，利用分词的词语注意力权重以及上下文词向量确定目标句子的句子向量。
[0174]
本实施例中，目标句子可以是从长文本切分得到的，例如通过句子分割符合“。”、“！”、“？”等从长文本切分得到。当然，可以理解的是，目标句子也可以是不涉及长文本的单独的一个句子，具体根据实际应用场景而定，在此不做限制。
[0175]
对目标句子进行词语切分可以得到多个分词。词语切分方式可以采用已有技术，在此不做赘述。第一上下文信息表示模型可以是能够提取出分词在目标句子中上下文信息的模型，例如可以是bi-lstm(长短期记忆网络，bi-directional long short-term memory)、rnn(循环神经网络模型，recurrent neural network)、transformer编码器等。当然，可以理解的是第一上下文信息表示模型不限于上述三种，只要是能够通过句子的分词获得分词的词向量，并且该词向量为体现分词上下文语义信息的上下文词向量即可。
[0176]
在一些实施例，第一上下文信息表示模型可以是预先训练好的，该第一上下文信息表示模型可以根据目标句子中各分词的上下文语义关系提取出各分词的上下文词向量，使得涉及目标内容的分词以及与涉及目标内容的分词具有上下文语义关系的分词所对应的上下文词向量在向量空间中更加接近，也即通过上下文词向量能够识别各分词是否涉及目标内容以及是否与涉及目标内容的分词具有上下文语义关系(这类分词也可以认为涉及目标内容)。可以理解为利用第一上下文信息表示模型得到的上下文词向量能够体现分词是否涉及目标内容的语义信息。
[0177]
在获得了目标句子中各个分词的上下文词向量之后，可以利用自注意力机制(self-attention mechanism)以及该上下文词向量确定该分词在目标句子中的词语注意力权重，该词语注意力权重越大，表明该分词在目标句子中的重要性越高。可以理解的是，该分词在目标句子中的重要性与该目标句子的句子向量所要表示的语义有关，也即该分词在目标句子中的重要性与对目标句子进行向量表示的应用场景相关。例如对该目标句子进行向量表示(也即确定该目标句子的句子向量)的目的是通过句子向量识别该目标句子是
否涉及目标内容例如涉黄，则该目标句子中分词的重要性与该分词与目标内容的相关性有关，越相关的分词重要性越高，也即上述词语注意力权重越大，而越不相关的分词，重要性越低，词语注意力权重也就越小。自然语言处理中的自注意力机制可以参考相关技术。
[0178]
本实施例中句子向量表示方法可以利用上述文本识别模型的训练方法中描述的主干模型获得，因此相关细节还可以参见上述对文本识别模型的训练方法的描述，在此不再赘述。
[0179]
本公开实施例在目标句子的向量表示过程中，首先获得目标句子中各个分词的上下文词向量，之后再利用注意力机制以及上下文词向量获得分词的词语注意力权重，进而根据词语注意力权重以及上下文词向量得到目标句子的句子向量。通过上述方式，本公开实施例在句子向量表示的过程中，考虑了分词在目标句子中上下文信息，并针对句子中的分词加入了注意力机制，使得涉及目标内容的分词在句子向量表示中更加重要，最终能够使得句子向量表示更加准确。
[0180]
在本实施例的一个可选实现方式中，步骤s402，即利用第一上下文信息表示模型获取分词的上下文词向量的步骤，进一步包括以下步骤：
[0181]
获取分词对应的初始词向量；
[0182]
通过将分词对应的初始词向量构成的词向量序列输入至第一上下文信息表示模型，获取分词对应的上下文词向量。
[0183]
该可选的实现方式中，分词对应的初始词向量可以是预先训练得到的词向量。例如，可以通过样本语料预先训练得到词语集合中各个词语对应的词向量，比如可以通过word2vec预先确定词语集合中各个词语的词向量，分词对应的初始词向量可以是词语集合中与该分词相匹配的词语对应的词向量。
[0184]
在获得目标句子中各分词对应的初始词向量之后，可以将目标句子对应的各分词的初始词向量构成的词向量序列输入至第一上下文表示信息模型中，进而得到各分词对应的上下文词向量，该上下文词向量相较于初始词向量具有分词在目标句子中的上下文信息。
[0185]
在本实施例的一个可选实现方式中，步骤s403，即利用自注意力机制以及上下文词向量确定分词的词语注意力权重的步骤，进一步包括以下步骤：
[0186]
将上下文词向量输入至全连接层得到输出向量；
[0187]
利用输出向量计算得到分词的词语注意力权重。
[0188]
该可选的实现方式中，将上下文词向量输入至全连接层，由全连接层从中抽取相关的信息，进而得到输出向量。全连接层的模型参数也是经过预先训练的，因此经过全连接层将上下文词向量映射至输出向量后，再根据该输出向量可以计算得到分词的词语注意力权重，具体计算过程可以根据实际情况选用合适的计算方式，例如可以采用上述公式(1)和(2)中的方式计算得到词语注意力权重。
[0189]
图5示出根据本公开另一实施方式的文本识别方法的流程图。如图5所示，该文本识别方法包括以下步骤：
[0190]
在步骤s501中，获取待识别文本中的多个目标句子；
[0191]
在步骤s502中，确定目标句子的句子向量；句子向量利用上述句子向量表示方法确定；
[0192]
在步骤s503中，利用句子向量确定目标句子的第一识别结果；第一识别结果至少用于表示目标句子是否涉及目标内容；
[0193]
在步骤s504中，根据第一识别结果确定待识别文本的第二识别结果；第二识别结果至少用于表示待识别本是否涉及目标内容。
[0194]
本实施例中，该文本识别方法用于识别待识别文本中否涉及目标内容。目标内容可以基于应用场景的不同而不同，例如目标内容可以是违法内容，比如涉黄内容。待识别文本可以是包括多个目标句子的长文本片段，在识别过程中，先对待识别文本进行切分，获得待识别文本包括的多个目标句子。具体可以基于标点符号进行切分，例如通过识别句子结尾常用标点符号“。”、“？”、“！”等进行切分。可以理解的是，待识别文本中包括的多个目标句子可以是待识别文本中包括的所有句子、也可以是部分句子，具体可以根据实际应用设定，在此不做限制。
[0195]
目标句子的句子向量可以基于上述句子向量表示方法来确定。上述句子向量方法中，由于通过第一上下文信息表示模型获得的分词的上下文词向量能够体现分词是否涉及目标内容的语义信息，因此根据该上下文词向量得到的句子向量也可以体现该目标句子是否涉及目标内容的语义信息。因此，通过该目标句子的句子向量即可识别出该目标句子是否涉及目标内容。在一些实施例中，可以通过预先训练好的句子识别模型对句子向量进行处理后，识别该目标句子是否涉及目标内容。
[0196]
在得出待识别文本中各个目标句子的第一识别结果，也即待识别文本中各个目标句子是否涉及目标内容的第一识别结果之后，可以根据该第一识别结果确定待识别文本是否涉及目标内容。例如，可以根据预先规定在其中一个目标句子涉及目标内容时，确定该待识别文本涉及目标内容。
[0197]
本公开实施例在文本识别过程中，首先获得目标句子中各个分词的上下文词向量，之后再利用注意力机制以及上下文词向量获得分词的词语注意力权重，进而根据词语注意力机制以及上下文词向量得到目标句子的句子向量，之后再通过句子向量识别目标句子是否涉及目标内容，以及根据目标句子是否涉及目标内容来确定待识别文本是否涉及目标内容。通过上述方式，本公开实施例在句子向量表示的过程中，考虑了分词在目标句子中上下文信息，并针对句子中的分词加入了注意力机制，使得涉及目标内容的分词在句子向量表示中更加重要，提升了目标句子是否涉及目标内容的识别能力，进而提升了从句子级别识别待识别文本是否涉及目标内容的识别能力。
[0198]
在本实施例的一个可选实现方式中，步骤s503，即利用句子向量确定目标句子的第一识别结果的步骤，进一步包括以下步骤：
[0199]
通过将句子向量输入至第二上下文信息表示模型获取目标句子的上下文句子向量；
[0200]
根据上下文句子向量确定第一识别结果。
[0201]
该可选的实现方式中，第二上下文信息表示模型可以是根据目标句子的句子向量能够提取出目标句子在待识别文本中上下文信息的模型，例如可以是bi-lstm(长短期记忆网络，bi-directional long short-term memory)、rnn(循环神经网络模型，recurrent neural network)、transformer编码器等。当然，可以理解的是第二上下文信息表示模型不限于上述三种，只要是通过句子向量获得能够体现目标句子上下文语义信息的上下文向量
的人工智能模型即可。
[0202]
在一些实施例，第二上下文信息表示模型可以是预先训练好的，该第二上下文信息表示模型可以根据待识别文本中目标句子的上下文语义关系对句子向量进行处理后得到各目标句子对应的上下文句子向量，使得涉及目标内容的目标句子以及与涉及目标内容的目标句子具有上下文语义关系的目标句子对应的上下文句子向量在向量空间中更加接近，也即通过上下文句子向量能够识别各目标句子是否涉及目标内容以及是否与涉及目标内容的目标句子具有上下文语义关系(这类目标句子也可以认为涉及目标内容)。可以理解为利用第二上下文信息表示模型得到的上下文句子向量能够体现目标句子是否涉及目标内容的语义信息。
[0203]
利用第二上下文信息表示模型以及句子向量获得目标句子的上下文句子向量之后，可以根据上下文句子向量确定第一识别结果，例如可以将上下文句子向量输入至多分类函数确定该第一识别结果。通过这种方式，在目标句子的句子向量中添加了上下文语义信息，使得对目标句子的识别结果能够更加准确。
[0204]
下述为本公开装置实施例，可以用于执行本公开方法实施例。
[0205]
根据本公开一实施方式的文本识别模型的训练装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本识别模型的训练装置包括：
[0206]
第一获取模块，被配置为获取样本文本中样本句子的多个样本分词；
[0207]
第二获取模块，被配置为通过将样本分词输入至主干模型获取对应于样本句子的第一输出结果，以及通过将样本分词输入至辅助模型获取对应于样本分词的第二输出结果；第一输出结果至少用于表示主干模型样本句子是否涉及目标内容，第二输出结果至少用于表示样本分词是否涉及目标内容；
[0208]
调整模块，被配置为利用第一输出结果和第二输出结果对主干模型和辅助模型的模型参数进行调整；主干模型和辅助模型共享至少一部分模型参数。
[0209]
在本实施例的一个可选实现方式中，第二获取模块，包括：
[0210]
第一获取子模块，被配置为获取样本分词的初始词向量；
[0211]
第二获取子模块，被配置为通过将样本句子中样本分词对应的初始词向量输入至主干模型中的句子向量表示模型，获取样本句子的样本句子向量，以及通过将样本句子向量输入至主干模型中的句子识别模型获取第一输出结果。
[0212]
在本实施例的一个可选实现方式中，第二获取子模块，包括：
[0213]
第三获取子模块，被配置为通过将样本分词对应的初始词向量输入至句子向量表示模型中的第一上下文信息表示模型，获取样本分词的上下文词向量；
[0214]
第一确定子模块，被配置为利用注意力机制以及上下文词向量确定样本分词的词语注意力权重；
[0215]
第四获取子模块，被配置为利用样本分词的词语注意力权重以及上下文词向量获取样本句子的样本句子向量。
[0216]
在本实施例的一个可选实现方式中，第一确定子模块，包括：
[0217]
第一处理子模块，被配置为利用全连接层对样本分词对应的上下文词向量进行处理得到对应的第一输出向量；其中，主干模型和辅助模型共享全连接层的模型参数；
[0218]
第一计算子模块，被配置为根据第一输出向量计算得到样本分词的词语注意力权
重。
[0219]
在本实施例的一个可选实现方式中，第二获取模块，包括：
[0220]
第二确定子模块，被配置为利用第一输出向量确定样本分词对应的第二输出结果。
[0221]
在本实施例的一个可选实现方式中，第二获取模块，包括：
[0222]
第二处理子模块，被配置为利用全连接层对样本分词对应的初始词向量进行处理得到对应的第二输出向量；主干模型和辅助模型共享全连接层的模型参数；
[0223]
第三确定子模块，被配置为根据第二输出向量确定样本分词对应的第二输出结果。
[0224]
在本实施例的一个可选实现方式中，第二获取子模块，包括：
[0225]
第五获取子模块，被配置为通过将样本句子向量输入至主干模型中的第二上下文信息表示模型，获取样本句子的上下文句子向量；
[0226]
第四确定子模块，被配置为根据上下文句子向量确定第一输出结果。
[0227]
在本实施例的一个可选实现方式中，调整模块，包括：
[0228]
第五确定子模块，被配置为通过对样本文本中多个样本句子对应的第一输出结果确定样本文本是否涉及目标内容的第三输出结果；
[0229]
调整子模块，被配置为通过分别拟合第三输出结果与样本句子是否涉及目标内容的第一真实标签、第二输出结果与样本分词是否涉及目标内容的第二真实标签，对主干模型和辅助模型的模型参数进行调整。
[0230]
本实施例中的文本识别模型的训装置与上述图1所示实施例及相关实施例中的文本识别模型的训练方法对应一致，具体细节可以参见上述图1所示实施例及相关实施例中对文本识别模型的训练方法的描述，在此不再赘述。
[0231]
根据本公开一实施方式的文本识别装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本识别装置包括：
[0232]
第三获取模块，被配置为获取待识别文本；
[0233]
第一识别模块，被配置为利用文本识别模型中的主干模型识别待识别文本是否涉及目标内容；其中，文本识别模型利用权利要求15的装置训练得到。
[0234]
本实施例中的文本识别装置与上述图3所示实施例及相关实施例中的文本识别方法对应一致，具体细节可以参见上述图3所示实施例及相关实施例中对文本识别方法的描述，在此不再赘述。
[0235]
根据本公开一实施方式的句子向量表示装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该句子向量表示装置包括：
[0236]
第四获取模块，被配置为获取目标句子中的多个分词；
[0237]
第五获取模块，被配置为利用第一上下文信息表示模型获取分词的上下文向量词；
[0238]
第一确定模块，被配置为利用自注意力机制以及上下文词向量确定分词的词语注意力权重；
[0239]
第二确定模块，被配置为利用分词的词语注意力权重以及上下文词向量确定目标句子的句子向量。
[0240]
在本实施例的一个可选实现方式中，第五获取模块，包括：
[0241]
第六获取子模块，被配置为获取分词对应的初始词向量；
[0242]
第七获取子模块，被配置为通过将多个分词对应的初始词向量构成的词向量序列输入至第一上下文信息表示模型，获取分词对应的上下文词向量。
[0243]
在本实施例的一个可选实现方式中，第一确定模块，包括：
[0244]
第八获取子模块，被配置为将上下文词向量输入至全连接层得到输出向量；
[0245]
第二计算子模块，被配置为利用输出向量计算得到分词的词语注意力权重。
[0246]
本实施例中的句子向量表示装置与上述图4所示实施例及相关实施例中的句子向量表示方法对应一致，具体细节可以参见上述图4所示实施例及相关实施例中对句子向量表示方法的描述，在此不再赘述。
[0247]
根据本公开另一实施方式的文本识别装置，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。该文本识别装置包括：
[0248]
第六获取模块，被配置为获取待识别文本中的多个目标句子；
[0249]
第三确定模块，被配置为确定目标句子的句子向量；句子向量利用上述句子向量表示装置确定；
[0250]
第四确定模块，被配置为利用句子向量确定目标句子的第一识别结果；第一识别结果至少用于表示目标句子是否涉及目标内容；
[0251]
第五确定模块，被配置为根据第一识别结果确定待识别文本的第二识别结果；第二识别结果至少用于表示待识别本是否涉及目标内容。
[0252]
在本实施例的一个可选实现方式中，第三确定模块，包括：
[0253]
第九获取子模块，被配置为通过将句子向量输入至第二上下文信息表示模型获取目标句子的上下文句子向量；
[0254]
第六确定子模块，被配置为根据上下文句子向量确定第一识别结果。
[0255]
本实施例中的文本识别装置与上述图5所示实施例及相关实施例中的文本识别方法对应一致，具体细节可以参见上述图5所示实施例及相关实施例中对文本识别方法的描述，在此不再赘述。
[0256]
图6是适于用来实现根据本公开实施方式的文本识别模型的训练方法、文本识别方法和/或句子向量表示方法的电子设备的结构示意图。
[0257]
如图6所示，电子设备600包括处理单元601，其可实现为cpu、gpu、fpga、npu等处理单元。处理单元601可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行本公开上述任一方法的实施方式中的各种处理。在ram603中，还存储有电子设备600操作所需的各种程序和数据。处理单元601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0258]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0259]
特别地，根据本公开的实施方式，上文参考本公开实施方式中的任一方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行本公开实施方式中任一方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。
[0260]
附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0261]
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
[0262]
作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
[0263]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋凯嵩;康杨杨;张琼;孙常龙;林君
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。