一种文本处理方法、装置、介质和电子设备与流程

文档序号：27115233发布日期：2021-10-27 19:04阅读：98来源：国知局

1.本公开的实施方式涉及自然语言处理领域，更具体地，本公开的实施方式涉及一种文本处理方法、装置、介质和电子设备。

背景技术：

2.本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。
3.文本层级分类任务，是自然语言处理中的一种多标签分类任务。在该任务中，需要利用神经模型，对输入的文本数据进行处理，预测出与该文本数据对应的多标签。
4.所述标签可以用于指示文本数据在预设分类体系中对应的具体类型。例如，在新闻分类体系中，所述标签可以指示文本数据对应的新闻类型。需要说明的是，本公开记载的预设分类体系不仅局限于新闻分类体系，还可以是其它分类体系。
5.所述多标签之间具有层级关系。所述层级关系可以包括分类体系中的上下层级关系与同级关系。例如，在新闻分类体系中，可以包括三个层级。其中，三个层级表现为递进式的类型划分，即层级越低，类型划分的越精细。同一层级的标签即具有同级关系。跨层级的两个标签即具有上下层级关系。
6.目前，在文本层级分类任务中，主要依靠展平模型，局部模型或者全局模型进行标签预测。

技术实现要素：

7.但是，这些方法在预测标签时，都不能很好的利用标签之间的层级关系，很难达到很好的预测效果。
8.因此在相关技术中，并不能很好的进行文本层级分类任务。这非常令人烦恼。
9.为此，非常需要一种改进的文本处理方法，以结合多标签之间的层级关系，准确的对输入文本进行标签预测。
10.在本上下文中，本公开的实施方式期望提供一种文本处理方法、装置、介质和电子设备。
11.在本公开实施方式的第一方面中，提供了一种文本处理方法，包括：获取文本样本，以及与所述文本样本对应的样本标签序列，所述样本标签序列包括具有层级关系的多个样本标签，所述多个样本标签的排列顺序指示所述层级关系；将所述文本样本与所述样本标签序列作为输入，利用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；所述n表示所述样本标签序列或者所述预测标签序列中的标签顺位；基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
12.在一些实施例中，所述基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本
标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，包括：基于注意力机制，得到所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签分别对应的权重；基于所述文本样本，所述部分样本标签，以及所述部分样本标签分别对应的权重，得到与所述文本样本对应的预测标签序列中的第n个预测标签。
13.在一些实施例中，在基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整之前，还包括：根据所述样本标签序列包括的各样本标签之间的祖先与后代关系，维护各样本标签与其祖先标签之间的对应关系；基于所述对应关系，筛选出所述预测标签序列中各预测标签的祖先标签分别对应的权重；将所述各预测标签的祖先标签分别对应的权重输入第二损失函数，得到第二损失信息；所述第二损失函数用于在所述标签预测模型的训练阶段，增大预测标签的祖先标签对应的权重。
14.在一些实施例中，所述基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整，包括：将所述样本标签序列与所述预测标签序列输入第一损失函数，得到第一损失信息；所述第一损失函数指示所述预测标签序列与所述样本标签序列之间的误差；获取所述第二损失信息；基于所述第一损失信息与所述第二损失信息，对所述标签预测模型的参数进行调整。
15.在一些实施例中，获取所述样本标签序列的方法包括：获取标签树；所述标签树包括与多种标签分别对应多个标签节点；所述多个标签节点之间的层级关系指示所述多种标签之间的层级关系；逐级遍历所述多个标签节点，得到与所述文本样本对应的目标标签节点以得到所述样本标签序列。
16.在一些实施例中，所述逐级遍历包括广度优先遍历。
17.在一些实施例中，所述标签预测模型包括转换模型。
18.在一些实施例中，所述自然语言处理模型包括文本到文本传输转换模型。
19.在一些实施例中，所述方法还包括：获取目标文本；将所述目标文本输入训练完成的所述标签预测模型，得到所述目标文本对应的预测标签序列。
20.在本公开实施方式的第二方面中，提供了一种文本处理装置，包括：获取模块，用于获取文本样本，以及与所述文本样本对应的样本标签序列；所述样本标签序列包括具有层级关系的多个样本标签；所述多个样本标签的排列顺序指示所述层级关系；第一预测模块，用于将所述文本样本与所述样本标签序列作为输入，利用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；所述n表示所述样本标签序列或者所述预测标签序列中的标签顺位；调整模块，基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
21.在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，所述介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出的文本处理方法。
22.在本公开实施方式的第四方面中，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的文本处理方法。
23.在前述记载的技术方案中，可以将获取的文本样本与样本标签序列作为输入，利
用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；其中，所述样本标签序列包括具有层级关系的多个样本标签，所述多个样本标签的排列顺序指示所述层级关系。然后，再基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
24.由此，在标签预测模型训练过程中，使模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。
附图说明
25.通过参考附图阅读下文的详细描述，本公开示例性实施方式的前述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
26.图1为本公开实施例示出的一种标签树的结构示意图；
27.图2为本公开实施例示出的一种文本处理的应用场景示意图；
28.图3为本公开实施例示出的一种文本处理方法的方法流程图；
29.图4为本公开实施例示出的一种标签预测方法流程示意图；
30.图5为本公开实施例示出的一种标签预测模型结构示意图；
31.图6为本公开实施例示出的一种掩膜矩阵示意图；
32.图7为本公开实施例示出的一种损失信息确定方法的流程示意图；
33.图8为本公开实施例示出的一种样本标签序列的获取方法流程示意图；
34.图9为本公开实施例示出的一种标签预测方法的流程示意图；
35.图10为本公开实施例示出的一种模型训练方法流程示意图；
36.图11为本公开实施例示出的一种文本处理装置的结构示意图；
37.图12为本公开实施例示出的一种应用于文本处理方法的程序产品；
38.图13为本公开实施例示出的一种电子设备的结构示意图。
39.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
40.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
41.本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。
42.根据本公开的实施方式，提出了一种文本处理的方法、介质、装置和电子设备。
43.在本文中，需要理解的是，所涉及的术语表示如下。
44.神经模型，是一种模仿动物神经模型行为特征，进行分布式并行信息处理的算法数学模型。这种模型可以通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
45.自然语言处理，是对人类语言进行数学建模，使用计算机进行分析处理，并根据实际需求，探索语言中规律和模式，挖掘价值的过程。
46.标签树，是指以树形结构存储的标签分类体系。所述标签树包括与多种样本标签分别对应的多个标签节点；所述多个标签节点之间的层级关系指示所述多种样本标签之间的层级关系。
47.请参见图1，图1为本公开实施例示出的一种标签树的结构示意图。
48.图1示出的标签树为一种新闻分类体系标签树。所述标签树分为三个层级。其中，第一层级可以包括专题，评论，新闻三个标签分别对应的标签节点。这三个标签为同层级关系。第二层级可以包括艺术，商业，体育三个标签对应的标签节点。其中专题与艺术具有上下层级关系。即艺术是专题的子分类。商业和体育，与新闻具有上下层级关系。第三层级可以包括舞蹈，音乐，篮球，足球，曲棍球五个标签分别对应的标签节点。其中，舞蹈和音乐，与艺术具有上下层级关系。篮球、足球和曲棍球，与体育具有上下层级关系。
49.此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。
50.下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。
51.发明概述
52.一方面，本公开人发现，如果将多标签中的各标签按照层级关系由高到低的顺序排列得到标签序列，即可将文本层级分类任务变为序列到序列的文本处理过程，从而可以利用文本处理模型学习输入文本序列到标签序列之间的映射关系，执行文本层级分类任务。
53.另一方面，本公开人发现，标签序列中的各标签的排列顺序可以指示标签之间的层级关系，如果在预测第n个标签的时候，可以结合该标签之前的标签，即可在标签预测过程中，结合多标签之间的层级关系，准确的对输入文本进行标签预测。
54.因此，本公开人考虑在模型训练阶段，使模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。
55.在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。
56.应用场景总览
57.请参考图2，图2为本公开实施例示出的一种文本处理的应用场景示意图。
58.如图2所示，示意性的，前述应用场景可以包括手机2012、平板电脑2013、计算机2011等客户端终端，以及搭载文本层级分类逻辑的服务器202。
59.其中，示意性的，前述终端可以通过文本，图像，语音等形式收集文本数据，并将收集的文本数据传输至服务器202进行处理。
60.所述服务器202可以搭载模型训练逻辑与标签预测逻辑。其中，所述模型训练逻
辑，可以利用输入的文本样本集，对服务器搭载的标签预测模型进行训练，使该模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力。
61.所述标签预测逻辑，可以对输入的目标文本进行标签预测，得到输入文本的预测标签序列203。该预测标签序列203可以包括具有层级关系的多个标签。其中，在预测该序列203的第n个标签时，能够充分利用该标签之前标签信息，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。
62.示例性方法
63.请参见图3，图3为本公开实施例示出的一种文本处理方法的方法流程图。
64.图3示出的文本处理方法可以应用于电子设备中。其中，所述电子设备可以通过搭载与文本处理方法对应的软件逻辑执行该方法。所述电子设备的类型可以是笔记本电脑，计算机，手机，pad(packet assembler and disassembler，提供终端到主机的链接服务)终端等。在本公开中不特别限定所述电子设备的类型。所述电子设备也可以是用户端设备或服务端设备，在此不作特别限定。
65.如图3所示，所述文本处理方法可以包括s302
‑
s306。所述文本处理方法从模型训练角度进行实施例说明。
66.其中，s302，获取文本样本，以及与所述文本样本对应的样本标签序列，所述样本标签序列包括具有层级关系的多个样本标签，所述多个样本标签的排列顺序指示所述层级关系。
67.所述文本样本，可以包括任意文字的组合。例如，所述文本样本可以是一则新闻报道，或者是一篇撰写稿。所述文本样本用于进行有监督式的模型训练。通常情形下可以预先获取所述文本样本对应的具有层级关系的多个标签。
68.所述样本标签序列，可以是按照层级关系由高到低的顺序，对所述文本样本对应的多个标签进行排序得到的序列。
69.以图1示出的标签树为例。假设文本样本a对应的多标签包括专题，艺术，新闻，体育，足球。根据这几个标签之间的层级关系由高到低排序则可以得到样本标签序列{专题，新闻，艺术，体育，足球}。
70.在一些实施例中，可以在各标签之间增加表示层级关系的特殊符号，以及表示序列结束的特殊符号。例如，可以用“_(下划线)”表示前后两个标签为同层级关系。用“/(斜杠)”表示前后两个标签具有上下层级关系。用“eos”表示序列结束。
71.以图1示出的标签树为例。假设文本样本a对应的多标签包括专题，艺术，新闻，体育，足球(图1中深色的标签节点)。根据这几个标签之间的层级关系由高到低排序则可以得到样本标签序列{专题，_，新闻，/，艺术，_，体育，/，足球，eos}。由此在样本标签序列中可以准确体现各标签层级关系，有助于提升模型学习效果。
72.s304，将所述文本样本与所述样本标签序列作为输入，利用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；所述n表示所述样本标签序列或者所述预测标签序列中的标签顺位。
73.所述标签预测模型，可以包括基于神经模型构建的文本处理模型。该标签预测模
型可以用于得到输入文本对应的具有层级关系的预测标签，得到预测标签序列。
74.在一些实施例中，所述标签预测模型可以是nlp(natural language processing，自然语言处理)模型。利用nlp模型可以实现序列到序列的映射，进而得到输入文本对应的预测标签序列。
75.在一些实施例中，所述标签预测摸型可以是nlp中的transformer(转换)模型。该模型具有学习序列到序列映射关系的能力，从而可以实现本公开记载的文本层级分类任务。
76.在一些实施例中，所述标签预测模型(以下简称预测模型)可以包括t5(tansfer text
‑
to
‑
text transformer，文本到文本传输转换模型)。
77.t5通过使用序列到序列的损失函数设计，将大部分的自然语言处理任务转化到用序列生成解决的模式内。对于标签预测任务，通过利用一些有标签序列标注信息的语料对已完成预训练的t5进行微调学习，便可使t5适用于标签预测任务。由此可以简化标签预测任务训练过程。
78.在模型训练阶段，所述预测模型的输入可以是获取的文本样本以及文本样本对应的样本标签序列，然后所述预测模型可以得到与输入文本对应的预测标签序列。
79.在此需要说明的是，为了清楚简要地说明实施例，在后续实施例中以基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签为例进行说明。
80.举例来说，假设对文本样本进行分句和进行向量化后得到的文本样本序列为{w1，w2，
…
w
t
}，其对应的样本标签序列为{s1，s2，
…
s
m
}。本公开可将该两个序列输入预测模型进行处理，得到预测标签序列{p1，p2，
…
p
m
}。其中，在预测第n个标签p
n
时，其对应的运算逻辑可以表示为：l(p
n
)＝m({w1，w2，
…
w
t
}，{s1，s2，
…
s
n
‑1})。l表示将p
n
预测为各种可能的标签的概率。m表示模型内部的映射函数，即利用输入的文本样本，与样本标签序列中的前n
‑
1个标签，得到将第n个标签预测为各种可能的标签的概率。然后，可以选取其中最大概率对应的标签，作为p
n
对应的预测标签。
81.由此在得到预测序列第n个标签时候，能够充分利用该标签之前标签信息，得到准确的预测结果。
82.s306，基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
83.在得到与样本文本对应的预测标签序列后，则可以将所述样本标签序列与所述预测标签序列输入第一损失函数，得到第一损失信息。然后可以利用所述第一损失信息，确定模型下降梯度，通过反向传播的方式，调整所述预测模型的参数。
84.所述第一损失函数，可以指示所述预测标签序列与所述样本标签序列之间的误差。例如，所述第一损失函数可以是交叉熵损失函数。本公开不对第一损失函数的类型进行特别限定。
85.在一些实施例中，所述第一损失函数可以汇总预测标签序列与样本标签序列中处于相同位置的标签之间的误差，作为所述第一损失信息，进行模型参数更新。
86.在一些实施例中，可以利用文本样本集对预测模型进行训练，此时所述第一损失函数可以汇总文本样本集中各文本样本对应的预测标签序列与样本标签序列之间的误差，
作为所述第一损失信息，进行模型参数更新。
87.在本公开记载的技术方案中，可以将获取的文本样本与样本标签序列作为输入，利用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；其中，所述样本标签序列包括具有层级关系的多个样本标签，所述多个样本标签的排列顺序指示所述层级关系。然后，再基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
88.由此，在标签预测模型训练过程中，使模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。
89.本公开还提出一种文本处理方法。该方法的执行步骤可以参见s302
‑
s306。
90.其中，在执行s304时，可以基于注意力机制，得到所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签分别对应的权重，从而可以根据所述至少部分样本标签对预测第n个标签的影响程度，合理地为所述至少部分样本标签分配注意力，进而在预测第n个标签时，可以合理地结合其之前标签带来的信息，提升预测准确性。需要说明的是，以下不对s302与s306的步骤进行重复说明。
91.请参见图4，图4为本公开实施例示出的一种标签预测方法流程示意图。
92.如图4所示，在执行s304时，可以执行s402
‑
s404。
93.其中，s402，基于注意力机制，得到所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签分别对应的权重。
94.在一些实施例中，在执行s402时，可以先确定样本标签序列中的第n个标签，分别与所述前n
‑
1个标签之间的相似度(所述相似度可以是余弦相似度，马氏相似度等)，然后对相似度进行归一化(例如采用softmax(归一化)函数进行归一化)，得到所述前n
‑
1个标签分别对应的权重。需要说明的是，所述注意力机制可以是单头或多头注意力机制。
95.可以理解的是，在本公开记载的模型训练过程中，预测标签序列中的标签与样本标签序列是一一对应的。第n个样本标签与其之前的n
‑
1各样本标签的相似度，可以理解为第n个预测标签，与所述n
‑
1个样本标签之间的相似度。由此，所述n
‑
1个样本标签分别对应的权重，可以表征所述n
‑
1个样本标签对预测第n个预测标签的影响程度。
96.s404，基于所述文本样本，所述部分样本标签，以及所述部分样本标签分别对应的权重，得到与所述文本样本对应的预测标签序列中的第n个预测标签。
97.在一些实施例中，在执行s404时，可以先对所述部分样本标签，以及所述部分样本标签分别对应的权重进行加权求和，得到第一序列。该序列可以携带所述部分样本标签带来的信息。然后可以再与所述文本样本进行融合，并基于融合结果，确定第n个预测标签。在一些实施例中所述融合的步骤也可以是注意力机制，以对所述部分样本标签带来的信息，和文本样本携带的信息进行融合，便于正确预测第n个预测标签。
98.需要说明的是，在预测第1个预测标签时，可能由于其为序列中的首个标签，没法结合样本标签信息，此时可以在第一个样本标签之前设置一个起始字符，方便计算。
99.请参见图5，图5为本公开实施例示出的一种标签预测模型结构示意图。
100.以下结合图5对利用所述预测模型预测第n个预测标签的过程进行说明。
101.如图5所示，预测模型可以包括编码器510和解码器520。其中，解码器520包括注意力机制单元521，与融合单元522。在一些实施例中，所示编码器510中也可以包括注意力机制单元。由于本公开主要涉及解码器注意力机制单元的改进，因此不对编码器内部做过多介绍。
102.所述编码器510，用于对文本样本序列(即模型输入文本)进行编码，得到文本样本的编码向量。
103.所述注意力机制单元521，用于执行s402，确定样本标签序列的前n
‑
1个标签对第n个标签的影响程度，并据此确定前n
‑
1个标签分别对应的权重。
104.该单元可以先确定样本标签序列中的第n个标签，分别与所述前n
‑
1个标签之间的相似度(所述相似度可以是余弦相似度，马氏相似度等)，然后对相似度进行归一化(例如采用softmax(归一化)函数进行归一化)，得到前n
‑
1个标签分别对应的权重。
105.所述融合单元522，用于执行s404，先根据所述权重对前n
‑
1个标签的编码向量进行加权求和，然后再利用注意力机制将输入的文本样本的编码向量进行融合，得到融合后的向量，以实现样本标签信息和文本样本信息的汇总。然后再利用融合后的向量进行分类处理，得到第n个预测标签pn的预测结果。
106.由此可以根据所述至少部分样本标签对预测第n个标签的影响程度，合理地为所述至少部分样本标签分配注意力，进而在预测第n个标签时，可以合理地结合其之前标签带来的信息，提升预测准确性。
107.本公开还提出一种文本处理方法。该方法的执行步骤可以参见s302
‑
s306。其中，在执行s304时可以执行前述s402
‑
s404。需要说明的是，以下不对s s302
‑
s306以及s402
‑
s404的步骤进行重复说明。
108.以下先介绍一些概念。
109.祖先与后代关系用于指示直接或间接具有上下层级关系的两个标签之间关系。
110.标签的祖先标签，是指该标签的直接或间接上层标签。
111.请参见图1，体育与足球直接具有上下层级关系，即体育与足球具有祖先与后代关系。体育为足球的祖先标签。新闻与足球通过体育间接具有上下层级关系，即新闻与足球具有祖先与后代关系。新闻为足球的祖先标签。需要说明的是，第一，表示层级关系的特殊字符是根据其之前的相邻标签确定的，因此可以认为特殊字符的地位与其之前的相邻标签相同。即如果标签a是标签b的祖先标签，则标签a之后的特殊字符也是标签b的祖先标签。其中，a与b代表标签序列中任意的标签。第二，表示序列结尾的特殊字符之前的标签都是表示序列结尾的特殊字符的祖先标签。
112.在前述例子中不难发现，在预测第n个标签时，其之前的标签中既有该标签的祖先标签也有非祖先标签，而其中仅有祖先标签对预测标签有益，非祖先标签将会带来噪声，对第n个标签的预测造成影响。
113.请参见图1，假设文本样本a对应的多标签包括专题，艺术，新闻，体育，足球(图1中深色的标签节点)。根据这几个标签之间的层级关系由高到低排序则可以得到样本标签序列{专题，_，新闻，/，艺术，_，体育，/，足球，eos}。其中，在预测“足球”这个标签时，会结合其之前的全部标签，而明显地，其之前既包含其祖先标签，又包含其非祖先标签，由此非祖先
标签带来的噪声可能影响“足球”这个标签的预测。
114.为了解决这个问题，可以通过在训练过程中引入第二损失函数；所述第二损失函数用于在所述标签预测模型的训练阶段，增大预测标签的祖先标签对应的权重。由此，在训练过程中使第二损失函数运算数值趋于0时，可以使预测模型学会在预测标签时，增大预测标签的祖先标签对应的权重的能力，从而在利用该预测模型进行标签预测时，可以增大预测标签的祖先标签对应的权重，减小其非祖先标签的权重，由此增加其祖先标签的影响，降低非祖先标签带来的噪声，从而提升标签预测准确性。
115.请参见图7，图7为本公开实施例示出的一种损失信息确定方法的流程示意图。
116.如图7所示，在执行s306之前，可以执行s3501
‑
s3503。
117.其中，s3501，可以根据所述样本标签序列包括的各样本标签之间的祖先与后代关系，维护各样本标签与其祖先标签之间的对应关系。
118.需要说明的是，在本公开记载的模型训练过程中，预测标签序列中的标签与样本标签序列是一一对应的。第n个样本标签的祖先标签可以理解为第n个预测标签的祖先标签。在本公开中根据各样本标签与其祖先标签直接的对应关系，可以适用于确定预测标签的祖先标签。即预测标签的祖先标签，可以理解为是指样本标签序列中，与所述预测标签位置相同的样本标签的祖先标签。
119.在一些实施例中，可以通过维护掩膜矩阵m，维护前述对应关系。所述掩膜矩阵可以是下三角矩阵。请参见图6，图6为本公开实施例示出的一种掩膜矩阵示意图。
120.如图6所示，所述掩膜矩阵m的横向指示编码器输入的样本标签序列，纵向是指编码器输出的预测标签序列，对角线元素与预测标签序列中的各标签对应。该矩阵的右上角元素均为0。该矩阵每一行元素中，处于该行对角元素之前的各元素，指示所述各元素对应的各标签，是否为对角元素对应的标签的祖先标签。如果元素值为1，则为祖先标签，如果元素值为0则为非祖先标签。由此可以通过矩阵m来维护样本标签序列中的各样本标签与其祖先标签之间的对应关系。图6中，如果元素对应的位置未标示任何字符，则表示该元素的值为0。
121.举例来说，假设输入模型解码器的样本标签序列为图1示出的{专题，_，新闻，/，艺术，_，体育，/，足球，eos}。根据图1示出的标签之间的祖先与后代关系，可以得到如图6所示的对应关系。
122.其中，以维护图6中的o8标签，即“足球”标签对应的祖先标签为例。根据图1可知，“足球”的祖先标签包括“体育”，“新闻”，其分别对应图6中的i3与i7。又由于特殊字符的地位与其之前的相邻标签相同，因此可以确定i4与i8也是o8的祖先标签。由此在图6中与o8对应的那一行元素中，与i3，i4，i7，i8对应位置标记为1，即完成针对o8与其祖先标签对应关系的维护。
123.维护了所述对应关系后，在执行s3052，基于所述对应关系，筛选出所述预测标签序列中各预测标签的祖先标签分别对应的权重。
124.在一些实施例中，当针对样本序列中的各样本标签完成s402的步骤后，可以形成权重矩阵t。该权重矩阵t可以指示在预测各预测标签时，使用的各样本标签分别的权重。
125.该权重矩阵t可以是与掩膜矩阵m类似的下三角矩阵。该权重矩阵t的横向指示编码器输入的样本标签序列，纵向是指编码器输出的预测标签序列，对角线元素与预测标签
序列中的各标签对应。该矩阵的右上角元素均为0。该矩阵每一行元素中，处于该行对角元素之前的各元素，指示所述各元素对应的各标签的权重。在执行s3052时，可以将权重矩阵t与掩膜矩阵m点乘，筛选出所述预测标签序列中各预测标签的祖先标签分别对应的权重。
126.s3053，将所述各预测标签的祖先标签分别对应的权重输入第二损失函数，得到第二损失信息。
127.在一些实施例中，所述第二损失函数可以至少包括两个计算步骤。其一，可以先计算每一个预测标签的祖先标签的权重之和与1的差。其二，将各预测标签的祖先标签的权重之和与1的差相加，得到第二损失信息。
128.例如，所述第二损失函数可以是l2＝b*∑
i
(1
‑
∑
j∈c a
i，j
)。其中，b为预设参数。需要说明的是，b可以与标签预测模型的结构以及多头注意力机制的头数有关。a
i，j
指示第i个预测标签的第j个祖先标签的权重。1
‑
∑
j∈c a
i，j
指示每一个预测标签的祖先标签的权重之和与1的差，∑
i
(1
‑
∑
j∈c a
i，j
)指示将各预测标签的祖先标签的权重之和与1的差相加。
129.由此在训练过程中利用第二损失信息进行预测模型的训练，可以使第二损失信息逐渐趋于0，每一个预测标签的祖先标签的权重之和趋于1，即可以增大预测标签的祖先标签对应的权重的能力，从而在利用该预测模型进行标签预测时，可以增大预测标签的祖先标签对应的权重，减小其非祖先标签的权重，由此增加其祖先标签的影响，降低非祖先标签带来的噪声，从而提升标签预测准确性。
130.在得到第二损失信息后，在执行s306时，可以执行s3062
‑
s3066。
131.其中，s3062，将所述样本标签序列与所述预测标签序列输入第一损失函数，得到第一损失信息；所述第一损失函数指示所述预测标签序列与所述样本标签序列之间的误差。
132.所述第一损失函数，可以指示所述预测标签序列与所述样本标签序列之间的误差。例如，所述第一损失函数可以是交叉熵损失函数。本公开不对第一损失函数的类型进行特别限定。
133.所述第一损失函数可以汇总预测标签序列与样本标签序列中处于相同位置的标签之间的误差，作为所述第一损失信息，进行模型参数更新。
134.s3064，获取所述第二损失信息。
135.s3066，基于所述第一损失信息与所述第二损失信息，对所述标签预测模型的参数进行调整。
136.在一些实施例中可以将第一损失信息与第二损失信息的加权和，作为一轮训练的总损失信息。然后可以利用所述总损失信息，确定模型下降梯度，通过反向传播的方式，调整所述预测模型的参数。
137.例如，总损失计算公式可以是：l总＝l1+λl2。其中，λ可以是预先制定的超参数。l1代表第一损失信息。l2代表第二损失信息。由此利用该总损失计算公式进行模型参数更新，一方面，可以使模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。另一方面，可以使第二损失信息逐渐趋于0，每一个预测标签的祖先标签的权重之和趋于1，即可以增大预测标签的祖先标签对应的权重的能力，从而在利用该预测模型进行标签预测时，可以增大预测标签的祖
先标签对应的权重，减小其非祖先标签的权重，由此增加其祖先标签的影响，降低非祖先标签带来的噪声，从而提升标签预测准确性。
138.本公开还提出一种文本处理方法。该方法的执行步骤可以参见s302
‑
s306。需要说明的是，以下不对s302与s306的步骤进行重复说明。
139.其中，在执行s302前，可以先获取与文本样本对应的样本标签序列。
140.请参见图8，图8为本公开实施例示出的一种样本标签序列的获取方法流程示意图。
141.如图8所示，获取所述样本标签序列的方法可以包括s802
‑
s804。
142.其中，s802，获取标签树；所述标签树包括与多种标签分别对应多个标签节点；所述多个标签节点之间的层级关系指示所述多种标签之间的层级关系。
143.关于标签树和层级关系的说明可以参照前述内容在此不做详述。需要说明的是，在本公开中，标签与标签节点是相互对应的，因此标签之间的层级关系可以认为与标签节点之间的层级关系是等价的。
144.s804，逐级遍历所述多个标签节点，得到与所述文本样本对应的目标标签节点以得到所述样本标签序列。
145.已经预先获取所述文本样本对应的多个目标标签。本例中需要在标签树包括的标签节点中，确定与所述多个目标标签匹配的目标标签节点，以得到可以表征标签层级关系的样本标签序列
146.在一些实施例中，可以按照标签树从上到下的顺序，逐层筛选与所述多个目标标签中匹配的目标标签节点，并按照目标标签节点筛选出的顺序，生成样本标签序列。由此所述样本标签序列的排列顺序即可指示所述层级关系。在一些实施例中，可以采用广度优先遍历的方式实现逐级遍历，由此可以快速高效的生成样本标签序列。
147.本公开还提出一种文本处理方法。该方法在训练标签预测模型的步骤，可以参见s302
‑
s306。其具体的训练过程可以参照前述任意实施例。在此不做详述。
148.请参见图9，图9为本公开实施例示出的一种标签预测方法的流程示意图。
149.如图9所示，所述方法可以包括s902
‑
s904。
150.其中，s902，获取目标文本。
151.在不同的场景中，可以采用不同的方式获取目标文本。本公开不特别限定目标文本的具体获取方式。
152.例如，在一些场景中，可以通过电话等语音形式进行文本反馈。此时可以通过对语音进行识别，从而获取目标文本。再例如，在一些场景中，可以通过邮件，短信、聊天软件等文字形式进行文本反馈。此时可以直接将反馈的文字作为目标文本。再例如，在一些场景中，可以从涵盖文本内容的图像中，通过文字识别(比如，ocr(optical character recognition，光学字符识别))获取目标文本。
153.s904，将所述目标文本输入训练完成的所述标签预测模型，得到所述目标文本对应的预测标签序列。
154.所述标签预测模型已经采用前述任意实施例示出的训练方法进行了训练，将所述目标文本输入该模型后，则可以预测出于目标文本对应的具有层级关系的多个标签(预测标签序列)。其中，在预测第n个标签时，能够充分利用该标签之前标签信息，从而在利用该
模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。
155.下面结合图2的应用场景，进行实施方式说明。需要注意的是，前述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。
156.在图2示出的场景中，服务器202中可以部署了对新闻标签预测模型的训练逻辑与使用逻辑。可以理解的是，对模型的训练逻辑和使用逻辑也可以根据业务需求部署在不同的服务器中。
157.所述新闻标签预测模型(以下简称预测模型)可以用于预测新闻标签。该模型可以采用已经经过预训练的t5模型。该模型包括编码器与解码器。其模型结构可以参见图5。需要说明的是t5中可能包括多个编码器与解码器。
158.所述训练逻辑，可以采用一些标注了样本标签序列的文本样本，对预测模型的参数进行多轮微调，得到收敛的训练完成的预测模型。
159.请参见图10，图10为本公开实施例示出的一种模型训练方法流程示意图。
160.如图10所示，在一轮训练过程中，可以包括s1002
‑
s1010。
161.其中，s1002，根据预先维护的新闻标签树，生成与文本样本对应的样本标签序列。所述样本标签序列中的多个样本标签的排列顺序指示所述层级关系。
162.s1004，将文本样本和对应的样本标签序列输入预测模型，得到与文本样本对应的预先标签序列。
163.其中，可以利用模型的编码器对文本样本进行编码得到第一编码向量。在预测第n个预测标签时，可以利用解码器确定所述样本标签序列中前n
‑
1个样本标签的权重，并将所述前n
‑
1个样本标签对应的编码向量的加权和，与所述第一编码向量进行融合，得到融合向量。然后基于融合向量进行分类，得到第n个预测标签。
164.s1006，可以将预测标签序列与样本标签序列输入与t5对应的第一损失函数(交叉熵损失函数)，得到第一损失信息。
165.s1008，根据维护的掩膜矩阵m与权重矩阵t，筛选出各预测标签的祖先标签，然后将各预测标签的祖先标签输入第二损失函数，得到第二损失信息。
166.其中，掩膜矩阵m表征输入的样本标签序列中各标签与其祖先标签之间的对应关系。所述权重矩阵t表征预测标签之前的各标签分别对应的权重。第二损失函数为l2＝b*∑
i
(1
‑
∑
j∈c a
i，j
)。其中，b为预设参数。需要说明的是，b可以与标签预测模型的结构以及多头注意力机制的头数有关。a
i，j
指示第i个预测标签的第j个祖先标签的权重。1
‑
∑
j∈c a
i，j
指示每一个预测标签的祖先标签的权重之和与1的差，∑
i
(1
‑
∑
j∈c a
i，j
)指示将各预测标签的祖先标签的权重之和与1的差相加。
167.s1010，基于第一损失信息与第二损失信息的加权和，确定总损失，并利用反向传播完成预测模型的参数调整。其中，l总＝l1+λl2。其中，λ可以是预先制定的超参数。l1代表第一损失信息。l2代表第二损失信息。由此利用该总损失计算公式进行模型参数更新，可以使模型可以学习到文本样本到各样本标签之间的对应关系，在得到第n个标签时候，能够充分利用该标签之前标签信息，以及可以增大预测标签的祖先标签对应的权重的能力。
168.完成模型训练后，可以将该预测模型部署在新闻标签预测设备中，通过使用逻辑进行标签预测。
169.所述使用逻辑，可以获取需要进行标签预测的目标文本。然后可以将所述目标文本输入所述预测模型，得到与所述目标文本对应的预测新闻标签序列。由此利用所述预测模型进行预测，可以结合预测的多标签之间的层级关系，达到更好的标签预测效果，以及增大预测标签的祖先标签对应的权重，减小其非祖先标签的权重，由此增加其祖先标签的影响，降低非祖先标签带来的噪声，从而提升标签预测准确性。
170.示例性装置
171.在介绍了本公开示例性实施方式的方法之后，接下来，参考图11对本公开示例性公开的文本处理装置进行说明。该文本处理装置用于实现前述任一实施例示出的文本处理方法。
172.请参见图11，图11为本公开实施例示出的一种文本处理装置的结构示意图。
173.如图11所示，所述装置110可以包括：第一获取模块111，用于获取文本样本，以及与所述文本样本对应的样本标签序列；所述样本标签序列包括具有层级关系的多个样本标签；所述多个样本标签的排列顺序指示所述层级关系；
174.第一预测模块112，用于将所述文本样本与所述样本标签序列作为输入，利用标签预测模型，基于所述文本样本，以及所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签，得到与所述文本样本对应的预测标签序列中的第n个预测标签，以逐级预测所述预测标签序列中的各预测标签；所述n表示所述样本标签序列或者所述预测标签序列中的标签顺位；
175.调整模块113，基于所述样本标签序列，以及所述预测标签序列，对所述标签预测模型的参数进行调整。
176.在一些实施例中，所述第一预测模块112，具体用于：
177.基于注意力机制，得到所述样本标签序列中前n
‑
1个样本标签中的至少部分样本标签分别对应的权重；
178.基于所述文本样本，所述部分样本标签，以及所述部分样本标签分别对应的权重，得到与所述文本样本对应的预测标签序列中的第n个预测标签。
179.在一些实施例中，所述装置110还包括：
180.第二损失信息确定模块，用于根据所述样本标签序列包括的各样本标签之间的祖先与后代关系，维护各样本标签与其祖先标签之间的对应关系；
181.基于所述对应关系，筛选出所述预测标签序列中各预测标签的祖先标签分别对应的权重；将所述各预测标签的祖先标签分别对应的权重输入第二损失函数，得到第二损失信息；所述第二损失函数用于在所述标签预测模型的训练阶段，增大预测标签的祖先标签对应的权重。
182.在一些实施例中，所述调整模块113，具体用于：
183.将所述样本标签序列与所述预测标签序列输入第一损失函数，得到第一损失信息；所述第一损失函数指示所述预测标签序列与所述样本标签序列之间的误差；
184.获取所述第二损失信息；基于所述第一损失信息与所述第二损失信息，对所述标签预测模型的参数进行调整。
185.在一些实施例中，所述装置110还包括：
186.样本标签序列的获取模块，用于获取标签树；所述标签树包括与多种标签分别对
应多个标签节点；所述多个标签节点之间的层级关系指示所述多种标签之间的层级关系；
187.逐级遍历所述多个标签节点，得到与所述文本样本对应的目标标签节点以得到所述样本标签序列。
188.在一些实施例中，所述逐级遍历包括广度优先遍历。
189.在一些实施例中，所述标签预测模型包括转换模型。
190.在一些实施例中，所述转换模型包括文本到文本传输转换模型。
191.在一些实施例中，所述装置110还包括：
192.第二获取模块114，用于获取目标文本；
193.第二预测模块115，用于将所述目标文本输入训练完成的所述标签预测模型，得到所述目标文本对应的预测标签序列。
194.由此在训练过程中，一方面，可以使模型可以学习到文本样本到各样本标签之间的对应关系，以及在得到第n个标签时候，能够充分利用该标签之前标签信息的能力，从而在利用该模型进行标签预测时，可以结合多标签之间的层级关系，达到更好的标签预测效果。另一方面，可以使第二损失信息逐渐趋于0，每一个预测标签的祖先标签的权重之和趋于1，即可以增大预测标签的祖先标签对应的权重的能力，从而在利用该预测模型进行标签预测时，可以增大预测标签的祖先标签对应的权重，减小其非祖先标签的权重，由此增加其祖先标签的影响，降低非祖先标签带来的噪声，从而提升标签预测准确性。
195.示例性介质
196.在介绍了本公开示例性实施方式的方法和装置之后，接下来，参考图12对本公开示例性公开的一种可读存储介质进行说明。所述存储介质存储有计算机程序，所述计算机程序用于使处理器执行如前述任一实施例示出文本处理方法。
197.请参见图12，图12为本公开实施例示出的一种应用于文本处理方法的程序产品120。
198.在示出的一些实施方式中，可以通过程序产品70实现前述文本处理方法，如可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
199.该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者前述的任意合适的组合。
200.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或前述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
201.可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有
线、光缆、re等等，或者前述的任意合适的组合。
202.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如c语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的模型，包括局域网(lan)或广域网(wan)，连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
203.示例性电子设备
204.在介绍了本公开示例性实施方式的方法、装置和介质之后，接下来，参考图13对本公开示例性公开的一种电子设备进行说明。所述设备包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器通过运行所述可执行指令以实现如前述任一实施例示出的文本处理方法。
205.请参见图13，图13为本公开实施例示出的一种电子设备的结构示意图。
206.图13显示的电子设备1300仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
207.如图13所示，电子设备1300以通用电子设备的形式表现。电子设备1300的组件可以包括但不限于：前述至少一个处理器1301、前述至少一个存储处理器1302，连接不同系统组件(包括处理器1301和存储处理器1302)的总线1303。
208.总线1303包括数据总线、控制总线和地址总线。
209.存储处理器1302可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)13021和/或高速缓存存储器13022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(rom)13023。
210.存储处理器1302还可以包括具有一组(至少一个)程序模块13024的程序/实用工具13025，这样的程序模块13024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括模型环境的实现。
211.电子设备1300也可以与一个或多个外部设备1304(例如键盘、指向设备等)通信。
212.这种通信可以通过输入/输出(i/o)接口1305进行。并且，电子设备1300还可以通过模型适配器1306与一个或者多个模型(例如局域网(lan)，广域网(wan)和/或公共模型，例如因特网)通信。如图13所示，模型适配器1306通过总线1303与电子设备1300的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
213.应当注意，尽管在上文详细描述中提及了文本处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
214.此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的
结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
215.虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宸;赵屹华
技术所有人：网易传媒科技（北京）有限公司
我是此专利的发明人

上一篇：一种FPGA程序在线更新失败可恢复电路的制作方法
上一篇：一种加工机床零件回转支撑结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。