1.一种用于文本分析的模型训练方法,所述方法包括:
利用第一双向转换器模型,针对第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的上文信息,得到该词对应的正向向量;
利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,得到该词对应的反向向量;
根据所述第一训练语句中的每个词的位置,将该位置的前一个词的正向向量和该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
利用第一语言模型,针对所述第一训练语句中每个位置对应的目标词向量,预测得到该位置对应的词的第一概率;
通过使与所述第一概率相关的第一损失函数极小化,对所述第一双向转换器模型和所述第一语言模型进行训练,得到训练后的第二双向转换器模型和第二语言模型。
2.如权利要求1所述的方法,其中,所述利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,得到该词对应的反向向量,包括:
利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,使用自注意力机制,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,从不同角度抽取多个重要信息;
将所述多个重要信息中每个重要信息对应的向量进行拼接,得到该词对应的反向向量。
3.一种用于文本分析的模型训练方法,所述方法包括:
利用如权利要求1所述的方法训练后的所述第二双向转换器模型,针对第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的上文信息,得到该词对应的正向向量;
利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,得到该词对应的反向向量;
根据所述第二训练语句中的每个词的位置,将该位置的前一个词的正向向量和该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
利用如权利要求1所述的方法训练后的所述第二语言模型,针对所述第二训练语句中每个位置对应的目标词向量,预测得到该位置对应的词的第一概率;以及,根据所述第二训练语句中每个位置对应的目标词向量,生成所述第二训练语句对应的句子的表示向量;
利用多分类模型,基于所述第二训练语句对应的句子的表示向量,预测所述第二训练语句对应标签的第二概率;
通过使第一损失函数与第二损失函数的和极小化,对所述第二双向转换器模型、所述第二语言模型和所述多分类模型进行训练,得到第三双向转换器模型、第三语言模型和第二多分类模型;其中,所述第一损失函数与所述第一概率相关,所述第二损失函数与所述第二概率相关。
4.如权利要求3所述的方法,其中,所述利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,得到该词对应的反向向量,包括:
利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,使用自注意力机制,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,从不同角度抽取多个重要信息;
将所述多个重要信息中每个重要信息对应的向量进行拼接,得到该词对应的反向向量。
5.如权利要求3所述的方法,其中,所述根据所述第二训练语句中每个位置对应的目标词向量,生成所述第二训练语句对应的句子的表示向量,包括:
将所述第二训练语句中每个位置对应的目标词向量取均值,将所述均值作为所述第二训练语句对应的句子的表示向量。
6.如权利要求3所述的方法,其中,所述通过使所述第一损失函数与第二损失函数的和极小化,对所述第二双向转换器模型、所述第二语言模型和所述多分类模型进行训练,包括:
通过梯度下降法使所述第一损失函数与第二损失函数的和极小化,以确定所述第二双向转换器模型、所述第二语言模型和所述多分类模型的模型参数。
7.一种文本分类方法,所述方法包括:
利用如权利要求3所述的方法训练后的所述第三双向转换器模型,针对待分类语句中的每个词,基于该词的初始词向量,以及该词在所述待分类语句中的上文信息,得到该词对应的正向向量;
利用所述第三双向转换器模型,针对所述待分类语句中的每个词,基于该词的初始词向量,以及该词在所述待分类语句中的下文信息,得到该词对应的反向向量;
根据所述待分类语句中的每个词的位置,将该位置的前一个词的正向向量和该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
根据所述待分类语句中每个位置对应的目标词向量,生成所述待分类语句对应的句子的表示向量;
利用如权利要求3所述的方法训练后的所述第二多分类模型,基于所述待分类语句对应的句子的表示向量,对所述待分类语句进行文本分类。
8.一种用于文本分析的模型训练装置,所述装置包括:
正向向量生成单元,用于利用第一双向转换器模型,针对第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的上文信息,得到该词对应的正向向量;
反向向量生成单元,用于利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,得到该词对应的反向向量;
词向量生成单元,用于根据所述第一训练语句中的每个词的位置,将所述正向向量生成单元得到的该位置的前一个词的正向向量和所述反向向量生成单元得到的该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
预测单元,用于利用第一语言模型,针对所述词向量生成单元得到的所述第一训练语句中每个位置对应的目标词向量,预测得到该位置对应的词的第一概率;
模型训练单元,用于通过使与所述预测单元得到的第一概率相关的第一损失函数极小化,对所述第一双向转换器模型和所述第一语言模型进行训练,得到训练后的第二双向转换器模型和第二语言模型。
9.如权利要求8所述的装置,其中,所述反向向量生成单元,具体用于:
利用所述第一双向转换器模型,针对所述第一训练语句中的每个词,使用自注意力机制,基于该词的初始词向量,以及该词在所述第一训练语句中的下文信息,从不同角度抽取多个重要信息;
将所述多个重要信息中每个重要信息对应的向量进行拼接,得到该词对应的反向向量。
10.一种用于文本分析的模型训练装置,所述装置包括:
正向向量生成单元,用于利用如权利要求1所述的方法训练后的所述第二双向转换器模型,针对第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的上文信息,得到该词对应的正向向量;
反向向量生成单元,用于利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,得到该词对应的反向向量;
词向量生成单元,用于根据所述第二训练语句中的每个词的位置,将所述正向向量生成单元得到的该位置的前一个词的正向向量和所述反向向量生成单元得到的该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
第一预测单元,用于利用如权利要求1所述的方法训练后的所述第二语言模型,针对所述第二训练语句中每个位置对应的目标词向量,预测得到该位置对应的词的第一概率;
句子向量生成单元,用于根据所述词向量生成单元得到的所述第二训练语句中每个位置对应的目标词向量,生成所述第二训练语句对应的句子的表示向量;
第二预测单元,用于利用多分类模型,基于所述句子向量生成单元得到的所述第二训练语句对应的句子的表示向量,预测所述第二训练语句对应标签的第二概率;
模型训练单元,用于通过使第一损失函数与第二损失函数的和极小化,对所述第二双向转换器模型、所述第二语言模型和所述多分类模型进行训练,得到第三双向转换器模型、第三语言模型和第二多分类模型;其中,所述第一损失函数与所述第一概率相关,所述第二损失函数与所述第二概率相关。
11.如权利要求10所述的装置,其中,所述反向向量生成单元,具体用于:
利用所述第二双向转换器模型,针对所述第二训练语句中的每个词,使用自注意力机制,基于该词的初始词向量,以及该词在所述第二训练语句中的下文信息,从不同角度抽取多个重要信息;
将所述多个重要信息中每个重要信息对应的向量进行拼接,得到该词对应的反向向量。
12.如权利要求10所述的装置,其中,所述句子向量生成单元,具体用于将所述第二训练语句中每个位置对应的目标词向量取均值,将所述均值作为所述第二训练语句对应的句子的表示向量。
13.如权利要求10所述的装置,其中,所述模型训练单元,具体用于通过梯度下降法使所述第一损失函数与第二损失函数的和极小化,以确定所述第二双向转换器模型、所述第二语言模型和所述多分类模型的模型参数。
14.一种文本分类装置,所述装置包括:
正向向量生成单元,用于利用如权利要求3所述的方法训练后的所述第三双向转换器模型,针对待分类语句中的每个词,基于该词的初始词向量,以及该词在所述待分类语句中的上文信息,得到该词对应的正向向量;
反向向量生成单元,用于利用所述第三双向转换器模型,针对所述待分类语句中的每个词,基于该词的初始词向量,以及该词在所述待分类语句中的下文信息,得到该词对应的反向向量;
词向量生成单元,用于根据所述待分类语句中的每个词的位置,将所述正向向量生成单元得到的该位置的前一个词的正向向量和所述反向向量生成单元得到的该位置的后一个词的反向向量拼接起来,作为该位置对应的目标词向量;
句子向量生成单元,用于根据所述词向量生成单元得到的所述待分类语句中每个位置对应的目标词向量,生成所述待分类语句对应的句子的表示向量;
文本分类单元,用于利用如权利要求3所述的方法训练后的所述第二多分类模型,基于所述句子向量生成单元得到的所述待分类语句对应的句子的表示向量,对所述待分类语句进行文本分类。
15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项的所述的方法。
16.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项的所述的方法。