文本处理方法、装置、设备、存储介质及计算机程序产品与流程

文档序号:30580198发布日期:2022-06-29 11:45阅读:82来源:国知局
文本处理方法、装置、设备、存储介质及计算机程序产品与流程

1.本技术涉及人工智能领域,尤其涉及文本处理方法、文本处理装置、文本处理设备、计算机存储介质和计算机程序产品。


背景技术:

2.人工智能在各个科学领域的应用大大提高了业务处理的效率。其中,人工智能中的机器学习技术,已经越来越多地应用于自然语言处理任务中。
3.文本分类是计算机执行的自然语言处理任务中典型的一类任务,广泛应用于多种业务实施场景。例如,在智能知识问答服务系统中,需要将提出的问题作为输入文本进行分类,以进行意图识别,自动问答,或者根据输入文本的分类结果提供信息检索等。
4.在各种业务实施场景中,文本分类的准确性都是关注的核心问题。因此,能够进一步提升文本分类准确性的方案是目前的研究热点。


技术实现要素:

5.本技术提供了文本处理方法、装置、设备、存储介质及计算机程序产品,可以有效提高文本分类的准确性。
6.一方面,本技术提供了一种文本分类方法,包括:
7.获取待处理文本,将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的文本分类结果;
8.其中,目标文本分类模型是利用多个文本集进行模型训练得到的,每一个文本集包括第一文本以及与该第一文本为同义文本的第二文本;目标文本分类模型是基于训练过程中确定的分类损失参数和匹配损失参数,对初始文本分类模型的模型参数进行调整得到的;分类损失参数是基于所述初始文本分类模型对第一文本进行处理得到的第一文本特征确定的;匹配损失参数是基于第一文本特征以及所述初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。
9.一方面,本技术提供了一种文本分类装置,包括:
10.获取单元,用于获取待处理文本;
11.处理单元,用于将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的文本分类结果;
12.其中,目标文本分类模型是利用多个文本集进行模型训练得到的,每一个文本集包括第一文本以及与第一文本为同义文本的第二文本;目标文本分类模型是基于训练过程中确定的分类损失参数和匹配损失参数,对初始文本分类模型的模型参数进行调整得到的;分类损失参数是基于所述初始文本分类模型对第一文本进行处理得到的第一文本特征确定的;匹配损失参数是基于第一文本特征以及所述初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。
13.在一种实现方式中,获取单元还可用于获取多个文本集,用于对初始文本分类模
型进行训练。
14.所述文本分类装置还包括训练单元,用于在对初始文本分类模型进行训练的过程中,将任一文本集包括的第一文本输入初始文本分类模型中进行处理,得到第一文本特征;将任一文本集包括的第二文本输入初始文本分类模型中进行处理,得到第二文本特征;基于第一文本特征确定分类损失参数,以及基于第一文本特征和第二文本特征确定匹配损失参数;基于分类损失参数和匹配损失参数确定目标损失参数,并基于目标损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。
15.在一种实现方式中,获取单元还可用于获取第一文本特征的标注标签;训练单元还可用于基于第一文本特征进行分类处理,确定第一文本特征与标注标签之间的匹配概率;基于第一文本特征与标注标签之间的匹配概率确定分类损失参数。
16.在一种实现方式中,训练单元还可用于将第一文本特征与权重矩阵进行乘法运算,得到第一文本特征与多个参考标签中各个参考标签之间的初始匹配概率;权重矩阵是在对初始文本分类模型进行训练的过程中生成的,多个参考标签包括标注标签;将多个初始匹配概率进行归一化处理,得到第一文本特征与各个参考标签之间的匹配概率;从第一文本特征与各个参考标签之间的匹配概率中,确定第一文本特征与标注标签之间的匹配概率。
17.在一种实现方式中,第二文本为一个或多个,每一个第二文本对应一个第二文本特征;训练单元还可用于将第一文本特征分别与各个第二文本特征进行匹配处理,得到第一文本特征与各个第二文本特征之间的匹配参数;从各个第二文本特征中确定预测标签与第一文本特征的标注标签相同的目标文本特征;基于第一文本特征与目标文本特征之间的匹配参数确定匹配损失参数。
18.在一种实现方式中,任一文本集包括的第二文本是基于第一文本确定的,则训练单元还可用于将第一文本进行同义词替换处理,得到与第一文本为同义文本的第二文本;或者,将第一文本翻译成参考语种,并将翻译结果翻译回第一文本所属的原始语种,得到与第一文本为同义文本的第二文本;或者,将第一文本输入同义文本生成模型中进行处理,得到与第一文本为同义文本的第二文本。
19.在一种实现方式中,训练单元还可以用于在利用多个文本集对初始文本分类模型进行训练的过程中,确定多个文本集对应的梯度损失参数;基于梯度损失参数确定对抗扰动信息,并基于对抗扰动信息确定对抗扰动样本;基于对抗扰动样本以及确定的分类损失参数和匹配损失参数对初始文本分类模型进行训练,得到目标文本分类模型。
20.一方面,本技术提供了一种文本处理设备,包括处理器,适于实现一条或多条计算机程序;以及计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序由该处理器加载并实现本技术中一方面中的文本处理方法。
21.一方面,本技术提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器实现上述一方面中的文本处理方法。
22.一方面,本技术提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备实现上述一方面等各种
可选方式中提供的文本处理方法。
23.本技术用于对待处理文本进行文本分类的文本分类模型,是基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整得到的,分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的,匹配损失参数是基于该第一文本特征以及初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。其中,第一文本和第二文本为同义文本。采用本技术提供的文本分类模型的训练方式,可利用多个同义文本实现模型的联合学习,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
附图说明
24.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
25.图1为本技术实施例提供的一种文本分类系统的应用流程示意图;
26.图2a为本技术实施例提供的一种文本处理方法的实施环境的示意图;
27.图2b为本技术实施例提供的另一种文本处理方法的实施环境的示意图;
28.图3为本技术实施例提供的一种文本处理方法的流程示意图;
29.图4为本技术实施例提供的一种文本分类模型训练方法的流程示意图;
30.图5a为本技术实施例提供的一种数据增强的场景示意图;
31.图5b为本技术实施例提供的一种同义文本生成方法的示意图;
32.图6为本技术实施例提供的一种同义文本生成方法的流程示意图;
33.图7为本技术实施例提供的一种bert模型架构图;
34.图8为本技术实施例提供的一种基于联合学习的文本分类模型架构图;
35.图9为本技术实施例提供的一种文本处理装置的结构示意图;
36.图10为本技术实施例提供的一种文本处理设备的结构示意图。
具体实施方式
37.下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
38.为了便于理解,首先对本技术涉及到的名词进行说明。
39.1、机器学习(machine learning,ml)
40.机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。深度学习(deep learning,dl)是机器学习领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,
图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
41.2、云技术(cloud technology)
42.云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术;区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
43.3、自然语言处理(natural language processing,nlp)
44.自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,包括自然语言理解(natural language understanding,nlu)和自然语言生成(natural language generation,nlg)两部分。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
45.4、文本分类
46.文本分类是nlp中一项常见且重要的技术,对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记的技术,它根据一个已经被标注的训练文本集合,找到文本特征和文本类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类作为nlp中一项重要的基础技术,广泛应用于多种业务场景里,例如新闻咨询分类、广告分类等。根据文本的长短,通常将文本分类分为短文本分类和长文本分类两种类型。长文本,顾名思义,就是文本比较长,比如新闻资讯类的文章;短文本的文本内容较少、字数较短,通常只有十几个字或者几个字,比如广告标题、搜索词句等。
47.为了实现文本分类这一技术,通常的解决方案是训练一个模型。模型是一个带有可学习参数的函数,可将输入映射至输出。通过在数据上训练模型获得最佳参数。训练好的模型可以提供从输入到所需输出的准确映射。
48.对于文本分类模型,该文本分类模型用于对输入的文本进行分类,确定文本所属的类型。例如,该类型可以为该文本所表达的情感、该文本所体现的物体的属性或该文本所表达的意图等。根据该文本分类模型的具体应用,该文本分类模型所需要确定文本的类型也就不同。
49.5、bert
50.用于语言理解的深度双向转换器的预训练(pre-training of deep bidirectional transformers for language understanding,bert)为一种预训练模型。bert能够提取样本中所有使用的字向量,将字向量保存成向量文件,为后续模型提供embedding向量,也即是词嵌入信息。
51.6、词嵌入信息
52.词嵌入是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。词嵌入的过程是个降维的过程,用于将词映射到实数
域,得到词的向量表达,可以将该词的向量表达称为词嵌入信息。
53.词嵌入是一种embedding的过程,embedding是一种将离散变量转变为连续向量的方式。embedding也即是将源数据映射到另一个空间的过程。词嵌入也可以称为单词嵌入,可以理解为把x所属空间的单词映射为到y空间的多维向量,该多维向量相当于嵌入到y所属空间中。该映射过程也就是生成在一个新的空间上的表达的过程。使用词嵌入信息来表示词或词组的方法能够提升自然语言处理中对文本的分析效果。
54.本技术实施例提供的文本处理方法能够应用于任一种需要进行文本分类的场景中,如情感分析、商品分类、意图分类等。例如,可应用于文本分类系统中,用于对文本的意图进行分类。其中,该文本分类系统则用于分析文本的意图。例如,在搜索场景中,该文本可以为操作者输入的文本,在操作者输入文本后,该文本分类系统就能分析出对应的意图。请参阅图1,如图1所示,提供了一个具体的搜索应用场景,操作者可将搜索的文本作为输入文本101输入文本分类系统102中,文本分类系统102可以对该输入文本101进行文本分类,识别出输入文本101的意图,并对意图进行分类,从而确定该输入文本101所需要的功能103,其中功能103可包括一个或多个具体的功能,如图1所示的功能1至功能3。示例性的,若输入文本101为“a市明天的天气”,则通过文本分类系统102确定出该输入文本的意图为:查询天气。则可以根据该意图向操作者提供相应的查询功能。
55.请参阅图2a,为本技术提供的一种文本处理方法的环境的示意图。如图所示,该实施环境包括一个或多个文本处理设备201,以及一个或多个文本数据库202,文本数据库202中存储有多个文本,可用于模型训练,也可作为待处理文本进行分类。文本处理设备201可以是具备数据(如文本)处理功能的服务器或者终端,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端,等等,但并不局限于此。图2a所示的文本数据库202可以是文本处理设备201的本地数据库,也可以是文本处理设备201能够访问的云端数据库。
56.本技术实施例提供的文本处理方法可以由文本处理设备201执行,如从文本数据库202中获取待处理文本,并将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的分类结果。其中,目标文本分类模型的训练方法也可由文本处理设备201执行。文本处理设备201能够从文本数据库202中获取多个文本集,每个文本集包括第一文本以及与第一文本为同义文本的第二文本,通过将多个文本集输入初始文本分类模型中进行训练,得到分类损失参数和匹配损失参数,并基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。
57.请参阅图2b,图2b为本技术实施例提供的另一种文本处理方法的实施环境的示意图。该实施环境包括一个或多个终端203和文本处理平台204。终端203通过网络(无线网络或有线网络)与文本处理平台204建立通信连接,并进行数据交互。
58.终端203可以是智能手机、平板电脑、台式计算机、智能音箱、智能手表、车载终端、智能家电、智能语音交互设备等。终端203安装和运行有支持文本分类的应用程序,例如,该应用程序可以是系统应用、即时通信应用、新闻推送应用、购物应用、社交类应用等。
59.终端203可以获取待处理文本,将待处理文本输入目标文本分类模型进行处理,得到待处理文本的分类结果,其中,目标文本分类模型可由文本处理平台204通过对初始文本分类模型训练得到,也由终端203通过对初始文本分类模型训练得到。可选地,当目标文本分类模型为终端203训练得到的,终端203还可以获取多个文本集,每个文本集包括第一文本以及与第一文本为同义文本的第二文本,利用多个文本集对初始文本分类模型进行训练,得到分类损失参数和匹配损失参数,从而对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。可选地,在终端203对初始文本分类模型的训练过程中,所采用的多个文本集可从文本处理平台204中获取。
60.文本处理平台204包括一台或多台服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
61.文本处理平台204可用于使用目标文本分类模型对待处理文本进行分类,也可用于训练初始文本分类模型得到目标文本分类模型,本技术对此不作限定。当文本处理平台204用于对待处理文本进行分类时,可以获取待处理文本,并将待处理文本输入目标文本分类模型中,得到待处理文本的分类结果;当文本处理平台204用于模型训练时,可以获取多个文本集,每个文本集包括第一文本以及与第一文本为同义文本的第二文本;利用多个文本集对初始文本分类模型进行训练,得到分类损失参数和匹配损失参数,从而对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。可选地,文本处理平台204获取待处理文本的方式可以为从终端203中获取。
62.以上对本技术实施例提供的文本处理方法进行了简要介绍,下面对该文本处理方法的具体实现方式进行详细阐述。
63.请参阅图3,图3为本技术实施例提供的一种文本处理方法的流程示意图,该方法应用于文本处理设备,该文本处理设备为终端或者文本处理平台。如图3所示,该方法包括但不限于以下步骤:
64.s301:获取待处理文本。
65.待处理文本是指文本形式的样本,样本(specimen)是指观测或调查的一部分个体,在本技术实施例中,该待处理文本是字符串,可以是一句或多句话,也可以是一个或多个词,等等。待处理文本可以是在各种应用场景下获取的文本,例如,在搜索应用场景,搜索者在搜索输入框中输入了搜索词“草莓”,则将“草莓”作为待处理文本。又例如,在语音识别应用场景,获取到的语音进行识别后的文本内容为“a省未来十五天的天气”,则待处理文本为“a省未来十五天的天气”。
66.可选的,根据文本的长短分类,待处理文本可以是短文本或长文本,若待处理文本的字符数小于n个字符则是短文本,若待处理文本的字符数大于或等于n则是长文本。其中,n为正整数,例如n可以为7。常见的长文本有新闻资讯类的文章、论文等;短文本可以是新闻标题、口号、搜索query等,例如:
67.新闻标题:樱花海棠齐放,游人踏青赏花潮
68.query 1:b区的气温
69.query 2:c的星座
70.s302:将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的文本分类结果。
71.其中,目标文本分类模型是利用多个文本集进行模型训练得到的,每一个文本集包括第一文本以及与第一文本为同义文本的第二文本;目标文本分类模型是基于训练过程中确定的分类损失参数和匹配损失参数,对初始文本分类模型的模型参数进行调整得到的;分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的;匹配损失参数是基于第一文本特征以及初始文本分类模型对所述第二文本进行处理得到的第二文本特征确定的。
72.示例性的,若待处理文本为上述举例的query 1“b区的气温”,通过目标文本分类模型,可以得到待处理文本所属的类别为“天气”。
73.在本技术实施例中,用于训练初始文本分类模型的训练样本可以为多个文本集,每个文本集包括第一文本和与第一文本为同义文本的第二文本。将第一文本输入初始文本分类模型可以得到分类损失参数,将第二文本输入初始文本分类模型可以得到匹配损失参数,基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整,可得到目标文本分类模型。
74.在一种实现方式中,使用目标文本分类模型的执行主体,以及通过初始文本训练模型训练得到目标文本分类模型的执行主体可以是同一个文本处理设备,也可以是两个不同的文本处理设备,本技术对此不作限定。例如,使用目标文本分类模型的执行主体可以为图2b所示的终端203,而训练初始文本分类模型的执行主体可以是如图2b所示的文本处理平台204。
75.本技术用于对待处理文本进行文本分类的文本分类模型,是基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整得到的,分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的,匹配损失参数是基于该第一文本特征以及初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。其中,第一文本和第二文本为同义文本。采用本技术提供的文本分类模型的训练方式,可利用多个同义文本实现模型的联合学习,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
76.传统的对短文本进行分类的解决方案是直接训练一个分类模型,这会导致两个问题:第一,由于短文本的字符数较少,其文本特征通常不够明显,使得模型难以学习,导致模型的分类效果比较差;第二,同样由于短文本的字符数较少,在对模型进行训练的过程中通常需要大量的标注训练样本,这直接导致需要对大量的训练样本进行标注,耗时又耗力。针对这两个问题,本技术实施例提出了一种基于样本增强和对抗学习的文本分类模型,,它首先会基于多种方式构造训练样本进行样本增强,以减少人工标注样本的数量;该模型还采用的对抗学习技术,可以显著提升模型的泛化能力;此外,在模型训练的过程中利用多个样本进行联合学习,从而调整模型参数,增强模型的训练效果。实验表明,通过上述方式训练得到的模型可以显著的提升短文本分类模型的效果,提高对短文本进行分类的分类准确性。同时,该模型在对长文本进行分类时,同样具有显著的分类准确性。
77.请参阅图4,图4为本技术提供的一种文本处理方法中采用的文本分类模型训练方
法的流程示意图。该文本分类模型训练方法的执行主体为文本处理设备,该文本处理设备可以与文本处理方法的执行主体为同一个设备,也可以是不同的两个设备。如图4所示,该文本分类模型训练方法包括但不限于以下步骤:
78.s401:获取多个文本集,利用多个文本集对初始文本分类模型进行训练。其中,每个文本集包括第一文本和与第一文本为同义文本的第二文本。可选的,文本集中还可以包括第一文本的标注标签,该标注标签可以是人为确定的。
79.在本技术实施例中,文本集是指文本形式的样本,样本(specimen)是指观测或调查的一部分个体。其中,第一文本和第二文本为同义文本,即第一文本与第二文本表达相同的意思,或者第一文本与第二文本为同义词。例如,第一文本为“a对b的主要贡献”,第二文本可以为“a对b的主要奉献”;又例如,第一文本为“开心”,第二文本可以为“快乐”,在上述的两个例子中,第一文本和第二文本为同义文本。所述多个文本集用于对初始文本分类模型进行训练。所述第一文本的标注标签为认为标注的标签,表示第一文本所属的真实的类别。例如,当第一文本为“开心”时,其标注标签可以为“情绪”。
80.在一种实现方式中,任一文本集包括的第二文本是基于第一文本确定的。通过第一文本确定第二文本的方式可以为同义词替换法、回译方式和同义文本生成模型法等。请参阅图5a,图5a为本技术实施例提供的一种数据增强的场景示意图。如图5a所示,将第一文本作为原始样本以上述任一种方式进行数据增强,得到多个第二文本,由第一文本和多个第二样本组成文本集,用于模型训练当中。请参阅图5b,图5b为本技术实施例提供的一种同义文本生成方法的示意图,图中包括了本技术实施例提供的三种同义文本生成方式以及同义判别机制,将在下文对三种同义文本生成方式以及同义判别机制进行详细地介绍。
81.可选地,使用同义词替换法生成同义文本的方式可以为:提取第一文本的关键词,基于一个同义词表,找到与第一文本的关键词为同义词的词语,并用这些词语替换第一文本中的关键词,从而得到第二文本。示例性的,第一文本的内容为“a有哪些主要成就”,可以提取出第一文本的关键词为“成就”,则通过同义词表可以确定“成就”的同义词为“贡献”,则第二样本可以为“a有哪些贡献”。
82.可选地,使用回译方式生成同义文本的方式可以为:可以通过回译方式,将第一文本翻译成参考语种,再将翻译结果翻译回第一文本所属的原始语种,从而得到与第一文本为同义文本的第二文本。其中,参考语种可以为英文、法语、日语、韩语、意大利语等与第一文本所属的原始语种不同的各种语种,本技术对此不作限定。示例性的,第一文本为“b的星座是什么”,翻译成英文则为“what is b’s constellation”,回译为中文后得到第二文本为“b是什么座”。
83.可选地,使用同义文本生成模型法生成同义文本的方式可以为:通过训练一个同义文本生成模型,利用第一文本生成第二文本。该同义文本生成模型可以是序列到序列(sequence to sequence,seq2seq)模型。seq2seq模型包括两个部分,编码器encoder和解码器decoder,其中encoder为一个编码模型,可以采用长短期记忆(long short-term memory,lstm)、卷积神经网络(convolutional neural network,cnn)或者变换模型(transformer)架构,本技术对此不作限定。示例性的,如图6所示,通过编码器对输入的第一文本(分解成图中的x1、x2、x3、x4)进行编码,得到编码后的c1、c2、c3;将得到的编码输入解码器,依次生成每个字y1、y2、y3,最终生成完整的一个文本,即第二文本。
84.通过上述三种方式生成的文本可能存在谬误,与第一文本可能不是同义文本。例如,通过上述的回译方式,针对第一文本“b的星座是什么”生成了一个文本为“b住在哪里”,该文本不能作为第一文本的同义文本。考虑到这个问题,可以采用如图6所示的同义辨别机制来确定生成的文本是否为第一文本的同义文本。可选地,可采用一个基于bert的交互式匹配模型,将第一文本和生成的文本拼接在一起并输入bert模型,通过该模型进行二分类,从而判别第一文本和该生成的文本是否为同义文本。
85.示例性的,请参阅图7,将描述a和描述b分别分解成多个单词(token化),把描述a和描述b中的每一个字作为一个词(token);将token化后的描述a和描述b拼接,在描述a的词首插入[cls]符号,在描述a的词末以及描述b的词末各插入一个[sep]符号,完成拼接和插入后输入bert模型进行处理,得到一个分类向量t
cls
,该分类向量为融合了描述a和描述b的全部语义信息的向量,通过二分类,可以为分类向量打上标签(label)。例如,描述b与描述a为同义,则label为1,否则label为0。通过上述同义判别机制,可以确定出与第一文本为同义文本的第二文本,然后将第一文本和第二文本用于初始文本分类模型的训练,扩充了训练的样本量,能够提升目标文本分类模型的泛化能力。
[0086]
为了进一步提升目标文本分类模型的泛化能力,同时使目标文本分类模型对干扰更具鲁棒性,可以在对初始文本分类模型进行训练的过程中,进行对抗训练。对抗训练是一种增强模型鲁棒性的方式,在对抗训练的过程中,能够为原始的样本混合一些微小的对抗扰动,得到对抗样本,对抗样本相比原始样本改动较小,以对抗样本作为模型输入能够导致模型以高置信度给出一个错误的输出,造成误分类,使模型适应这种改变,从而对对抗样本具有鲁棒性。其中,对抗扰动是指在原始样本中加入的干扰因素,在文本领域中,该对抗扰动可以是在文本中加入的一些文字改动,或者对该文本的词嵌入信息的改动等。
[0087]
在一种实现方式中,可以利用对抗训练来增强目标文本分类模型的鲁棒性。在利用多个文本集对初始文本分类模型进行训练的过程中,进行对抗训练,该对抗训练的总体优化目标可以用下式表示:
[0088][0089]
其中,θ表示模型参数,x表示文本集,y表示文本集的分类结果(若该分类结果以标签的形式表示,则可以成为标注标签),e和l分别为重构损失函数和分类损失函数,d为文本集的数据分布,r
adv
表示对抗扰动,s表示对抗扰动的模所属的范围(保证在这个范围内对抗扰动不会改变文本集的原义)。上述总体优化目标可理解为通过最大化分类损失函数得到一个对抗扰动,把对抗扰动加入文本集原始的词嵌入中得到词嵌入形式的对抗样本,最小化对抗样本的分类损失和重构损失,使得模型能正确分类对抗样本且能把对抗样本还原回原始的文本集。
[0090]
可选地,应用于本技术实施例,基于上述总体优化目标,确定多个文本集对应的梯度损失参数,确定梯度参数的过程可由下列公式表示:
[0091][0092]
其中,g表示梯度,对应于文本集对应的梯度损失参数,θ表示模型参数,x表示文本集,y表示文本集的分类结果(若该分类结果以标签的形式表示,则可以成为标注标签),l为分类损失函数。基于求得的梯度损失参数,通过下列公式确定对抗扰动信息,即对抗扰动radv

[0093][0094]
其中,||g||表示求梯度损失参数的模。通过对抗扰动信息,可以确定对抗扰动样本。其中,可选地,确定对抗扰动样本可以通过多种方式实现,本技术提供以下两种方式,本技术实施例可以采取任意一种方式,且对此不作限定。
[0095]
方式一:在文本集的词嵌入信息中加入该对抗扰动信息,得到该文本集对应的对抗扰动样本的词嵌入信息。则在后续的s402和s404中,第一文本和第二文本的词嵌入信息中均包括了该词嵌入形式的对抗扰动信息。
[0096]
方式二:在文本集的文本内容中加入该对抗扰动信息,得到该文本集对应的对抗扰动样本的文本内容。则在后续的s402中,任一第一文本的文本内容中包括了该对抗扰动样本的文本内容,可以先将第一文本以及第一文本中的对抗扰动样本的文本内容中的词映射到实数域,得到该第一文本的词嵌入信息,再进行后续的步骤;同理,在s404中,任一第二文本的文本内容中包括了该对抗扰动样本的文本内容,经上述相似的过程得到第二样本的词嵌入信息,其中,该第二样本的词嵌入信息包括对抗扰动样本的词嵌入信息。
[0097]
s402:在对初始文本分类模型进行训练的过程中,将任一文本集包括的第一文本输入初始文本分类模型进行处理,得到第一文本特征。其中,任一文本集为s401中的多个文本集中的任意一个。
[0098]
初始文本分类模型可以为一种预训练语言模型,本技术实施例以bert模型为例,bert的模型架构可以参考图7。使用bert模型进行文本分类任务时,在输入bert模型的单个句子前面插入一个[cls]符号,取[cls]在编码器最后一层的隐状态向量作为整个句子的语义向量,把该语义向量输入到一个分类器中。具体地,参考图7,可以把句子描述a分解成多个单词的形式,得到token1(如图7中的“祝”)、token2(如图7中的“贺”)等单词。bert模型能够将每一个token转换为词嵌入信息,然后通过多个隐层对词嵌入信息进行特征提取。基于上述的过程,将第一文本输入初始文本分类模型进行训练,即可得到第一文本特征和第一文本对应的一个或多个参考标签,然后执行s403。其中,第一文本特征为向量形式;参考标签为初始文本分类模型对第一文本的分类结果,表示第一文本所属的类别。
[0099]
需要说明的是,本技术不限定s402与s404之间的执行顺序,可以同时执行s402和s404,可以先执行s402在执行s404,或者可以先执行s404,再执行s402。
[0100]
s403:基于第一文本特征确定分类损失参数。
[0101]
通过初始文本分类模型,例如bert模型,将bert模型中最后一个隐层输出的向量作为文本集的文本特征,即将第一文本特征输入分类器进行分类,得到第一文本的多个参考标签(包括第一文本的标注标签),其中,第一文本的参考标签即为第一文本特征的参考标签,第一文本的标注标签即为第一文本特征的标注标签;第一文本的标注标签表示第一文本所属的真实类别。将第一文本特征与权重矩阵进行乘法运算,可以得到第一文本与多个参考标签中各个参考标签之间的初始匹配概率logits;将多个初始匹配概率进行归一化处理,得到第一文本与各个参考标签之间的匹配概率probs;从得到的多个匹配概率中,可以确定第一文本与标注标签之间的匹配概率probsi,上述计算过程可由下列公式表示:
[0102]
logits=w
·vcls
[0103]
probs=softmax(logits)
[0104]
lossc=-log(probsi)
[0105]
其中,权重矩阵w是在对初始文本分类模型进行训练的过程中产生的,权重矩阵与第一文本、第二文本等训练文本对应的参考标签相关,或者说权重矩阵与模型训练过程学习得到的参考标签相关,例如参考标签为5个,则权重矩阵共有5个值;v
cls
代表第一文本的第一文本特征;softmax为一种逻辑回归函数,通过softmax可以将参考标签的logits归一化为取值范围在0-1之间的概率;lossc表示分类损失参数。
[0106]
s404:将任一文本集包括的第二文本输入初始文本分类模型进行处理,得到第二文本特征。其中,该任一文本集包括的第二文本与s402中的第一文本具有对应关系,即属于同一文本集中的两个文本。
[0107]
可选地,可采用预训练语言模型bert模型,将输入bert模型的第二文本分解成多个单词的形式,并在句前插入一个[cls]符号,取[cls]在编码器最后一层的隐状态向量作为整个句子的语义向量,把该语义向量输入到一个分类器中。通过bert模型,将第二文本的每一个单词转换为词嵌入信息,然后通过多个隐层对词嵌入信息进行特征提取。基于上述的过程,将第二文本输入初始文本分类模型进行训练,即可得到第二文本特征,以及第二文本对应的一个或多个预测标签。其中,第二文本特征为向量形式;预测标签为初始文本分类模型对第二文本的分类结果,表示第二文本所属的类别。
[0108]
s405:基于第一文本特征和第二文本特征确定匹配损失参数。
[0109]
其中,第二文本为第一文本的同义文本,则第二文本可以为一个或者多个,每一个第二文本都对应一个第二文本特征。将第一文本特征分别和各个第二文本特征计算内积,得到第一文本特征与各个第二文本特征之间的匹配参数;通过逻辑回归函数softmax,求得各个匹配参数对应的匹配概率;从各个第二文本特征中确定预测标签与第一文本的标注标签相同的目标文本特征;基于第一文本特征和目标文本特征之间的匹配概率,通过分类损失函数计算得到匹配损失参数。
[0110]
上述过程可由下列公式表示:
[0111]
scorek=《v
cls
,vk》,1≤k≤n
[0112]
probsk=softmax(scorek),1≤k≤n
[0113]
lossm=-log(probsi)
[0114]
其中,v
cls
为第一文本特征,vk表示第二文本的第k个第二文本特征,n为正整数,表示第二文本共有n个第二文本特征,scorek表示第一文本特征v
cls
与一个第二文本特征vk之间的匹配分数,probsk表示第一文本特征v
cls
与一个第二文本特征vk之间的匹配概率,probsi为第一文本特征v
cls
和目标文本特征vi之间的匹配概率,lossm为通过分类损失函数计算得到的匹配损失参数。
[0115]
示例性的,若第二文本的第二文本特征分别为v1、v2、v3、v4,则第一文本特征v
cls
需要分别与上述四个向量分别计算内积。若v2对应的第二文本的预测标签与第一文本的标注标签相同,则v2即为目标文本特征vi,第一文本特征v
cls
和目标文本特征vi之间的匹配概率probsi就等于第一文本特征v
cls
和v2之间的匹配概率;若该第二文本对应的预测标签中有多个与第一文本的标注标签相同,例如v1和v2对应的预测标签均与第一文本的标注标签相同,则可以通过上述公式,分别计算v
cls
与v1、v
cls
与v2的内积,并分别计算得到v
cls
与v1之间的匹
配概率probs1,以及v
cls
与v2之间的匹配概率probs2,确定出候选匹配损失参数loss
m1
和loss
m2
,可以通过对loss
m1
和loss
m2
求平均值等方式,确定匹配损失参数lossm。
[0116]
以上是对多个文本集中的一个文本集中的第一文本以及与该第一文本为同义文本的第二文本进行处理,以确定分类损失参数和匹配损失参数的方式为例进行的介绍,可以理解的是,对多个文本集中的其他文本集进行处理的方式,与s401-s405中介绍的方法类似,此处不再赘述。
[0117]
s406:基于分类损失参数和匹配损失参数确定目标损失参数,并基于目标损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。
[0118]
请参阅图8,图8为本技术实施例提供的一种基于联合学习的文本分类模型架构图。如图8所示,第一文本为“草莓如何种植”,与第一文本为同义文本的第二文本为“草莓怎么养”,将第一文本和第二文本同时用于模型训练,并将第一文本的分类结果和第二文本的分类结果进行匹配处理。基于s403和s405中确定的分类损失参数lossc与匹配损失参数lossm,可以通过下列公式求得目标损失参数loss:
[0119]
loss=lossc+lossm[0120]
基于求得的目标损失参数,调整初始文本分类模型的模型参数,得到目标文本分类模型。通过本技术实施例提供的基于联合学习的文本分类模型,利用多个同义文本进行模型训练,不仅考虑了训练文本(如第一文本)的分类损失参数,还同时将训练文本与训练文本的同义文本进行匹配处理,得到同义文本间的匹配损失参数,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
[0121]
需要说明的是,通过上述过程求得的是训练多个文本集中的任一文本集得到的目标损失参数,为了确定最终用于模型参数调整的目标损失参数,可以利用多个不同或相同的文本集,多次对初始文本分类模型进行训练。基于目标损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型的方式可以为:对多个文本集中的每个文本集重复执行s402-s406中的步骤,利用每个文本集中的两个同义文本对初始文本分类模型进行训练,以得到多个文本集中每个文本集对应的多个目标损失参数;基于得到的多个目标损失参数,确定融合损失参数,将该融合损失参数用于调整初始文本分类模型的模型参数,得到目标文本分类模型。可选地,可通过对多个文本集对应的多个目标损失参数求加权平均值的方式确定目标损失参数,并用于调整初始文本分类模型的模型参数,从而训练得到目标文本分类模型。可选地,可以通过求多个文本集对应的多个目标损失参数的平均值的方式,确定融合损失参数,并将融合损失参数用于调整模型参数。
[0122]
示例性的,通过求平均值的方式确定融合损失参数的方式可以为:对于n个文本集均采用上述s401-s406的方式求得n个文本集对应的目标损失参数(loss1,loss2,

,lossn)。其中,n为正整数,通过上述过程求得最终的目标损失参数loss,即融合损失参数的公式如下所示:
[0123][0124]
本技术用于对待处理文本进行文本分类的文本分类模型,是基于分类损失参数和
匹配损失参数对初始文本分类模型的模型参数进行调整得到的,分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的,匹配损失参数是基于该第一文本特征以及初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。其中,第一文本和第二文本为同义文本。采用本技术提供的文本分类模型的训练方式,可以对用于训练的样本进行数据增强,得到与第一文本为同义文本的第二文本,使模型训练的样本扩充,提升模型的泛化能力;可以通过对抗训练,将对抗扰动样本用于模型训练,提升了模型对干扰的鲁棒性;可以利用多个同义文本实现模型的联合学习,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
[0125]
请参阅图9,为本技术实施例提供的一种文本处理装置的结构示意图。如图9所示,所述文本处理装置包括:
[0126]
获取单元901,用于获取待处理文本;
[0127]
处理单元902,用于将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的文本分类结果;
[0128]
其中,目标文本分类模型是利用多个文本集进行模型训练得到的,每一个文本集包括第一文本以及与第一文本为同义文本的第二文本;目标文本分类模型是基于训练过程中确定的分类损失参数和匹配损失参数,对初始文本分类模型的模型参数进行调整得到的;分类损失参数是基于所述初始文本分类模型对第一文本进行处理得到的第一文本特征确定的;匹配损失参数是基于第一文本特征以及所述初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。
[0129]
在一种实现方式中,获取单元901还用于获取多个文本集,所述多个文本集用于对初始文本分类模型进行训练。
[0130]
所述文本处理装置还包括训练单元903,用于在对初始文本分类模型进行训练的过程中,将任一文本集包括的第一文本输入初始文本分类模型中进行处理,得到第一文本特征;将任一文本集包括的第二文本输入初始文本分类模型中进行处理,得到第二文本特征;基于第一文本特征确定分类损失参数,以及基于第一文本特征和第二文本特征确定匹配损失参数;基于分类损失参数和匹配损失参数确定目标损失参数,并基于目标损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。
[0131]
在一种实现方式中,获取单元901还用于获取第一文本特征的标注标签;训练单元903还用于基于第一文本特征进行分类处理,确定第一文本特征与标注标签之间的匹配概率;基于第一文本特征与标注标签之间的匹配概率确定分类损失参数。
[0132]
在一种实现方式中,训练单元903还可用于将第一文本特征与权重矩阵进行乘法运算,得到第一文本特征与多个参考标签中各个参考标签之间的初始匹配概率;权重矩阵是在对初始文本分类模型进行训练的过程中生成的,多个参考标签包括标注标签;将多个初始匹配概率进行归一化处理,得到第一文本特征与各个参考标签之间的匹配概率;从第一文本特征与各个参考标签之间的匹配概率中,确定第一文本特征与标注标签之间的匹配概率。
[0133]
在一种实现方式中,第二文本为一个或多个,每一个第二文本对应一个第二文本特征;训练单元903还可用于将第一文本特征分别与各个第二文本特征进行匹配处理,得到
第一文本特征与各个第二文本特征之间的匹配参数;从各个第二文本特征中确定预测标签与第一文本特征的标注标签相同的目标文本特征;基于第一文本特征与目标文本特征之间的匹配参数确定匹配损失参数。
[0134]
在一种实现方式中,任一文本集包括的第二文本是基于第一文本确定的,则训练单元903还可用于将第一文本进行同义词替换处理,得到与第一文本为同义文本的第二文本;或者,将第一文本翻译成参考语种,并将翻译结果翻译回第一文本所属的原始语种,得到与第一文本为同义文本的第二文本;或者,将第一文本输入同义文本生成模型中进行处理,得到与第一文本为同义文本的第二文本。
[0135]
在一种实现方式中,训练单元903还可以用于在利用多个文本集对初始文本分类模型进行训练的过程中,确定多个文本集对应的梯度损失参数;基于梯度损失参数确定对抗扰动信息,并基于对抗扰动信息确定对抗扰动样本;基于对抗扰动样本以及确定的分类损失参数和匹配损失参数对初始文本分类模型进行训练,得到目标文本分类模型。
[0136]
根据本技术的一个实施例,图3和图4所示的文本处理方法所涉及的步骤可由图9所示的文本处理装置中的各个单元来执行。例如,图3中所示的步骤s301和图4中所示的步骤s401可由图9中的获取单元901来执行,图3中所示的步骤s302可由图9中的处理单元902来执行;图4中所示的步骤s402、s403、s404、s405、s406可由图9中的训练单元903来执行。
[0137]
根据本技术的一个实施例,图9所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0138]
可以理解的是,本技术实施例所描述的文本处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
[0139]
本技术用于对待处理文本进行文本分类的文本分类模型,是基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整得到的,分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的,匹配损失参数是基于该第一文本特征以及初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。其中,第一文本和第二文本为同义文本。采用本技术提供的文本分类模型的训练方式,可利用多个同义文本实现模型的联合学习,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
[0140]
请参阅图10,为本技术实施例提供的一种文本处理设备的结构示意图。本技术实施例中所描述的文本处理设备用于执行前文所述的文本处理方法,包括:处理器1001、通信接口1002及存储器1003。其中,处理器1001、通信接口1002及存储器1003可通过总线或其他方式连接,本技术实施例以通过总线连接为例。
[0141]
其中,处理器1001(或称cpu(central processing unit,中央处理器))是计算机
设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:cpu可以用于解析向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如:cpu可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口1002可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等),受处理器1001的控制用于收发数据。存储器1003(memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器1003既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器1003提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:android系统、ios系统、windows phone系统等等,本技术对此并不作限定。
[0142]
在本技术实施例中,处理器1001通过运行存储器1003中的可执行程序代码,执行如下操作:
[0143]
获取待处理文本,将待处理文本输入目标文本分类模型中进行处理,得到待处理文本的文本分类结果。其中,目标文本分类模型是利用多个文本集进行模型训练得到的,每一个文本集包括第一文本以及与该第一文本为同义文本的第二文本;目标文本分类模型是基于训练过程中确定的分类损失参数和匹配损失参数,对初始文本分类模型的模型参数进行调整得到的;分类损失参数是基于所述初始文本分类模型对第一文本进行处理得到的第一文本特征确定的;匹配损失参数是基于第一文本特征以及所述初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。
[0144]
在一种实现方式中,处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:获取多个文本集,用于对初始文本分类模型进行训练;在对初始文本分类模型进行训练的过程中,将任一文本集包括的第一文本输入初始文本分类模型中进行处理,得到第一文本特征;将任一文本集包括的第二文本输入初始文本分类模型中进行处理,得到第二文本特征;基于第一文本特征确定分类损失参数,以及基于第一文本特征和第二文本特征确定匹配损失参数;基于分类损失参数和匹配损失参数确定目标损失参数,并基于目标损失参数对初始文本分类模型的模型参数进行调整,得到目标文本分类模型。
[0145]
在一种实现方式中,处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:获取第一文本特征的标注标签;基于第一文本特征进行分类处理,确定第一文本特征与标注标签之间的匹配概率;基于第一文本特征与标注标签之间的匹配概率确定分类损失参数。
[0146]
在一种实现方式中,处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:将第一文本特征与权重矩阵进行乘法运算,得到第一文本特征与多个参考标签中各个参考标签之间的初始匹配概率;权重矩阵是在对初始文本分类模型进行训练的过程中生成的,多个参考标签包括标注标签;将多个初始匹配概率进行归一化处理,得到第一文本特征与各个参考标签之间的匹配概率;从第一文本特征与各个参考标签之间的匹配概率中,确定第一文本特征与标注标签之间的匹配概率。
[0147]
在一种实现方式中,第二文本为一个或多个,每一个第二文本对应一个第二文本特征;处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:将第一文本特征分别与各个第二文本特征进行匹配处理,得到第一文本特征与各个第二文本特征之间的匹配参数;从各个第二文本特征中确定预测标签与第一文本特征的标注标签相同的
目标文本特征;基于第一文本特征与目标文本特征之间的匹配参数确定匹配损失参数。
[0148]
在一种实现方式中,任一文本集包括的第二文本是基于第一文本确定的;处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:将第一文本进行同义词替换处理,得到与第一文本为同义文本的第二文本;或者,将第一文本翻译成参考语种,并将翻译结果翻译回第一文本所属的原始语种,得到与第一文本为同义文本的第二文本;或者,将第一文本输入同义文本生成模型中进行处理,得到与第一文本为同义文本的第二文本。
[0149]
在一种实现方式中,处理器1001通过运行存储器1003中的可执行程序代码,还可以执行如下操作:在利用多个文本集对初始文本分类模型进行训练的过程中,确定多个文本集对应的梯度损失参数;基于梯度损失参数确定对抗扰动信息,并基于对抗扰动信息确定对抗扰动样本;基于对抗扰动样本以及确定的分类损失参数和匹配损失参数对初始文本分类模型进行训练,得到目标文本分类模型。
[0150]
本技术用于对待处理文本进行文本分类的文本分类模型,是基于分类损失参数和匹配损失参数对初始文本分类模型的模型参数进行调整得到的,分类损失参数是基于初始文本分类模型对第一文本进行处理得到的第一文本特征确定的,匹配损失参数是基于该第一文本特征以及初始文本分类模型对第二文本进行处理得到的第二文本特征确定的。其中,第一文本和第二文本为同义文本。采用本技术提供的文本分类模型的训练方式,可利用多个同义文本实现模型的联合学习,即用于参照调整模型参数的损失参数不仅包含了对训练文本的分类损失,还包含了同义文本之间的匹配损失,这样训练得到的文本分类模型泛化能力强,从而可提升文本分类的准确性。
[0151]
本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如本技术实施例所述的文本处理方法。其具体实现方式可参考前文描述,此处不再赘述。
[0152]
本技术实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行如本技术实施例所述的文本处理方法。其具体实现方式可参考前文描述,此处不再赘述。
[0153]
本技术实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
[0154]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0155]
本技术实施例提供的方法及相关装置是参照本技术实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
[0156]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1