基于注意力机制优化的文本处理方法、网络模型训练方法与流程

文档序号:30732694发布日期:2022-07-13 03:27阅读:127来源:国知局
基于注意力机制优化的文本处理方法、网络模型训练方法与流程

1.本公开涉及人工智能技术领域,具体为自然语言处理和深度学习技术领域,可应用于文本处理等场景。


背景技术:

2.文本处理在语言理解任务、问答任务、机器翻译、自然语言推理等场景中有着广泛应用。但是,在一些场景下,文本处理过程存在处理效率低、计算资源利用率不佳的现象。


技术实现要素:

3.本公开提供了一种基于注意力机制优化的文本处理方法、网络模型训练方法及装置、设备、介质和产品。
4.根据本公开的一方面,提供了一种基于注意力机制优化的文本处理方法,包括:对待处理文本中的m个文本语句进行划分,得到n个语句分组,其中,n为大于0的整数,m为不小于n的整数,所述n个语句分组的各所述语句分组中包括至少一个文本语句;确定各所述语句分组中的至少一个文本语句的注意力分布特征;以及基于各所述语句分组的所述注意力分布特征进行并行运算,得到针对所述待处理文本的输出结果。
5.根据本公开的另一方面,提供了一种基于注意力机制优化的网络模型训练方法,包括:对待处理样本中的m个样本语句进行划分,得到n个样本语句分组,其中,n为大于0的整数,m为不小于n的整数,所述n个样本语句分组的各所述样本语句分组中包括至少一个样本语句;将所述n个样本语句分组作为待训练的目标网络模型的输入数据,得到各所述样本语句分组中的至少一个样本语句的注意力分布特征;基于各所述样本语句分组的所述注意力分布特征进行并行运算,得到针对所述待处理样本的输出结果;以及根据所述输出结果和预设结果标签,调整所述待训练的目标网络模型的模型参数,得到经训练的目标网络模型。
6.根据本公开的另一方面,提供了一种基于注意力机制优化的文本处理装置,包括:第一处理模块,用于对待处理文本中的m个文本语句进行划分,得到n个语句分组,其中,n为大于0的整数,m为不小于n的整数,所述n个语句分组的各所述语句分组中包括至少一个文本语句;第二处理模块,用于确定各所述语句分组中的至少一个文本语句的注意力分布特征;以及第三处理模块,用于基于各所述语句分组的所述注意力分布特征进行并行运算,得到针对所述待处理文本的输出结果。
7.根据本公开的另一方面,提供了一种基于注意力机制优化的网络模型训练装置,包括:第四处理模块,用于对待处理样本中的m个样本语句进行划分,得到n个样本语句分组,其中,n为大于0的整数,m为不小于n的整数,所述n个样本语句分组的各所述样本语句分组中包括至少一个样本语句;第五处理模块,用于将所述n个样本语句分组作为待训练的目标网络模型的输入数据,得到各所述样本语句分组中的至少一个样本语句的注意力分布特征;第六处理模块,用于基于各所述样本语句分组的所述注意力分布特征进行并行运算,得
应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
26.本公开的实施例提供了一种基于注意力机制优化的文本处理方法。本实施例方法包括:对待处理文本中的m个文本语句进行划分,得到n个语句分组,n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句,确定各语句分组中的至少一个文本语句的注意力分布特征,以及基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。
27.图1示意性示出了根据本公开一实施例的基于注意力机制优化的文本处理方法和装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
28.根据该实施例的系统架构100可以包括请求终端101、网络102和服务器103。网络102用于在请求终端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器103可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。
29.请求终端101通过网络102与服务器103进行交互,以接收或发送数据等。请求终端101例如用于向服务器103发起文本处理请求,请求终端101例如还用于向服务器103发送待处理文本。
30.服务器103可以是提供各种服务的服务器,例如可以是根据由请求终端101发送的文本处理请求进行文本处理的后台处理服务器(仅为示例)。
31.例如,服务器103响应于自请求终端101获取的文本处理请求,对待处理文本中的m个文本语句进行划分,得到n个语句分组,n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句,确定各语句分组中的至少一个文本语句的注意力分布特征,以及基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果,并将输出结果返回请求终端101。
32.需要说明的是,本公开实施例所提供的文本处理方法可以由服务器103执行。相应地,本公开实施例所提供的文本处理装置可以设置于服务器103中。本公开实施例所提供的文本处理方法也可以由不同于服务器103且能够与请求终端101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本处理装置也可以设置于不同于服务器103且能够与请求终端101和/或服务器103通信的服务器或服务器集群中。
33.应该理解,图1中的请求终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的请求终端、网络和服务器。
34.本公开实施例提供了一种基于注意力机制优化的文本处理方法,下面结合图1的系统架构,参考图2~图3来描述根据本公开示例性实施方式的文本处理方法。本公开实施例的文本处理方法例如可以由图1所示的服务器103来执行。
35.图2示意性示出了根据本公开一实施例的文本处理方法的流程图。
36.如图2所示,本公开实施例的文本处理方法200例如可以包括操作s210~操作s230。
37.在操作s210,对待处理文本中的m个文本语句进行划分,得到n个语句分组,n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句。
38.在操作s220,确定各语句分组中的至少一个文本语句的注意力分布特征。
39.在操作s230,基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。
40.下面示例说明本实施例的文本处理方法的各操作示例流程。
41.示例性地,对待处理文本中的m个文本语句进行划分,得到n个语句分组。一种示例方式,根据m个文本语句中的各文本语句的字符序列长度,对m个文本语句进行划分,得到n个语句分组。n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句。各语句分组分别对应预设的字符序列长度区间,字符序列长度区间例如可由字符序列长度阈值确定。
42.根据文本语句的字符序列长度,对m个文本语句进行划分,得到n个语句分组,有利于提升待处理文本的注意力分布运算效率,可以有效提升文本处理效率,以及有效改善文本处理效果。
43.确定各语句分组中的至少一个文本语句的注意力分布特征。示例性地,可以确定与各语句分组匹配的注意力运算函数。并行执行与各语句分组匹配的注意力运算函数,得到各语句分组中的至少一个文本语句的注意力分布特征。例如,利用与各语句分组匹配的注意力运算函数,根据对应语句分组中的各文本语句的字符特征,确定各文本语句的字符之间的注意力分布特征。
44.注意力运算函数例如可以是kernel核函数,核函数例如可以包括矩阵相乘函数、矩阵点乘函数、矩阵行平均函数、矩阵行方差函数等。各文本语句的字符特征例如可以包括字符编码特征和字符位置特征,可以利用与各语句分组匹配的核函数,确定对应语句分组中的各文本语句的字符之间的注意力分布特征。
45.可以根据n个语句分组中的各文本语句的字符特征和字符之间的注意力分布特征,得到针对待处理文本的输出结果。输出结果例如可以包括语言理解任务、问答任务、机器翻译、自然语言推理、文本预测等类型任务中的处理结果。例如,输出结果可以是针对待处理文本的翻译结果,或者可以是针对待处理文本的语义理解结果,本实施例对此不进行限定。
46.通过本公开实施例,对待处理文本中的m个文本语句进行划分,得到n个语句分组,确定各语句分组中的至少一个文本语句的注意力分布特征,以及基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。通过对待处理文本中的文本语句进行分组,以及确定各语句分组中的至少一个文本语句的注意力分布特征,可以有效提升文本处理效率,以及有效保证文本处理效果。可以有效减少文本处理过程的冗余计算,有利于提升文本处理过程中的计算资源利用率。
47.图3示意性示出了根据本公开另一实施例的文本处理方法的流程图。
48.如图3所示,本公开实施例的文本处理方法300例如可以包括操作s210、操作s310~s320以及操作s230。
49.在操作s210,对待处理文本中的m个文本语句进行划分,得到n个语句分组,n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句。
50.在操作s310,确定与各语句分组匹配的注意力运算函数。
51.在操作s320,针对目标语句分组,利用与目标语句分组匹配的注意力运算函数,根据目标语句分组中的各文本语句的字符特征,确定各文本语句的字符之间的注意力分布特征,目标语句分组为n个语句分组中的任意语句分组。
52.在操作s230,基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。
53.下面示例说明本实施例的文本处理方法的各操作的示例流程。
54.示例性地,根据m个文本语句中的各文本语句的字符序列长度,以及根据各语句分组与字符序列长度区间的预设映射关系,对m个文本语句进行划分,得到n个语句分组。
55.确定分别与n个语句分组中的各语句分组匹配的注意力运算函数。一种示例方式,可以根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为注意力运算函数。
56.示例性地,并行执行与n个语句分组匹配的注意力运算函数,得到各语句分组中的至少一个文本语句的注意力分布特征。针对n个语句分组中的目标语句分组,根据与目标语句分组匹配的目标核函数,确定用于执行注意力分布运算的目标线程块。利用目标线程块中的至少一个线程,并行执行目标核函数,以便根据目标语句分组中的各文本语句的字符特征,得到注意力分布特征。
57.根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为注意力运算函数,有利于提升文本处理过程的注意力分布运算速度,可以有效改善文本处理效率,以及有效提升文本处理过程中的计算资源利用率。
58.以注意力运算函数为核函数为例进行说明,核函数为cuda(compute unified device architecture,统一计算设备架构)中的可被并行执行的运算函数。核函数以线程网格(grid)的形式进行组织,单个线程网格中可以包括多个线程块(block),单个线程块中可以包括多个线程(thread)。例如,单个线程块中可以包括128、256、384、512或1024个线程。可以将线程块作为核函数的执行单元,线程块中的多个线程共享相同的存储器资源。
59.示例性地,根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为与对应语句分组匹配的注意力运算函数。字符序列长度区间例如可以包括(0,128]、(128,256]、(256,384]、(384,512]等类型区间,本实施例对此不进行限定。例如,可以根据与核函数匹配的线程块中所包含的线程数,确定与字符序列长度区间匹配的核函数,以作为与对应语句分组匹配的注意力运算函数。
60.利用与目标语句分组匹配的核函数,根据目标语句分组中的各文本语句的字符特征,确定各文本语句的字符之间的注意力分布特征。各文本语句的字符特征例如可以包括字符编码特征和字符位置特征。核函数例如可以包括矩阵相乘函数、矩阵点乘函数、矩阵行平均函数、矩阵行方差函数等。
61.示例性地,针对任意目标文本语句,可以利用矩阵相乘函数,根据目标文本语句的字符特征矩阵和第一参数矩阵,确定目标文本语句的查询特征矩阵。根据目标文本语句的字符特征矩阵和第二参数矩阵,确定目标文本语句的键特征矩阵。根据目标文本语句的字符特征矩阵和第三参数矩阵,确定目标文本语句的值特征矩阵。
62.可以利用矩阵点乘函数,根据目标文本语句的查询特征矩阵和键特征矩阵,得到
目标文本语句的注意力评估矩阵。例如,可以基于预设滑动窗口和预设滑动步长,对查询特征矩阵进行基于按行方向的分块处理,得到至少一个查询特征子矩阵。可以利用矩阵点乘函数,根据至少一个查询特征子矩阵和键特征矩阵,得到目标文本语句的注意力评估矩阵。可以对注意力评估矩阵的各元素进行基于相同标量的除法运算,以及利用矩阵行方差函数,对除法运算后的注意力评估矩阵进行归一化处理,得到注意力权重矩阵。
63.可以利用矩阵点乘函数,根据目标文本语句的值特征矩阵和注意力权重矩阵,得到基于自注意力机制的注意力分布矩阵。注意力分布矩阵可以指示目标文本语句中的任意字符与其他字符之间的相关性程度。
64.根据各语句分组的至少一个文本语句的字符特征和注意力分布特征进行并行运算,得到针对待处理文本的输出结果,输出结果例如可以包括输出位文本和文本可信概率。
65.通过确定与各语句分组匹配的注意力运算函数,以及利用与各语句分组匹配的注意力运算函数,确定对应语句分组中的至少一个文本语句的注意力分布特征。可以有效降低注意力分布运算的复杂度,可以有效减少注意力分布运算的冗余计算,能够有效提升注意力分布运算效率。可以有效提高计算资源利用率,有效提升文本处理效率,可以为语言理解任务、问答任务、机器翻译、自然语言推理、文本预测等类型任务提供可信的数据支持。
66.图4示意性示出了根据本公开一实施例的网络模型训练方法的流程图。
67.如图4所示,训练方法400例如可以包括操作s410~s440。
68.在操作s410,对待处理样本中的m个样本语句进行划分,得到n个样本语句分组,m为不小于n的整数,n为大于0的整数,n个样本语句分组的各样本语句分组中包括至少一个样本语句。
69.在操作s420,将n个样本语句分组作为待训练的目标网络模型的输入数据,得到各样本语句分组中的至少一个样本语句的注意力分布特征。
70.在操作s430,基于各样本语句分组的注意力分布特征进行并行运算,得到针对待处理样本的输出结果。
71.在操作s440,根据输出结果和预设结果标签,调整待训练的目标网络模型的模型参数,得到经训练的目标网络模型。
72.下面示例说明本实施例的模型训练方法的各操作的示例流程。
73.示例性地,可以根据m个样本语句中的各样本语句的字符序列长度,对m个样本语句进行划分,得到n个样本语句分组,各样本语句分组分别对应预设的字符序列长度区间。
74.可以确定与各样本语句分组匹配的注意力运算函数。例如,可以根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为注意力运算函数。可以并行执行与各样本语句分组匹配的注意力运算函数,得到各样本语句分组中的至少一个样本语句的注意力分布特征。
75.示例性地,针对目标样本语句分组,通过待训练的目标网络模型,调用与目标样本语句分组匹配的注意力运算函数。利用注意力运算函数,根据目标样本语句分组中的各样本语句的字符特征,确定各样本语句的字符之间的注意力分布特征。目标样本语句分组可以是n个样本语句分组中的任意样本语句分组。
76.利用待训练的目标网络模型,根据各样本语句分组中的至少一个样本语句的字符特征和注意力分布特征,得到针对待处理样本的输出结果。根据待处理样本的输出结果和
预设结果标签,确定损失函数值。根据损失函数值,调整待训练的目标网络模型的模型参数,得到经训练的目标网络模型。
77.示例性地,目标网络模型可以包括顺序相连的多个编码器层和顺序相连的多个解码器层,最后一个编码器层与各解码器层之间可以传输隐含层向量。各编码器层中可以至少包括自注意力机制层和前馈神经网络层,各解码器层中可以至少包括自注意力机制层和前馈神经网络层。
78.可以利用编码器层对待处理样本中的m个样本语句进行编码,实现将各样本语句由自然语言向量映射为数字向量,得到各样本语句的字符特征。可以利用自注意力机制层,根据各样本语句的字符特征,得到对应样本语句的字符之间的注意力分布特征。可以将各样本语句的字符特征和注意力分布特征,作为隐含层向量传递给解码器层。由解码器层对隐含层向量进行处理,得到针对待处理样本的输出结果。在编码器层和/或解码器层的处理过程中,可以调用核函数进行数据运算处理,核函数例如可用于进行针对数据的数学级计算。
79.可以基于经训练的目标网络模型,得到文本处理模型。示例性地,可以将待处理文本作为文本处理模型的输入数据,得到待处理文本中的各文本语句的字符特征。通过文本处理模型,调用与待处理文本中的至少一个语句分组匹配的注意力运算函数,得到各语句分组中的至少一个文本语句的注意力分布特征。各语句分组分别对应预设的字符序列长度区间,注意力运算函数为根据各语句分组所对应的字符序列长度区间确定。利用文本处理模型,根据各文本语句的字符特征和注意力分布特征,得到针对待处理文本的输出结果。
80.通过本公开实施例,对待处理样本的样本语句进行划分,得到至少一个样本语句分组,利用待训练的目标网络模型,确定各样本语句分组中的至少一个样本语句的注意力分布特征,以及基于各样本语句分组的注意力分布特征进行并行运算,得到针对待处理样本的输出结果。可以有效提升注意力分布运算的运算效率,能够有效提升网络模型训练的收敛速度,以及有效保证经训练的目标网络模型的泛化性能,有利于提升文本处理效率,可以为多元化自然语言处理任务提供可信的数据支持。
81.图5示意性示出了根据本公开一实施例的确定注意力运算函数的过程示意图。
82.假设训练样本批次的batch_size为n,batch_size可以指示单次传递给程序用于网络模型训练的样本个数。如图5所示,以n=6为例进行说明,训练样本批次中包括6个样本语句,6个样本语句的字符序列长度分别为40、120、178、200、340、340、512。
83.可以根据各样本语句的字符序列长度,对训练样本批次中的样本语句进行划分,得到至少一个样本语句分组,各样本语句分组分别对应预设的字符序列长度区间。示例性地,可以根据n个样本语句的字符序列长度所属的字符序列长度区间,对n个样本语句进行划分,得到至少一个样本语句分组。各样本语句分组中的样本语句个数可能不同,各样本语句分组所对应的输入数据的实际地址也可能存在差异。
84.例如,对字符序列长度分别为40、120、178、200、340、340、512的样本语句进行划分,得到4个样本语句分组。各样本语句分组所对应的字符序列长度区间分别为(0,128]、(128,256]、(256,384]、(384,512]。
85.根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为注意力运算函数。例如,与各语句分组匹配的核函数可以包括核函数fmha_
128_kernel、核函数fmha_256_kernel、核函数fmha_384_kernel和核函数fmha_512_kernel。
86.核函数fmha_128_kernel所对应的语句分组的batch_size=2,最大字符序列长度cur_s=128;核函数fmha_256_kernel所对应的语句分组的batch_size=2,最大字符序列长度cur_s=256;核函数fmha_384_kernel所对应的语句分组的batch_size=2,最大字符序列长度cur_s=384;核函数fmha_512_kernel所对应的语句分组的batch_size=1,最大字符序列长度cur_s=512。
87.可以有效提高注意力分布运算的运算速度,有利于提升文本处理效率,以及有效改善文本处理过程中的计算资源利用率。
88.图6示意性示出了根据本公开一实施例的文本处理过程的示意图。
89.示例性地,可以基于预设监听事件,确定监听对象函数是否执行完成。响应于监听对象函数执行完成,利用注意力运算函数,根据目标语句分组中的各文本语句的字符特征,确定注意力分布特征。监听对象函数包括执行次序位于注意力运算函数之前的运算函数。
90.可以并行执行不存在数据处理相关性的多个注意力运算函数,对于存在数据处理相关性的其他运算函数,可以根据运算函数之间的数据处理相关性,确定运算函数之间的执行次序。数据处理相关性例如可以包括矩阵计算过程需要依赖其他矩阵的计算结果。
91.如图6所示,作为与各语句分组匹配的注意力运算函数,核函数fmha_128_kernel、核函数fmha_256_kernel、核函数fmha_384_kernel和核函数fmha_512_kernel之间不存在数据处理相关性,可以并行执行核函数fmha_128_kernel、核函数fmha_256_kernel、核函数fmha_384_kernel和核函数fmha_512_kernel。
92.可以基于预设监听事件,确定监听对象函数是否执行完成,监听对象函数例如可以是执行次序位于注意力运算函数之前的核函数kernel a。响应于核函数kernel a执行完成,执行利用注意力运算函数确定注意力分布矩阵的操作。针对执行次序位于注意力运算函数之后的核函数kernel c,可以在注意力运算函数全部执行完成之后,执行核函数kernel c。
93.可以在有效提升计算资源利用率,以及有效改善文本处理效率的基础上,充分保证文本处理过程中计算结果的准确性。
94.图7示意性示出了根据本公开一实施例的文本处理装置的框图。
95.如图7所示,本公开实施例的文本处理装置700例如包括第一处理模块710、第二处理模块720和第三处理模块730。
96.第一处理模块710,用于对待处理文本中的m个文本语句进行划分,得到n个语句分组,n为大于0的整数,m为不小于n的整数,n个语句分组的各语句分组中包括至少一个文本语句;第二处理模块720,用于确定各语句分组中的至少一个文本语句的注意力分布特征;以及第三处理模块730,用于基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。
97.通过本公开实施例,对待处理文本中的m个文本语句进行划分,得到n个语句分组,确定各语句分组中的至少一个文本语句的注意力分布特征,以及基于各语句分组的注意力分布特征进行并行运算,得到针对待处理文本的输出结果。通过对待处理文本中的文本语句进行分组,以及确定各语句分组中的至少一个文本语句的注意力分布特征,可以有效提
升文本处理效率,以及有效保证文本处理效果。可以有效减少文本处理过程的冗余计算,有利于提升计算资源的利用率。
98.根据本公开的实施例,第一处理模块包括:第一处理子模块,用于根据m个文本语句中的各文本语句的字符序列长度,对m个文本语句进行划分,得到n个语句分组,各语句分组分别对应预设的字符序列长度区间。
99.根据本公开的实施例,第二处理模块包括:第二处理子模块,用于确定与各语句分组匹配的注意力运算函数;以及第三处理子模块,用于针对目标语句分组,利用与目标语句分组匹配的注意力运算函数,根据目标语句分组中的各文本语句的字符特征,确定各文本语句中的字符之间的注意力分布特征,目标语句分组为n个语句分组中的任意语句分组。
100.根据本公开的实施例,第二处理子模块包括:第一处理单元,用于根据各语句分组所对应的字符序列长度区间,确定与字符序列长度区间匹配的核函数,以作为注意力运算函数,以及第三处理子模块包括:第二处理单元,用于根据与目标语句分组匹配的目标核函数,确定用于执行注意力分布运算的目标线程块;第三处理单元,用于利用目标线程块中的至少一个线程,并行执行目标核函数,以根据目标语句分组中的各文本语句的字符特征,得到注意力分布特征。
101.根据本公开的实施例,第二处理模块还包括:第四处理子模块,用于基于预设监听事件,确定监听对象函数是否执行完成;以及第三处理子模块用于:响应于监听对象函数执行完成,利用注意力运算函数,根据目标语句分组中的各文本语句的字符特征,确定注意力分布特征,监听对象函数包括执行次序位于注意力运算函数之前的运算函数。
102.图8示意性示出了根据本公开一实施例的网络模型训练装置的框图。
103.如图8所示,本公开实施例的网络模型训练装置800例如包括第四处理模块810、第五处理模块820、第六处理模块830和第七处理模块840。
104.第四处理模块810,用于对待处理样本中的m个样本语句进行划分,得到n个样本语句分组,n为大于0的整数,m为不小于n的整数,n个样本语句分组的各样本语句分组中包括至少一个样本语句;第五处理模块820,用于将n个样本语句分组作为待训练的目标网络模型的输入数据,得到各样本语句分组中的至少一个样本语句的注意力分布特征;第六处理模块830,用于基于各样本语句分组的注意力分布特征进行并行运算,得到针对待处理样本的输出结果;以及第七处理模块840,用于根据输出结果和预设结果标签,调整待训练的目标网络模型的模型参数,得到经训练的目标网络模型。
105.通过本公开实施例,对待处理样本的样本语句进行划分,得到至少一个样本语句分组,利用待训练的目标网络模型,确定各样本语句分组中的至少一个样本语句的注意力分布特征,以及基于各样本语句分组的注意力分布特征进行并行运算,得到针对待处理样本的输出结果。可以有效提升注意力分布运算的运算效率,能够有效提升网络模型训练的收敛速度,以及有效保证经训练的目标网络模型的泛化性能,有利于提升文本处理效率,可以为多元化自然语言处理任务提供可信的数据支持。
106.根据本公开的实施例,第四处理模块包括:第五处理子模块,用于根据m个样本语句中的各样本语句的字符序列长度,对m个样本语句进行划分,得到n个样本语句分组,各样本语句分组分别对应预设的字符序列长度区间。
107.根据本公开的实施例,第五处理模块包括:第六处理子模块,用于确定与各样本语
句分组匹配的注意力运算函数;第七处理子模块,用于针对目标样本语句分组,通过待训练的目标网络模型,调用与目标样本语句分组匹配的注意力运算函数;以及第八处理子模块,用于利用注意力运算函数,根据目标样本语句分组中的各样本语句的字符特征,确定各样本语句中的字符之间的注意力分布特征,目标样本语句分组为n个样本语句分组中的任意样本语句分组。
108.应该注意的是,本公开的技术方案中,所涉及的信息收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
109.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
110.图9示意性示出了根据本公开实施例的用于文本处理的电子设备的框图。
111.图9示出了可以用来实施本公开实施例的示例电子设备900的示意性框图。电子设备900旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
112.如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序,来执行各种适当的动作和处理。在ram 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
113.设备900中的多个部件连接至i/o接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
114.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理子模块(cpu)、图形处理子模块(gpu)、各种专用的人工智能(ai)计算芯片、各种运行深度学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如文本处理方法。例如,在一些实施例中,文本处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由rom 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时,可以执行上文描述的文本处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本处理方法。
115.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计
算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
116.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程模型训练装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
117.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
118.为了提供与对象的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向对象显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),对象可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与对象的交互;例如,提供给对象的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自对象的输入。
119.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形对象界面或者网络浏览器的对象计算机,对象可以通过该图形对象界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
120.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
121.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
122.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1