基于多智能体增强学习的事件语料库提纯方法

文档序号:26588680发布日期:2021-09-10 20:09阅读:143来源:国知局
基于多智能体增强学习的事件语料库提纯方法

1.本发明涉及多智能体强化学习方法领域,尤其涉及基于多智能体增强学习的事件语料库提纯方法。


背景技术:

2.强化学习(marl)是机器学习的一种方法,根据智能体的个数不同可以分为单智能体强化学习和多智能体强化学习,其中多智能体强化学习具有更加广泛的应用场景,是解决许多现实世界问题的关键工具。在多智能体强化学习中,根据智能体任务关系的不同,可分为:完全合作任务、完全竞争任务以及混合任务,在这里我们仅考虑完全合作任务。
3.在完全合作任务下的多智能体强化学习训练中,智能体以最大化联合奖励为目标,根据自身策略选择动作,并在环境中执行获得相应奖励和反馈,用以更新自身策略,循环执行以上步骤直至联合奖励值收敛至最大值,各个智能体达到当前环境下最优策略。
4.目前,maddpg(multi

agent deep deterministic policy gradient)算法是多智能体环境中较为前沿的强化学习方法之一,它解决了传统基于值的算法(如:dqn)在连续环境中难以应用的问题,同时加入了深度学习方法提升了传统基于策略算法(dpg)的训练效率,引入了经验回放池和“集中式训练,分散式执行”的训练机制进一步地提升了训练效果。
5.然而maddpg仍旧存在对于联合解空间的较差探索性和次优性问题,即:在多智能体强化学习环境中,随着智能体数量的增加,联合策略空间大小呈指数级增加,这就导致了在训练过程中智能体对策略空间的探索完成度下降,进一步导致训练结果趋向收敛于全局次优解,无法达到更优的训练效果。
6.实体关抽取是指从非结构化文本中同时检测实体引用并识别它们之间的语义关系。传统实体关系抽取方法是以串行的方式处理此任务,即先抽取实体,再去识别它们的关系。这种串行处理的方式较为简单,两个子任务较为独立、灵活,每一个子任务对应一个子模型,但却也忽略了两个子任务之间的相关性。
7.实体关系的联合抽取则是使用了单个模型将实体识别和关系抽取结合在一起,能够有效地整合实体信息和关系信息,相比于串行式实体关系抽取方法取得了更好地效果,但其本质也需要分别抽取实体和关系,这就导致模型会产生额外的冗余信息。
8.为解决了实体关系联合抽取模型产生额外冗余信息的问题,有研究提出了将联合抽取任务转换为标签问题,通过建立还有关系信息的标签,使用序列标注模型直接抽取实体及其关系,而不再单独识别实体和关系。
9.序列标注联合抽取模型是一种高效的事件联合抽取模型,但其训练过程中需要大量高质量的标注数据,通过远程监督的方法可以有效地实现数据的自动标注,但由于远程监督方法会假设:若两个实体在给定语料库中有关系,则包含着两个实体的所有句子都会提到这种关系。这就导致远程监督方法产生的大量已标注数据集中,存在着标签噪声的问题,而这些噪声会对联合抽取模型产生不良影响。


技术实现要素:

10.针对上述技术问题,本发明提出一种基于多智能体增强学习的事件语料库提纯方法。
11.为解决以上现有技术中存在的问题,本发明提出了一种基于多智能体增强学习的事件语料库提纯方法,包括:
12.模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数;
13.智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用;
14.当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新;
15.当现实网络更新完毕后,通过不定时参数复制的方法更新所有智能体的目标网络;
16.重复以上步骤,直到训练次数达到预设训练次数为止。
17.优选地,所述模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数具体包括:对事件语料库进行数据预处理,将语料库作为多智能体强化学习模型的环境参数输入。
18.优选地,所述智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用具体包括:
19.多智能体强化学习模型根据输入环境参数,产生智能体组的动作集合;
20.智能体组执行动作集合,从语料库中选择对应事件知识,形成事件知识集;
21.将事件知识集映射为词向量,输入至序列标注联合模型中;
22.序列标注联合模型对输入的词向量进行标注,并与测试集进行对照,以验证当前多智能体强化模型的事件提纯效果,并输出评估指标。
23.优选地,所述当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新具体包括:
24.按照预设的奖励函数,将评估指标转化为奖励值,反馈至多智能体强化学习模型的训练中,以优化模型。
25.优选地,所述当现实网络更新完毕后,通过不定时参数复制的方法更新所有智能体的目标网络之后还包括:
26.提取各个智能体的各层网络参数作为参数向量,然后将各个层的参数向量逐个相减,得到多智能体间的两两参数向量差,再将参数向量差乘以差异化因子反馈到更新后的智能体中,即完成智能体的最终更新。
27.与现有技术相比,本发明所述的基于多智能体增强学习的事件语料库提纯方法,具有如下有益效果:
28.1.基于多智能体强化学习环境,通过对于提升联合策略空间的探索度的研究,提升了多智能体强化学习算法的训练效果,优化了多智能体强化学习模型;
29.2.本发明提取出了各个智能体子网络中的参数,构成了参数向量来表征智能体的策略,通过对于参数向量间的差异最大化,降低了智能体之间策略探索的重复度,提升了对于联合策略解空间的探索度;
30.3.本发明基于优化后的多智能体强化学习模型,通过对于已标注的数据进行提纯优化,从而解决了序列标注联合抽取模型在训练过程中遇到的数据标签噪声问题,从而提升了事件实体关系联合抽取任务的效果。
附图说明
31.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
32.图1为本发明实施例提供了一种基于多智能体增强学习的事件语料库提纯方法流程图。
33.图2为本发明实施例提供的基于多智能体增强学习的事件语料库提纯方法训练流程图。
34.图3为本发明实施例提供的基于多智能体增强学习的事件语料库提纯方法数据采样部分流程图。
35.图4为本发明实施例提供的基于多智能体增强学习的事件语料库提纯方法网络更新流程图。
36.图5为本发明实施例提供的基于多智能体增强学习的事件语料库提纯方法序列标注模型结构示意图。
37.图6为本发明实施例提供了一种基于多智能体增强学习的事件语料库提纯方法另一流程图。
具体实施方式
38.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
39.如图1所示,本发明提供一种基于多智能体增强学习的事件语料库提纯方法,包括
40.s1、模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数;
41.s2、智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用;
42.s3、当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新;
43.s4、当现实网络更新完毕后,通过不定时参数复制的方法更新所有智能体的目标网络;
44.s5、重复以上步骤,直到训练次数达到预设训练次数为止。
45.本发明提供一种基于多智能体增强学习的事件语料库提纯方法,主要包括:训练环境及参数初始化、数据采样、现实网络训练和目标网络更新四个部分。
46.本发明主要由两个模型组成,即:基于神经网络参数向量差异最大化策略搜索方
法的多智能体强化学习模型和基于bi

lstm

crf结构的序列标注联合模型。
47.在本发明中,序列标注模块作为语料库提纯模型的效果验证和奖励反馈部分,所选用模型结构如图5所示,主要由两层构成,即:bi

lstm层和crf层构成。
48.其中,bi

lstm模型在序列标注任务中有较为优异的表现,可以有效地将长远的上下文信息结合利用起来的同时,还具备了神经网络本身对于非线性数据的拟合能力,但由于其优化目标是寻找每个时刻出现概率最大的标注,再由这些标注构成序列,这往往会导致模型对标注序列的输出发生不连贯的现象。
49.crf模型在一定程度上可以很好地与bi

lstm模型的优缺点互补,crf模型的优点在于能够通过特征模板去扫描整个输入文本,从而对整个文本局部特征的线性加权组合有着更多的考量,crf模型的优化目标是出现概率最高的一个序列,而不是序列的每个位置出现概率最高的标注。crf模型的缺点在于,首先其特征模板的选取需要对训练语料有一定的先验知识,需要从语料中相关信息的统计数据中分析出对标注有着重要影响的特征,特征的数量过多会导致模型出现过拟合,特征数量过少会导致模型出现欠拟合的现象,特征之间如何组合是一项比较困难的工作;其次,crf模型在训练过程中受限于特征模板指定的窗口大小,难以考虑长远的上下文信息。
50.基于两种模型优缺点互补的特性,我们选择了将二者结合起来的bi

lstm

crf模型,即在传统的bi

lstm模型的隐藏层上加入一层线性crf层,作为本发明中的序列标注模块来验证语料库提纯模型的训练效果,并将训练结果重新反馈回语料库提纯模型的训练中以优化模型。
51.如图5所示,所述模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数具体包括:对事件语料库进行数据预处理,将语料库作为多智能体强化学习模型的环境参数输入。
52.如图6所示,所述智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用具体包括:
53.多智能体强化学习模型根据输入环境参数,产生智能体组的动作集合;
54.智能体组执行动作集合,从语料库中选择对应事件知识,形成事件知识集;
55.将事件知识集映射为词向量,输入至序列标注联合模型中;
56.序列标注联合模型对输入的词向量进行标注,并与测试集进行对照,以验证当前多智能体强化模型的事件提纯效果,并输出评估指标。
57.如图6所示,所述当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新具体包括:
58.按照预设的奖励函数,将评估指标转化为奖励值,反馈至多智能体强化学习模型的训练中,以优化模型。
59.数据采样和智能体网络更新详介绍如下:
60.如图2所示,数据采样的详细步骤如下:
61.步骤1

1:初始化采样过程参数:最大数据存储量max

episode

length,已采样并存储数据数量t=1;
62.步骤1

2:获取当前环境的状态x,x是由一系列的环境参数构成的向量;
63.步骤1

3:每个智能体agent i以环境状态x为输入,通过其内部的现实actor网络
运算,产生一个动作ai,所有智能体选择的动作构成动作组a(a1,a2,

,an);
64.步骤1

4:所有智能体在当前环境中执行各自动作,即:在环境状态x下,执行动作组a(a1,a2,

,an),得到新的环境状态为x’,同时获得联合奖励值r;
65.步骤1

5:得到一个完整的数据元组(x,a,r,x’),并存储至数据缓存池d;
66.步骤1

6:更新当前的环境状态:x’—>x;
67.步骤1

7:执行以上步骤,直至数据缓存池d中数据换存量达到最大数据存储量,即:t>max

episode

length时,结束数据采样开始学习。
68.如图3所示,智能体网络更新的详细步骤如下:
69.对每个对所有智能体agent i进行以下操作:
70.步骤2

1:从数据缓存池d中随机采样一个minibatch的数据元组(x,a,r,x’),minibatch的大小可自主设置;
71.步骤2

2:由随机采样的数据元组,计算目标q值;
72.步骤2

3:通过最小化损失函数的方式更新agent i的现实critic网络,以实际q值和目标q值为因子,计算损失函数;
73.步骤2

4:以梯度下降的方式更新agent i的现实actor网络,计算模型网络的策略梯度;
74.步骤2

5:分别提取agent i的actor网络和critic网络的参数向量,记为:mi和ni;
75.步骤2

6:将agent i的参数向量与agent(i

1)的参数向量做差,记为:sub

mi和sub

ni;
76.步骤2

7:将sub

mi与sub

ni均乘以差异化因子β,分别反馈并更新原网络;
77.步骤2

8:循环以上步骤,直到所有智能体完成现实网络的更新;
78.步骤2

9:通过软更新的方式更新所有智能体的目标网络,即:定期将现实网络的参数复制到目标网络中。
79.所述目标q值为:
[0080][0081]
其中,x是环境状态表征参数、a
i
是动作,q是q值计算函数,该函数的参数是x和a
i
,r是指奖励值r,γ是指衰减因子;
[0082]
损失函数为:
[0083][0084]
s是环境中智能体的总数,y
j
是智能体目标q值,q
u
是智能体实际q值;
[0085]
策略梯度为:
[0086][0087]
μ是智能体策略,σ是策略网络输入参数;
[0088]
定期将现实网络的参数复制到目标网络中采用下式:
[0089]
θ

i

τθ
i
+(1

τ)θ

i

[0090]
θ是指网络参数,τ是指网络更新时参数复制的系数。
[0091]
序列标注联合抽取模型是一种高效的事件实体关系联合提取模型,但其训练过程
中需要大量高质量的标注数据,且通过远程监督方法虽然可以有效地增加已标注数据量,但其产生的已标注数据集存在着标签噪声问题,会对模型产生不良影响。针对该问题,本发明基于上述改进后的多智能体强化学习模型,对于已标注数据进行提纯优化,从而解决了序列标注联合抽取模型在训练过程中遇到的数据标签噪声问题,从而提升了事件实体关系联合抽取任务的效果。
[0092]
本发明实施例提供了一种基于多智能体增强学习的事件语料库提纯方法,在多智能体强化学习环境中,智能体由一个多层神经网络构成,其各层的网络参数即为该智能体当前的策略生成参数。本发明在maddpg原训练过程基础上,当智能体策略更新完成后,提取各个智能体的各层网络参数作为参数向量,然后将各个层的参数向量逐个相减,得到多智能体间的两两参数向量差,再将参数向量差乘以差异化因子反馈到更新后的智能体中,即完成智能体的最终更新。通过最大化神经网络参数向量差的方法,扩大智能体在训练过程中对联合策略空间的探索度,使得训练结果进一步趋近于全局最优解。
[0093]
多智能体强化学习(marl)是解决许多现实世界问题的关键工具,而多智能体环境下的强化学习算法面对的典型问题时:随着智能体数量的增加,联合策略解空间呈指数级增大,从而导致该类算法难以避免的较差策略空间探索性和策略次优性。通过对于策略空间探索方法的研究,优化智能体对于联合策略解空间的探索效率,增大对于联合策略解空间的探索度,使其进一步趋向于全策略解空间覆盖,从而使得当前最优策略更加趋近于全局最优解。
[0094]
智能体群对于策略解空间的探索是独立的,这种随机式的探索过程无法避免对于策略解空间的重复性覆盖,从而导致的一定程度上的探索效率下降。本发明提出了一种神经网络参数向量差异最大化的策略探索方法,提取出了各个智能体的组成神经网络的参数向量,将智能体群的对于策略解空间的探索联合起来,通过最大化各个智能体参数向量之间差异的方法,在一定程度上避免了对于策略解空间的重复性探索,从而提升了联合策略解空间的探索度,使其进一步趋向于全策略解空间的覆盖,从而相比于原算法更进一步提升了训练的效果,改进了模型。
[0095]
应该注意的是所述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0096]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1