本发明涉及人在回路强化学习领域,具体涉及一种基于偏好传递性的人在回路强化学习数据增强方法。
背景技术:
1、人在回路强化学习(human-in-the-loop reinforcement learning,hitlrl)任务是人工智能领域一项具有挑战性和实用性的任务。与传统的强化学习的任务设定设置相比,人在回路强化学习算法能够在不需要设计奖励函数的情况下教会强化学习智能体所需的行为。相反,智能体使用反馈,通常是(人类)教师对两种行为的偏好,来学习教师所指示的理想行为。因此,智能体不需要使用经过精心设计的环境奖励,而是能够学习到一个更灵活的,与教师反馈更好对齐的奖励函数。
2、然而,人在回路强化学习通常需要大量的教师反馈,这可能费时或有时不可行。为了提高反馈效率,先前的研究采用了不同的采样策略,旨在选择更有信息量的查询以在获得更少教师反馈的情况下提高所学奖励函数的质量。另一些工作关注于策略初始化。例如,有研究通过从专家示范中进行模仿学习来初始化代理的策略,也有研究利用无监督的代理预训练来学习更多样的行为,从而减少所需的人工反馈总量。然而先前的工作往往假设人类只会提供偏序关系偏好,忽略了在实际场景中的人类反馈可能是模糊的即均等偏好的情况,如果不能很好的处理这一类反馈类型也必将导致人类偏好反馈的效率下降。同时,先前的工作每一轮对动作序列的采样均是相互独立的,并没有将各个轮次之间偏好信息的联系。
技术实现思路
1、本发明的目的是针对现有技术的不足而提出的一种基于偏好传递性的人在回路强化学习数据增强方法,本方法应用了人类偏好的传递性,通过构建人类偏好依赖图,可以将人类反馈中对动作序列的均等偏好关系转换为动作序列的偏序偏好关系,比较每一轮人类偏好依赖图中入度为零的结点对应的动作序列可以合并人类偏好依赖图,可以深入挖掘不同反馈轮次之间动作序列间内在的偏序关系。与现有技术相比,本方法能够有效地将人类反馈中的均等偏好数据转化为可优化的偏序偏好数据,解决了先前方法无法利用均等偏好数据的问题;同时利用人类偏好依赖图,有效提升了人类偏好反馈的效率,加快了算法的收敛速度;此外,该方法具有高度的通用性和模块化特点,用户可轻松将算法组件集成到现有人在回路强化学习框架中,大幅降低开发和部署成本,提高系统的灵活性
2、本发明的目的是这样实现的:
3、一种基于偏好传递性的人在回路强化学习数据增强方法,其特点是本方法从强化学习智能体的动作序列库中采样动作序列,根据人类对动作序列对的偏好标注构建人类偏好依赖图,并将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系,进而利用这些偏序偏好关系训练奖励函数,以此指导强化学习智能体策略的学习。
4、具体包括以下步骤:
5、1)从强化学习智能体动作序列库中采样动作序列σ;具体包括:
6、1.1:在进行第一次采样前,为了实现指定目标智能体会先在环境中进行自主探索,每一次探索都可以被视为一个智能体试图完成任务的动作序列σ,其由若干个状态动作对组成,每个智能体的动作序列都会被存储在强化学习动作序列库中;
7、1.2:每一次人类标注前,从动作序列库中随机采样,抽取固定数量的动作序列σ。
8、2)根据人类对动作序列对的偏好标注构建垮轮次的人类偏好依赖图;具体包括:
9、2.1:该步骤将传统的人在回路强化学习中偏好类型由只包含偏序偏好类型拓展为偏序偏好关系和均等偏好关系,对于动作序列对(σ1,σ0)的偏序偏好类型包括:动作序列σ1优于动作序列σ0,即σ1>σ0,动作序列σ0优于动作序列σ1,即σ0>σ1,以及均等偏好类型:动作序列σ0与动作序列σ1均等偏好,即
10、2.2:首先随机选取动作序列σ1构成依赖图的初始结点,随后选取另一个动作序列σ0,并与σ1构成动作序列对(σ1,σ0)交给人类标注偏好信息;若σ1>σ0则在图中添加一条σ1指向σ0的边,如果σ0>σ1则添加一条σ0指向σ1的边,若则将两结点合并为一个结点不添加边;
11、2.3:之后采样到的动作序列σi依次和当前人类偏好图中没有入度的结点对应的动作序列组成动作序列对交给人类标注,并按照2.2中描述的规则将σi加入人类偏好图中;
12、2.4:如果不是第一轮标注,则需要把当前轮次人类偏好依赖图中入度为0的结点对应的动作序列和先前轮次构建好的人类偏好依赖图的入度为0的结点对应的动作序列组成动作序列对,并交由人类进行偏好反馈,得到偏好关系后,依据2.2的规则合并当前及先前轮次的人类偏好依赖图。
13、3)将人类偏好依赖图中的动作序列的均等偏好关系转换为动作序列对的偏序偏好关系,得到增强后的人类偏好数据;具体包括:
14、3.1:根据人类偏好依赖图提取所有动作序列对的偏序偏好关系,从入度为0的结点开始对人类偏好依赖图进行深度优先搜索,得到所有可能的深度优先搜索路径;
15、3.2:对于每一条深度优先搜索路径记录所有偏序偏好关系,即先出现的结点对应的动作序列与后出现的结点对应的动作序列存在偏序偏好关系;
16、3.3:利用2.2所描述的规则,若则动作序列σ1会继承动作序列σ0所对应的所有偏序偏好关系,同样动作序列σ0会继承动作序列σ1所对应的所有偏序偏好关系,得到增强后的人类偏好数据。
17、本发明与现有技术相比具有以下有益技术效果和显著的技术进步:
18、1)本发明提出应用人类偏好的传递性将人类反馈当中的均等偏好转化成偏序偏好,解决了先前方法无法利用均等偏好数据的问题。
19、2)本发明提出人类偏好依赖图,可以保持跨轮次的采样结果联系,从而更好地挖掘数据中的内在关系,有效提升了人类偏好反馈的效率,加快了算法的收敛速度。
20、3)本发明提出的采样方法与现有的人在回路强化学习算法的优化方式耦合性低,具有高度的通用性和模块化特点,用户可轻松将算法组件集成到现有人在回路强化学习框架中,大幅降低开发和部署成本,提高系统的灵活性。
1.一种基于偏好传递性的人在回路强化学习数据增强方法,其特征在于,该方法包括以下具体步骤:
2.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤1)具体包括:
3.根据权利要求1所述的人在回路强化学习数据增强方法,其特征在于,所述步骤3)具体包括: