基于历史调控经验的时间窗口迁移强化学习注采优化方法

文档序号:35290368发布日期:2023-09-01 11:38阅读:44来源:国知局
基于历史调控经验的时间窗口迁移强化学习注采优化方法

本发明属于油藏注采,具体涉及一种基于历史调控经验的时间窗口迁移强化学习注采优化方法。


背景技术:

1、在实际油藏优化过程中,常常通过按时间序列窗口进行分阶段优化以获取最优方案。每个历史窗口都积累了丰富的历史数据,其中包含有益的油藏领域知识和优化经验。然而,在面对新阶段的优化任务时,大多数方法抛弃了这些历史数据,从零开始进行优化,需要依靠大量数值模拟重复进行对油藏知识的学习,通过试错过程寻找正确的优化方向,导致了时间和资源的巨大浪费,严重限制了优化性能。

2、因此,现有注采优化方法存在以下问题:对已有信息的利用率较低,优化一次需要进行多次迭代;优化变量发生变化时,需从头进行优化过程,重新采样构建模型耗时长。


技术实现思路

1、为了解决上述问题,本发明提出了一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,将油藏的不同生产开发阶段视为一系列时间窗口。通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定。通过这种方式,实现求解速度的提升。

2、本发明的技术方案如下:

3、一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,将油藏的不同生产阶段视为一系列的时间窗口,通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定;具体包括如下步骤:

4、步骤1、确定当前油藏目标任务时间窗口的优化井数和优化时间步;

5、步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作;

6、步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建;

7、步骤4、基于目标模型,读取当前油藏的状态信息,得到完整的生产制度,实现实时注采优化。

8、进一步地,步骤1中,目标任务基于目标模型实现,源任务基于源模型实现,源模型的核心结构为最优源智能体,目标模型的核心结构为最优目标智能体;目标任务区别于源任务,假设源任务中油藏整个生产周期为,井的总数为,则源模型的动作空间为,在经过个周期的训练结束后得到最优源智能体,源模型的输出为口井的生产制度;目标任务中,优化时间步为,在后续个时间步内,根据生产要求进行加密井设计,新打井口,此时目标模型的动作空间为,即对应优化井数为,目标模型的输出为口井的生产制度。

9、进一步地,步骤3的具体过程如下:

10、步骤3.1、借助目标任务时间窗口的油藏数值模拟模型,搭建强化学习环境模块;

11、步骤3.2、在个时间步内,目标模型与强化学习环境模块依次进行每个时间步的交互,模拟实际油藏注采制度调控过程;

12、步骤3.3、将交互过程中采集到的相关样本数据加入经验缓冲区;

13、步骤3.4、从经验缓冲区中采样条样本数据,更新目标智能体的输出层;

14、步骤3.5、重复步骤3.2至步骤3.4,直到达到最大数值模拟次数,此时训练得到最优目标智能体,输出最优目标智能体对应的目标模型及最优控制方案。

15、进一步地,步骤3.1中,搭建的强化学习环境模块包括状态读取部分、奖励计算部分以及制度写入部分;状态读取部分用于饱和度场、压力场及模型渗透率场的读取和存储;奖励计算部分用于奖励值的计算和存储;制度写入部分用于输出动作的转换及油藏数值模拟模型文件的写入;具体工作过程为:

16、步骤3.1.1、读取油藏模型时刻的饱和度场、压力场及模型渗透率场,并计算时刻状态;然后,对读取的数据进行相应的归一化处理,将状态数据限定在[0,1]范围内,归一化处理采用z-score归一化函数,计算公式为:

17、(1);

18、式中,为归一化后的结果;为状态变量值,为原始数据的均值,为原始数据的标准差;

19、步骤3.1.2、读取油藏模型时刻的产油量、产水量、注水量,并通过经济净现值npv计算公式计算得到相应的奖励值,npv计算公式如下:

20、(2);

21、式中,表示时刻状态下执行动作的奖励值;为原油价格,和分别是水处理成本和注水成本;、和分别是第口生产井产油速率、第口生产井产水速率和第口注水井的注水速率;为生产井总数;为注水井总数;

22、步骤3.1.3、将智能体输出动作转化为实际油水井制度上下限范围,并写入油藏数值模拟模型文件中;动作是一个集合,对集合里的每一个值进行线性变换,通过线性变换将相应的值转化为[-1,1]的实际生产界限范围下,具体公式如下:

23、(3);

24、其中,表示动作中的一个元素,;、分布代表对应该井的实际生产上、下限;表示线性变换后的实际生产数据。

25、进一步地,步骤3.2的具体过程如下:

26、步骤3.2.1、在时刻,观测到油藏时刻状态,目标智能体根据输出动作,动作即对应时刻注采制度,制度写入部分写入制度后执行油藏数值模拟,根据时刻注采制度,油藏状态由时刻状态转到时刻状态,奖励计算部分计算得到单步的奖励值;

27、步骤3.2.2、继续读取下一时刻,在的范围内,循环执行步骤3.2.1,并记录回合奖励。

28、进一步地,步骤3.3中,采集到的相关样本为,经验缓冲区为。

29、进一步地,步骤3.4的具体过程如下:

30、当经验缓冲区中样本数量大于后,用批处理方式对目标智能体的价值评价网络和策略网络进行采样更新,其中,价值评价网络采用式(4)所示损失进行更新,策略网络采用式(5)所示损失进行更新,此时,网络权重仅更新最后输出层,特征提取层冻结源模型权重参数;

31、(4);

32、(5);

33、其中,表示价值评价网络损失;表示价值评价网络权重;表示对目标值取期望;表示时刻的价值评价网络;表示下执行的奖励值;表示折扣因子;表示时刻的价值评价网络;表示温度系数;表示时刻的策略网络;表示策略网络损失;表示策略网络权重;表示噪声向量;表示自然数集合;表示时刻的策略网络。

34、本发明所带来的有益技术效果:

35、本发明结合强化学习算法,借鉴源模型通过策略迁移,实现新时间窗口的快速优化,减少所需的数值模拟迭代次数;当面对优化变量不一致时,可实现快速优化,避免从头进行优化过程;本发明方法的主要用途为进行井网加密后油藏模型进行快速优化,具有较好的科学和实际推广应用价值。



技术特征:

1.一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,将油藏的不同生产阶段视为一系列的时间窗口,通过对历史调控经验的重新利用,指导智能体学习油藏领域知识和优化经验,将其应用于当前的优化任务中,以辅助指导当前时间窗口注采方案的制定;具体包括如下步骤:

2.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤1中,目标任务基于目标模型实现,源任务基于源模型实现,源模型的核心结构为最优源智能体,目标模型的核心结构为最优目标智能体;目标任务区别于源任务,假设源任务中油藏整个生产周期为,井的总数为,则源模型的动作空间为,在经过个周期的训练结束后得到最优源智能体,源模型的输出为口井的生产制度;目标任务中,优化时间步为,在后续个时间步内,根据生产要求进行加密井设计,新打井口,此时目标模型的动作空间为,即对应优化井数为,目标模型的输出为口井的生产制度。

3.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤3的具体过程如下:

4.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤3.1中,搭建的强化学习环境模块包括状态读取部分、奖励计算部分以及制度写入部分;状态读取部分用于饱和度场、压力场及模型渗透率场的读取和存储;奖励计算部分用于奖励值的计算和存储;制度写入部分用于输出动作的转换及油藏数值模拟模型文件的写入;具体工作过程为:

5.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤3.2的具体过程如下:

6.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤3.3中,采集到的相关样本为,经验缓冲区为。

7.根据权利要求1所述基于历史调控经验的时间窗口迁移强化学习注采优化方法,其特征在于,所述步骤3.4的具体过程如下:


技术总结
本发明公开了一种基于历史调控经验的时间窗口迁移强化学习注采优化方法,属于油藏注采技术领域,包括如下步骤:步骤1、确定当前油藏目标任务时间窗口的优化井数和优化时间步;步骤2、获取现有源模型,冻结源模型中的特征提取层权重进行目标智能体的初始化操作;步骤3、通过梯度反向传播的方式训练得到最优目标智能体,完成目标模型的构建;步骤4、基于目标模型,读取当前油藏的状态信息,得到完整的生产制度,实现实时注采优化。本发明结合强化学习算法,借鉴源模型通过策略迁移,实现新时间窗口的快速优化,减少所需的数值模拟迭代次数。

技术研发人员:辛国靖,张凯,张黎明,孙子峰,王中正,刘丕养,张华清,严侠
受保护的技术使用者:中国石油大学(华东)
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1