一种采用多重离散动作空间的最大熵深度强化学习序列井位优化方法
发布时间: 2024-06-12  浏览次数: 10


近日,张凯团队在油藏井位优化研究领域取得新进展,相关研究成果在期刊Geoenergy Science and Engineering上发表,论文题为《A maximum entropy deep reinforcement learning method for sequential well placement optimization using multi-discrete action spaces》(一种采用多重离散动作空间的最大熵深度强化学习序列井位优化方法)。

创新性:现有的井位优化方法面临井位优化变量高维离散化、缺乏有效的策略探索鼓励机制、无法实时调整井位加密方案等问题,其优化性能难以满足工程需要。本研究针对上述难题,将油藏序列井位优化问题建模为马尔可夫决策过程,并将井位优化变量的大规模离散作用空间重构为多离散作用空间,利用最大熵机制鼓励策略探索,提高全局优化能力,从而构建基于最大熵深度强化学习的井位优化框架。此外,训练后的策略可以快速适应目标油藏的特定状态,而无需重新训练,可以实现策略的离线应用,具有较好的实时调整能力。该方法在优化效率和离线应用性能上均表现出良好的效果。

中文摘要:井位优化是解决油藏开发中平面矛盾的重要方法,主要是确定最佳井位和钻井顺序,以实现油藏开发经济效益的最大化。然而,现有的井位优化方法存在优化变量高维离散化、缺乏有效的策略探索鼓励等问题。因此,在有限的数值模拟次数下,如何提高井位优化方法的全局优化能力(即在整个优化过程中及时跳出局部最优解并不断寻找更优解的能力)和实时调整能力是一个挑战。本文提出了一种基于离散软行为者-评论家算法(DSAC)的序列井位优化方法,该方法结合最大熵机制,更有效地制定了井位和钻井顺序方案,并最大化了油藏开发全生命周期的净现值(NPV)。具体来说,该方法将井位优化问题建模为马尔可夫决策过程(MDP),并通过训练一个深度强化学习(DRL)智能体来实现序列井位优化,该智能体将油藏状态映射到一个随机的井位优化变量策略,同时评估当前策略的值函数。DRL智能体可以根据开发过程中不同时间的油藏状态实时确定最优的加密井位,从而获得最优的钻井顺序。本文提出的方法有两个创新点。首先,通过将井位优化变量的大规模离散作用空间重构为多重离散动作空间,利用最大熵机制鼓励策略探索,提高全局优化能力。其次,训练后的策略可以快速适应目标油藏的特定状态,而无需从头开始训练,可以实现训练后策略的离线应用,具有较好的实时调整能力。为了验证该方法的有效性,在二维和三维油藏模型中进行了测试。结果表明,DSAC不仅在全局优化能力方面优于基于梯度的优化方法、经典进化算法和现有的强化学习近端策略优化(PPO)方法,而且在离线应用时表现出更好的实时调整能力。


 Geoenergy Science and Engineering涵盖了石油和天然气的勘探、生产和流动领域,包括:油藏工程;油藏模拟;岩石力学;岩石物理学;孔隙级现象;测井、测试和评估;数学建模;提高油气采收率;流体力学;多孔介质中的多相流;生产工程;形成评估;勘探方法;地质构造/地下的二氧化碳封存等。该期刊最新影响因子为4.4,近3年平均影响因子IF4.5JCR分区为Q1区,中科院工程技术大类2区。

文章链接:

https://doi.org/10.1016/j.geoen.2024.213004

引用格式:

Zhang K, Sun Z, Zhang L, et al. A maximum entropy deep reinforcement learning method for sequential well placement optimization using multi-discrete action spaces[J]. Geoenergy Science and Engineering, 2024: 213004.





版权所有:@ The Zhang Group
您是
位访客