训练高效的深度强化学习智能体以实现实时生命周期生产优化

发布时间: 2022-05-06 　浏览次数: 288

近日，张凯团队在油藏生产优化研究领域取得新进展，相关研究成果在期刊Journal of Petroleum Science and Engineering上发表，论文题为《Training effective deep reinforcement learning agents for real-time life-cycle production optimization》（训练高效的深度强化学习智能体以实现实时生命周期生产优化）。

创新性：传统生产优化通过优化算法调用油藏数值模拟器评估方案的优劣，迭代优化得到最佳方案。其最大的限制在于调用数值模拟次数多，求解速度难以满足工程需要。本研究针对上述难题，将油藏生产优化问题建模为马尔可夫决策过程，从而构建基于深度强化学习的生产优化框架。利用深度强化学习算法训练人工智能体，通过与油藏环境动态交互，以试错学习的方式不断提高方案决策能力。该方法在优化的效率和性能上均取得了良好的效果。

中文摘要：全生命周期生产优化旨在在每个控制步骤获得最佳井控方案，以实现经济效益和油气产量最大化。然而，在有限数量的模拟评估下寻找最优策略是一项具有挑战性的任务。本文提出了一种新的生产优化方法，该方法在整个生命周期内最大化净现值并实现实时井控方案调整。所提出的方法将生命周期生产优化问题建模为有限范围马尔可夫决策过程，其中井控方案可以被视为序列决策。柔性行动器-批判器算法，一种最先进的无模型深度强化学习算法，随后被用来训练可以解决上述马尔可夫决策过程的深度强化学习智能体。智能体通过训练将油藏状态映射到井控制变量的随机策略和估计当前策略的目标值的动作值函数，以实现长期经济净现值奖励以及生产方案随机性的最大化。由于训练的策略是一个显式的函数结构，深度强化学习智能体可以在不同的油藏状态下实时调整井控方案。与大多数现有方法引入特定任务的敏感参数或构建复杂的补充结构不同，深度强化学习智能体通过与不确定的油藏环境执行目标导向的交互并利用积累的井控经验来自适应地学习，这与实际油田井控模式相似。此方法的关键思想是深度强化学习方法能够利用梯度信息（井控经验）提高采样效率。基于两个油藏模型的模拟结果表明，与其他优化方法相比，所提出的方法可以获得更高的目标函数值，并在驱油效果方面获得了优异的性能。

Journal of Petroleum Science and Engineering涵盖了石油和天然气的勘探、生产和流动领域，包括：油藏工程；油藏模拟；岩石力学；岩石物理学；孔隙级现象；测井、测试和评估；数学建模；提高油气采收率；流体力学;多孔介质中的多相流；生产工程；形成评估；勘探方法；地质构造/地下的二氧化碳封存等。该期刊最新影响因子为4.346，近3年平均影响因子IF为3.646，JCR分区为Q1区，中科院工程技术大类2区。

文章链接：

https://doi.org/10.1016/j.petrol.2021.109766

引用格式：

Zhang K, Wang Z, Chen G, et al. Training effective deep reinforcement learning agents for real-time life-cycle production optimization [J]. Journal of Petroleum Science and Engineering, 2022, 208: 109766.