From a4cc32649196daaa43ac4acc9c97ea3b530cbca0 Mon Sep 17 00:00:00 2001
From: zjowowen <93968541+zjowowen@users.noreply.github.com>
Date: Wed, 30 Oct 2024 12:54:54 +0000
Subject: [PATCH] =?UTF-8?q?Deploying=20to=20gh-pages=20from=20@=20opendila?=
 =?UTF-8?q?b/GenerativeRL@4d9276e327e9c2b982c58e7c95f7fdbba26c6a78=20?=
 =?UTF-8?q?=F0=9F=9A=80?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 _modules/grl/algorithms/gmpg.html             | 1963 +++++++++++++++++
 _modules/grl/algorithms/gmpo.html             | 1799 +++++++++++++++
 _modules/grl/algorithms/qgpo.html             | 1201 ++++++++++
 _modules/grl/algorithms/srpo.html             | 1137 ++++++++++
 .../simulators/gym_env_simulator.html         |  780 +++++++
 .../one_shot_value_function.html              |  516 +++++
 .../rl_modules/value_network/q_network.html   |  558 +++++
 .../value_network/value_network.html          |  562 +++++
 _modules/index.html                           |    8 +
 api_doc/algorithms/index.html                 | 1248 ++++++++++-
 api_doc/rl_modules/index.html                 |  516 ++++-
 genindex.html                                 |  244 +-
 objects.inv                                   |  Bin 4464 -> 6340 bytes
 py-modindex.html                              |   10 +
 searchindex.js                                |    2 +-
 15 files changed, 10515 insertions(+), 29 deletions(-)
 create mode 100644 _modules/grl/algorithms/gmpg.html
 create mode 100644 _modules/grl/algorithms/gmpo.html
 create mode 100644 _modules/grl/algorithms/qgpo.html
 create mode 100644 _modules/grl/algorithms/srpo.html
 create mode 100644 _modules/grl/rl_modules/simulators/gym_env_simulator.html
 create mode 100644 _modules/grl/rl_modules/value_network/one_shot_value_function.html
 create mode 100644 _modules/grl/rl_modules/value_network/q_network.html
 create mode 100644 _modules/grl/rl_modules/value_network/value_network.html
diff --git a/_modules/grl/algorithms/gmpg.html b/_modules/grl/algorithms/gmpg.html
new file mode 100644
index 0000000..f5defb3
--- /dev/null
+++ b/_modules/grl/algorithms/gmpg.html
@@ -0,0 +1,1963 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.algorithms.gmpg &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../search.html" />
+    <link href="../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.algorithms.gmpg</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.algorithms.gmpg</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">rich.progress</span> <span class="kn">import</span> <span class="n">track</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+<span class="kn">from</span> <span class="nn">torchrl.data</span> <span class="kn">import</span> <span class="n">TensorDictReplayBuffer</span>
+<span class="kn">from</span> <span class="nn">torchrl.data.replay_buffers.samplers</span> <span class="kn">import</span> <span class="n">SamplerWithoutReplacement</span>
+
+<span class="kn">import</span> <span class="nn">wandb</span>
+<span class="kn">from</span> <span class="nn">grl.agents.gm</span> <span class="kn">import</span> <span class="n">GPAgent</span>
+
+<span class="kn">from</span> <span class="nn">grl.datasets</span> <span class="kn">import</span> <span class="n">create_dataset</span>
+<span class="kn">from</span> <span class="nn">grl.datasets.gp</span> <span class="kn">import</span> <span class="n">GPDataset</span><span class="p">,</span> <span class="n">GPD4RLDataset</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.diffusion_model</span> <span class="kn">import</span> <span class="n">DiffusionModel</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.conditional_flow_model.optimal_transport_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.conditional_flow_model.independent_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">IndependentConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.bridge_flow_model.schrodinger_bridge_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+
+<span class="kn">from</span> <span class="nn">grl.rl_modules.simulators</span> <span class="kn">import</span> <span class="n">create_simulator</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.q_network</span> <span class="kn">import</span> <span class="n">DoubleQNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.value_network</span> <span class="kn">import</span> <span class="n">VNetwork</span><span class="p">,</span> <span class="n">DoubleVNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.utils.config</span> <span class="kn">import</span> <span class="n">merge_two_dicts_into_newone</span>
+<span class="kn">from</span> <span class="nn">grl.utils.log</span> <span class="kn">import</span> <span class="n">log</span>
+<span class="kn">from</span> <span class="nn">grl.utils</span> <span class="kn">import</span> <span class="n">set_seed</span>
+<span class="kn">from</span> <span class="nn">grl.utils.statistics</span> <span class="kn">import</span> <span class="n">sort_files_by_criteria</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.metric</span> <span class="kn">import</span> <span class="n">compute_likelihood</span>
+<span class="kn">from</span> <span class="nn">grl.utils.plot</span> <span class="kn">import</span> <span class="n">plot_distribution</span><span class="p">,</span> <span class="n">plot_histogram2d_x_y</span>
+
+
+<span class="k">def</span> <span class="nf">asymmetric_l2_loss</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">tau</span> <span class="o">-</span> <span class="p">(</span><span class="n">u</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">u</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="GMPGCritic"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGCritic">[docs]</a><span class="k">class</span> <span class="nc">GMPGCritic</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Critic network.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GMPGCritic.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of GPO critic network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">q_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q</span> <span class="o">=</span> <span class="n">DoubleQNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">DoubleQNetwork</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v</span> <span class="o">=</span> <span class="n">VNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">VNetwork</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGCritic.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GPO critic.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGCritic.compute_double_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.compute_double_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first Q network.</span>
+<span class="sd">            q2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGCritic.in_support_ql_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.in_support_ql_loss">[docs]</a>    <span class="k">def</span> <span class="nf">in_support_ql_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">reward</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">next_state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">done</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">fake_next_action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">discount_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">            reward (:obj:`torch.Tensor`): The input reward.</span>
+<span class="sd">            next_state (:obj:`torch.Tensor`): The input next state.</span>
+<span class="sd">            done (:obj:`torch.Tensor`): The input done.</span>
+<span class="sd">            fake_next_action (:obj:`torch.Tensor`): The input fake next action.</span>
+<span class="sd">            discount_factor (:obj:`float`): The discount factor.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">next_energy</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span><span class="p">(</span>
+                    <span class="n">fake_next_action</span><span class="p">,</span>
+                    <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">next_state</span><span class="p">]</span> <span class="o">*</span> <span class="n">fake_next_action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">),</span>
+                <span class="p">)</span>
+                <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">next_v</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span>
+                <span class="n">softmax</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">*</span> <span class="n">next_energy</span><span class="p">)</span> <span class="o">*</span> <span class="n">next_energy</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="c1"># Update Q function</span>
+        <span class="n">targets</span> <span class="o">=</span> <span class="n">reward</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">done</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">discount_factor</span> <span class="o">*</span> <span class="n">next_v</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">q0</span><span class="p">,</span> <span class="n">q1</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="n">q_loss</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q0</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+            <span class="o">+</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q1</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
+        <span class="k">return</span> <span class="n">q_loss</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">q0</span><span class="p">),</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">targets</span><span class="p">)</span></div>
+
+    <span class="k">def</span> <span class="nf">v_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">next_state</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">target_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+            <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">next_state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="c1"># Update value function</span>
+        <span class="n">v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="n">adv</span> <span class="o">=</span> <span class="n">target_q</span> <span class="o">-</span> <span class="n">v</span>
+        <span class="n">v_loss</span> <span class="o">=</span> <span class="n">asymmetric_l2_loss</span><span class="p">(</span><span class="n">adv</span><span class="p">,</span> <span class="n">tau</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span>
+
+    <span class="k">def</span> <span class="nf">iql_q_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">next_v</span><span class="p">,</span> <span class="n">discount</span><span class="p">):</span>
+        <span class="n">q_target</span> <span class="o">=</span> <span class="n">reward</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">done</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">discount</span> <span class="o">*</span> <span class="n">next_v</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">qs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="n">q_loss</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">q_target</span><span class="p">)</span> <span class="k">for</span> <span class="n">q</span> <span class="ow">in</span> <span class="n">qs</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">qs</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">q_loss</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">qs</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">q_target</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="GMPGPolicy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy">[docs]</a><span class="k">class</span> <span class="nc">GMPGPolicy</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+
+<div class="viewcode-block" id="GMPGPolicy.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">device</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">critic</span> <span class="o">=</span> <span class="n">GMPGCritic</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">critic</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">DiffusionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">DiffusionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_loss_type</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;score_matching&quot;</span><span class="p">,</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">IndependentConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">IndependentConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGPolicy.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGPolicy.sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.sample">[docs]</a>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">with_grad</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            batch_size (:obj:`Union[torch.Size, int, Tuple[int], List[int]]`): The batch size.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="n">with_grad</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGPolicy.behaviour_policy_sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.behaviour_policy_sample">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">with_grad</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of behaviour policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            batch_size (:obj:`Union[torch.Size, int, Tuple[int], List[int]]`): The batch size.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">            with_grad (:obj:`bool`): Whether to calculate the gradient.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="n">with_grad</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGPolicy.compute_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.compute_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q value.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q (:obj:`torch.Tensor`): The Q value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPGPolicy.behaviour_policy_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.behaviour_policy_loss">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">maximum_likelihood</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;score_matching&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">maximum_likelihood</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">weighting_scheme</span><span class="o">=</span><span class="s2">&quot;vanilla&quot;</span>
+                    <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="ow">in</span> <span class="p">[</span>
+            <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">,</span>
+        <span class="p">]:</span>
+            <span class="n">x0</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">gaussian_generator</span><span class="p">(</span><span class="n">batch_size</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span><span class="n">x0</span><span class="o">=</span><span class="n">x0</span><span class="p">,</span> <span class="n">x1</span><span class="o">=</span><span class="n">action</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">)</span></div>
+
+    <span class="k">def</span> <span class="nf">policy_gradient_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">gradtime_step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">repeats</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">t_span</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">gradtime_step</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+        <span class="k">def</span> <span class="nf">log_grad</span><span class="p">(</span><span class="n">name</span><span class="p">,</span> <span class="n">grad</span><span class="p">):</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                <span class="p">{</span>
+                    <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">_mean&quot;</span><span class="p">:</span> <span class="n">grad</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                    <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">_max&quot;</span><span class="p">:</span> <span class="n">grad</span><span class="o">.</span><span class="n">max</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                    <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">name</span><span class="si">}</span><span class="s2">_min&quot;</span><span class="p">:</span> <span class="n">grad</span><span class="o">.</span><span class="n">min</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                <span class="p">},</span>
+                <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">repeats</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">state</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">repeat_interleave</span><span class="p">(</span>
+                <span class="n">state</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="n">repeats</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">()</span>
+
+        <span class="n">action_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span> <span class="n">with_grad</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+        <span class="n">q_value_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action_repeated</span><span class="p">,</span> <span class="n">state_repeated</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">bits_ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">prod</span><span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">action_repeated</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+
+        <span class="n">log_p_per_dim</span> <span class="o">=</span> <span class="n">log_p</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+        <span class="n">log_mu</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="n">log_mu_per_dim</span> <span class="o">=</span> <span class="n">log_mu</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+
+        <span class="k">if</span> <span class="n">repeats</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">q_value_repeated</span> <span class="o">=</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">repeats</span><span class="p">)</span>
+            <span class="n">log_p_per_dim</span> <span class="o">=</span> <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">repeats</span><span class="p">)</span>
+            <span class="n">log_mu_per_dim</span> <span class="o">=</span> <span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">repeats</span><span class="p">)</span>
+
+            <span class="k">return</span> <span class="p">(</span>
+                <span class="p">(</span>
+                    <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="o">+</span> <span class="n">log_p_per_dim</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="o">-</span> <span class="n">log_mu_per_dim</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                <span class="p">),</span>
+                <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+                <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+                <span class="o">-</span><span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="p">(</span>
+                <span class="p">(</span><span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span> <span class="o">+</span> <span class="n">log_p_per_dim</span> <span class="o">-</span> <span class="n">log_mu_per_dim</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+                <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+                <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+                <span class="o">-</span><span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">(),</span>
+            <span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">policy_gradient_loss_by_REINFORCE</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">gradtime_step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">repeats</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+        <span class="n">weight_clamp</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">100.0</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="n">t_span</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">gradtime_step</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+        <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">repeat_interleave</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="n">repeats</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="n">action_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span> <span class="n">with_grad</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="n">q_value_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action_repeated</span><span class="p">,</span> <span class="n">state_repeated</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">v_value_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state_repeated</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">weight</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">q_value_repeated</span> <span class="o">-</span> <span class="n">v_value_repeated</span><span class="p">))</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span>
+                <span class="nb">max</span><span class="o">=</span><span class="n">weight_clamp</span>
+            <span class="p">)</span>
+            <span class="o">/</span> <span class="n">weight_clamp</span>
+        <span class="p">)</span>
+
+        <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">bits_ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">prod</span><span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">action_repeated</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+        <span class="n">log_p_per_dim</span> <span class="o">=</span> <span class="n">log_p</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+        <span class="n">log_mu</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">log_mu_per_dim</span> <span class="o">=</span> <span class="n">log_mu</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+
+        <span class="n">loss</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="p">(</span>
+                <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">+</span> <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">-</span> <span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+            <span class="p">)</span>
+            <span class="o">*</span> <span class="n">log_p_per_dim</span>
+            <span class="o">*</span> <span class="n">weight</span>
+        <span class="p">)</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">loss_q</span> <span class="o">=</span> <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">loss_p</span> <span class="o">=</span> <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+            <span class="n">loss_u</span> <span class="o">=</span> <span class="o">-</span><span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">loss_q</span><span class="p">,</span> <span class="n">loss_p</span><span class="p">,</span> <span class="n">loss_u</span>
+
+    <span class="k">def</span> <span class="nf">policy_gradient_loss_by_REINFORCE_softmax</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">gradtime_step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">repeats</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">10</span><span class="p">,</span>
+    <span class="p">):</span>
+        <span class="k">assert</span> <span class="n">repeats</span> <span class="o">&gt;</span> <span class="mi">1</span>
+        <span class="n">t_span</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">gradtime_step</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+        <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">repeat_interleave</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="n">repeats</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+        <span class="n">action_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span> <span class="n">with_grad</span><span class="o">=</span><span class="kc">False</span>
+        <span class="p">)</span>
+        <span class="n">q_value_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action_repeated</span><span class="p">,</span> <span class="n">state_repeated</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">q_value_reshaped</span> <span class="o">=</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">,</span> <span class="n">repeats</span><span class="p">)</span>
+
+        <span class="n">weight</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)(</span><span class="n">q_value_reshaped</span> <span class="o">*</span> <span class="n">beta</span><span class="p">)</span>
+        <span class="n">weight</span> <span class="o">=</span> <span class="n">weight</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">bits_ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">prod</span><span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">action_repeated</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">*</span> <span class="n">torch</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mf">2.0</span><span class="p">,</span> <span class="n">device</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">))</span>
+        <span class="n">log_p_per_dim</span> <span class="o">=</span> <span class="n">log_p</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+        <span class="n">log_mu</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+            <span class="n">x</span><span class="o">=</span><span class="n">action_repeated</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span>
+            <span class="n">t</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+        <span class="p">)</span>
+        <span class="n">log_mu_per_dim</span> <span class="o">=</span> <span class="n">log_mu</span> <span class="o">/</span> <span class="n">bits_ratio</span>
+
+        <span class="n">loss</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="p">(</span>
+                <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">+</span> <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">-</span> <span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+            <span class="p">)</span>
+            <span class="o">*</span> <span class="n">log_p_per_dim</span>
+            <span class="o">*</span> <span class="n">weight</span>
+        <span class="p">)</span>
+        <span class="n">loss_q</span> <span class="o">=</span> <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+        <span class="n">loss_p</span> <span class="o">=</span> <span class="n">log_p_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+        <span class="n">loss_u</span> <span class="o">=</span> <span class="o">-</span><span class="n">log_mu_per_dim</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+        <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">loss_q</span><span class="p">,</span> <span class="n">loss_p</span><span class="p">,</span> <span class="n">loss_u</span>
+
+    <span class="k">def</span> <span class="nf">policy_gradient_loss_add_matching_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">maximum_likelihood</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">gradtime_step</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1000</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">repeats</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span>
+    <span class="p">):</span>
+
+        <span class="n">t_span</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">gradtime_step</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">state</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">repeats</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+            <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">state</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">state_repeated</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">repeat_interleave</span><span class="p">(</span>
+                <span class="n">state</span><span class="p">,</span> <span class="n">repeats</span><span class="o">=</span><span class="n">repeats</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">()</span>
+
+        <span class="n">action_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state_repeated</span><span class="p">,</span> <span class="n">with_grad</span><span class="o">=</span><span class="kc">True</span>
+        <span class="p">)</span>
+
+        <span class="n">q_value_repeated</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action_repeated</span><span class="p">,</span> <span class="n">state_repeated</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="n">loss_q</span> <span class="o">=</span> <span class="o">-</span><span class="n">beta</span> <span class="o">*</span> <span class="n">q_value_repeated</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+
+        <span class="n">loss_matching</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_loss</span><span class="p">(</span>
+            <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="o">=</span><span class="n">state</span><span class="p">,</span> <span class="n">maximum_likelihood</span><span class="o">=</span><span class="n">maximum_likelihood</span>
+        <span class="p">)</span>
+
+        <span class="n">loss</span> <span class="o">=</span> <span class="n">loss_q</span> <span class="o">+</span> <span class="n">loss_matching</span>
+
+        <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">loss_q</span><span class="p">,</span> <span class="n">loss_matching</span></div>
+
+
+<div class="viewcode-block" id="GMPGAlgorithm"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm">[docs]</a><span class="k">class</span> <span class="nc">GMPGAlgorithm</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        The Generative Model Policy Gradient(GMPG) algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GMPGAlgorithm.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">simulator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">dataset</span><span class="p">:</span> <span class="n">GPDataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize algorithm.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration , which must contain the following keys:</span>
+<span class="sd">                train (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">                deploy (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">            simulator (:obj:`object`): The environment simulator.</span>
+<span class="sd">            dataset (:obj:`GPDataset`): The dataset.</span>
+<span class="sd">            model (:obj:`Union[torch.nn.Module, torch.nn.ModuleDict]`): The model.</span>
+<span class="sd">        Interface:</span>
+<span class="sd">            ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="n">simulator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span> <span class="o">=</span> <span class="n">set_seed</span><span class="p">(</span><span class="n">seed</span><span class="p">)</span>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↓</span>
+        <span class="c1"># ---------------------------------------</span>
+
+        <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+            <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;GPPolicy&quot;</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;2.0.0&quot;</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+                    <span class="n">GMPGPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">GMPGPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                <span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Checkpoint path </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2"> does not exist&quot;</span>
+                    <span class="p">)</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">base_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;basemodel_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">base_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No basemodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">base_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;base_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;behaviour_policy_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">guided_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;guidedmodel_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">guided_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No guidedmodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">guided_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;guided_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;guided_policy_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">critic_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;critic_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">critic_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No criticmodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">critic_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;critic_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;critic_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span></div>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↑</span>
+        <span class="c1"># ---------------------------------------</span>
+
+<div class="viewcode-block" id="GMPGAlgorithm.train"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm.train">[docs]</a>    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Train the model using the given configuration. \</span>
+<span class="sd">            A weight-and-bias run will be created automatically when this function is called.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">            seed (:obj:`int`): The random seed.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;train&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="n">EasyDict</span><span class="p">(),</span>
+                <span class="n">config</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+        <span class="p">)</span>
+
+        <span class="n">config</span><span class="p">[</span><span class="s2">&quot;seed&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span> <span class="k">if</span> <span class="n">seed</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">seed</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;wandb&quot;</span><span class="p">):</span>
+            <span class="n">config</span><span class="p">[</span><span class="s2">&quot;wandb&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">project</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">project</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">,</span> <span class="s2">&quot;project&quot;</span><span class="p">):</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">[</span><span class="s2">&quot;project&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">project</span>
+
+        <span class="k">with</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">)</span> <span class="k">as</span> <span class="n">wandb_run</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;beta&quot;</span><span class="p">):</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="mf">1.0</span>
+
+            <span class="k">assert</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s2">&quot;GMPG&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GMPG_REINFORCE&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GMPG_REINFORCE_softmax&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GMPG_add_matching&quot;</span><span class="p">,</span>
+            <span class="p">]</span>
+            <span class="n">run_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">method</span><span class="si">}</span><span class="s2">-beta-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span><span class="si">}</span><span class="s2">-T-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">gradtime_step</span><span class="si">}</span><span class="s2">-batch-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">-lr-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="si">}</span><span class="s2">-seed-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">run</span><span class="o">.</span><span class="n">name</span> <span class="o">=</span> <span class="n">run_name</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">run</span><span class="o">.</span><span class="n">save</span><span class="p">()</span>
+
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="n">EasyDict</span><span class="p">(</span><span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="p">),</span> <span class="n">config</span><span class="p">)</span>
+            <span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="o">=</span> <span class="n">config</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_simulator</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">simulator</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;simulator&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_dataset</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;dataset&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span>
+            <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">def</span> <span class="nf">save_checkpoint</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">iteration</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">iteration</span> <span class="o">==</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">iteration</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">if</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;base_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">base_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span><span class="p">,</span>
+                                <span class="n">behaviour_policy_train_iter</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;basemodel_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;guided_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">guided_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span>
+                                    <span class="s2">&quot;GPPolicy&quot;</span>
+                                <span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span><span class="p">,</span>
+                                <span class="n">guided_policy_train_iteration</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;guidedmodel_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;critic_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">critic_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">critic_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span><span class="p">,</span>
+                                <span class="n">critic_train_iter</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;critic_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+            <span class="k">def</span> <span class="nf">generate_fake_action</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">states</span><span class="p">,</span> <span class="n">action_augment_num</span><span class="p">):</span>
+
+                <span class="n">fake_actions_sampled</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">states</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                    <span class="n">np</span><span class="o">.</span><span class="n">array_split</span><span class="p">(</span><span class="n">states</span><span class="p">,</span> <span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">//</span> <span class="mi">4096</span> <span class="o">+</span> <span class="mi">1</span><span class="p">),</span>
+                    <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Generate fake actions&quot;</span><span class="p">,</span>
+                <span class="p">):</span>
+
+                    <span class="n">fake_actions_</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">behaviour_policy_sample</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">states</span><span class="p">,</span>
+                        <span class="n">batch_size</span><span class="o">=</span><span class="n">action_augment_num</span><span class="p">,</span>
+                        <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                            <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                <span class="n">states</span><span class="o">.</span><span class="n">device</span>
+                            <span class="p">)</span>
+                            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                            <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                            <span class="k">else</span> <span class="kc">None</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">fake_actions_sampled</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;nbd-&gt;bnd&quot;</span><span class="p">,</span> <span class="n">fake_actions_</span><span class="p">))</span>
+
+                <span class="n">fake_actions</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span><span class="n">fake_actions_sampled</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">fake_actions</span>
+
+            <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">train_epoch</span><span class="p">,</span> <span class="n">repeat</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+                <span class="n">evaluation_results</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
+
+                <span class="k">def</span> <span class="nf">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                            <span class="n">obs</span><span class="p">,</span>
+                            <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                            <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                        <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+                        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">obs</span><span class="p">:</span>
+                            <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">],</span>
+                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                            <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">TensorDict</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+                    <span class="n">action</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                            <span class="n">condition</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                            <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                                <span class="p">)</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="k">else</span> <span class="kc">None</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                        <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                    <span class="p">)</span>
+                    <span class="k">return</span> <span class="n">action</span>
+
+                <span class="n">eval_results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span>
+                    <span class="n">policy</span><span class="o">=</span><span class="n">policy</span><span class="p">,</span> <span class="n">num_episodes</span><span class="o">=</span><span class="n">repeat</span>
+                <span class="p">)</span>
+                <span class="n">return_results</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">eval_results</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="s2">&quot;total_return&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">repeat</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Return: </span><span class="si">{</span><span class="n">return_results</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="n">return_mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_std</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">std</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_max</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_min</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_mean</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_std&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_std</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_max&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_max</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_min&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_min</span>
+
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="p">,</span> <span class="n">GPD4RLDataset</span><span class="p">):</span>
+                    <span class="kn">import</span> <span class="nn">d4rl</span>
+
+                    <span class="n">env_id</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">args</span><span class="o">.</span><span class="n">env_id</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_mean_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_mean</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_std_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_std</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_max_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_max</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_min_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_min</span><span class="p">)</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="n">repeat</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return_mean: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">, return_std: </span><span class="si">{</span><span class="n">return_std</span><span class="si">}</span><span class="s2">, return_max: </span><span class="si">{</span><span class="n">return_max</span><span class="si">}</span><span class="s2">, return_min: </span><span class="si">{</span><span class="n">return_min</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">evaluation_results</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># behavior training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="n">behaviour_policy_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">behaviour_policy_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+
+            <span class="n">logp_min</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_max</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_mean</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_sum</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">end_return</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Behaviour policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_interval&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="n">epoch</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_interval</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+
+                    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_repeat&quot;</span><span class="p">):</span>
+                        <span class="n">analysis_repeat</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_repeat</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">analysis_repeat</span> <span class="o">=</span> <span class="mi">10</span>
+
+                    <span class="n">analysis_counter</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                        <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                            <span class="n">plot_distribution</span><span class="p">(</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;action_base_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                            <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_sample</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                    <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                        <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span>
+                                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                    <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                    <span class="k">else</span> <span class="kc">None</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                        <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+                            <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                                <span class="mi">1</span>
+                                <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="n">plot_distribution</span><span class="p">(</span>
+                                <span class="n">action</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;action_base_model_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s1">&#39;evaluation/return_mean&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                        <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+                            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+                            <span class="n">x</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">condition</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">t</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="mi">100</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                            <span class="p">),</span>
+                            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">logp_max</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">max</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                        <span class="n">logp_min</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">min</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                        <span class="n">logp_mean</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                        <span class="n">logp_sum</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                        <span class="n">end_return</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">])</span>
+
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+                        <span class="n">analysis_counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">&gt;=</span> <span class="n">analysis_repeat</span><span class="p">:</span>
+                            <span class="n">logp_dict</span> <span class="o">=</span> <span class="p">{</span>
+                                <span class="s2">&quot;logp_max&quot;</span><span class="p">:</span> <span class="n">logp_max</span><span class="p">,</span>
+                                <span class="s2">&quot;logp_min&quot;</span><span class="p">:</span> <span class="n">logp_min</span><span class="p">,</span>
+                                <span class="s2">&quot;logp_mean&quot;</span><span class="p">:</span> <span class="n">logp_mean</span><span class="p">,</span>
+                                <span class="s2">&quot;logp_sum&quot;</span><span class="p">:</span> <span class="n">logp_sum</span><span class="p">,</span>
+                                <span class="s2">&quot;end_return&quot;</span><span class="p">:</span> <span class="n">end_return</span><span class="p">,</span>
+                            <span class="p">}</span>
+                            <span class="n">np</span><span class="o">.</span><span class="n">savez</span><span class="p">(</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;logp_data_based_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.npz&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                                <span class="o">**</span><span class="n">logp_dict</span><span class="p">,</span>
+                            <span class="p">)</span>
+                            <span class="n">plot_histogram2d_x_y</span><span class="p">(</span>
+                                <span class="n">end_return</span><span class="p">,</span>
+                                <span class="n">logp_mean</span><span class="p">,</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;return_logp_base_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+                            <span class="k">break</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+                <span class="n">behaviour_policy_loss_sum</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">behaviour_policy_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                        <span class="s2">&quot;GPPolicy&quot;</span>
+                    <span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                            <span class="p">)</span>
+                            <span class="k">else</span> <span class="kc">False</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">behaviour_policy_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">behaviour_policy_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">behaviour_policy_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">behaviour_policy_loss_sum</span> <span class="o">+=</span> <span class="n">behaviour_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">behaviour_policy_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">behaviour_policy_train_iter</span><span class="o">=</span><span class="n">behaviour_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">behaviour_policy_loss</span><span class="o">=</span><span class="n">behaviour_policy_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_checkpoint</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">behaviour_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;base_model&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># behavior training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># critic training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">q_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">v_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">critic_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span> <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Critic training&quot;</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+
+                <span class="n">v_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">v_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_target_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s_&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">tau</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">tau</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">v_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">q_loss</span><span class="p">,</span> <span class="n">q</span><span class="p">,</span> <span class="n">q_target</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">iql_q_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">reward</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">done</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;d&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_v</span><span class="o">=</span><span class="n">next_v</span><span class="p">,</span>
+                        <span class="n">discount</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">discount_factor</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">q_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="c1"># Update target</span>
+                    <span class="k">for</span> <span class="n">param</span><span class="p">,</span> <span class="n">target_param</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q_target</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                    <span class="p">):</span>
+                        <span class="n">target_param</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span> <span class="o">*</span> <span class="n">param</span><span class="o">.</span><span class="n">data</span>
+                            <span class="o">+</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span><span class="p">)</span>
+                            <span class="o">*</span> <span class="n">target_param</span><span class="o">.</span><span class="n">data</span>
+                        <span class="p">)</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="n">q_loss_sum</span> <span class="o">+=</span> <span class="n">q_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_sum</span> <span class="o">+=</span> <span class="n">q</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_target_sum</span> <span class="o">+=</span> <span class="n">q_target</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">v_loss_sum</span> <span class="o">+=</span> <span class="n">v_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">v_sum</span> <span class="o">+=</span> <span class="n">next_v</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">critic_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">v_loss</span><span class="o">=</span><span class="n">v_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span> <span class="n">v</span><span class="o">=</span><span class="n">v_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">critic_train_iter</span><span class="o">=</span><span class="n">critic_train_iter</span><span class="p">,</span>
+                        <span class="n">critic_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">q_loss</span><span class="o">=</span><span class="n">q_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q</span><span class="o">=</span><span class="n">q_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q_target</span><span class="o">=</span><span class="n">q_target_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_checkpoint</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">critic_train_iter</span><span class="p">,</span>
+                        <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;critic_model&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># critic training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># guided policy training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span>
+                <span class="p">)</span>
+
+            <span class="n">guided_policy_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">logp_min</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_max</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_mean</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">logp_sum</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">end_return</span> <span class="o">=</span> <span class="p">[]</span>
+
+            <span class="n">guided_policy_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">beta</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Guided policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+                <span class="n">guided_policy_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPG&quot;</span><span class="p">:</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">q_loss</span><span class="p">,</span>
+                            <span class="n">log_p_loss</span><span class="p">,</span>
+                            <span class="n">log_u_loss</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">policy_gradient_loss</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">gradtime_step</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">gradtime_step</span><span class="p">,</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                            <span class="n">repeats</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">repeats</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;repeats&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="mi">1</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPG_REINFORCE&quot;</span><span class="p">:</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">q_loss</span><span class="p">,</span>
+                            <span class="n">log_p_loss</span><span class="p">,</span>
+                            <span class="n">log_u_loss</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">policy_gradient_loss_by_REINFORCE</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">gradtime_step</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">gradtime_step</span><span class="p">,</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                            <span class="n">repeats</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">repeats</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;repeats&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="mi">1</span>
+                            <span class="p">),</span>
+                            <span class="n">weight_clamp</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">weight_clamp</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;weight_clamp&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="mf">100.0</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPG_REINFORCE_softmax&quot;</span><span class="p">:</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">q_loss</span><span class="p">,</span>
+                            <span class="n">log_p_loss</span><span class="p">,</span>
+                            <span class="n">log_u_loss</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;GPPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">policy_gradient_loss_by_REINFORCE_softmax</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">gradtime_step</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">gradtime_step</span><span class="p">,</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                            <span class="n">repeats</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">repeats</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;repeats&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="mi">32</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPG_add_matching&quot;</span><span class="p">:</span>
+                        <span class="n">guided_policy_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;GPPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">policy_gradient_loss_add_matching_loss</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="kc">False</span>
+                            <span class="p">),</span>
+                            <span class="n">gradtime_step</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">gradtime_step</span><span class="p">,</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                            <span class="n">repeats</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">repeats</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;repeats&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="mi">1</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+                    <span class="n">guided_policy_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">guided_policy_loss</span> <span class="o">=</span> <span class="n">guided_policy_loss</span> <span class="o">*</span> <span class="p">(</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">/</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">batch_size</span>
+                    <span class="p">)</span>
+                    <span class="n">guided_policy_loss</span> <span class="o">=</span> <span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                    <span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">guided_policy_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPG_add_matching&quot;</span><span class="p">:</span>
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                            <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">guided_policy_train_iter</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                                <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                                <span class="n">guided_policy_loss</span><span class="o">=</span><span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                            <span class="p">),</span>
+                            <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="k">if</span> <span class="p">(</span>
+                            <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                            <span class="ow">and</span> <span class="p">(</span><span class="n">guided_policy_train_iter</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+                            <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span>
+                            <span class="o">==</span> <span class="mi">0</span>
+                        <span class="p">):</span>
+                            <span class="n">save_checkpoint</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                                <span class="n">iteration</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                                <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;guided_model&quot;</span><span class="p">,</span>
+                            <span class="p">)</span>
+
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span>
+                        <span class="s2">&quot;GMPG&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;GMPG_REINFORCE&quot;</span><span class="p">,</span>
+                        <span class="s2">&quot;GMPG_REINFORCE_softmax&quot;</span><span class="p">,</span>
+                    <span class="p">]:</span>
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                            <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">guided_policy_train_iter</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                                <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                                <span class="n">guided_policy_loss</span><span class="o">=</span><span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                                <span class="n">q_loss</span><span class="o">=</span><span class="n">q_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                                <span class="n">log_p_loss</span><span class="o">=</span><span class="n">log_p_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                                <span class="n">log_u_loss</span><span class="o">=</span><span class="n">log_u_loss</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span>
+                            <span class="p">),</span>
+                            <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="k">if</span> <span class="p">(</span>
+                            <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                            <span class="ow">and</span> <span class="p">(</span><span class="n">guided_policy_train_iter</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+                            <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span>
+                            <span class="o">==</span> <span class="mi">0</span>
+                        <span class="p">):</span>
+                            <span class="n">save_checkpoint</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                                <span class="n">iteration</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                                <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;guided_model&quot;</span><span class="p">,</span>
+                            <span class="p">)</span>
+
+                    <span class="n">guided_policy_loss_sum</span> <span class="o">+=</span> <span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_interval&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">guided_policy_train_iter</span>
+                        <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_interval</span>
+                        <span class="o">==</span> <span class="mi">0</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_repeat&quot;</span><span class="p">):</span>
+                            <span class="n">analysis_repeat</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_repeat</span>
+                            <span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="n">analysis_repeat</span> <span class="o">=</span> <span class="mi">10</span>
+
+                        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_distribution&quot;</span>
+                        <span class="p">):</span>
+                            <span class="n">analysis_distribution</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_distribution</span>
+                            <span class="p">)</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="n">analysis_distribution</span> <span class="o">=</span> <span class="kc">True</span>
+
+                        <span class="n">analysis_counter</span> <span class="o">=</span> <span class="mi">0</span>
+                        <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                            <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">analysis_distribution</span><span class="p">:</span>
+                                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                                    <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                                <span class="n">plot_distribution</span><span class="p">(</span>
+                                    <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                        <span class="sa">f</span><span class="s2">&quot;action_guided_</span><span class="si">{</span><span class="n">guided_policy_train_iter</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+
+                                <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                    <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                    <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                        <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                            <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span>
+                                        <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                        <span class="k">else</span> <span class="kc">None</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+
+                            <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                                <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                                <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                                    <span class="mi">1</span>
+                                    <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span>
+                                    <span class="p">)</span>
+                                    <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                            <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+                                <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                                <span class="n">x</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">condition</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">t</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="mi">100</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                                <span class="p">),</span>
+                                <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                            <span class="p">)</span>
+
+                            <span class="n">logp_max</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">max</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                            <span class="n">logp_min</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">min</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                            <span class="n">logp_mean</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                            <span class="n">logp_sum</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">sum</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                            <span class="n">end_return</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="n">evaluation_results</span><span class="p">[</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">]</span>
+                            <span class="p">)</span>
+
+                            <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">==</span> <span class="mi">0</span> <span class="ow">and</span> <span class="n">analysis_distribution</span><span class="p">:</span>
+                                <span class="n">plot_distribution</span><span class="p">(</span>
+                                    <span class="n">action</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                        <span class="sa">f</span><span class="s2">&quot;action_guided_model_</span><span class="si">{</span><span class="n">guided_policy_train_iter</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s1">&#39;evaluation/return_mean&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+
+                            <span class="n">analysis_counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                            <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="n">analysis_counter</span> <span class="o">&gt;</span> <span class="n">analysis_repeat</span><span class="p">:</span>
+                                <span class="n">logp_dict</span> <span class="o">=</span> <span class="p">{</span>
+                                    <span class="s2">&quot;logp_max&quot;</span><span class="p">:</span> <span class="n">logp_max</span><span class="p">,</span>
+                                    <span class="s2">&quot;logp_min&quot;</span><span class="p">:</span> <span class="n">logp_min</span><span class="p">,</span>
+                                    <span class="s2">&quot;logp_mean&quot;</span><span class="p">:</span> <span class="n">logp_mean</span><span class="p">,</span>
+                                    <span class="s2">&quot;logp_sum&quot;</span><span class="p">:</span> <span class="n">logp_sum</span><span class="p">,</span>
+                                    <span class="s2">&quot;end_return&quot;</span><span class="p">:</span> <span class="n">end_return</span><span class="p">,</span>
+                                <span class="p">}</span>
+                                <span class="n">np</span><span class="o">.</span><span class="n">savez</span><span class="p">(</span>
+                                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                        <span class="sa">f</span><span class="s2">&quot;logp_data_guided_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.npz&quot;</span><span class="p">,</span>
+                                    <span class="p">),</span>
+                                    <span class="o">**</span><span class="n">logp_dict</span><span class="p">,</span>
+                                <span class="p">)</span>
+                                <span class="n">plot_histogram2d_x_y</span><span class="p">(</span>
+                                    <span class="n">end_return</span><span class="p">,</span>
+                                    <span class="n">logp_mean</span><span class="p">,</span>
+                                    <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                        <span class="sa">f</span><span class="s2">&quot;return_logp_guided_</span><span class="si">{</span><span class="n">guided_policy_train_iter</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+                                <span class="k">break</span>
+
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">eval</span>
+                        <span class="ow">and</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;interval&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">guided_policy_train_iter</span>
+                        <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">interval</span>
+                        <span class="o">==</span> <span class="mi">0</span>
+                    <span class="p">):</span>
+                        <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                            <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                                <span class="mi">1</span>
+                                <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                    <span class="n">guided_policy_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                            <span class="n">guided_policy_train_iter</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                            <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="p">),</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># guided policy training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+        <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span></div>
+
+    <span class="k">def</span> <span class="nf">deploy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GPAgent</span><span class="p">:</span>
+
+        <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span>
+
+        <span class="k">assert</span> <span class="s2">&quot;GPPolicy&quot;</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;The model must be trained first.&quot;</span>
+        <span class="k">return</span> <span class="n">GPAgent</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">),</span>
+        <span class="p">)</span></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../"
+    src="../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+  <script src="../../../_static/doctools.js"></script>
+  <script src="../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/algorithms/gmpo.html b/_modules/grl/algorithms/gmpo.html
new file mode 100644
index 0000000..a60f5b1
--- /dev/null
+++ b/_modules/grl/algorithms/gmpo.html
@@ -0,0 +1,1799 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.algorithms.gmpo &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../search.html" />
+    <link href="../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.algorithms.gmpo</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.algorithms.gmpo</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">os</span>
+<span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">rich.progress</span> <span class="kn">import</span> <span class="n">track</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+<span class="kn">from</span> <span class="nn">torchrl.data</span> <span class="kn">import</span> <span class="n">TensorDictReplayBuffer</span>
+<span class="kn">from</span> <span class="nn">torchrl.data.replay_buffers.samplers</span> <span class="kn">import</span> <span class="n">SamplerWithoutReplacement</span>
+
+<span class="kn">import</span> <span class="nn">wandb</span>
+<span class="kn">from</span> <span class="nn">grl.agents.gm</span> <span class="kn">import</span> <span class="n">GPAgent</span>
+
+<span class="kn">from</span> <span class="nn">grl.datasets</span> <span class="kn">import</span> <span class="n">create_dataset</span>
+<span class="kn">from</span> <span class="nn">grl.datasets.gp</span> <span class="kn">import</span> <span class="n">GPDataset</span><span class="p">,</span> <span class="n">GPD4RLDataset</span><span class="p">,</span> <span class="n">GPD4RLTensorDictDataset</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.diffusion_model</span> <span class="kn">import</span> <span class="n">DiffusionModel</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.conditional_flow_model.optimal_transport_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.conditional_flow_model.independent_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">IndependentConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.bridge_flow_model.schrodinger_bridge_conditional_flow_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">,</span>
+<span class="p">)</span>
+
+<span class="kn">from</span> <span class="nn">grl.rl_modules.simulators</span> <span class="kn">import</span> <span class="n">create_simulator</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.q_network</span> <span class="kn">import</span> <span class="n">DoubleQNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.value_network</span> <span class="kn">import</span> <span class="n">VNetwork</span><span class="p">,</span> <span class="n">DoubleVNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.utils.config</span> <span class="kn">import</span> <span class="n">merge_two_dicts_into_newone</span>
+<span class="kn">from</span> <span class="nn">grl.utils.log</span> <span class="kn">import</span> <span class="n">log</span>
+<span class="kn">from</span> <span class="nn">grl.utils</span> <span class="kn">import</span> <span class="n">set_seed</span>
+<span class="kn">from</span> <span class="nn">grl.utils.plot</span> <span class="kn">import</span> <span class="n">plot_distribution</span><span class="p">,</span> <span class="n">plot_histogram2d_x_y</span>
+<span class="kn">from</span> <span class="nn">grl.utils.statistics</span> <span class="kn">import</span> <span class="n">sort_files_by_criteria</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.metric</span> <span class="kn">import</span> <span class="n">compute_likelihood</span>
+
+
+<span class="k">def</span> <span class="nf">asymmetric_l2_loss</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">tau</span> <span class="o">-</span> <span class="p">(</span><span class="n">u</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">u</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="GMPOCritic"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOCritic">[docs]</a><span class="k">class</span> <span class="nc">GMPOCritic</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Critic network for GMPO algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GMPOCritic.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of GMPO critic network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">q_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q</span> <span class="o">=</span> <span class="n">DoubleQNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">DoubleQNetwork</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v</span> <span class="o">=</span> <span class="n">VNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">VNetwork</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOCritic.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GMPO critic.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOCritic.compute_double_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.compute_double_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first Q network.</span>
+<span class="sd">            q2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+    <span class="k">def</span> <span class="nf">v_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">next_state</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">target_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+            <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">next_state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="c1"># Update value function</span>
+        <span class="n">v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="n">adv</span> <span class="o">=</span> <span class="n">target_q</span> <span class="o">-</span> <span class="n">v</span>
+        <span class="n">v_loss</span> <span class="o">=</span> <span class="n">asymmetric_l2_loss</span><span class="p">(</span><span class="n">adv</span><span class="p">,</span> <span class="n">tau</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span>
+
+    <span class="k">def</span> <span class="nf">iql_q_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">next_v</span><span class="p">,</span> <span class="n">discount</span><span class="p">):</span>
+        <span class="n">q_target</span> <span class="o">=</span> <span class="n">reward</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">done</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">discount</span> <span class="o">*</span> <span class="n">next_v</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">qs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="n">q_loss</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">q_target</span><span class="p">)</span> <span class="k">for</span> <span class="n">q</span> <span class="ow">in</span> <span class="n">qs</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">qs</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">q_loss</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">qs</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">q_target</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="GMPOPolicy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy">[docs]</a><span class="k">class</span> <span class="nc">GMPOPolicy</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        GMPO policy network for GMPO algorithm, which includes the base model (optinal), the guided model and the critic.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``sample``, ``compute_q``, ``behaviour_policy_loss``, ``policy_optimization_loss_by_advantage_weighted_regression``, ``policy_optimization_loss_by_advantage_weighted_regression_softmax``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GMPOPolicy.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the GMPO policy network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">device</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">critic</span> <span class="o">=</span> <span class="n">GMPOCritic</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">critic</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_type</span>
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">DiffusionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">DiffusionModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">model_loss_type</span>
+            <span class="k">assert</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;score_matching&quot;</span><span class="p">,</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">]</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">OptimalTransportConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">IndependentConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">IndependentConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span> <span class="o">=</span> <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span> <span class="o">=</span> <span class="n">SchrodingerBridgeConditionalFlowModel</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GMPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.sample">[docs]</a>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">with_grad</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of GMPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            batch_size (:obj:`Union[torch.Size, int, Tuple[int], List[int]]`): The batch size.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="n">with_grad</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.behaviour_policy_sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.behaviour_policy_sample">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">with_grad</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of behaviour policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            batch_size (:obj:`Union[torch.Size, int, Tuple[int], List[int]]`): The batch size.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">            with_grad (:obj:`bool`): Whether to calculate the gradient.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="n">with_grad</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.compute_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.compute_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q value.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q (:obj:`torch.Tensor`): The Q value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.behaviour_policy_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.behaviour_policy_loss">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">maximum_likelihood</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;score_matching&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">maximum_likelihood</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">weighting_scheme</span><span class="o">=</span><span class="s2">&quot;vanilla&quot;</span>
+                    <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">:</span>
+                <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="ow">in</span> <span class="p">[</span>
+            <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">,</span>
+        <span class="p">]:</span>
+            <span class="n">x0</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">gaussian_generator</span><span class="p">(</span><span class="n">batch_size</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span><span class="n">x0</span><span class="o">=</span><span class="n">x0</span><span class="p">,</span> <span class="n">x1</span><span class="o">=</span><span class="n">action</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression">[docs]</a>    <span class="k">def</span> <span class="nf">policy_optimization_loss_by_advantage_weighted_regression</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">maximum_likelihood</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+        <span class="n">weight_clamp</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">100.0</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;score_matching&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">maximum_likelihood</span><span class="p">:</span>
+                    <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">weighting_scheme</span><span class="o">=</span><span class="s2">&quot;vanilla&quot;</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+                    <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">:</span>
+                <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span>
+                    <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+                <span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="ow">in</span> <span class="p">[</span>
+            <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">,</span>
+        <span class="p">]:</span>
+            <span class="n">x0</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">gaussian_generator</span><span class="p">(</span><span class="n">batch_size</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+            <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span>
+                <span class="n">x0</span><span class="o">=</span><span class="n">x0</span><span class="p">,</span> <span class="n">x1</span><span class="o">=</span><span class="n">action</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">q_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">v_value</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="n">weight</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">exp</span><span class="p">(</span><span class="n">beta</span> <span class="o">*</span> <span class="p">(</span><span class="n">q_value</span> <span class="o">-</span> <span class="n">v_value</span><span class="p">))</span>
+
+        <span class="n">clamped_weight</span> <span class="o">=</span> <span class="n">weight</span><span class="o">.</span><span class="n">clamp</span><span class="p">(</span><span class="nb">max</span><span class="o">=</span><span class="n">weight_clamp</span><span class="p">)</span>
+
+        <span class="c1"># calculate the number of clamped_weight&lt;weight</span>
+        <span class="n">clamped_ratio</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="n">clamped_weight</span> <span class="o">&lt;</span> <span class="n">weight</span><span class="p">,</span> <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">)</span>
+        <span class="p">)</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">model_loss</span> <span class="o">*</span> <span class="n">clamped_weight</span><span class="p">),</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">weight</span><span class="p">),</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">clamped_weight</span><span class="p">),</span>
+            <span class="n">clamped_ratio</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax">[docs]</a>    <span class="k">def</span> <span class="nf">policy_optimization_loss_by_advantage_weighted_regression_softmax</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">fake_action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">maximum_likelihood</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+        <span class="n">beta</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">action</span> <span class="o">=</span> <span class="n">fake_action</span>
+
+        <span class="n">action_reshape</span> <span class="o">=</span> <span class="n">action</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="o">*</span><span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="p">)</span>
+        <span class="n">state_repeat</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">([</span><span class="n">state</span><span class="p">]</span> <span class="o">*</span> <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+        <span class="n">state_repeat_reshape</span> <span class="o">=</span> <span class="n">state_repeat</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span>
+            <span class="n">state_repeat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">state_repeat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="o">*</span><span class="n">state_repeat</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">2</span><span class="p">:]</span>
+        <span class="p">)</span>
+        <span class="n">energy</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action_reshape</span><span class="p">,</span> <span class="n">state_repeat_reshape</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">energy</span> <span class="o">=</span> <span class="n">energy</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;DiffusionModel&quot;</span><span class="p">:</span>
+            <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;score_matching&quot;</span><span class="p">:</span>
+                <span class="k">if</span> <span class="n">maximum_likelihood</span><span class="p">:</span>
+                    <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action_reshape</span><span class="p">,</span> <span class="n">state_repeat_reshape</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+                        <span class="n">action_reshape</span><span class="p">,</span>
+                        <span class="n">state_repeat_reshape</span><span class="p">,</span>
+                        <span class="n">weighting_scheme</span><span class="o">=</span><span class="s2">&quot;vanilla&quot;</span><span class="p">,</span>
+                        <span class="n">average</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="p">)</span>
+            <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_loss_type</span> <span class="o">==</span> <span class="s2">&quot;flow_matching&quot;</span><span class="p">:</span>
+                <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span>
+                    <span class="n">action_reshape</span><span class="p">,</span> <span class="n">state_repeat_reshape</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+                <span class="p">)</span>
+        <span class="k">elif</span> <span class="bp">self</span><span class="o">.</span><span class="n">model_type</span> <span class="ow">in</span> <span class="p">[</span>
+            <span class="s2">&quot;OptimalTransportConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;IndependentConditionalFlowModel&quot;</span><span class="p">,</span>
+            <span class="s2">&quot;SchrodingerBridgeConditionalFlowModel&quot;</span><span class="p">,</span>
+        <span class="p">]:</span>
+            <span class="n">x0</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">gaussian_generator</span><span class="p">(</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">state</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">*</span> <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span>
+            <span class="p">)</span>
+            <span class="n">model_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">flow_matching_loss</span><span class="p">(</span>
+                <span class="n">x0</span><span class="o">=</span><span class="n">x0</span><span class="p">,</span> <span class="n">x1</span><span class="o">=</span><span class="n">action_reshape</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">state_repeat_reshape</span><span class="p">,</span> <span class="n">average</span><span class="o">=</span><span class="kc">False</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+        <span class="n">model_loss</span> <span class="o">=</span> <span class="n">model_loss</span><span class="o">.</span><span class="n">reshape</span><span class="p">(</span><span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span>
+            <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span>
+        <span class="p">)</span>
+
+        <span class="n">relative_energy</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)(</span><span class="n">energy</span> <span class="o">*</span> <span class="n">beta</span><span class="p">)</span>
+
+        <span class="n">loss</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="n">relative_energy</span> <span class="o">*</span> <span class="n">model_loss</span><span class="p">,</span> <span class="n">axis</span><span class="o">=-</span><span class="mi">1</span><span class="p">),</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+
+        <span class="k">return</span> <span class="p">(</span>
+            <span class="n">loss</span><span class="p">,</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">energy</span><span class="p">),</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">relative_energy</span><span class="p">),</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">model_loss</span><span class="p">),</span>
+        <span class="p">)</span></div></div>
+
+
+<div class="viewcode-block" id="GMPOAlgorithm"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm">[docs]</a><span class="k">class</span> <span class="nc">GMPOAlgorithm</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        The Generative Model Policy Optimization(GMPO) algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GMPOAlgorithm.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">simulator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">dataset</span><span class="p">:</span> <span class="n">GPDataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the GMPO &amp;&amp; GPG algorithm.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration , which must contain the following keys:</span>
+<span class="sd">                train (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">                deploy (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">            simulator (:obj:`object`): The environment simulator.</span>
+<span class="sd">            dataset (:obj:`GPDataset`): The dataset.</span>
+<span class="sd">            model (:obj:`Union[torch.nn.Module, torch.nn.ModuleDict]`): The model.</span>
+<span class="sd">        Interface:</span>
+<span class="sd">            ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="n">simulator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span> <span class="o">=</span> <span class="n">set_seed</span><span class="p">(</span><span class="n">seed</span><span class="p">)</span>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↓</span>
+        <span class="c1"># ---------------------------------------</span>
+
+        <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+            <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;GPPolicy&quot;</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;2.0.0&quot;</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+                    <span class="n">GMPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">GMPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                <span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Checkpoint path </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2"> does not exist&quot;</span>
+                    <span class="p">)</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">base_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;basemodel_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">base_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No basemodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">base_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;base_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;behaviour_policy_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">guided_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;guidedmodel_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">guided_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No guidedmodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">guided_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;guided_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;guided_policy_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span>
+
+                    <span class="n">critic_model_files</span> <span class="o">=</span> <span class="n">sort_files_by_criteria</span><span class="p">(</span>
+                        <span class="n">folder_path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">start_string</span><span class="o">=</span><span class="s2">&quot;critic_&quot;</span><span class="p">,</span>
+                        <span class="n">end_string</span><span class="o">=</span><span class="s2">&quot;.pt&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="k">if</span> <span class="nb">len</span><span class="p">(</span><span class="n">critic_model_files</span><span class="p">)</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="n">log</span><span class="o">.</span><span class="n">warning</span><span class="p">(</span>
+                            <span class="sa">f</span><span class="s2">&quot;No criticmodel file found in </span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="si">}</span><span class="s2">&quot;</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="n">checkpoint</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="n">critic_model_files</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span>
+                            <span class="p">),</span>
+                            <span class="n">map_location</span><span class="o">=</span><span class="s2">&quot;cpu&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                            <span class="n">checkpoint</span><span class="p">[</span><span class="s2">&quot;critic_model&quot;</span><span class="p">]</span>
+                        <span class="p">)</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">checkpoint</span><span class="o">.</span><span class="n">get</span><span class="p">(</span>
+                            <span class="s2">&quot;critic_train_epoch&quot;</span><span class="p">,</span> <span class="o">-</span><span class="mi">1</span>
+                        <span class="p">)</span></div>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↑</span>
+        <span class="c1"># ---------------------------------------</span>
+
+<div class="viewcode-block" id="GMPOAlgorithm.train"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm.train">[docs]</a>    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span> <span class="n">seed</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Train the model using the given configuration. \</span>
+<span class="sd">            A weight-and-bias run will be created automatically when this function is called.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">            seed (:obj:`int`): The random seed.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;train&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="n">EasyDict</span><span class="p">(),</span>
+                <span class="n">config</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+        <span class="p">)</span>
+
+        <span class="n">config</span><span class="p">[</span><span class="s2">&quot;seed&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span> <span class="k">if</span> <span class="n">seed</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">seed</span>
+
+        <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;wandb&quot;</span><span class="p">):</span>
+            <span class="n">config</span><span class="p">[</span><span class="s2">&quot;wandb&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">project</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">project</span><span class="p">)</span>
+        <span class="k">elif</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">,</span> <span class="s2">&quot;project&quot;</span><span class="p">):</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">[</span><span class="s2">&quot;project&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">project</span>
+
+        <span class="k">with</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">)</span> <span class="k">as</span> <span class="n">wandb_run</span><span class="p">:</span>
+            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;beta&quot;</span><span class="p">):</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span> <span class="o">=</span> <span class="mf">1.0</span>
+
+            <span class="k">assert</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span>
+                <span class="s2">&quot;GMPO&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GMPO_softmax_static&quot;</span><span class="p">,</span>
+                <span class="s2">&quot;GMPO_softmax_sample&quot;</span><span class="p">,</span>
+            <span class="p">]</span>
+            <span class="n">run_name</span> <span class="o">=</span> <span class="sa">f</span><span class="s2">&quot;</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">method</span><span class="si">}</span><span class="s2">-tau-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">tau</span><span class="si">}</span><span class="s2">-beta-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span><span class="si">}</span><span class="s2">-batch-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="si">}</span><span class="s2">-lr-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="si">}</span><span class="s2">-</span><span class="si">{</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">type</span><span class="si">}</span><span class="s2">-</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">seed_value</span><span class="si">}</span><span class="s2">&quot;</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">run</span><span class="o">.</span><span class="n">name</span> <span class="o">=</span> <span class="n">run_name</span>
+            <span class="n">wandb</span><span class="o">.</span><span class="n">run</span><span class="o">.</span><span class="n">save</span><span class="p">()</span>
+
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="n">EasyDict</span><span class="p">(</span><span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="p">),</span> <span class="n">config</span><span class="p">)</span>
+            <span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="o">=</span> <span class="n">config</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_simulator</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">simulator</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;simulator&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_dataset</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;dataset&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span>
+            <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">def</span> <span class="nf">save_checkpoint</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">iteration</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span> <span class="n">model_type</span><span class="o">=</span><span class="kc">False</span><span class="p">):</span>
+                <span class="k">if</span> <span class="n">iteration</span> <span class="o">==</span> <span class="kc">None</span><span class="p">:</span>
+                    <span class="n">iteration</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">if</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;base_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">base_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span><span class="p">,</span>
+                                <span class="n">behaviour_policy_train_iter</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;basemodel_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;guided_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">guided_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span>
+                                    <span class="s2">&quot;GPPolicy&quot;</span>
+                                <span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span><span class="p">,</span>
+                                <span class="n">guided_policy_train_iteration</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;guidedmodel_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">model_type</span> <span class="o">==</span> <span class="s2">&quot;critic_model&quot;</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                        <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                    <span class="p">):</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">critic_model</span><span class="o">=</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span>
+                                <span class="n">critic_train_epoch</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span><span class="p">,</span>
+                                <span class="n">critic_train_iter</span><span class="o">=</span><span class="n">iteration</span><span class="p">,</span>
+                            <span class="p">),</span>
+                            <span class="n">f</span><span class="o">=</span><span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;critic_</span><span class="si">{</span><span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">iteration</span><span class="si">}</span><span class="s2">.pt&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+
+            <span class="k">def</span> <span class="nf">generate_fake_action</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">states</span><span class="p">,</span> <span class="n">action_augment_num</span><span class="p">):</span>
+
+                <span class="n">fake_actions_sampled</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">for</span> <span class="n">states</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                    <span class="n">np</span><span class="o">.</span><span class="n">array_split</span><span class="p">(</span><span class="n">states</span><span class="p">,</span> <span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">//</span> <span class="mi">4096</span> <span class="o">+</span> <span class="mi">1</span><span class="p">),</span>
+                    <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Generate fake actions&quot;</span><span class="p">,</span>
+                <span class="p">):</span>
+
+                    <span class="n">fake_actions_</span> <span class="o">=</span> <span class="n">model</span><span class="o">.</span><span class="n">behaviour_policy_sample</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">states</span><span class="p">,</span>
+                        <span class="n">batch_size</span><span class="o">=</span><span class="n">action_augment_num</span><span class="p">,</span>
+                        <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                            <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                <span class="n">states</span><span class="o">.</span><span class="n">device</span>
+                            <span class="p">)</span>
+                            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                            <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                            <span class="k">else</span> <span class="kc">None</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">fake_actions_sampled</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;nbd-&gt;bnd&quot;</span><span class="p">,</span> <span class="n">fake_actions_</span><span class="p">))</span>
+
+                <span class="n">fake_actions</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span><span class="n">fake_actions_sampled</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">fake_actions</span>
+
+            <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">train_epoch</span><span class="p">,</span> <span class="n">repeat</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+                <span class="n">evaluation_results</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
+
+                <span class="k">def</span> <span class="nf">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+                    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                            <span class="n">obs</span><span class="p">,</span>
+                            <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                            <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                        <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                    <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+                        <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">obs</span><span class="p">:</span>
+                            <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">],</span>
+                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                            <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                            <span class="k">if</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">TensorDict</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+                    <span class="n">action</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                            <span class="n">condition</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                            <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                                <span class="p">)</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="k">else</span> <span class="kc">None</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                        <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                        <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                    <span class="p">)</span>
+                    <span class="k">return</span> <span class="n">action</span>
+
+                <span class="n">eval_results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span>
+                    <span class="n">policy</span><span class="o">=</span><span class="n">policy</span><span class="p">,</span> <span class="n">num_episodes</span><span class="o">=</span><span class="n">repeat</span>
+                <span class="p">)</span>
+                <span class="n">return_results</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">eval_results</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="s2">&quot;total_return&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">repeat</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Return: </span><span class="si">{</span><span class="n">return_results</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="n">return_mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_std</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">std</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_max</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_min</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_mean</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_std&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_std</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_max&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_max</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_min&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_min</span>
+
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="p">,</span> <span class="n">GPD4RLDataset</span><span class="p">)</span> <span class="ow">or</span> <span class="nb">isinstance</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="p">,</span> <span class="n">GPD4RLTensorDictDataset</span>
+                <span class="p">):</span>
+                    <span class="kn">import</span> <span class="nn">d4rl</span>
+
+                    <span class="n">env_id</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">args</span><span class="o">.</span><span class="n">env_id</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_mean_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_mean</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_std_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_std</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_max_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_max</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_min_normalized&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="p">(</span>
+                        <span class="n">d4rl</span><span class="o">.</span><span class="n">get_normalized_score</span><span class="p">(</span><span class="n">env_id</span><span class="p">,</span> <span class="n">return_min</span><span class="p">)</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="n">repeat</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return_mean: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">, return_std: </span><span class="si">{</span><span class="n">return_std</span><span class="si">}</span><span class="s2">, return_max: </span><span class="si">{</span><span class="n">return_max</span><span class="si">}</span><span class="s2">, return_min: </span><span class="si">{</span><span class="n">return_min</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">evaluation_results</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># behavior training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">behaviour_policy_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">behaviour_policy_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Behaviour policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_interval&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="n">epoch</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_interval</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                        <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="p">,</span>
+                            <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                                <span class="mi">1</span>
+                                <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                        <span class="n">plot_distribution</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">],</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;action_base_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                            <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                                <span class="p">)</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="k">else</span> <span class="kc">None</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="n">plot_distribution</span><span class="p">(</span>
+                            <span class="n">action</span><span class="p">,</span>
+                            <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                <span class="sa">f</span><span class="s2">&quot;action_base_model_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s1">&#39;evaluation/return_mean&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                        <span class="k">break</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+                <span class="n">behaviour_policy_loss_sum</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">behaviour_policy_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                        <span class="s2">&quot;GPPolicy&quot;</span>
+                    <span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_loss</span><span class="p">(</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                            <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                            <span class="p">)</span>
+                            <span class="k">else</span> <span class="kc">False</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">behaviour_policy_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">behaviour_policy_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">behaviour_policy_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">behaviour_policy_loss_sum</span> <span class="o">+=</span> <span class="n">behaviour_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">behaviour_policy_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">behaviour_policy_train_iter</span><span class="o">=</span><span class="n">behaviour_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">behaviour_policy_loss</span><span class="o">=</span><span class="n">behaviour_policy_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_checkpoint</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">behaviour_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;base_model&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># behavior training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># make fake action ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span><span class="s2">&quot;GMPO_softmax_static&quot;</span><span class="p">]:</span>
+                <span class="n">data_augmentation</span> <span class="o">=</span> <span class="kc">True</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">data_augmentation</span> <span class="o">=</span> <span class="kc">False</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+            <span class="k">if</span> <span class="n">data_augmentation</span><span class="p">:</span>
+
+                <span class="n">fake_actions</span> <span class="o">=</span> <span class="n">generate_fake_action</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">],</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">states</span><span class="p">[:]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">action_augment_num</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="n">fake_next_actions</span> <span class="o">=</span> <span class="n">generate_fake_action</span><span class="p">(</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">],</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">next_states</span><span class="p">[:]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">action_augment_num</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">load_fake_actions</span><span class="p">(</span>
+                    <span class="n">fake_actions</span><span class="o">=</span><span class="n">fake_actions</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">),</span>
+                    <span class="n">fake_next_actions</span><span class="o">=</span><span class="n">fake_next_actions</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">),</span>
+                <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># make fake action ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># critic training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">q_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">v_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">critic_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span> <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Critic training&quot;</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+
+                <span class="n">v_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">v_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_target_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s_&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">tau</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">tau</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">v_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">q_loss</span><span class="p">,</span> <span class="n">q</span><span class="p">,</span> <span class="n">q_target</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">iql_q_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">reward</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">done</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;d&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_v</span><span class="o">=</span><span class="n">next_v</span><span class="p">,</span>
+                        <span class="n">discount</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">discount_factor</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">q_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="c1"># Update target</span>
+                    <span class="k">for</span> <span class="n">param</span><span class="p">,</span> <span class="n">target_param</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q_target</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                    <span class="p">):</span>
+                        <span class="n">target_param</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span> <span class="o">*</span> <span class="n">param</span><span class="o">.</span><span class="n">data</span>
+                            <span class="o">+</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span><span class="p">)</span>
+                            <span class="o">*</span> <span class="n">target_param</span><span class="o">.</span><span class="n">data</span>
+                        <span class="p">)</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="n">q_loss_sum</span> <span class="o">+=</span> <span class="n">q_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_sum</span> <span class="o">+=</span> <span class="n">q</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_target_sum</span> <span class="o">+=</span> <span class="n">q_target</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">v_loss_sum</span> <span class="o">+=</span> <span class="n">v_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">v_sum</span> <span class="o">+=</span> <span class="n">next_v</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">critic_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">v_loss</span><span class="o">=</span><span class="n">v_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span> <span class="n">v</span><span class="o">=</span><span class="n">v_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">critic_train_iter</span><span class="o">=</span><span class="n">critic_train_iter</span><span class="p">,</span>
+                        <span class="n">critic_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">q_loss</span><span class="o">=</span><span class="n">q_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q</span><span class="o">=</span><span class="n">q_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q_target</span><span class="o">=</span><span class="n">q_target_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_checkpoint</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">critic_train_iter</span><span class="p">,</span>
+                        <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;critic_model&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># critic training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># guided policy training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">&gt;</span> <span class="mi">0</span><span class="p">:</span>
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;copy_from_basemodel&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">copy_from_basemodel</span>
+                <span class="p">):</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">base_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span>
+                    <span class="p">)</span>
+
+            <span class="n">guided_policy_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">guided_policy_train_iter</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="n">logp_mean</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">end_return</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">beta</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">beta</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Guided policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;analysis_interval&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="n">epoch</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">analysis_interval</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">timlimited</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                        <span class="k">if</span> <span class="n">timlimited</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">exists</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">):</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">makedirs</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">)</span>
+                            <span class="n">plot_distribution</span><span class="p">(</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;action_base_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                            <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                    <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                        <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span>
+                                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                    <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                    <span class="k">else</span> <span class="kc">None</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+
+                        <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                            <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                                <span class="mi">1</span>
+                                <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                                <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+
+                        <span class="n">log_p</span> <span class="o">=</span> <span class="n">compute_likelihood</span><span class="p">(</span>
+                            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                            <span class="n">x</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">condition</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">t</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="mi">100</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                            <span class="p">),</span>
+                            <span class="n">using_Hutchinson_trace_estimator</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">logp_mean</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">log_p</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">())</span>
+                        <span class="n">end_return</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">])</span>
+
+                        <span class="k">if</span> <span class="n">timlimited</span> <span class="o">==</span> <span class="mi">0</span><span class="p">:</span>
+                            <span class="n">plot_distribution</span><span class="p">(</span>
+                                <span class="n">action</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">(),</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;action_guided_model_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">_</span><span class="si">{</span><span class="n">evaluation_results</span><span class="p">[</span><span class="s1">&#39;evaluation/return_mean&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+                        <span class="n">timlimited</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+
+                        <span class="k">if</span> <span class="n">timlimited</span> <span class="o">&gt;</span> <span class="mi">10</span><span class="p">:</span>
+                            <span class="n">logp_dict</span> <span class="o">=</span> <span class="p">{</span>
+                                <span class="s2">&quot;logp_mean&quot;</span><span class="p">:</span> <span class="n">logp_mean</span><span class="p">,</span>
+                                <span class="s2">&quot;end_return&quot;</span><span class="p">:</span> <span class="n">end_return</span><span class="p">,</span>
+                            <span class="p">}</span>
+                            <span class="n">np</span><span class="o">.</span><span class="n">savez</span><span class="p">(</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;logp_data_guided_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.npz&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                                <span class="o">**</span><span class="n">logp_dict</span><span class="p">,</span>
+                            <span class="p">)</span>
+                            <span class="n">plot_histogram2d_x_y</span><span class="p">(</span>
+                                <span class="n">end_return</span><span class="p">,</span>
+                                <span class="n">logp_mean</span><span class="p">,</span>
+                                <span class="n">os</span><span class="o">.</span><span class="n">path</span><span class="o">.</span><span class="n">join</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                                    <span class="sa">f</span><span class="s2">&quot;return_logp_guided_</span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">.png&quot;</span><span class="p">,</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+                            <span class="k">break</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+                <span class="n">guided_policy_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPO&quot;</span><span class="p">:</span>
+                    <span class="n">weight_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                    <span class="n">clamped_weight_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                    <span class="n">clamped_ratio_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span>
+                    <span class="s2">&quot;GMPO_softmax_static&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;GMPO_softmax_sample&quot;</span><span class="p">,</span>
+                <span class="p">]:</span>
+                    <span class="n">energy_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                    <span class="n">relative_energy_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                    <span class="n">matching_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPO&quot;</span><span class="p">:</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">weight</span><span class="p">,</span>
+                            <span class="n">clamped_weight</span><span class="p">,</span>
+                            <span class="n">clamped_ratio</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;GPPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">policy_optimization_loss_by_advantage_weighted_regression</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="kc">False</span>
+                            <span class="p">),</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                            <span class="n">weight_clamp</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">weight_clamp</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;weight_clamp&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="mf">100.0</span>
+                            <span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="n">weight_sum</span> <span class="o">+=</span> <span class="n">weight</span>
+                        <span class="n">clamped_weight_sum</span> <span class="o">+=</span> <span class="n">clamped_weight</span>
+                        <span class="n">clamped_ratio_sum</span> <span class="o">+=</span> <span class="n">clamped_ratio</span>
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPO_softmax_static&quot;</span><span class="p">:</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">energy</span><span class="p">,</span>
+                            <span class="n">relative_energy</span><span class="p">,</span>
+                            <span class="n">matching_loss</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;GPPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">policy_optimization_loss_by_advantage_weighted_regression_softmax</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;fake_a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="kc">False</span>
+                            <span class="p">),</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">energy_sum</span> <span class="o">+=</span> <span class="n">energy</span>
+                        <span class="n">relative_energy_sum</span> <span class="o">+=</span> <span class="n">relative_energy</span>
+                        <span class="n">matching_loss_sum</span> <span class="o">+=</span> <span class="n">matching_loss</span>
+                    <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPO_softmax_sample&quot;</span><span class="p">:</span>
+                        <span class="n">fake_actions_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_sample</span><span class="p">(</span>
+                            <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span><span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span>
+                                <span class="p">)</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                <span class="k">else</span> <span class="kc">None</span>
+                            <span class="p">),</span>
+                            <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">action_augment_num</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">fake_actions_</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">einsum</span><span class="p">(</span><span class="s2">&quot;nbd-&gt;bnd&quot;</span><span class="p">,</span> <span class="n">fake_actions_</span><span class="p">)</span>
+                        <span class="p">(</span>
+                            <span class="n">guided_policy_loss</span><span class="p">,</span>
+                            <span class="n">energy</span><span class="p">,</span>
+                            <span class="n">relative_energy</span><span class="p">,</span>
+                            <span class="n">matching_loss</span><span class="p">,</span>
+                        <span class="p">)</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;GPPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">policy_optimization_loss_by_advantage_weighted_regression_softmax</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">GPPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">fake_actions_</span><span class="p">,</span>
+                            <span class="n">maximum_likelihood</span><span class="o">=</span><span class="p">(</span>
+                                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="o">.</span><span class="n">maximum_likelihood</span>
+                                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">guided_policy</span><span class="p">,</span> <span class="s2">&quot;maximum_likelihood&quot;</span>
+                                <span class="p">)</span>
+                                <span class="k">else</span> <span class="kc">False</span>
+                            <span class="p">),</span>
+                            <span class="n">beta</span><span class="o">=</span><span class="n">beta</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">energy_sum</span> <span class="o">+=</span> <span class="n">energy</span>
+                        <span class="n">relative_energy_sum</span> <span class="o">+=</span> <span class="n">relative_energy</span>
+                        <span class="n">matching_loss_sum</span> <span class="o">+=</span> <span class="n">matching_loss</span>
+                    <span class="k">else</span><span class="p">:</span>
+                        <span class="k">raise</span> <span class="ne">NotImplementedError</span>
+                    <span class="n">guided_policy_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">guided_policy_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="n">guided_policy_loss_sum</span> <span class="o">+=</span> <span class="n">guided_policy_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">guided_policy_train_iter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">eval</span>
+                    <span class="ow">and</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;epoch_interval&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">guided_policy_train_epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span>
+                    <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">epoch_interval</span>
+                    <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">,</span>
+                        <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                            <span class="mi">1</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                            <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                    <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                            <span class="n">guided_policy_train_iter</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                            <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="p">),</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="o">==</span> <span class="s2">&quot;GMPO&quot;</span><span class="p">:</span>
+                    <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                            <span class="n">weight</span><span class="o">=</span><span class="n">weight_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                            <span class="n">clamped_weight</span><span class="o">=</span><span class="n">clamped_weight_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                            <span class="n">clamped_ratio</span><span class="o">=</span><span class="n">clamped_ratio_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="p">),</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="p">)</span>
+                <span class="k">elif</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">algorithm_type</span> <span class="ow">in</span> <span class="p">[</span>
+                    <span class="s2">&quot;GMPO_softmax_static&quot;</span><span class="p">,</span>
+                    <span class="s2">&quot;GMPO_softmax_sample&quot;</span><span class="p">,</span>
+                <span class="p">]:</span>
+                    <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                            <span class="n">energy</span><span class="o">=</span><span class="n">energy_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                            <span class="n">relative_energy</span><span class="o">=</span><span class="n">relative_energy_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                            <span class="n">matching_loss</span><span class="o">=</span><span class="n">matching_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="p">),</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">guided_policy_train_iter</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">guided_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">guided_policy_loss</span><span class="o">=</span><span class="n">guided_policy_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_freq&quot;</span><span class="p">)</span>
+                    <span class="ow">and</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_freq</span> <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_checkpoint</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">guided_policy_train_iter</span><span class="p">,</span>
+                        <span class="n">model_type</span><span class="o">=</span><span class="s2">&quot;guided_model&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># guided policy training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+        <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span></div>
+
+    <span class="k">def</span> <span class="nf">deploy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">GPAgent</span><span class="p">:</span>
+
+        <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span>
+
+        <span class="k">assert</span> <span class="s2">&quot;GPPolicy&quot;</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;The model must be trained first.&quot;</span>
+        <span class="k">return</span> <span class="n">GPAgent</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;GPPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">guided_model</span><span class="p">),</span>
+        <span class="p">)</span></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../"
+    src="../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+  <script src="../../../_static/doctools.js"></script>
+  <script src="../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/algorithms/qgpo.html b/_modules/grl/algorithms/qgpo.html
new file mode 100644
index 0000000..a501f0e
--- /dev/null
+++ b/_modules/grl/algorithms/qgpo.html
@@ -0,0 +1,1201 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.algorithms.qgpo &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../search.html" />
+    <link href="../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.algorithms.qgpo</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.algorithms.qgpo</h1><div class="highlight"><pre>
+<span></span><span class="c1">#############################################################</span>
+<span class="c1"># This QGPO model is a modification implementation from https://github.com/ChenDRAG/CEP-energy-guided-diffusion</span>
+<span class="c1">#############################################################</span>
+
+<span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">List</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">rich.progress</span> <span class="kn">import</span> <span class="n">Progress</span><span class="p">,</span> <span class="n">track</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+<span class="kn">from</span> <span class="nn">torchrl.data</span> <span class="kn">import</span> <span class="n">TensorDictReplayBuffer</span>
+<span class="kn">from</span> <span class="nn">torchrl.data.replay_buffers.samplers</span> <span class="kn">import</span> <span class="n">SamplerWithoutReplacement</span>
+
+<span class="kn">import</span> <span class="nn">wandb</span>
+<span class="kn">from</span> <span class="nn">grl.agents.qgpo</span> <span class="kn">import</span> <span class="n">QGPOAgent</span>
+<span class="kn">from</span> <span class="nn">grl.datasets</span> <span class="kn">import</span> <span class="n">create_dataset</span>
+<span class="kn">from</span> <span class="nn">grl.datasets.qgpo</span> <span class="kn">import</span> <span class="n">QGPODataset</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.diffusion_model.energy_conditional_diffusion_model</span> <span class="kn">import</span> <span class="p">(</span>
+    <span class="n">EnergyConditionalDiffusionModel</span><span class="p">,</span>
+<span class="p">)</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.simulators</span> <span class="kn">import</span> <span class="n">create_simulator</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.q_network</span> <span class="kn">import</span> <span class="n">DoubleQNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.utils.config</span> <span class="kn">import</span> <span class="n">merge_two_dicts_into_newone</span>
+<span class="kn">from</span> <span class="nn">grl.utils.log</span> <span class="kn">import</span> <span class="n">log</span>
+<span class="kn">from</span> <span class="nn">grl.utils.model_utils</span> <span class="kn">import</span> <span class="n">save_model</span><span class="p">,</span> <span class="n">load_model</span>
+
+
+<div class="viewcode-block" id="QGPOCritic"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOCritic">[docs]</a><span class="k">class</span> <span class="nc">QGPOCritic</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Critic network for QGPO algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="QGPOCritic.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of QGPO critic network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">q_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q</span> <span class="o">=</span> <span class="n">DoubleQNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">DoubleQNetwork</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOCritic.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of QGPO critic.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOCritic.compute_double_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.compute_double_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first Q network.</span>
+<span class="sd">            q2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOCritic.q_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.q_loss">[docs]</a>    <span class="k">def</span> <span class="nf">q_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">reward</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">next_state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">done</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">fake_next_action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">discount_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">            reward (:obj:`torch.Tensor`): The input reward.</span>
+<span class="sd">            next_state (:obj:`torch.Tensor`): The input next state.</span>
+<span class="sd">            done (:obj:`torch.Tensor`): The input done.</span>
+<span class="sd">            fake_next_action (:obj:`torch.Tensor`): The input fake next action.</span>
+<span class="sd">            discount_factor (:obj:`float`): The discount factor.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">softmax</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Softmax</span><span class="p">(</span><span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+            <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">next_state</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">):</span>
+                <span class="n">new_next_state</span> <span class="o">=</span> <span class="n">next_state</span><span class="o">.</span><span class="n">clone</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
+                <span class="k">for</span> <span class="n">key</span><span class="p">,</span> <span class="n">value</span> <span class="ow">in</span> <span class="n">next_state</span><span class="o">.</span><span class="n">items</span><span class="p">():</span>
+                    <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">value</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+                        <span class="n">stacked_value</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
+                            <span class="p">[</span><span class="n">value</span><span class="p">]</span> <span class="o">*</span> <span class="n">fake_next_action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span>
+                        <span class="p">)</span>
+                        <span class="n">new_next_state</span><span class="o">.</span><span class="n">set</span><span class="p">(</span><span class="n">key</span><span class="p">,</span> <span class="n">stacked_value</span><span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="n">new_next_state</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span>
+                    <span class="p">[</span><span class="n">next_state</span><span class="p">]</span> <span class="o">*</span> <span class="n">fake_next_action</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">axis</span><span class="o">=</span><span class="mi">1</span>
+                <span class="p">)</span>
+            <span class="n">next_energy</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span><span class="p">(</span>
+                    <span class="n">fake_next_action</span><span class="p">,</span>
+                    <span class="n">new_next_state</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">)</span>
+            <span class="p">)</span>
+            <span class="n">next_v</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span>
+                <span class="n">softmax</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">*</span> <span class="n">next_energy</span><span class="p">)</span> <span class="o">*</span> <span class="n">next_energy</span><span class="p">,</span> <span class="n">dim</span><span class="o">=-</span><span class="mi">1</span><span class="p">,</span> <span class="n">keepdim</span><span class="o">=</span><span class="kc">True</span>
+            <span class="p">)</span>
+        <span class="c1"># Update Q function</span>
+        <span class="n">targets</span> <span class="o">=</span> <span class="n">reward</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">done</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">discount_factor</span> <span class="o">*</span> <span class="n">next_v</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">q0</span><span class="p">,</span> <span class="n">q1</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="n">q_loss</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q0</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+            <span class="o">+</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q1</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
+        <span class="k">return</span> <span class="n">q_loss</span></div></div>
+
+
+<div class="viewcode-block" id="QGPOPolicy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy">[docs]</a><span class="k">class</span> <span class="nc">QGPOPolicy</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        QGPO policy network.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``sample``, ``behaviour_policy_sample``, ``compute_q``, ``behaviour_policy_loss``, ``energy_guidance_loss``, ``q_loss``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="QGPOPolicy.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">device</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">critic</span> <span class="o">=</span> <span class="n">QGPOCritic</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">critic</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">diffusion_model</span> <span class="o">=</span> <span class="n">EnergyConditionalDiffusionModel</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">.</span><span class="n">diffusion_model</span><span class="p">,</span> <span class="n">energy_model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">critic</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of QGPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span><span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.sample">[docs]</a>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">guidance_scale</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="nb">float</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span><span class="mf">1.0</span><span class="p">),</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of QGPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            guidance_scale (:obj:`Union[torch.Tensor, float]`): The guidance scale.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">guidance_scale</span><span class="o">=</span><span class="n">guidance_scale</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.behaviour_policy_sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.behaviour_policy_sample">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of behaviour policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">sample_without_energy_guidance</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.compute_q"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.compute_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q value.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q (:obj:`torch.Tensor`): The Q value.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.behaviour_policy_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.behaviour_policy_loss">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span>
+            <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">weighting_scheme</span><span class="o">=</span><span class="s2">&quot;vanilla&quot;</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.energy_guidance_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.energy_guidance_loss">[docs]</a>    <span class="k">def</span> <span class="nf">energy_guidance_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">fake_next_action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the energy guidance loss of QGPO.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            fake_next_action (:obj:`Union[torch.Tensor, TensorDict]`): The input fake next action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">energy_guidance_loss</span><span class="p">(</span><span class="n">fake_next_action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="QGPOPolicy.q_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.q_loss">[docs]</a>    <span class="k">def</span> <span class="nf">q_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">reward</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">next_state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">done</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">fake_next_action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">discount_factor</span><span class="p">:</span> <span class="nb">float</span> <span class="o">=</span> <span class="mf">1.0</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">            reward (:obj:`torch.Tensor`): The input reward.</span>
+<span class="sd">            next_state (:obj:`torch.Tensor`): The input next state.</span>
+<span class="sd">            done (:obj:`torch.Tensor`): The input done.</span>
+<span class="sd">            fake_next_action (:obj:`torch.Tensor`): The input fake next action.</span>
+<span class="sd">            discount_factor (:obj:`float`): The discount factor.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q_loss</span><span class="p">(</span>
+            <span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">next_state</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">fake_next_action</span><span class="p">,</span> <span class="n">discount_factor</span>
+        <span class="p">)</span></div></div>
+
+
+<div class="viewcode-block" id="QGPOAlgorithm"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm">[docs]</a><span class="k">class</span> <span class="nc">QGPOAlgorithm</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Q-guided policy optimization (QGPO) algorithm, which is an offline reinforcement learning algorithm that uses energy-based diffusion model for policy modeling.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="QGPOAlgorithm.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">simulator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">dataset</span><span class="p">:</span> <span class="n">QGPODataset</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the QGPO algorithm.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration , which must contain the following keys:</span>
+<span class="sd">                train (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">                deploy (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">            simulator (:obj:`object`): The environment simulator.</span>
+<span class="sd">            dataset (:obj:`QGPODataset`): The dataset.</span>
+<span class="sd">            model (:obj:`Union[torch.nn.Module, torch.nn.ModuleDict]`): The model.</span>
+<span class="sd">        Interface:</span>
+<span class="sd">            ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="n">simulator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↓</span>
+        <span class="c1"># ---------------------------------------</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span> <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+            <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;2.0.0&quot;</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+                    <span class="n">QGPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                        <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">QGPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span>
+                <span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="p">):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;behaviour_policy&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">energy_guidance</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;energy_guidance&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;critic&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span></div>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↑</span>
+        <span class="c1"># ---------------------------------------</span>
+
+<div class="viewcode-block" id="QGPOAlgorithm.train"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.train">[docs]</a>    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Train the model using the given configuration. \</span>
+<span class="sd">            A weight-and-bias run will be created automatically when this function is called.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;train&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="n">EasyDict</span><span class="p">(),</span>
+                <span class="n">config</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+        <span class="p">)</span>
+
+        <span class="k">with</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span><span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span><span class="p">)</span> <span class="k">as</span> <span class="n">wandb_run</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="n">EasyDict</span><span class="p">(</span><span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="p">),</span> <span class="n">config</span><span class="p">)</span>
+            <span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="o">=</span> <span class="n">config</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_simulator</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">simulator</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;simulator&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_dataset</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;dataset&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span>
+            <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="k">def</span> <span class="nf">generate_fake_action</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">states</span><span class="p">,</span> <span class="n">action_augment_num</span><span class="p">):</span>
+                <span class="c1"># model.eval()</span>
+                <span class="n">fake_actions_sampled</span> <span class="o">=</span> <span class="p">[]</span>
+                <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">states</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">):</span>
+                    <span class="kn">from</span> <span class="nn">torchrl.data</span> <span class="kn">import</span> <span class="n">LazyTensorStorage</span>
+
+                    <span class="n">storage</span> <span class="o">=</span> <span class="n">LazyTensorStorage</span><span class="p">(</span><span class="n">max_size</span><span class="o">=</span><span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span>
+                    <span class="n">storage</span><span class="o">.</span><span class="n">set</span><span class="p">(</span>
+                        <span class="nb">range</span><span class="p">(</span><span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span>
+                        <span class="n">TensorDict</span><span class="p">(</span>
+                            <span class="p">{</span>
+                                <span class="s2">&quot;s&quot;</span><span class="p">:</span> <span class="n">states</span><span class="p">,</span>
+                            <span class="p">},</span>
+                            <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]],</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="k">for</span> <span class="n">index</span> <span class="ow">in</span> <span class="n">torch</span><span class="o">.</span><span class="n">split</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">arange</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="mi">1</span><span class="p">),</span> <span class="mi">4096</span><span class="p">):</span>
+                        <span class="n">index</span> <span class="o">=</span> <span class="n">index</span><span class="o">.</span><span class="n">int</span><span class="p">()</span>
+                        <span class="n">data</span> <span class="o">=</span> <span class="n">storage</span><span class="p">[</span><span class="n">index</span><span class="p">]</span>
+                        <span class="n">fake_actions_per_state</span> <span class="o">=</span> <span class="p">[]</span>
+                        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">action_augment_num</span><span class="p">):</span>
+                            <span class="n">fake_actions_per_state</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                    <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                    <span class="n">guidance_scale</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+                                    <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                        <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                            <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span>
+                                        <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                        <span class="k">else</span> <span class="kc">None</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                        <span class="n">fake_actions_sampled</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">fake_actions_per_state</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">states</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                        <span class="n">np</span><span class="o">.</span><span class="n">array_split</span><span class="p">(</span><span class="n">states</span><span class="p">,</span> <span class="n">states</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">//</span> <span class="mi">4096</span> <span class="o">+</span> <span class="mi">1</span><span class="p">),</span>
+                        <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Generate fake actions&quot;</span><span class="p">,</span>
+                    <span class="p">):</span>
+                        <span class="c1"># TODO: mkae it batchsize</span>
+                        <span class="n">fake_actions_per_state</span> <span class="o">=</span> <span class="p">[]</span>
+                        <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">action_augment_num</span><span class="p">):</span>
+                            <span class="n">fake_actions_per_state</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                    <span class="n">state</span><span class="o">=</span><span class="n">states</span><span class="p">,</span>
+                                    <span class="n">guidance_scale</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+                                    <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                        <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                            <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span>
+                                        <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">states</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                        <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                        <span class="k">else</span> <span class="kc">None</span>
+                                    <span class="p">),</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                        <span class="n">fake_actions_sampled</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="n">torch</span><span class="o">.</span><span class="n">stack</span><span class="p">(</span><span class="n">fake_actions_per_state</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                        <span class="p">)</span>
+                <span class="n">fake_actions</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">cat</span><span class="p">(</span><span class="n">fake_actions_sampled</span><span class="p">,</span> <span class="n">dim</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
+                <span class="k">return</span> <span class="n">fake_actions</span>
+
+            <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">epoch</span><span class="p">):</span>
+                <span class="n">evaluation_results</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
+                <span class="k">for</span> <span class="n">guidance_scale</span> <span class="ow">in</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">guidance_scale</span><span class="p">:</span>
+
+                    <span class="k">def</span> <span class="nf">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="p">,</span>
+                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                            <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+                            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">obs</span><span class="p">:</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">],</span>
+                                    <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                    <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                                <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                                <span class="k">if</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">TensorDict</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="k">raise</span> <span class="ne">ValueError</span><span class="p">(</span><span class="s2">&quot;Unsupported observation type.&quot;</span><span class="p">)</span>
+                        <span class="n">action</span> <span class="o">=</span> <span class="p">(</span>
+                            <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                <span class="n">guidance_scale</span><span class="o">=</span><span class="n">guidance_scale</span><span class="p">,</span>
+                                <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                    <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                        <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span>
+                                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                    <span class="k">if</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">fake_data_t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                    <span class="k">else</span> <span class="kc">None</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+                            <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                            <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                            <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                            <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                        <span class="p">)</span>
+                        <span class="k">return</span> <span class="n">action</span>
+
+                    <span class="n">evaluation_results</span><span class="p">[</span>
+                        <span class="sa">f</span><span class="s2">&quot;evaluation/guidance_scale:[</span><span class="si">{</span><span class="n">guidance_scale</span><span class="si">}</span><span class="s2">]/total_return&quot;</span>
+                    <span class="p">]</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span><span class="n">policy</span><span class="o">=</span><span class="n">policy</span><span class="p">,)[</span><span class="mi">0</span><span class="p">][</span><span class="s2">&quot;total_return&quot;</span><span class="p">]</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">epoch</span><span class="si">}</span><span class="s2">, guidance_scale: </span><span class="si">{</span><span class="n">guidance_scale</span><span class="si">}</span><span class="s2">, total_return: </span><span class="si">{</span><span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s1">&#39;evaluation/guidance_scale:[</span><span class="si">{</span><span class="n">guidance_scale</span><span class="si">}</span><span class="s1">]/total_return&#39;</span><span class="p">]</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">evaluation_results</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">behaviour_model_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">epochs</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Behaviour policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="n">behaviour_model_training_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">behaviour_model_training_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                        <span class="s2">&quot;QGPOPolicy&quot;</span>
+                    <span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_loss</span><span class="p">(</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">behaviour_model_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">behaviour_model_training_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">behaviour_model_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">behaviour_model_training_loss_sum</span> <span class="o">+=</span> <span class="p">(</span>
+                        <span class="n">behaviour_model_training_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">epoch</span> <span class="o">==</span> <span class="mi">0</span>
+                    <span class="ow">or</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">evaluation_interval</span>
+                    <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">],</span> <span class="n">epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">)</span>
+                    <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                    <span class="n">save_model</span><span class="p">(</span>
+                        <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">optimizer</span><span class="o">=</span><span class="n">behaviour_model_optimizer</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;behaviour_policy&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">behaviour_model_training_loss</span><span class="o">=</span><span class="n">behaviour_model_training_loss_sum</span>
+                        <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+            <span class="n">fake_actions</span> <span class="o">=</span> <span class="n">generate_fake_action</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">],</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">states</span><span class="p">[:]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">action_augment_num</span><span class="p">,</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+            <span class="n">fake_next_actions</span> <span class="o">=</span> <span class="n">generate_fake_action</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">],</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">next_states</span><span class="p">[:]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">action_augment_num</span><span class="p">,</span>
+            <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="s2">&quot;cpu&quot;</span><span class="p">)</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">load_fake_actions</span><span class="p">(</span>
+                <span class="n">fake_actions</span><span class="o">=</span><span class="n">fake_actions</span><span class="p">,</span>
+                <span class="n">fake_next_actions</span><span class="o">=</span><span class="n">fake_next_actions</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="c1"># TODO add notation</span>
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">energy_guided_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">q_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">energy_guidance_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">energy_guidance</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">energy_guidance</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">with</span> <span class="n">Progress</span><span class="p">()</span> <span class="k">as</span> <span class="n">progress</span><span class="p">:</span>
+                <span class="n">critic_training</span> <span class="o">=</span> <span class="n">progress</span><span class="o">.</span><span class="n">add_task</span><span class="p">(</span>
+                    <span class="s2">&quot;Critic training&quot;</span><span class="p">,</span>
+                    <span class="n">total</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">stop_training_epochs</span><span class="p">,</span>
+                <span class="p">)</span>
+                <span class="n">energy_guidance_training</span> <span class="o">=</span> <span class="n">progress</span><span class="o">.</span><span class="n">add_task</span><span class="p">(</span>
+                    <span class="s2">&quot;Energy guidance training&quot;</span><span class="p">,</span>
+                    <span class="n">total</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">energy_guidance</span><span class="o">.</span><span class="n">epochs</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">energy_guidance</span><span class="o">.</span><span class="n">epochs</span><span class="p">):</span>
+
+                    <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                        <span class="k">continue</span>
+
+                    <span class="n">counter</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="n">q_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                    <span class="n">energy_guidance_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+
+                    <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                        <span class="k">if</span> <span class="n">epoch</span> <span class="o">&lt;</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">stop_training_epochs</span><span class="p">:</span>
+
+                            <span class="n">q_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">q_loss</span><span class="p">(</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s_&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;d&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">data</span><span class="p">[</span><span class="s2">&quot;fake_a_&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                                <span class="n">discount_factor</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">discount_factor</span><span class="p">,</span>
+                            <span class="p">)</span>
+
+                            <span class="n">q_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                            <span class="n">q_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                            <span class="n">q_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                            <span class="n">q_loss_sum</span> <span class="o">+=</span> <span class="n">q_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                            <span class="c1"># Update target</span>
+                            <span class="k">for</span> <span class="n">param</span><span class="p">,</span> <span class="n">target_param</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q_target</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                            <span class="p">):</span>
+                                <span class="n">target_param</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span>
+                                    <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span> <span class="o">*</span> <span class="n">param</span><span class="o">.</span><span class="n">data</span>
+                                    <span class="o">+</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span><span class="p">)</span>
+                                    <span class="o">*</span> <span class="n">target_param</span><span class="o">.</span><span class="n">data</span>
+                                <span class="p">)</span>
+
+                        <span class="n">energy_guidance_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                            <span class="s2">&quot;QGPOPolicy&quot;</span>
+                        <span class="p">]</span><span class="o">.</span><span class="n">energy_guidance_loss</span><span class="p">(</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                            <span class="n">data</span><span class="p">[</span><span class="s2">&quot;fake_a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">QGPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="p">)</span>
+                        <span class="n">energy_guidance_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                        <span class="n">energy_guidance_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                        <span class="n">energy_guidance_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                        <span class="n">energy_guidance_loss_sum</span> <span class="o">+=</span> <span class="n">energy_guidance_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                        <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="k">if</span> <span class="n">epoch</span> <span class="o">&lt;</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">stop_training_epochs</span><span class="p">:</span>
+                        <span class="n">progress</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">critic_training</span><span class="p">,</span> <span class="n">advance</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+                    <span class="n">progress</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">energy_guidance_training</span><span class="p">,</span> <span class="n">advance</span><span class="o">=</span><span class="mi">1</span><span class="p">)</span>
+
+                    <span class="k">if</span> <span class="p">(</span>
+                        <span class="n">epoch</span> <span class="o">==</span> <span class="mi">0</span>
+                        <span class="ow">or</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">evaluation_interval</span>
+                        <span class="o">==</span> <span class="mi">0</span>
+                    <span class="p">):</span>
+                        <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">],</span> <span class="n">epoch</span><span class="o">=</span><span class="n">epoch</span>
+                        <span class="p">)</span>
+                        <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                        <span class="n">save_model</span><span class="p">(</span>
+                            <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                                <span class="s2">&quot;QGPOPolicy&quot;</span>
+                            <span class="p">]</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">energy_guidance</span><span class="p">,</span>
+                            <span class="n">optimizer</span><span class="o">=</span><span class="n">energy_guidance_optimizer</span><span class="p">,</span>
+                            <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;energy_guidance&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+                        <span class="n">save_model</span><span class="p">(</span>
+                            <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                            <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;QGPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="p">,</span>
+                            <span class="n">optimizer</span><span class="o">=</span><span class="n">q_optimizer</span><span class="p">,</span>
+                            <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;critic&quot;</span><span class="p">,</span>
+                        <span class="p">)</span>
+
+                    <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                    <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                            <span class="n">energy_guidance_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">critic_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                            <span class="n">q_loss</span><span class="o">=</span><span class="n">q_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                            <span class="n">energy_guidance_loss</span><span class="o">=</span><span class="n">energy_guidance_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="p">),</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span></div>
+
+<div class="viewcode-block" id="QGPOAlgorithm.deploy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.deploy">[docs]</a>    <span class="k">def</span> <span class="nf">deploy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">QGPOAgent</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Deploy the model using the given configuration.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span>
+
+        <span class="k">assert</span> <span class="s2">&quot;QGPOPolicy&quot;</span> <span class="ow">in</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;The model must be trained first.&quot;</span>
+        <span class="k">return</span> <span class="n">QGPOAgent</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">),</span>
+        <span class="p">)</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../"
+    src="../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+  <script src="../../../_static/doctools.js"></script>
+  <script src="../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/algorithms/srpo.html b/_modules/grl/algorithms/srpo.html
new file mode 100644
index 0000000..3cca6b4
--- /dev/null
+++ b/_modules/grl/algorithms/srpo.html
@@ -0,0 +1,1137 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.algorithms.srpo &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../search.html" />
+    <link href="../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.algorithms.srpo</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.algorithms.srpo</h1><div class="highlight"><pre>
+<span></span><span class="c1">#############################################################</span>
+<span class="c1"># This SRPO model is a modification implementation from https://github.com/thu-ml/SRPO</span>
+<span class="c1">#############################################################</span>
+<span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Any</span><span class="p">,</span> <span class="n">Callable</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Optional</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">numpy</span> <span class="k">as</span> <span class="nn">np</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">rich.progress</span> <span class="kn">import</span> <span class="n">track</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+<span class="kn">from</span> <span class="nn">torchrl.data</span> <span class="kn">import</span> <span class="n">TensorDictReplayBuffer</span>
+<span class="kn">from</span> <span class="nn">torchrl.data.replay_buffers.samplers</span> <span class="kn">import</span> <span class="n">SamplerWithoutReplacement</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.value_network</span> <span class="kn">import</span> <span class="n">VNetwork</span><span class="p">,</span> <span class="n">DoubleVNetwork</span>
+<span class="kn">import</span> <span class="nn">wandb</span>
+<span class="kn">from</span> <span class="nn">grl.agents.srpo</span> <span class="kn">import</span> <span class="n">SRPOAgent</span>
+<span class="kn">from</span> <span class="nn">grl.datasets</span> <span class="kn">import</span> <span class="n">create_dataset</span>
+<span class="kn">from</span> <span class="nn">grl.neural_network.encoders</span> <span class="kn">import</span> <span class="n">get_encoder</span>
+<span class="kn">from</span> <span class="nn">grl.generative_models.sro</span> <span class="kn">import</span> <span class="n">SRPOConditionalDiffusionModel</span>
+<span class="kn">from</span> <span class="nn">grl.neural_network</span> <span class="kn">import</span> <span class="n">MultiLayerPerceptron</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.simulators</span> <span class="kn">import</span> <span class="n">create_simulator</span>
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.q_network</span> <span class="kn">import</span> <span class="n">DoubleQNetwork</span>
+<span class="kn">from</span> <span class="nn">grl.utils</span> <span class="kn">import</span> <span class="n">set_seed</span>
+<span class="kn">from</span> <span class="nn">grl.utils.config</span> <span class="kn">import</span> <span class="n">merge_two_dicts_into_newone</span>
+<span class="kn">from</span> <span class="nn">grl.utils.log</span> <span class="kn">import</span> <span class="n">log</span>
+<span class="kn">from</span> <span class="nn">grl.utils.model_utils</span> <span class="kn">import</span> <span class="n">save_model</span><span class="p">,</span> <span class="n">load_model</span>
+
+
+<span class="k">class</span> <span class="nc">Dirac_Policy</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        The deterministic policy network used in SRPO algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``select_actions``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="n">action_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">action_dim</span>
+        <span class="n">state_dim</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">state_dim</span>
+        <span class="n">layer</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">layer</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">net</span> <span class="o">=</span> <span class="n">MultiLayerPerceptron</span><span class="p">(</span>
+            <span class="n">hidden_sizes</span><span class="o">=</span><span class="p">[</span><span class="n">state_dim</span><span class="p">]</span> <span class="o">+</span> <span class="p">[</span><span class="mi">256</span> <span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">layer</span><span class="p">)],</span>
+            <span class="n">output_size</span><span class="o">=</span><span class="n">action_dim</span><span class="p">,</span>
+            <span class="n">activation</span><span class="o">=</span><span class="s2">&quot;relu&quot;</span><span class="p">,</span>
+            <span class="n">final_activation</span><span class="o">=</span><span class="s2">&quot;tanh&quot;</span><span class="p">,</span>
+        <span class="p">)</span>
+
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;state_encoder&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">state_encoder</span> <span class="o">=</span> <span class="n">get_encoder</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+                <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">args</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">state_encoder</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
+
+    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+        <span class="n">state</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">state_encoder</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">net</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+
+    <span class="k">def</span> <span class="nf">select_actions</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">):</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+
+
+<span class="k">def</span> <span class="nf">asymmetric_l2_loss</span><span class="p">(</span><span class="n">u</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+    <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">abs</span><span class="p">(</span><span class="n">tau</span> <span class="o">-</span> <span class="p">(</span><span class="n">u</span> <span class="o">&lt;</span> <span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">u</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span>
+
+
+<div class="viewcode-block" id="SRPOCritic"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOCritic">[docs]</a><span class="k">class</span> <span class="nc">SRPOCritic</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        The critic network used in SRPO algorithm.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``v_loss``, ``q_loss</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="SRPOCritic.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOCritic.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the critic network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_alpha</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">q_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q</span> <span class="o">=</span> <span class="n">DoubleQNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">DoubleQNetwork</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v</span> <span class="o">=</span> <span class="n">VNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">VNetwork</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="SRPOCritic.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOCritic.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of critic.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+    <span class="k">def</span> <span class="nf">v_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">next_state</span><span class="p">,</span> <span class="n">tau</span><span class="p">):</span>
+        <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+            <span class="n">target_q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q_target</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+            <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">next_state</span><span class="p">)</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="c1"># Update value function</span>
+        <span class="n">v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="n">adv</span> <span class="o">=</span> <span class="n">target_q</span> <span class="o">-</span> <span class="n">v</span>
+        <span class="n">v_loss</span> <span class="o">=</span> <span class="n">asymmetric_l2_loss</span><span class="p">(</span><span class="n">adv</span><span class="p">,</span> <span class="n">tau</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span>
+
+    <span class="k">def</span> <span class="nf">iql_q_loss</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">,</span> <span class="n">action</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">next_v</span><span class="p">,</span> <span class="n">discount</span><span class="p">):</span>
+        <span class="n">q_target</span> <span class="o">=</span> <span class="n">reward</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">-</span> <span class="n">done</span><span class="o">.</span><span class="n">float</span><span class="p">())</span> <span class="o">*</span> <span class="n">discount</span> <span class="o">*</span> <span class="n">next_v</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+        <span class="n">qs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span>
+        <span class="n">q_loss</span> <span class="o">=</span> <span class="nb">sum</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">q</span><span class="p">,</span> <span class="n">q_target</span><span class="p">)</span> <span class="k">for</span> <span class="n">q</span> <span class="ow">in</span> <span class="n">qs</span><span class="p">)</span> <span class="o">/</span> <span class="nb">len</span><span class="p">(</span><span class="n">qs</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">q_loss</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">qs</span><span class="p">[</span><span class="mi">0</span><span class="p">]),</span> <span class="n">torch</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">q_target</span><span class="p">)</span></div>
+
+
+<div class="viewcode-block" id="SRPOPolicy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy">[docs]</a><span class="k">class</span> <span class="nc">SRPOPolicy</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        The SRPO policy network.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``sample``, ``behaviour_policy_loss``, ``srpo_actor_loss``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="SRPOPolicy.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the SRPO policy network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">device</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">device</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">policy</span> <span class="o">=</span> <span class="n">Dirac_Policy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">policy_model</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">critic</span> <span class="o">=</span> <span class="n">SRPOCritic</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">critic</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">sro</span> <span class="o">=</span> <span class="n">SRPOConditionalDiffusionModel</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">diffusion_model</span><span class="p">,</span>
+            <span class="n">value_model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">critic</span><span class="p">,</span>
+            <span class="n">distribution_model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="SRPOPolicy.sample"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.sample">[docs]</a>    <span class="k">def</span> <span class="nf">sample</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">batch_size</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Size</span><span class="p">,</span> <span class="nb">int</span><span class="p">,</span> <span class="n">Tuple</span><span class="p">[</span><span class="nb">int</span><span class="p">],</span> <span class="n">List</span><span class="p">[</span><span class="nb">int</span><span class="p">]]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">solver_config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">t_span</span><span class="p">:</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of SRPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            solver_config (:obj:`EasyDict`): The configuration for the ODE solver.</span>
+<span class="sd">            t_span (:obj:`torch.Tensor`): The time span for the ODE solver or SDE solver.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+            <span class="n">t_span</span><span class="o">=</span><span class="n">t_span</span><span class="p">,</span>
+            <span class="n">condition</span><span class="o">=</span><span class="n">state</span><span class="p">,</span>
+            <span class="n">batch_size</span><span class="o">=</span><span class="n">batch_size</span><span class="p">,</span>
+            <span class="n">with_grad</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+            <span class="n">solver_config</span><span class="o">=</span><span class="n">solver_config</span><span class="p">,</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="SRPOPolicy.forward"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span> <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of SRPO policy, which is the action conditioned on the state.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The output action.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">select_actions</span><span class="p">(</span><span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="SRPOPolicy.behaviour_policy_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.behaviour_policy_loss">[docs]</a>    <span class="k">def</span> <span class="nf">behaviour_policy_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the behaviour policy loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">score_matching_loss</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="SRPOPolicy.srpo_actor_loss"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.srpo_actor_loss">[docs]</a>    <span class="k">def</span> <span class="nf">srpo_actor_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the Q loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`torch.Tensor`): The input action.</span>
+<span class="sd">            state (:obj:`torch.Tensor`): The input state.</span>
+<span class="sd">            reward (:obj:`torch.Tensor`): The input reward.</span>
+<span class="sd">            next_state (:obj:`torch.Tensor`): The input next state.</span>
+<span class="sd">            done (:obj:`torch.Tensor`): The input done.</span>
+<span class="sd">            fake_next_action (:obj:`torch.Tensor`): The input fake next action.</span>
+<span class="sd">            discount_factor (:obj:`float`): The discount factor.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">loss</span><span class="p">,</span> <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">srpo_loss</span><span class="p">(</span><span class="n">state</span><span class="p">)</span>
+        <span class="k">return</span> <span class="n">loss</span><span class="p">,</span> <span class="n">q</span></div></div>
+
+
+<div class="viewcode-block" id="SRPOAlgorithm"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm">[docs]</a><span class="k">class</span> <span class="nc">SRPOAlgorithm</span><span class="p">:</span>
+
+<div class="viewcode-block" id="SRPOAlgorithm.__init__"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">simulator</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">dataset</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+        <span class="n">model</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the SRPO algorithm.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration , which must contain the following keys:</span>
+<span class="sd">                train (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">                deploy (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">            simulator (:obj:`object`): The environment simulator.</span>
+<span class="sd">            dataset (:obj:`Dataset`): The dataset.</span>
+<span class="sd">            model (:obj:`Union[torch.nn.Module, torch.nn.ModuleDict]`): The model.</span>
+<span class="sd">        Interface:</span>
+<span class="sd">            ``__init__``, ``train``, ``deploy``</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="n">simulator</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="n">dataset</span>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↓</span>
+        <span class="c1"># ---------------------------------------</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span> <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+
+        <span class="k">if</span> <span class="n">model</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">model</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+            <span class="k">assert</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="p">,</span> <span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">)</span>
+
+            <span class="k">if</span> <span class="n">torch</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;2.0.0&quot;</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">compile</span><span class="p">(</span>
+                    <span class="n">SRPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                        <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span>
+                    <span class="p">)</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">SRPOPolicy</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span>
+                    <span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span>
+                <span class="p">)</span>
+
+            <span class="k">if</span> <span class="p">(</span>
+                <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;checkpoint_path&quot;</span><span class="p">)</span>
+                <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="p">):</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;behaviour_policy&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;critic&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">policy_train_epoch</span> <span class="o">=</span> <span class="n">load_model</span><span class="p">(</span>
+                    <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                    <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span>
+                    <span class="n">optimizer</span><span class="o">=</span><span class="kc">None</span><span class="p">,</span>
+                    <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;policy&quot;</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="k">else</span><span class="p">:</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">energy_guidance_train_epoch</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="mi">0</span></div>
+
+        <span class="c1"># ---------------------------------------</span>
+        <span class="c1"># Customized model initialization code ↑</span>
+        <span class="c1"># ---------------------------------------</span>
+
+<div class="viewcode-block" id="SRPOAlgorithm.train"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.train">[docs]</a>    <span class="k">def</span> <span class="nf">train</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Train the model using the given configuration. \</span>
+<span class="sd">            A weight-and-bias run will be created automatically when this function is called.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The training configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">set_seed</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span><span class="o">.</span><span class="n">env</span><span class="p">[</span><span class="s2">&quot;seed&quot;</span><span class="p">])</span>
+
+        <span class="n">config</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;train&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="n">EasyDict</span><span class="p">(),</span>
+                <span class="n">config</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+            <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span>
+        <span class="p">)</span>
+
+        <span class="k">with</span> <span class="n">wandb</span><span class="o">.</span><span class="n">init</span><span class="p">(</span>
+            <span class="n">project</span><span class="o">=</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">project</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;project&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="vm">__class__</span><span class="o">.</span><span class="vm">__name__</span>
+            <span class="p">),</span>
+            <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">wandb</span> <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;wandb&quot;</span><span class="p">)</span> <span class="k">else</span> <span class="p">{},</span>
+        <span class="p">)</span> <span class="k">as</span> <span class="n">wandb_run</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="n">EasyDict</span><span class="p">(</span><span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="p">),</span> <span class="n">config</span><span class="p">)</span>
+            <span class="n">wandb_run</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">update</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">train</span> <span class="o">=</span> <span class="n">config</span>
+
+            <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_simulator</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">simulator</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;simulator&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span>
+            <span class="p">)</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span> <span class="o">=</span> <span class="p">(</span>
+                <span class="n">create_dataset</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">dataset</span><span class="p">)</span>
+                <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;dataset&quot;</span><span class="p">)</span>
+                <span class="k">else</span> <span class="bp">self</span><span class="o">.</span><span class="n">dataset</span>
+            <span class="p">)</span>
+
+            <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span><span class="n">model</span><span class="p">,</span> <span class="n">train_epoch</span><span class="p">,</span> <span class="n">method</span><span class="o">=</span><span class="s2">&quot;diffusion&quot;</span><span class="p">,</span> <span class="n">repeat</span><span class="o">=</span><span class="mi">1</span><span class="p">):</span>
+                <span class="n">evaluation_results</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">()</span>
+
+                <span class="k">if</span> <span class="n">method</span> <span class="o">==</span> <span class="s2">&quot;diffusion&quot;</span><span class="p">:</span>
+
+                    <span class="k">def</span> <span class="nf">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="p">,</span>
+                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                            <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+                            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">obs</span><span class="p">:</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">],</span>
+                                    <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                    <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                                <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                                <span class="k">if</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">TensorDict</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+
+                        <span class="n">action</span> <span class="o">=</span> <span class="p">(</span>
+                            <span class="n">model</span><span class="o">.</span><span class="n">sample</span><span class="p">(</span>
+                                <span class="n">state</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                <span class="n">t_span</span><span class="o">=</span><span class="p">(</span>
+                                    <span class="n">torch</span><span class="o">.</span><span class="n">linspace</span><span class="p">(</span>
+                                        <span class="mf">0.0</span><span class="p">,</span> <span class="mf">1.0</span><span class="p">,</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span>
+                                    <span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                                    <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="p">,</span> <span class="s2">&quot;t_span&quot;</span><span class="p">)</span>
+                                    <span class="ow">and</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">t_span</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+                                    <span class="k">else</span> <span class="kc">None</span>
+                                <span class="p">),</span>
+                            <span class="p">)</span>
+                            <span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                            <span class="o">.</span><span class="n">cpu</span><span class="p">()</span>
+                            <span class="o">.</span><span class="n">detach</span><span class="p">()</span>
+                            <span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                        <span class="p">)</span>
+                        <span class="k">return</span> <span class="n">action</span>
+
+                <span class="k">elif</span> <span class="n">method</span> <span class="o">==</span> <span class="s2">&quot;diracpolicy&quot;</span><span class="p">:</span>
+
+                    <span class="k">def</span> <span class="nf">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">:</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">np</span><span class="o">.</span><span class="n">ndarray</span><span class="p">):</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="p">,</span>
+                                <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                            <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                        <span class="k">elif</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="nb">dict</span><span class="p">):</span>
+                            <span class="k">for</span> <span class="n">key</span> <span class="ow">in</span> <span class="n">obs</span><span class="p">:</span>
+                                <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">tensor</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">],</span>
+                                    <span class="n">dtype</span><span class="o">=</span><span class="n">torch</span><span class="o">.</span><span class="n">float32</span><span class="p">,</span>
+                                    <span class="n">device</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">,</span>
+                                <span class="p">)</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span>
+                                <span class="k">if</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">dim</span><span class="p">()</span> <span class="o">==</span> <span class="mi">1</span> <span class="ow">and</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">==</span> <span class="mi">1</span><span class="p">:</span>
+                                    <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span> <span class="o">=</span> <span class="n">obs</span><span class="p">[</span><span class="n">key</span><span class="p">]</span><span class="o">.</span><span class="n">unsqueeze</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">TensorDict</span><span class="p">(</span><span class="n">obs</span><span class="p">,</span> <span class="n">batch_size</span><span class="o">=</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span>
+
+                        <span class="n">action</span> <span class="o">=</span> <span class="n">model</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span><span class="o">.</span><span class="n">squeeze</span><span class="p">(</span><span class="mi">0</span><span class="p">)</span><span class="o">.</span><span class="n">cpu</span><span class="p">()</span><span class="o">.</span><span class="n">detach</span><span class="p">()</span><span class="o">.</span><span class="n">numpy</span><span class="p">()</span>
+                        <span class="k">return</span> <span class="n">action</span>
+
+                <span class="n">eval_results</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">simulator</span><span class="o">.</span><span class="n">evaluate</span><span class="p">(</span>
+                    <span class="n">policy</span><span class="o">=</span><span class="n">policy</span><span class="p">,</span> <span class="n">num_episodes</span><span class="o">=</span><span class="n">repeat</span>
+                <span class="p">)</span>
+                <span class="n">return_results</span> <span class="o">=</span> <span class="p">[</span>
+                    <span class="n">eval_results</span><span class="p">[</span><span class="n">i</span><span class="p">][</span><span class="s2">&quot;total_return&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">repeat</span><span class="p">)</span>
+                <span class="p">]</span>
+                <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Return: </span><span class="si">{</span><span class="n">return_results</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+                <span class="n">return_mean</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">mean</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_std</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">std</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_max</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">max</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">return_min</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="n">return_results</span><span class="p">)</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_mean&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_mean</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_std&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_std</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_max&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_max</span>
+                <span class="n">evaluation_results</span><span class="p">[</span><span class="sa">f</span><span class="s2">&quot;evaluation/return_min&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">return_min</span>
+
+                <span class="k">if</span> <span class="n">repeat</span> <span class="o">&gt;</span> <span class="mi">1</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span>
+                        <span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return_mean: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">, return_std: </span><span class="si">{</span><span class="n">return_std</span><span class="si">}</span><span class="s2">, return_max: </span><span class="si">{</span><span class="n">return_max</span><span class="si">}</span><span class="s2">, return_min: </span><span class="si">{</span><span class="n">return_min</span><span class="si">}</span><span class="s2">&quot;</span>
+                    <span class="p">)</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">log</span><span class="o">.</span><span class="n">info</span><span class="p">(</span><span class="sa">f</span><span class="s2">&quot;Train epoch: </span><span class="si">{</span><span class="n">train_epoch</span><span class="si">}</span><span class="s2">, return: </span><span class="si">{</span><span class="n">return_mean</span><span class="si">}</span><span class="s2">&quot;</span><span class="p">)</span>
+
+                <span class="k">return</span> <span class="n">evaluation_results</span>
+
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↓</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">behaviour_model_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">behaviour_policy</span><span class="o">.</span><span class="n">iterations</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Behaviour policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="n">behaviour_model_training_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                    <span class="n">behaviour_model_training_loss</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span>
+                        <span class="s2">&quot;SRPOPolicy&quot;</span>
+                    <span class="p">]</span><span class="o">.</span><span class="n">behaviour_policy_loss</span><span class="p">(</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">behaviour_model_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
+                    <span class="n">behaviour_model_training_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">behaviour_model_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">behaviour_model_training_loss_sum</span> <span class="o">+=</span> <span class="p">(</span>
+                        <span class="n">behaviour_model_training_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="p">)</span>
+
+                <span class="bp">self</span><span class="o">.</span><span class="n">behaviour_policy_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">epoch</span> <span class="o">==</span> <span class="mi">0</span>
+                    <span class="ow">or</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">evaluation_interval</span>
+                    <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">],</span>
+                        <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">method</span><span class="o">=</span><span class="s2">&quot;diffusion&quot;</span><span class="p">,</span>
+                        <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                            <span class="mi">1</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                            <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span><span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span> <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
+                    <span class="n">save_model</span><span class="p">(</span>
+                        <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="p">,</span>
+                        <span class="n">optimizer</span><span class="o">=</span><span class="n">behaviour_model_optimizer</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;behaviour_policy&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+                <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">behaviour_policy_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">behaviour_model_training_loss</span><span class="o">=</span><span class="n">behaviour_model_training_loss_sum</span>
+                        <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="n">q_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">v_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">iterations</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Critic training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">1</span>
+
+                <span class="n">v_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">v_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_loss_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="n">q_target_sum</span> <span class="o">=</span> <span class="mf">0.0</span>
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+
+                    <span class="n">v_loss</span><span class="p">,</span> <span class="n">next_v</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">v_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s_&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">tau</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">tau</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">v_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">v_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">q_loss</span><span class="p">,</span> <span class="n">q</span><span class="p">,</span> <span class="n">q_target</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">iql_q_loss</span><span class="p">(</span>
+                        <span class="n">state</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">action</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;a&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">reward</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;r&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">done</span><span class="o">=</span><span class="n">data</span><span class="p">[</span><span class="s2">&quot;d&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">),</span>
+                        <span class="n">next_v</span><span class="o">=</span><span class="n">next_v</span><span class="p">,</span>
+                        <span class="n">discount</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">discount_factor</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">q_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">q_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+
+                    <span class="c1"># Update target</span>
+                    <span class="k">for</span> <span class="n">param</span><span class="p">,</span> <span class="n">target_param</span> <span class="ow">in</span> <span class="nb">zip</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">q_target</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                    <span class="p">):</span>
+                        <span class="n">target_param</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">copy_</span><span class="p">(</span>
+                            <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span> <span class="o">*</span> <span class="n">param</span><span class="o">.</span><span class="n">data</span>
+                            <span class="o">+</span> <span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">critic</span><span class="o">.</span><span class="n">update_momentum</span><span class="p">)</span>
+                            <span class="o">*</span> <span class="n">target_param</span><span class="o">.</span><span class="n">data</span>
+                        <span class="p">)</span>
+
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+
+                    <span class="n">q_loss_sum</span> <span class="o">+=</span> <span class="n">q_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_sum</span> <span class="o">+=</span> <span class="n">q</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">q_target_sum</span> <span class="o">+=</span> <span class="n">q_target</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+
+                    <span class="n">v_loss_sum</span> <span class="o">+=</span> <span class="n">v_loss</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="n">v_sum</span> <span class="o">+=</span> <span class="n">next_v</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span><span class="o">.</span><span class="n">item</span><span class="p">()</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">critic_train_epoch</span> <span class="o">=</span> <span class="n">epoch</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span><span class="n">v_loss</span><span class="o">=</span><span class="n">v_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span> <span class="n">v</span><span class="o">=</span><span class="n">v_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">critic_train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">q_loss</span><span class="o">=</span><span class="n">q_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q</span><span class="o">=</span><span class="n">q_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                        <span class="n">q_target</span><span class="o">=</span><span class="n">q_target_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">epoch</span> <span class="o">==</span> <span class="mi">0</span>
+                    <span class="ow">or</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">evaluation_interval</span>
+                    <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">save_model</span><span class="p">(</span>
+                        <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">critic</span><span class="p">,</span>
+                        <span class="n">optimizer</span><span class="o">=</span><span class="n">q_optimizer</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;critic&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+
+            <span class="n">replay_buffer</span> <span class="o">=</span> <span class="n">TensorDictReplayBuffer</span><span class="p">(</span>
+                <span class="n">storage</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">dataset</span><span class="o">.</span><span class="n">storage</span><span class="p">,</span>
+                <span class="n">batch_size</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">batch_size</span><span class="p">,</span>
+                <span class="n">sampler</span><span class="o">=</span><span class="n">SamplerWithoutReplacement</span><span class="p">(),</span>
+                <span class="n">prefetch</span><span class="o">=</span><span class="mi">10</span><span class="p">,</span>
+                <span class="n">pin_memory</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">SRPO_policy_optimizer</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span>
+                <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span>
+                <span class="n">lr</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">learning_rate</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="n">SRPO_policy_lr_scheduler</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">lr_scheduler</span><span class="o">.</span><span class="n">CosineAnnealingLR</span><span class="p">(</span>
+                <span class="n">SRPO_policy_optimizer</span><span class="p">,</span>
+                <span class="n">T_max</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">tmax</span><span class="p">,</span>
+                <span class="n">eta_min</span><span class="o">=</span><span class="mf">0.0</span><span class="p">,</span>
+            <span class="p">)</span>
+
+            <span class="k">for</span> <span class="n">epoch</span> <span class="ow">in</span> <span class="n">track</span><span class="p">(</span>
+                <span class="nb">range</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">policy</span><span class="o">.</span><span class="n">iterations</span><span class="p">),</span>
+                <span class="n">description</span><span class="o">=</span><span class="s2">&quot;Policy training&quot;</span><span class="p">,</span>
+            <span class="p">):</span>
+                <span class="n">counter</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="n">policy_loss_sum</span> <span class="o">=</span> <span class="mi">0</span>
+                <span class="k">if</span> <span class="bp">self</span><span class="o">.</span><span class="n">policy_train_epoch</span> <span class="o">&gt;=</span> <span class="n">epoch</span><span class="p">:</span>
+                    <span class="k">continue</span>
+
+                <span class="k">for</span> <span class="n">index</span><span class="p">,</span> <span class="n">data</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">replay_buffer</span><span class="p">):</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">sro</span><span class="o">.</span><span class="n">diffusion_model</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">eval</span><span class="p">()</span>
+                    <span class="n">policy_loss</span><span class="p">,</span> <span class="n">q</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">srpo_actor_loss</span><span class="p">(</span>
+                        <span class="n">data</span><span class="p">[</span><span class="s2">&quot;s&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">model</span><span class="o">.</span><span class="n">SRPOPolicy</span><span class="o">.</span><span class="n">device</span><span class="p">)</span>
+                    <span class="p">)</span>
+                    <span class="n">policy_loss</span> <span class="o">=</span> <span class="n">policy_loss</span><span class="o">.</span><span class="n">sum</span><span class="p">(</span><span class="o">-</span><span class="mi">1</span><span class="p">)</span><span class="o">.</span><span class="n">mean</span><span class="p">()</span>
+                    <span class="n">SRPO_policy_optimizer</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">(</span><span class="n">set_to_none</span><span class="o">=</span><span class="kc">True</span><span class="p">)</span>
+                    <span class="n">policy_loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
+                    <span class="n">SRPO_policy_optimizer</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">SRPO_policy_lr_scheduler</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
+                    <span class="n">counter</span> <span class="o">+=</span> <span class="mi">1</span>
+                    <span class="n">policy_loss_sum</span> <span class="o">+=</span> <span class="n">policy_loss</span>
+
+                <span class="k">if</span> <span class="p">(</span>
+                    <span class="n">epoch</span> <span class="o">==</span> <span class="mi">0</span>
+                    <span class="ow">or</span> <span class="p">(</span><span class="n">epoch</span> <span class="o">+</span> <span class="mi">1</span><span class="p">)</span> <span class="o">%</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">evaluation_interval</span>
+                    <span class="o">==</span> <span class="mi">0</span>
+                <span class="p">):</span>
+                    <span class="n">evaluation_results</span> <span class="o">=</span> <span class="n">evaluate</span><span class="p">(</span>
+                        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">],</span>
+                        <span class="n">train_epoch</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">method</span><span class="o">=</span><span class="s2">&quot;diracpolicy&quot;</span><span class="p">,</span>
+                        <span class="n">repeat</span><span class="o">=</span><span class="p">(</span>
+                            <span class="mi">1</span>
+                            <span class="k">if</span> <span class="ow">not</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="p">,</span> <span class="s2">&quot;repeat&quot;</span><span class="p">)</span>
+                            <span class="k">else</span> <span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">evaluation</span><span class="o">.</span><span class="n">repeat</span>
+                        <span class="p">),</span>
+                    <span class="p">)</span>
+                    <span class="n">wandb_run</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                        <span class="n">data</span><span class="o">=</span><span class="n">evaluation_results</span><span class="p">,</span>
+                        <span class="n">commit</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span>
+                    <span class="p">)</span>
+                    <span class="n">save_model</span><span class="p">(</span>
+                        <span class="n">path</span><span class="o">=</span><span class="n">config</span><span class="o">.</span><span class="n">parameter</span><span class="o">.</span><span class="n">checkpoint_path</span><span class="p">,</span>
+                        <span class="n">model</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;SRPOPolicy&quot;</span><span class="p">]</span><span class="o">.</span><span class="n">policy</span><span class="p">,</span>
+                        <span class="n">optimizer</span><span class="o">=</span><span class="n">SRPO_policy_optimizer</span><span class="p">,</span>
+                        <span class="n">iteration</span><span class="o">=</span><span class="n">epoch</span><span class="p">,</span>
+                        <span class="n">prefix</span><span class="o">=</span><span class="s2">&quot;policy&quot;</span><span class="p">,</span>
+                    <span class="p">)</span>
+                <span class="n">wandb</span><span class="o">.</span><span class="n">log</span><span class="p">(</span>
+                    <span class="n">data</span><span class="o">=</span><span class="nb">dict</span><span class="p">(</span>
+                        <span class="n">policy_loss</span><span class="o">=</span><span class="n">policy_loss_sum</span> <span class="o">/</span> <span class="n">counter</span><span class="p">,</span>
+                    <span class="p">),</span>
+                    <span class="n">commit</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="c1"># ---------------------------------------</span>
+            <span class="c1"># Customized training code ↑</span>
+            <span class="c1"># ---------------------------------------</span>
+
+            <span class="n">wandb</span><span class="o">.</span><span class="n">finish</span><span class="p">()</span></div>
+
+<div class="viewcode-block" id="SRPOAlgorithm.deploy"><a class="viewcode-back" href="../../../api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.deploy">[docs]</a>    <span class="k">def</span> <span class="nf">deploy</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">SRPOAgent</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Deploy the model using the given configuration.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The deployment configuration.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">if</span> <span class="n">config</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="n">merge_two_dicts_into_newone</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span><span class="p">,</span> <span class="n">config</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">config</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">config</span><span class="o">.</span><span class="n">deploy</span>
+
+        <span class="k">return</span> <span class="n">SRPOAgent</span><span class="p">(</span>
+            <span class="n">config</span><span class="o">=</span><span class="n">config</span><span class="p">,</span>
+            <span class="n">model</span><span class="o">=</span><span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">),</span>
+        <span class="p">)</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../"
+    src="../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../" id="documentation_options" src="../../../_static/documentation_options.js"></script>
+  <script src="../../../_static/doctools.js"></script>
+  <script src="../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/rl_modules/simulators/gym_env_simulator.html b/_modules/grl/rl_modules/simulators/gym_env_simulator.html
new file mode 100644
index 0000000..9276eef
--- /dev/null
+++ b/_modules/grl/rl_modules/simulators/gym_env_simulator.html
@@ -0,0 +1,780 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.rl_modules.simulators.gym_env_simulator &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../../search.html" />
+    <link href="../../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.rl_modules.simulators.gym_env_simulator</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.rl_modules.simulators.gym_env_simulator</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Callable</span><span class="p">,</span> <span class="n">Dict</span><span class="p">,</span> <span class="n">List</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">gym</span>
+<span class="kn">import</span> <span class="nn">torch</span>
+
+
+<div class="viewcode-block" id="GymEnvSimulator"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator">[docs]</a><span class="k">class</span> <span class="nc">GymEnvSimulator</span><span class="p">:</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        A simple gym environment simulator in GenerativeRL.</span>
+<span class="sd">        This simulator is used to collect episodes and steps using a given policy in a gym environment.</span>
+<span class="sd">        It runs in single process and is suitable for small-scale experiments.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``collect_episodes``, ``collect_steps``, ``evaluate``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="GymEnvSimulator.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">env_id</span><span class="p">:</span> <span class="nb">str</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="kc">None</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialize the GymEnvSimulator according to the given configuration.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            env_id (:obj:`str`): The id of the gym environment to simulate.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">env_id</span> <span class="o">=</span> <span class="n">env_id</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span> <span class="o">=</span> <span class="n">gym</span><span class="o">.</span><span class="n">make</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">env_id</span><span class="p">)</span>
+
+        <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_truncated</span> <span class="o">=</span> <span class="kc">False</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">observation_space</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">observation_space</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">action_space</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">action_space</span></div>
+
+<div class="viewcode-block" id="GymEnvSimulator.collect_episodes"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.collect_episodes">[docs]</a>    <span class="k">def</span> <span class="nf">collect_episodes</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">policy</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Callable</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">],</span>
+        <span class="n">num_episodes</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Collect several episodes using the given policy. The environment will be reset at the beginning of each episode.</span>
+<span class="sd">            No history will be stored in this method. The collected information of steps will be returned as a list of dictionaries.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            policy (:obj:`Union[Callable, torch.nn.Module]`): The policy to collect episodes.</span>
+<span class="sd">            num_episodes (:obj:`int`): The number of episodes to collect.</span>
+<span class="sd">            num_steps (:obj:`int`): The number of steps to collect.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">num_episodes</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">num_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">num_episodes</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">data_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_episodes</span><span class="p">):</span>
+                        <span class="n">obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="n">truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">truncated</span><span class="p">:</span>
+                            <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">truncated</span><span class="o">=</span><span class="n">truncated</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_episodes</span><span class="p">):</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span><span class="p">:</span>
+                            <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+            <span class="k">return</span> <span class="n">data_list</span>
+        <span class="k">elif</span> <span class="n">num_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">data_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+                    <span class="k">while</span> <span class="nb">len</span><span class="p">(</span><span class="n">data_list</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">num_steps</span><span class="p">:</span>
+                        <span class="n">obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="n">truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">truncated</span><span class="p">:</span>
+                            <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">truncated</span><span class="o">=</span><span class="n">truncated</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">while</span> <span class="nb">len</span><span class="p">(</span><span class="n">data_list</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">num_steps</span><span class="p">:</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span><span class="p">:</span>
+                            <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+            <span class="k">return</span> <span class="n">data_list</span></div>
+
+<div class="viewcode-block" id="GymEnvSimulator.collect_steps"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.collect_steps">[docs]</a>    <span class="k">def</span> <span class="nf">collect_steps</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">policy</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Callable</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">],</span>
+        <span class="n">num_episodes</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">num_steps</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">random_policy</span><span class="p">:</span> <span class="nb">bool</span> <span class="o">=</span> <span class="kc">False</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Collect several steps using the given policy. The environment will not be reset until the end of the episode.</span>
+<span class="sd">            Last observation will be stored in this method. The collected information of steps will be returned as a list of dictionaries.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            policy (:obj:`Union[Callable, torch.nn.Module]`): The policy to collect steps.</span>
+<span class="sd">            num_episodes (:obj:`int`): The number of episodes to collect.</span>
+<span class="sd">            num_steps (:obj:`int`): The number of steps to collect.</span>
+<span class="sd">            random_policy (:obj:`bool`): Whether to use a random policy.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">assert</span> <span class="n">num_episodes</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span> <span class="ow">or</span> <span class="n">num_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span>
+        <span class="k">if</span> <span class="n">num_episodes</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">data_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_episodes</span><span class="p">):</span>
+                        <span class="n">obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="n">truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">truncated</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">random_policy</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">truncated</span><span class="o">=</span><span class="n">truncated</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">last_state_truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_episodes</span><span class="p">):</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                        <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                        <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">random_policy</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                    <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">return</span> <span class="n">data_list</span>
+        <span class="k">elif</span> <span class="n">num_steps</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">data_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+                    <span class="k">while</span> <span class="nb">len</span><span class="p">(</span><span class="n">data_list</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">num_steps</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="ow">or</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">last_state_truncated</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">random_policy</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="p">(</span>
+                                <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">truncated</span><span class="o">=</span><span class="n">truncated</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="n">done</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_truncated</span> <span class="o">=</span> <span class="n">truncated</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="k">while</span> <span class="nb">len</span><span class="p">(</span><span class="n">data_list</span><span class="p">)</span> <span class="o">&lt;</span> <span class="n">num_steps</span><span class="p">:</span>
+                        <span class="k">if</span> <span class="ow">not</span> <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span><span class="p">:</span>
+                            <span class="k">if</span> <span class="n">random_policy</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">action_space</span><span class="o">.</span><span class="n">sample</span><span class="p">()</span>
+                            <span class="k">else</span><span class="p">:</span>
+                                <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">)</span>
+                            <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                            <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                                <span class="nb">dict</span><span class="p">(</span>
+                                    <span class="n">obs</span><span class="o">=</span><span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span><span class="p">,</span>
+                                    <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                    <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                    <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                    <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                                <span class="p">)</span>
+                            <span class="p">)</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="n">done</span>
+                        <span class="k">else</span><span class="p">:</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_obs</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">collect_env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                            <span class="bp">self</span><span class="o">.</span><span class="n">last_state_done</span> <span class="o">=</span> <span class="kc">False</span>
+            <span class="k">return</span> <span class="n">data_list</span></div>
+
+<div class="viewcode-block" id="GymEnvSimulator.evaluate"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.evaluate">[docs]</a>    <span class="k">def</span> <span class="nf">evaluate</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">policy</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">Callable</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">],</span>
+        <span class="n">num_episodes</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+        <span class="n">render_args</span><span class="p">:</span> <span class="n">Dict</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">List</span><span class="p">[</span><span class="n">Dict</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Evaluate the given policy using the environment. The environment will be reset at the beginning of each episode.</span>
+<span class="sd">            No history will be stored in this method. The evaluation resultswill be returned as a list of dictionaries.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">if</span> <span class="n">num_episodes</span> <span class="ow">is</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">num_episodes</span> <span class="o">=</span> <span class="mi">1</span>
+
+        <span class="k">if</span> <span class="n">render_args</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">render</span> <span class="o">=</span> <span class="kc">True</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="n">render</span> <span class="o">=</span> <span class="kc">False</span>
+
+        <span class="k">def</span> <span class="nf">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">):</span>
+            <span class="c1"># TODO: support different render modes</span>
+            <span class="n">render_output</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">render</span><span class="p">(</span>
+                <span class="o">**</span><span class="n">render_args</span><span class="p">,</span>
+            <span class="p">)</span>
+            <span class="k">return</span> <span class="n">render_output</span>
+
+        <span class="n">eval_results</span> <span class="o">=</span> <span class="p">[]</span>
+
+        <span class="n">env</span> <span class="o">=</span> <span class="n">gym</span><span class="o">.</span><span class="n">make</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">env_id</span><span class="p">)</span>
+        <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="n">num_episodes</span><span class="p">):</span>
+            <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                <span class="n">render_output</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="n">data_list</span> <span class="o">=</span> <span class="p">[]</span>
+            <span class="k">with</span> <span class="n">torch</span><span class="o">.</span><span class="n">no_grad</span><span class="p">():</span>
+                <span class="k">if</span> <span class="n">gym</span><span class="o">.</span><span class="n">__version__</span> <span class="o">&gt;=</span> <span class="s2">&quot;0.26.0&quot;</span><span class="p">:</span>
+                    <span class="n">obs</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                    <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                        <span class="n">render_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">))</span>
+                    <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                    <span class="n">truncated</span> <span class="o">=</span> <span class="kc">False</span>
+                    <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span> <span class="ow">and</span> <span class="ow">not</span> <span class="n">truncated</span><span class="p">:</span>
+                        <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                        <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">truncated</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                        <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                <span class="n">truncated</span><span class="o">=</span><span class="n">truncated</span><span class="p">,</span>
+                                <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                            <span class="p">)</span>
+                        <span class="p">)</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                    <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                        <span class="n">render_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">))</span>
+                <span class="k">else</span><span class="p">:</span>
+                    <span class="n">step</span> <span class="o">=</span> <span class="mi">0</span>
+                    <span class="n">obs</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">reset</span><span class="p">()</span>
+                    <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                        <span class="n">render_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">))</span>
+                    <span class="n">done</span> <span class="o">=</span> <span class="kc">False</span>
+                    <span class="k">while</span> <span class="ow">not</span> <span class="n">done</span><span class="p">:</span>
+                        <span class="n">action</span> <span class="o">=</span> <span class="n">policy</span><span class="p">(</span><span class="n">obs</span><span class="p">)</span>
+                        <span class="n">next_obs</span><span class="p">,</span> <span class="n">reward</span><span class="p">,</span> <span class="n">done</span><span class="p">,</span> <span class="n">_</span> <span class="o">=</span> <span class="n">env</span><span class="o">.</span><span class="n">step</span><span class="p">(</span><span class="n">action</span><span class="p">)</span>
+                        <span class="n">step</span> <span class="o">+=</span> <span class="mi">1</span>
+                        <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                            <span class="n">render_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">))</span>
+                        <span class="n">data_list</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                            <span class="nb">dict</span><span class="p">(</span>
+                                <span class="n">obs</span><span class="o">=</span><span class="n">obs</span><span class="p">,</span>
+                                <span class="n">action</span><span class="o">=</span><span class="n">action</span><span class="p">,</span>
+                                <span class="n">reward</span><span class="o">=</span><span class="n">reward</span><span class="p">,</span>
+                                <span class="n">done</span><span class="o">=</span><span class="n">done</span><span class="p">,</span>
+                                <span class="n">next_obs</span><span class="o">=</span><span class="n">next_obs</span><span class="p">,</span>
+                            <span class="p">)</span>
+                        <span class="p">)</span>
+                        <span class="n">obs</span> <span class="o">=</span> <span class="n">next_obs</span>
+                    <span class="k">if</span> <span class="n">render</span><span class="p">:</span>
+                        <span class="n">render_output</span><span class="o">.</span><span class="n">append</span><span class="p">(</span><span class="n">render_env</span><span class="p">(</span><span class="n">env</span><span class="p">,</span> <span class="n">render_args</span><span class="p">))</span>
+
+            <span class="n">eval_results</span><span class="o">.</span><span class="n">append</span><span class="p">(</span>
+                <span class="nb">dict</span><span class="p">(</span>
+                    <span class="n">total_return</span><span class="o">=</span><span class="nb">sum</span><span class="p">([</span><span class="n">d</span><span class="p">[</span><span class="s2">&quot;reward&quot;</span><span class="p">]</span> <span class="k">for</span> <span class="n">d</span> <span class="ow">in</span> <span class="n">data_list</span><span class="p">]),</span>
+                    <span class="n">total_steps</span><span class="o">=</span><span class="nb">len</span><span class="p">(</span><span class="n">data_list</span><span class="p">),</span>
+                    <span class="n">data_list</span><span class="o">=</span><span class="n">data_list</span><span class="p">,</span>
+                    <span class="n">render_output</span><span class="o">=</span><span class="n">render_output</span> <span class="k">if</span> <span class="n">render</span> <span class="k">else</span> <span class="kc">None</span><span class="p">,</span>
+                <span class="p">)</span>
+            <span class="p">)</span>
+
+        <span class="k">return</span> <span class="n">eval_results</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../../"
+    src="../../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js"></script>
+  <script src="../../../../_static/doctools.js"></script>
+  <script src="../../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/rl_modules/value_network/one_shot_value_function.html b/_modules/grl/rl_modules/value_network/one_shot_value_function.html
new file mode 100644
index 0000000..a23a5ab
--- /dev/null
+++ b/_modules/grl/rl_modules/value_network/one_shot_value_function.html
@@ -0,0 +1,516 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.rl_modules.value_network.one_shot_value_function &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../../search.html" />
+    <link href="../../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.rl_modules.value_network.one_shot_value_function</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.rl_modules.value_network.one_shot_value_function</h1><div class="highlight"><pre>
+<span></span><span class="kn">import</span> <span class="nn">copy</span>
+<span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+
+<span class="kn">from</span> <span class="nn">grl.rl_modules.value_network.value_network</span> <span class="kn">import</span> <span class="n">DoubleVNetwork</span>
+
+
+<div class="viewcode-block" id="OneShotValueFunction"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction">[docs]</a><span class="k">class</span> <span class="nc">OneShotValueFunction</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Value network for one-shot cases, which means that no Bellman backup is needed for training.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="OneShotValueFunction.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of one-shot value network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_alpha</span> <span class="o">=</span> <span class="n">config</span><span class="o">.</span><span class="n">v_alpha</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v</span> <span class="o">=</span> <span class="n">DoubleVNetwork</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">DoubleVNetwork</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">v_target</span> <span class="o">=</span> <span class="n">copy</span><span class="o">.</span><span class="n">deepcopy</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">)</span><span class="o">.</span><span class="n">requires_grad_</span><span class="p">(</span><span class="kc">False</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="OneShotValueFunction.forward"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of one-shot value network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="OneShotValueFunction.compute_double_v"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.compute_double_v">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_v</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two value networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            v1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first value network.</span>
+<span class="sd">            v2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second value network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="o">.</span><span class="n">compute_double_v</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">condition</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="OneShotValueFunction.v_loss"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.v_loss">[docs]</a>    <span class="k">def</span> <span class="nf">v_loss</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">value</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Calculate the v loss.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            value (:obj:`Union[torch.Tensor, TensorDict]`): The input value.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            v_loss (:obj:`torch.Tensor`): The v loss.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="c1"># Update value function</span>
+        <span class="n">targets</span> <span class="o">=</span> <span class="n">value</span>
+        <span class="n">v0</span><span class="p">,</span> <span class="n">v1</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">v</span><span class="o">.</span><span class="n">compute_double_v</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">condition</span><span class="p">)</span>
+        <span class="n">v_loss</span> <span class="o">=</span> <span class="p">(</span>
+            <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">v0</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+            <span class="o">+</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">functional</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">v1</span><span class="p">,</span> <span class="n">targets</span><span class="p">)</span>
+        <span class="p">)</span> <span class="o">/</span> <span class="mi">2</span>
+        <span class="k">return</span> <span class="n">v_loss</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../../"
+    src="../../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js"></script>
+  <script src="../../../../_static/doctools.js"></script>
+  <script src="../../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/rl_modules/value_network/q_network.html b/_modules/grl/rl_modules/value_network/q_network.html
new file mode 100644
index 0000000..0caa8ff
--- /dev/null
+++ b/_modules/grl/rl_modules/value_network/q_network.html
@@ -0,0 +1,558 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.rl_modules.value_network.q_network &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../../search.html" />
+    <link href="../../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.rl_modules.value_network.q_network</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.rl_modules.value_network.q_network</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+
+<span class="kn">from</span> <span class="nn">grl.neural_network</span> <span class="kn">import</span> <span class="n">get_module</span>
+<span class="kn">from</span> <span class="nn">grl.neural_network.encoders</span> <span class="kn">import</span> <span class="n">get_encoder</span>
+
+
+<div class="viewcode-block" id="QNetwork"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.QNetwork">[docs]</a><span class="k">class</span> <span class="nc">QNetwork</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Q network, which is used to approximate the Q value.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="QNetwork.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.QNetwork.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of Q network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;action_encoder&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;action_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_encoder</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">action_encoder</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+                <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">action_encoder</span><span class="o">.</span><span class="n">args</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;action_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;state_encoder&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_encoder</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+                <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">args</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
+        <span class="c1"># TODO</span>
+        <span class="c1"># specific backbone network</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;backbone&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_module</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">backbone</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+            <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">backbone</span><span class="o">.</span><span class="n">args</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="QNetwork.forward"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.QNetwork.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return output of Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q (:obj:`Union[torch.Tensor, TensorDict]`): The output of Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="n">action_embedding</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;action_encoder&quot;</span><span class="p">](</span><span class="n">action</span><span class="p">)</span>
+        <span class="n">state_embedding</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">](</span><span class="n">state</span><span class="p">)</span>
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;backbone&quot;</span><span class="p">](</span><span class="n">action_embedding</span><span class="p">,</span> <span class="n">state_embedding</span><span class="p">)</span></div></div>
+
+
+<div class="viewcode-block" id="DoubleQNetwork"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork">[docs]</a><span class="k">class</span> <span class="nc">DoubleQNetwork</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Double Q network, which has two Q networks.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``compute_double_q``, ``compute_mininum_q``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DoubleQNetwork.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;q1&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">QNetwork</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;q2&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">QNetwork</span><span class="p">(</span><span class="n">config</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="DoubleQNetwork.compute_double_q"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.compute_double_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            q1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first Q network.</span>
+<span class="sd">            q2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;q1&quot;</span><span class="p">](</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;q2&quot;</span><span class="p">](</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="DoubleQNetwork.compute_mininum_q"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.compute_mininum_q">[docs]</a>    <span class="k">def</span> <span class="nf">compute_mininum_q</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the minimum output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            minimum_q (:obj:`Union[torch.Tensor, TensorDict]`): The minimum output of Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_double_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">))</span></div>
+
+<div class="viewcode-block" id="DoubleQNetwork.forward"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">action</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the minimum output of two Q networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            action (:obj:`Union[torch.Tensor, TensorDict]`): The input action.</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            minimum_q (:obj:`Union[torch.Tensor, TensorDict]`): The minimum output of Q network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_mininum_q</span><span class="p">(</span><span class="n">action</span><span class="p">,</span> <span class="n">state</span><span class="p">)</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../../"
+    src="../../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js"></script>
+  <script src="../../../../_static/doctools.js"></script>
+  <script src="../../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/grl/rl_modules/value_network/value_network.html b/_modules/grl/rl_modules/value_network/value_network.html
new file mode 100644
index 0000000..58a911f
--- /dev/null
+++ b/_modules/grl/rl_modules/value_network/value_network.html
@@ -0,0 +1,562 @@
+
+
+
+<!DOCTYPE html>
+<!--[if IE 8]><html class="no-js lt-ie9" lang="en" > <![endif]-->
+<!--[if gt IE 8]><!-->
+<html class="no-js" lang="en">
+<!--<![endif]-->
+
+<head>
+  <meta charset="utf-8">
+  
+  <meta name="viewport" content="width=device-width, initial-scale=1.0">
+  
+  <title>grl.rl_modules.value_network.value_network &mdash; GenerativeRL v0.0.1 documentation</title>
+  
+
+  <link rel="shortcut icon" href="../../../../_static/images/favicon.ico" />
+  
+  
+
+  
+
+  
+  
+  
+
+  
+
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <!-- <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" /> -->
+  <link rel="stylesheet" href="../../../../_static/pygments.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/theme.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/graphviz.css" type="text/css" />
+  <link rel="stylesheet" href="../../../../_static/css/style.css" type="text/css" />
+  <link rel="index" title="Index" href="../../../../genindex.html" />
+  <link rel="search" title="Search" href="../../../../search.html" />
+    <link href="../../../../_static/css/style.css" rel="stylesheet" type="text/css">
+
+
+  
+  <script src="../../../../_static/js/modernizr.min.js"></script>
+  <script>
+    MathJax = {
+        chtml: {
+            scale: 1,
+            minScale: 1,
+        },
+        svg: {
+            scale: 1,
+            minScale: 1,
+        }
+    }
+</script>
+
+  <!-- Preload the theme fonts -->
+
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-book.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-Medium.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/FreightSans/freight-sans-medium-italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="../../../../_static/fonts/IBMPlexMono/IBMPlexMono-SemiBold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+
+<!-- Preload the katex fonts -->
+
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Math-Italic.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Main-Bold.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size1-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size4-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size2-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Size3-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+<link rel="preload" href="https://cdn.jsdelivr.net/npm/katex@0.10.0/dist/fonts/KaTeX_Caligraphic-Regular.woff2" as="font" type="font/woff2" crossorigin="anonymous">
+  <link rel="stylesheet" href="https://use.fontawesome.com/releases/v5.15.2/css/all.css"
+    integrity="sha384-vSIIfh2YWi9wW0r9iZe7RJPrKwp6bG+s9QZMoITbCckVJqGCCRhc+ccxNcdpHuYu" crossorigin="anonymous">
+</head>
+
+<div class="container-fluid header-holder tutorials-header" id="header-holder">
+  <div class="container">
+    <div class="header-container">
+      <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/"
+        aria-label="OpenMMLab"></a>
+
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+          <li >
+            <div id="resourcesDropdownButton" data-toggle="resources-dropdown" class="resources-dropdown">
+              <a
+                class="resource-option with-down-arrow">
+                OpenDILab
+              </a>
+              <div class="resources-dropdown-menu">
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-engine" target="_blank">
+                  <span class="dropdown-title">DI-engine </span>
+                  <p>OpenDILab Decision AI Engine</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/LightZero" target="_blank">
+                  <span class="dropdown-title">LightZero </span>
+                  <p>OpenDILab Decision Monte Carlo Tree Search Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GenerativeRL" target="_blank">
+                  <span class="dropdown-title">GenerativeRL </span>
+                  <p>OpenDILab Generative AI Framework</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-star" target="_blank">
+                  <span class="dropdown-title">DI-star </span>
+                  <p>OpenDILab Decision AI in StarCraftII</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-drive" target="_blank">
+                  <span class="dropdown-title">DI-drive </span>
+                  <p>OpenDILab Auto-driving platform</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/GoBigger" target="_blank">
+                  <span class="dropdown-title">GoBigger </span>
+                  <p>OpenDILab Multi-Agent Environment</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-smartcross" target="_blank">
+                  <span class="dropdown-title">DI-smartcross </span>
+                  <p>Decision Intelligence Platform for Traffic Crossing Signal Control</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-treetensor" target="_blank">
+                  <span class="dropdown-title">DI-treetensor </span>
+                  <p>Tree Nested PyTorch Tensor Lib</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/DI-sheep" target="_blank">
+                  <span class="dropdown-title">DI-sheep </span>
+                  <p>Deep Reinforcement Learning + 3 Tiles Game</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-model-based-RL" target="_blank">
+                  <span class="dropdown-title">awesome-model-based-RL </span>
+                  <p>A curated list of awesome model based RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-decision-transformer" target="_blank">
+                  <span class="dropdown-title">awesome-decision-transformer </span>
+                  <p>A curated list of Decision Transformer resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-exploration-rl" target="_blank">
+                  <span class="dropdown-title">awesome-exploration-rl </span>
+                  <p>A curated list of awesome exploration RL resources (continually updated)</p>
+                </a>
+                <a class="doc-dropdown-option nav-dropdown-item"
+                  href="https://github.com/opendilab/awesome-multi-modal-reinforcement-learning" target="_blank">
+                  <span class="dropdown-title">awesome-multi-modal-reinforcement-learning </span>
+                  <p>A curated list of Multi-Modal Reinforcement Learning resources (continually updated)</p>
+                </a>
+              </div>
+          </li>
+        </ul>
+      </div>
+
+      <a class="main-menu-open-button" href="#" data-behavior="open-mobile-menu"></a>
+    </div>
+  </div>
+</div>
+
+<body class="pytorch-body">
+
+   
+
+  
+
+  <div class="table-of-contents-link-wrapper">
+    <span>Table of Contents</span>
+    <a href="#" class="toggle-table-of-contents" data-behavior="toggle-table-of-contents"></a>
+  </div>
+
+  <nav data-toggle="wy-nav-shift" class="pytorch-left-menu" id="pytorch-left-menu">
+    <div class="pytorch-side-scroll">
+      <div class="pytorch-menu pytorch-menu-vertical" data-spy="affix" role="navigation" aria-label="main navigation">
+        <div class="pytorch-left-menu-search">
+          
+
+          
+          
+          
+          <div class="version">
+            0.0.1
+          </div>
+          
+          
+
+          
+
+
+
+<div role="search">
+  <form id="rtd-search-form" class="wy-form" action="../../../../search.html" method="get">
+    <input type="text" name="q" placeholder="Search Docs" />
+    <input type="hidden" name="check_keywords" value="yes" />
+    <input type="hidden" name="area" value="default" />
+  </form>
+</div>
+
+          
+        </div>
+
+        
+        
+        
+        
+        
+        
+        <p class="caption" role="heading"><span class="caption-text">Tutorials</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/installation/index.html">Installation</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../tutorials/quick_start/index.html">Quick Start</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">Concepts</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../concepts/index.html">Concepts</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">User Guide</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../user_guide/index.html">User Guide</a></li>
+</ul>
+<p class="caption" role="heading"><span class="caption-text">API Documentation</span></p>
+<ul>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/agents/index.html">grl.agents</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/algorithms/index.html">grl.algorithms</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/datasets/index.html">grl.datasets</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/generative_models/index.html">grl.generative_models</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/neural_network/index.html">grl.neural_network</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/numerical_methods/index.html">grl.numerical_methods</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/rl_modules/index.html">grl.rl_modules</a></li>
+<li class="toctree-l1"><a class="reference internal" href="../../../../api_doc/utils/index.html">grl.utils</a></li>
+</ul>
+
+        
+        
+      </div>
+    </div>
+  </nav>
+
+  <div class="pytorch-container">
+    <div class="pytorch-page-level-bar" id="pytorch-page-level-bar">
+      <div class="pytorch-breadcrumbs-wrapper">
+        
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+<div role="navigation" aria-label="breadcrumbs navigation">
+
+  <ul class="pytorch-breadcrumbs">
+    
+      <li>
+        <a href="../../../../index.html">
+            Docs
+        </a> &gt;
+      </li>
+
+        
+          <li><a href="../../../index.html">Module code</a> &gt;</li>
+        
+      <li>grl.rl_modules.value_network.value_network</li>
+    
+    
+      <li class="pytorch-breadcrumbs-aside">
+        
+      </li>
+    
+  </ul>
+
+  
+</div>
+      </div>
+
+      <div class="pytorch-shortcuts-wrapper" id="pytorch-shortcuts-wrapper">
+        Shortcuts
+      </div>
+    </div>
+
+    <section data-toggle="wy-nav-shift" id="pytorch-content-wrap" class="pytorch-content-wrap">
+      <div class="pytorch-content-left">
+        
+          <div class="rst-content">
+            
+            <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
+              <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
+                
+  <h1>Source code for grl.rl_modules.value_network.value_network</h1><div class="highlight"><pre>
+<span></span><span class="kn">from</span> <span class="nn">typing</span> <span class="kn">import</span> <span class="n">Tuple</span><span class="p">,</span> <span class="n">Union</span>
+
+<span class="kn">import</span> <span class="nn">torch</span>
+<span class="kn">import</span> <span class="nn">torch.nn</span> <span class="k">as</span> <span class="nn">nn</span>
+<span class="kn">from</span> <span class="nn">easydict</span> <span class="kn">import</span> <span class="n">EasyDict</span>
+<span class="kn">from</span> <span class="nn">tensordict</span> <span class="kn">import</span> <span class="n">TensorDict</span>
+
+<span class="kn">from</span> <span class="nn">grl.neural_network</span> <span class="kn">import</span> <span class="n">get_module</span>
+<span class="kn">from</span> <span class="nn">grl.neural_network.encoders</span> <span class="kn">import</span> <span class="n">get_encoder</span>
+
+
+<div class="viewcode-block" id="VNetwork"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.VNetwork">[docs]</a><span class="k">class</span> <span class="nc">VNetwork</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Value network, which is used to approximate the value function.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="VNetwork.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.VNetwork.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Initialization of value network.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            config (:obj:`EasyDict`): The configuration dict.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">config</span> <span class="o">=</span> <span class="n">config</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;state_encoder&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_encoder</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+                <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">state_encoder</span><span class="o">.</span><span class="n">args</span>
+            <span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
+        <span class="k">if</span> <span class="nb">hasattr</span><span class="p">(</span><span class="n">config</span><span class="p">,</span> <span class="s2">&quot;condition_encoder&quot;</span><span class="p">):</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;condition_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_encoder</span><span class="p">(</span>
+                <span class="n">config</span><span class="o">.</span><span class="n">condition_encoder</span><span class="o">.</span><span class="n">type</span>
+            <span class="p">)(</span><span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">condition_encoder</span><span class="o">.</span><span class="n">args</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;condition_encoder&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">Identity</span><span class="p">()</span>
+        <span class="c1"># TODO</span>
+        <span class="c1"># specific backbone network</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;backbone&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">get_module</span><span class="p">(</span><span class="n">config</span><span class="o">.</span><span class="n">backbone</span><span class="o">.</span><span class="n">type</span><span class="p">)(</span>
+            <span class="o">**</span><span class="n">config</span><span class="o">.</span><span class="n">backbone</span><span class="o">.</span><span class="n">args</span>
+        <span class="p">)</span></div>
+
+<div class="viewcode-block" id="VNetwork.forward"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.VNetwork.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">]</span> <span class="o">=</span> <span class="kc">None</span><span class="p">,</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return output of value networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            value (:obj:`Union[torch.Tensor, TensorDict]`): The output of value network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="n">state_embedding</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;state_encoder&quot;</span><span class="p">](</span><span class="n">state</span><span class="p">)</span>
+        <span class="k">if</span> <span class="n">condition</span> <span class="ow">is</span> <span class="ow">not</span> <span class="kc">None</span><span class="p">:</span>
+            <span class="n">condition_encoder_embedding</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;condition_encoder&quot;</span><span class="p">](</span><span class="n">condition</span><span class="p">)</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;backbone&quot;</span><span class="p">](</span><span class="n">state_embedding</span><span class="p">,</span> <span class="n">condition_encoder_embedding</span><span class="p">)</span>
+        <span class="k">else</span><span class="p">:</span>
+            <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;backbone&quot;</span><span class="p">](</span><span class="n">state_embedding</span><span class="p">)</span></div></div>
+
+
+<div class="viewcode-block" id="DoubleVNetwork"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork">[docs]</a><span class="k">class</span> <span class="nc">DoubleVNetwork</span><span class="p">(</span><span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">):</span>
+<span class="w">    </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">    Overview:</span>
+<span class="sd">        Double value network, which has two value networks.</span>
+<span class="sd">    Interfaces:</span>
+<span class="sd">        ``__init__``, ``forward``, ``compute_double_v``, ``compute_mininum_v``</span>
+<span class="sd">    &quot;&quot;&quot;</span>
+
+<div class="viewcode-block" id="DoubleVNetwork.__init__"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.__init__">[docs]</a>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">config</span><span class="p">:</span> <span class="n">EasyDict</span><span class="p">):</span>
+        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
+
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">nn</span><span class="o">.</span><span class="n">ModuleDict</span><span class="p">()</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;v1&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">VNetwork</span><span class="p">(</span><span class="n">config</span><span class="p">)</span>
+        <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;v2&quot;</span><span class="p">]</span> <span class="o">=</span> <span class="n">VNetwork</span><span class="p">(</span><span class="n">config</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="DoubleVNetwork.compute_double_v"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.compute_double_v">[docs]</a>    <span class="k">def</span> <span class="nf">compute_double_v</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">Tuple</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">]:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the output of two value networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            v1 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the first value network.</span>
+<span class="sd">            v2 (:obj:`Union[torch.Tensor, TensorDict]`): The output of the second value network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;v1&quot;</span><span class="p">](</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="p">),</span> <span class="bp">self</span><span class="o">.</span><span class="n">model</span><span class="p">[</span><span class="s2">&quot;v2&quot;</span><span class="p">](</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="p">)</span></div>
+
+<div class="viewcode-block" id="DoubleVNetwork.compute_mininum_v"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.compute_mininum_v">[docs]</a>    <span class="k">def</span> <span class="nf">compute_mininum_v</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the minimum output of two value networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            minimum_v (:obj:`Union[torch.Tensor, TensorDict]`): The minimum output of value network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="n">torch</span><span class="o">.</span><span class="n">min</span><span class="p">(</span><span class="o">*</span><span class="bp">self</span><span class="o">.</span><span class="n">compute_double_v</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">condition</span><span class="p">))</span></div>
+
+<div class="viewcode-block" id="DoubleVNetwork.forward"><a class="viewcode-back" href="../../../../api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.forward">[docs]</a>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span>
+        <span class="bp">self</span><span class="p">,</span>
+        <span class="n">state</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+        <span class="n">condition</span><span class="p">:</span> <span class="n">Union</span><span class="p">[</span><span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">,</span> <span class="n">TensorDict</span><span class="p">],</span>
+    <span class="p">)</span> <span class="o">-&gt;</span> <span class="n">torch</span><span class="o">.</span><span class="n">Tensor</span><span class="p">:</span>
+<span class="w">        </span><span class="sd">&quot;&quot;&quot;</span>
+<span class="sd">        Overview:</span>
+<span class="sd">            Return the minimum output of two value networks.</span>
+<span class="sd">        Arguments:</span>
+<span class="sd">            state (:obj:`Union[torch.Tensor, TensorDict]`): The input state.</span>
+<span class="sd">            condition (:obj:`Union[torch.Tensor, TensorDict]`): The input condition.</span>
+<span class="sd">        Returns:</span>
+<span class="sd">            minimum_v (:obj:`Union[torch.Tensor, TensorDict]`): The minimum output of value network.</span>
+<span class="sd">        &quot;&quot;&quot;</span>
+
+        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">compute_mininum_v</span><span class="p">(</span><span class="n">state</span><span class="p">,</span> <span class="n">condition</span><span class="o">=</span><span class="n">condition</span><span class="p">)</span></div></div>
+</pre></div>
+
+              </article>
+              
+            </div>
+            <footer>
+  
+
+  <hr>
+
+  <div role="contentinfo">
+    <p>
+      &copy; Copyright 2024, OpenDILab Contributors.
+
+    </p>
+  </div>
+  
+  <div>
+    Built with <a href="http://sphinx-doc.org/">Sphinx</a> using a <a
+      href="https://github.com/rtfd/sphinx_rtd_theme">theme</a> provided by <a href="https://readthedocs.org">Read the
+      Docs</a>.
+  </div>
+   
+
+</footer>
+          </div>
+        </div>
+
+        <div class="pytorch-content-right" id="pytorch-content-right">
+          <div class="pytorch-right-menu" id="pytorch-right-menu">
+            <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
+              
+            </div>
+          </div>
+        </div>
+    </section>
+  </div>
+
+  
+
+
+  
+
+  
+  <script type="text/javascript" id="documentation_options" data-url_root="../../../../"
+    src="../../../../_static/documentation_options.js"></script>
+  <script data-url_root="../../../../" id="documentation_options" src="../../../../_static/documentation_options.js"></script>
+  <script src="../../../../_static/doctools.js"></script>
+  <script src="../../../../_static/sphinx_highlight.js"></script>
+  <script crossorigin="anonymous" integrity="sha256-Ae2Vz/4ePdIu6ZyI/5ZGsYnb+m0JlOmKPjt6XZ9JJkA=" src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.3.4/require.min.js"></script>
+  
+
+  
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/popper.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/vendor/bootstrap.min.js"></script>
+  <script src="https://cdnjs.cloudflare.com/ajax/libs/list.js/1.5.0/list.min.js"></script>
+  <script type="text/javascript" src="../../../../_static/js/theme.js"></script>
+
+  <script type="text/javascript">
+    jQuery(function () {
+      SphinxRtdTheme.Navigation.enable(true);
+      });
+  </script> 
+
+  <!-- Begin Footer -->
+
+  <div class="container-fluid docs-tutorials-resources" id="docs-tutorials-resources">
+  </div>
+
+  <!-- End Footer -->
+
+  <!-- Begin Mobile Menu -->
+
+  <div class="mobile-main-menu">
+    <div class="container-fluid">
+      <div class="container">
+        <div class="mobile-main-menu-header-container">
+          <a class="header-logo" href="https://opendilab.github.io/GenerativeRL/" aria-label="OpenMMLab"></a>
+          <a class="main-menu-close-button" href="#" data-behavior="close-mobile-menu"></a>
+        </div>
+      </div>
+    </div>
+
+    <div class="mobile-main-menu-links-container">
+      <div class="main-menu">
+        <ul>
+          <li>
+            <a href="https://github.com/opendilab/GenerativeRL" target="_blank">GitHub</a>
+          </li>
+      </div>
+    </div>
+  </div>
+
+  <!-- End Mobile Menu -->
+
+  <script type="text/javascript" src="../../../../_static/js/vendor/anchor.min.js"></script>
+
+  <script type="text/javascript">
+    $(document).ready(function () {
+      mobileMenu.bind();
+      mobileTOC.bind();
+      pytorchAnchors.bind();
+      sideMenus.bind();
+      scrollToAnchor.bind();
+      highlightNavigation.bind();
+      mainMenuDropdown.bind();
+      filterTags.bind();
+
+      // Add class to links that have code blocks, since we cannot create links in code blocks
+      $("article.pytorch-article a span.pre").each(function (e) {
+        $(this).closest("a").addClass("has-code");
+      });
+    })
+  </script>
+</body>
+
+</html>
\ No newline at end of file
diff --git a/_modules/index.html b/_modules/index.html
index 2d694a2..dc405a8 100644
--- a/_modules/index.html
+++ b/_modules/index.html
@@ -307,6 +307,10 @@ <h1>All modules for which code is available</h1>
 <ul><li><a href="grl/agents/gm.html">grl.agents.gm</a></li>
 <li><a href="grl/agents/qgpo.html">grl.agents.qgpo</a></li>
 <li><a href="grl/agents/srpo.html">grl.agents.srpo</a></li>
+<li><a href="grl/algorithms/gmpg.html">grl.algorithms.gmpg</a></li>
+<li><a href="grl/algorithms/gmpo.html">grl.algorithms.gmpo</a></li>
+<li><a href="grl/algorithms/qgpo.html">grl.algorithms.qgpo</a></li>
+<li><a href="grl/algorithms/srpo.html">grl.algorithms.srpo</a></li>
 <li><a href="grl/datasets/gp.html">grl.datasets.gp</a></li>
 <li><a href="grl/datasets/qgpo.html">grl.datasets.qgpo</a></li>
 <li><a href="grl/generative_models/conditional_flow_model/independent_conditional_flow_model.html">grl.generative_models.conditional_flow_model.independent_conditional_flow_model</a></li>
@@ -321,6 +325,10 @@ <h1>All modules for which code is available</h1>
 <li><a href="grl/numerical_methods/ode.html">grl.numerical_methods.ode</a></li>
 <li><a href="grl/numerical_methods/probability_path.html">grl.numerical_methods.probability_path</a></li>
 <li><a href="grl/numerical_methods/sde.html">grl.numerical_methods.sde</a></li>
+<li><a href="grl/rl_modules/simulators/gym_env_simulator.html">grl.rl_modules.simulators.gym_env_simulator</a></li>
+<li><a href="grl/rl_modules/value_network/one_shot_value_function.html">grl.rl_modules.value_network.one_shot_value_function</a></li>
+<li><a href="grl/rl_modules/value_network/q_network.html">grl.rl_modules.value_network.q_network</a></li>
+<li><a href="grl/rl_modules/value_network/value_network.html">grl.rl_modules.value_network.value_network</a></li>
 <li><a href="grl/utils.html">grl.utils</a></li>
 </ul>
 
diff --git a/api_doc/algorithms/index.html b/api_doc/algorithms/index.html
index 2bac6e9..d72dc97 100644
--- a/api_doc/algorithms/index.html
+++ b/api_doc/algorithms/index.html
@@ -310,43 +310,1153 @@
             <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
               <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
                 
-  <section id="grl-algorithms">
-<h1>grl.algorithms<a class="headerlink" href="#grl-algorithms" title="Permalink to this heading">¶</a></h1>
+  <section id="module-grl.algorithms">
+<span id="grl-algorithms"></span><h1>grl.algorithms<a class="headerlink" href="#module-grl.algorithms" title="Permalink to this heading">¶</a></h1>
 <section id="qgpocritic">
 <h2>QGPOCritic<a class="headerlink" href="#qgpocritic" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOCritic">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">QGPOCritic</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOCritic"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOCritic" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Critic network for QGPO algorithm.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOCritic.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOCritic.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOCritic.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of QGPO critic network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOCritic.compute_double_q">
+<span class="sig-name descname"><span class="pre">compute_double_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOCritic.compute_double_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOCritic.compute_double_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first Q network.
+q2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOCritic.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOCritic.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOCritic.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of QGPO critic.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOCritic.q_loss">
+<span class="sig-name descname"><span class="pre">q_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reward</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">next_state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">done</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fake_next_action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">discount_factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOCritic.q_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOCritic.q_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+<li><p><strong>reward</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input reward.</p></li>
+<li><p><strong>next_state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input next state.</p></li>
+<li><p><strong>done</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input done.</p></li>
+<li><p><strong>fake_next_action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input fake next action.</p></li>
+<li><p><strong>discount_factor</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">float</span></code>) – The discount factor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="qgpopolicy">
 <h2>QGPOPolicy<a class="headerlink" href="#qgpopolicy" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">QGPOPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>QGPO policy network.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code>, <code class="docutils literal notranslate"><span class="pre">sample</span></code>, <code class="docutils literal notranslate"><span class="pre">behaviour_policy_sample</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_q</span></code>, <code class="docutils literal notranslate"><span class="pre">behaviour_policy_loss</span></code>, <code class="docutils literal notranslate"><span class="pre">energy_guidance_loss</span></code>, <code class="docutils literal notranslate"><span class="pre">q_loss</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialize internal Module state, shared by both nn.Module and ScriptModule.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.behaviour_policy_loss">
+<span class="sig-name descname"><span class="pre">behaviour_policy_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.behaviour_policy_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.behaviour_policy_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.behaviour_policy_sample">
+<span class="sig-name descname"><span class="pre">behaviour_policy_sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.behaviour_policy_sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.behaviour_policy_sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of behaviour policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.compute_q">
+<span class="sig-name descname"><span class="pre">compute_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.compute_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.compute_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q value.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The Q value.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.energy_guidance_loss">
+<span class="sig-name descname"><span class="pre">energy_guidance_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fake_next_action</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.energy_guidance_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.energy_guidance_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the energy guidance loss of QGPO.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>fake_next_action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input fake next action.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of QGPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.q_loss">
+<span class="sig-name descname"><span class="pre">q_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reward</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">next_state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">done</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fake_next_action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">discount_factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.q_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.q_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+<li><p><strong>reward</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input reward.</p></li>
+<li><p><strong>next_state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input next state.</p></li>
+<li><p><strong>done</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input done.</p></li>
+<li><p><strong>fake_next_action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input fake next action.</p></li>
+<li><p><strong>discount_factor</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">float</span></code>) – The discount factor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOPolicy.sample">
+<span class="sig-name descname"><span class="pre">sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">guidance_scale</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">tensor(1.)</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOPolicy.sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOPolicy.sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of QGPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>guidance_scale</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">float]</span></code>) – The guidance scale.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="qgpoalgorithm">
 <h2>QGPOAlgorithm<a class="headerlink" href="#qgpoalgorithm" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOAlgorithm">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">QGPOAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOAlgorithm" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Q-guided policy optimization (QGPO) algorithm, which is an offline reinforcement learning algorithm that uses energy-based diffusion model for policy modeling.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOAlgorithm.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOAlgorithm.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOAlgorithm.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the QGPO algorithm.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration , which must contain the following keys:
+train (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The training configuration.
+deploy (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The deployment configuration.</p></li>
+<li><p><strong>simulator</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">object</span></code>) – The environment simulator.</p></li>
+<li><p><strong>dataset</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">QGPODataset</span></code>) – The dataset.</p></li>
+<li><p><strong>model</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.nn.Module,</span> <span class="pre">torch.nn.ModuleDict]</span></code>) – The model.</p></li>
+</ul>
+</dd>
+</dl>
+<dl class="simple">
+<dt>Interface:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOAlgorithm.deploy">
+<span class="sig-name descname"><span class="pre">deploy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOAlgorithm.deploy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOAlgorithm.deploy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Deploy the model using the given configuration.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The deployment configuration.</p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><a class="reference internal" href="../agents/index.html#grl.agents.QGPOAgent" title="grl.agents.qgpo.QGPOAgent"><code class="xref py py-class docutils literal notranslate"><span class="pre">QGPOAgent</span></code></a></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.QGPOAlgorithm.train">
+<span class="sig-name descname"><span class="pre">train</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/qgpo.html#QGPOAlgorithm.train"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.QGPOAlgorithm.train" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Train the model using the given configuration.             A weight-and-bias run will be created automatically when this function is called.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The training configuration.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="srpocritic">
 <h2>SRPOCritic<a class="headerlink" href="#srpocritic" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOCritic">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">SRPOCritic</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOCritic"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOCritic" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>The critic network used in SRPO algorithm.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">v_loss</span></code>, <a href="#id1"><span class="problematic" id="id2">``</span></a>q_loss</p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOCritic.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOCritic.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOCritic.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the critic network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOCritic.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOCritic.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOCritic.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of critic.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="srpopolicy">
 <h2>SRPOPolicy<a class="headerlink" href="#srpopolicy" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">SRPOPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>The SRPO policy network.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code>, <code class="docutils literal notranslate"><span class="pre">sample</span></code>, <code class="docutils literal notranslate"><span class="pre">behaviour_policy_loss</span></code>, <code class="docutils literal notranslate"><span class="pre">srpo_actor_loss</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the SRPO policy network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy.behaviour_policy_loss">
+<span class="sig-name descname"><span class="pre">behaviour_policy_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy.behaviour_policy_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy.behaviour_policy_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of SRPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy.sample">
+<span class="sig-name descname"><span class="pre">sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy.sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy.sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of SRPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOPolicy.srpo_actor_loss">
+<span class="sig-name descname"><span class="pre">srpo_actor_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOPolicy.srpo_actor_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOPolicy.srpo_actor_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+<li><p><strong>reward</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input reward.</p></li>
+<li><p><strong>next_state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input next state.</p></li>
+<li><p><strong>done</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input done.</p></li>
+<li><p><strong>fake_next_action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input fake next action.</p></li>
+<li><p><strong>discount_factor</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">float</span></code>) – The discount factor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="srpoalgorithm">
 <h2>SRPOAlgorithm<a class="headerlink" href="#srpoalgorithm" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOAlgorithm">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">SRPOAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOAlgorithm" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOAlgorithm.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOAlgorithm.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOAlgorithm.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the SRPO algorithm.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration , which must contain the following keys:
+train (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The training configuration.
+deploy (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The deployment configuration.</p></li>
+<li><p><strong>simulator</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">object</span></code>) – The environment simulator.</p></li>
+<li><p><strong>dataset</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Dataset</span></code>) – The dataset.</p></li>
+<li><p><strong>model</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.nn.Module,</span> <span class="pre">torch.nn.ModuleDict]</span></code>) – The model.</p></li>
+</ul>
+</dd>
+</dl>
+<dl class="simple">
+<dt>Interface:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOAlgorithm.deploy">
+<span class="sig-name descname"><span class="pre">deploy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOAlgorithm.deploy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOAlgorithm.deploy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Deploy the model using the given configuration.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The deployment configuration.</p>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><a class="reference internal" href="../agents/index.html#grl.agents.SRPOAgent" title="grl.agents.srpo.SRPOAgent"><code class="xref py py-class docutils literal notranslate"><span class="pre">SRPOAgent</span></code></a></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.SRPOAlgorithm.train">
+<span class="sig-name descname"><span class="pre">train</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/srpo.html#SRPOAlgorithm.train"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.SRPOAlgorithm.train" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Train the model using the given configuration.             A weight-and-bias run will be created automatically when this function is called.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The training configuration.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpocritic">
 <h2>GMPOCritic<a class="headerlink" href="#gmpocritic" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOCritic">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPOCritic</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOCritic"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOCritic" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Critic network for GMPO algorithm.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOCritic.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOCritic.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOCritic.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of GMPO critic network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOCritic.compute_double_q">
+<span class="sig-name descname"><span class="pre">compute_double_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOCritic.compute_double_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOCritic.compute_double_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first Q network.
+q2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOCritic.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOCritic.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOCritic.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GMPO critic.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpopolicy">
 <h2>GMPOPolicy<a class="headerlink" href="#gmpopolicy" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPOPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>GMPO policy network for GMPO algorithm, which includes the base model (optinal), the guided model and the critic.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code>, <code class="docutils literal notranslate"><span class="pre">sample</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_q</span></code>, <code class="docutils literal notranslate"><span class="pre">behaviour_policy_loss</span></code>, <code class="docutils literal notranslate"><span class="pre">policy_optimization_loss_by_advantage_weighted_regression</span></code>, <code class="docutils literal notranslate"><span class="pre">policy_optimization_loss_by_advantage_weighted_regression_softmax</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the GMPO policy network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.behaviour_policy_loss">
+<span class="sig-name descname"><span class="pre">behaviour_policy_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">maximum_likelihood</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.behaviour_policy_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.behaviour_policy_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.behaviour_policy_sample">
+<span class="sig-name descname"><span class="pre">behaviour_policy_sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">with_grad</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.behaviour_policy_sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.behaviour_policy_sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of behaviour policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>batch_size</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Size,</span> <span class="pre">int,</span> <span class="pre">Tuple[int],</span> <span class="pre">List[int]]</span></code>) – The batch size.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+<li><p><strong>with_grad</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">bool</span></code>) – Whether to calculate the gradient.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.compute_q">
+<span class="sig-name descname"><span class="pre">compute_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.compute_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.compute_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q value.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The Q value.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GMPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression">
+<span class="sig-name descname"><span class="pre">policy_optimization_loss_by_advantage_weighted_regression</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">maximum_likelihood</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">weight_clamp</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">100.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax">
+<span class="sig-name descname"><span class="pre">policy_optimization_loss_by_advantage_weighted_regression_softmax</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fake_action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">maximum_likelihood</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">beta</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOPolicy.sample">
+<span class="sig-name descname"><span class="pre">sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">with_grad</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOPolicy.sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOPolicy.sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GMPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>batch_size</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Size,</span> <span class="pre">int,</span> <span class="pre">Tuple[int],</span> <span class="pre">List[int]]</span></code>) – The batch size.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpoalgorithm">
 <h2>GMPOAlgorithm<a class="headerlink" href="#gmpoalgorithm" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOAlgorithm">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPOAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOAlgorithm" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>The Generative Model Policy Optimization(GMPO) algorithm.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOAlgorithm.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOAlgorithm.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOAlgorithm.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the GMPO &amp;&amp; GPG algorithm.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration , which must contain the following keys:
+train (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The training configuration.
+deploy (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The deployment configuration.</p></li>
+<li><p><strong>simulator</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">object</span></code>) – The environment simulator.</p></li>
+<li><p><strong>dataset</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">GPDataset</span></code>) – The dataset.</p></li>
+<li><p><strong>model</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.nn.Module,</span> <span class="pre">torch.nn.ModuleDict]</span></code>) – The model.</p></li>
+</ul>
+</dd>
+</dl>
+<dl class="simple">
+<dt>Interface:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPOAlgorithm.train">
+<span class="sig-name descname"><span class="pre">train</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpo.html#GMPOAlgorithm.train"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPOAlgorithm.train" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Train the model using the given configuration.             A weight-and-bias run will be created automatically when this function is called.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The training configuration.</p></li>
+<li><p><strong>seed</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The random seed.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpgcritic">
 <h2>GMPGCritic<a class="headerlink" href="#gmpgcritic" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGCritic">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPGCritic</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGCritic"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGCritic" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Critic network.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGCritic.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGCritic.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGCritic.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of GPO critic network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGCritic.compute_double_q">
+<span class="sig-name descname"><span class="pre">compute_double_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGCritic.compute_double_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGCritic.compute_double_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first Q network.
+q2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGCritic.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGCritic.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGCritic.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GPO critic.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGCritic.in_support_ql_loss">
+<span class="sig-name descname"><span class="pre">in_support_ql_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">reward</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">next_state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">done</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">fake_next_action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">discount_factor</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">1.0</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGCritic.in_support_ql_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGCritic.in_support_ql_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+<li><p><strong>reward</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input reward.</p></li>
+<li><p><strong>next_state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input next state.</p></li>
+<li><p><strong>done</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input done.</p></li>
+<li><p><strong>fake_next_action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input fake next action.</p></li>
+<li><p><strong>discount_factor</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">float</span></code>) – The discount factor.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpgpolicy">
 <h2>GMPGPolicy<a class="headerlink" href="#gmpgpolicy" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPGPolicy</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialize internal Module state, shared by both nn.Module and ScriptModule.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.behaviour_policy_loss">
+<span class="sig-name descname"><span class="pre">behaviour_policy_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">maximum_likelihood</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.behaviour_policy_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.behaviour_policy_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the behaviour policy loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.behaviour_policy_sample">
+<span class="sig-name descname"><span class="pre">behaviour_policy_sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">with_grad</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.behaviour_policy_sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.behaviour_policy_sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of behaviour policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>batch_size</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Size,</span> <span class="pre">int,</span> <span class="pre">Tuple[int],</span> <span class="pre">List[int]]</span></code>) – The batch size.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+<li><p><strong>with_grad</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">bool</span></code>) – Whether to calculate the gradient.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.compute_q">
+<span class="sig-name descname"><span class="pre">compute_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">action</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.compute_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.compute_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the Q value.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The Q value.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGPolicy.sample">
+<span class="sig-name descname"><span class="pre">sample</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">batch_size</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">solver_config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">t_span</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">with_grad</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGPolicy.sample"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGPolicy.sample" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of GPO policy, which is the action conditioned on the state.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>batch_size</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Size,</span> <span class="pre">int,</span> <span class="pre">Tuple[int],</span> <span class="pre">List[int]]</span></code>) – The batch size.</p></li>
+<li><p><strong>solver_config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration for the ODE solver.</p></li>
+<li><p><strong>t_span</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>) – The time span for the ODE solver or SDE solver.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output action.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>action (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="gmpgalgorithm">
 <h2>GMPGAlgorithm<a class="headerlink" href="#gmpgalgorithm" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGAlgorithm">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.algorithms.</span></span><span class="sig-name descname"><span class="pre">GMPGAlgorithm</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGAlgorithm"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGAlgorithm" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>The Generative Model Policy Gradient(GMPG) algorithm.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGAlgorithm.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">simulator</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">dataset</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">model</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGAlgorithm.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGAlgorithm.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize algorithm.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration , which must contain the following keys:
+train (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The training configuration.
+deploy (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>): The deployment configuration.</p></li>
+<li><p><strong>simulator</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">object</span></code>) – The environment simulator.</p></li>
+<li><p><strong>dataset</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">GPDataset</span></code>) – The dataset.</p></li>
+<li><p><strong>model</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.nn.Module,</span> <span class="pre">torch.nn.ModuleDict]</span></code>) – The model.</p></li>
+</ul>
+</dd>
+</dl>
+<dl class="simple">
+<dt>Interface:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">train</span></code>, <code class="docutils literal notranslate"><span class="pre">deploy</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.algorithms.GMPGAlgorithm.train">
+<span class="sig-name descname"><span class="pre">train</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">seed</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/algorithms/gmpg.html#GMPGAlgorithm.train"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.algorithms.GMPGAlgorithm.train" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Train the model using the given configuration.             A weight-and-bias run will be created automatically when this function is called.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The training configuration.</p></li>
+<li><p><strong>seed</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The random seed.</p></li>
+</ul>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 </section>
 
@@ -394,18 +1504,128 @@ <h2>GMPGAlgorithm<a class="headerlink" href="#gmpgalgorithm" title="Permalink to
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
 <li><a class="reference internal" href="#">grl.algorithms</a><ul>
-<li><a class="reference internal" href="#qgpocritic">QGPOCritic</a></li>
-<li><a class="reference internal" href="#qgpopolicy">QGPOPolicy</a></li>
-<li><a class="reference internal" href="#qgpoalgorithm">QGPOAlgorithm</a></li>
-<li><a class="reference internal" href="#srpocritic">SRPOCritic</a></li>
-<li><a class="reference internal" href="#srpopolicy">SRPOPolicy</a></li>
-<li><a class="reference internal" href="#srpoalgorithm">SRPOAlgorithm</a></li>
-<li><a class="reference internal" href="#gmpocritic">GMPOCritic</a></li>
-<li><a class="reference internal" href="#gmpopolicy">GMPOPolicy</a></li>
-<li><a class="reference internal" href="#gmpoalgorithm">GMPOAlgorithm</a></li>
-<li><a class="reference internal" href="#gmpgcritic">GMPGCritic</a></li>
-<li><a class="reference internal" href="#gmpgpolicy">GMPGPolicy</a></li>
-<li><a class="reference internal" href="#gmpgalgorithm">GMPGAlgorithm</a></li>
+<li><a class="reference internal" href="#qgpocritic">QGPOCritic</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOCritic"><code class="docutils literal notranslate"><span class="pre">QGPOCritic</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOCritic.__init__"><code class="docutils literal notranslate"><span class="pre">QGPOCritic.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOCritic.compute_double_q"><code class="docutils literal notranslate"><span class="pre">QGPOCritic.compute_double_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOCritic.forward"><code class="docutils literal notranslate"><span class="pre">QGPOCritic.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOCritic.q_loss"><code class="docutils literal notranslate"><span class="pre">QGPOCritic.q_loss()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#qgpopolicy">QGPOPolicy</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.__init__"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.behaviour_policy_loss"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.behaviour_policy_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.behaviour_policy_sample"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.behaviour_policy_sample()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.compute_q"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.compute_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.energy_guidance_loss"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.energy_guidance_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.forward"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.q_loss"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.q_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOPolicy.sample"><code class="docutils literal notranslate"><span class="pre">QGPOPolicy.sample()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#qgpoalgorithm">QGPOAlgorithm</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOAlgorithm"><code class="docutils literal notranslate"><span class="pre">QGPOAlgorithm</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.QGPOAlgorithm.__init__"><code class="docutils literal notranslate"><span class="pre">QGPOAlgorithm.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOAlgorithm.deploy"><code class="docutils literal notranslate"><span class="pre">QGPOAlgorithm.deploy()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.QGPOAlgorithm.train"><code class="docutils literal notranslate"><span class="pre">QGPOAlgorithm.train()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#srpocritic">SRPOCritic</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOCritic"><code class="docutils literal notranslate"><span class="pre">SRPOCritic</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOCritic.__init__"><code class="docutils literal notranslate"><span class="pre">SRPOCritic.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOCritic.forward"><code class="docutils literal notranslate"><span class="pre">SRPOCritic.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#srpopolicy">SRPOPolicy</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy.__init__"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy.behaviour_policy_loss"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy.behaviour_policy_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy.forward"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy.sample"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy.sample()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOPolicy.srpo_actor_loss"><code class="docutils literal notranslate"><span class="pre">SRPOPolicy.srpo_actor_loss()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#srpoalgorithm">SRPOAlgorithm</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOAlgorithm"><code class="docutils literal notranslate"><span class="pre">SRPOAlgorithm</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.SRPOAlgorithm.__init__"><code class="docutils literal notranslate"><span class="pre">SRPOAlgorithm.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOAlgorithm.deploy"><code class="docutils literal notranslate"><span class="pre">SRPOAlgorithm.deploy()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.SRPOAlgorithm.train"><code class="docutils literal notranslate"><span class="pre">SRPOAlgorithm.train()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpocritic">GMPOCritic</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOCritic"><code class="docutils literal notranslate"><span class="pre">GMPOCritic</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOCritic.__init__"><code class="docutils literal notranslate"><span class="pre">GMPOCritic.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOCritic.compute_double_q"><code class="docutils literal notranslate"><span class="pre">GMPOCritic.compute_double_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOCritic.forward"><code class="docutils literal notranslate"><span class="pre">GMPOCritic.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpopolicy">GMPOPolicy</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.__init__"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.behaviour_policy_loss"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.behaviour_policy_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.behaviour_policy_sample"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.behaviour_policy_sample()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.compute_q"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.compute_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.forward"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOPolicy.sample"><code class="docutils literal notranslate"><span class="pre">GMPOPolicy.sample()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpoalgorithm">GMPOAlgorithm</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOAlgorithm"><code class="docutils literal notranslate"><span class="pre">GMPOAlgorithm</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPOAlgorithm.__init__"><code class="docutils literal notranslate"><span class="pre">GMPOAlgorithm.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPOAlgorithm.train"><code class="docutils literal notranslate"><span class="pre">GMPOAlgorithm.train()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpgcritic">GMPGCritic</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGCritic"><code class="docutils literal notranslate"><span class="pre">GMPGCritic</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGCritic.__init__"><code class="docutils literal notranslate"><span class="pre">GMPGCritic.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGCritic.compute_double_q"><code class="docutils literal notranslate"><span class="pre">GMPGCritic.compute_double_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGCritic.forward"><code class="docutils literal notranslate"><span class="pre">GMPGCritic.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGCritic.in_support_ql_loss"><code class="docutils literal notranslate"><span class="pre">GMPGCritic.in_support_ql_loss()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpgpolicy">GMPGPolicy</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.__init__"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.behaviour_policy_loss"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.behaviour_policy_loss()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.behaviour_policy_sample"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.behaviour_policy_sample()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.compute_q"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.compute_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.forward"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGPolicy.sample"><code class="docutils literal notranslate"><span class="pre">GMPGPolicy.sample()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#gmpgalgorithm">GMPGAlgorithm</a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGAlgorithm"><code class="docutils literal notranslate"><span class="pre">GMPGAlgorithm</span></code></a><ul>
+<li><a class="reference internal" href="#grl.algorithms.GMPGAlgorithm.__init__"><code class="docutils literal notranslate"><span class="pre">GMPGAlgorithm.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.algorithms.GMPGAlgorithm.train"><code class="docutils literal notranslate"><span class="pre">GMPGAlgorithm.train()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
 </ul>
 </li>
 </ul>
diff --git a/api_doc/rl_modules/index.html b/api_doc/rl_modules/index.html
index 1abe037..64cdd86 100644
--- a/api_doc/rl_modules/index.html
+++ b/api_doc/rl_modules/index.html
@@ -310,25 +310,475 @@
             <div role="main" class="main-content" itemscope="itemscope" itemtype="http://schema.org/Article">
               <article itemprop="articleBody" id="pytorch-article" class="pytorch-article">
                 
-  <section id="grl-rl-modules">
-<h1>grl.rl_modules<a class="headerlink" href="#grl-rl-modules" title="Permalink to this heading">¶</a></h1>
+  <section id="module-grl.rl_modules">
+<span id="grl-rl-modules"></span><h1>grl.rl_modules<a class="headerlink" href="#module-grl.rl_modules" title="Permalink to this heading">¶</a></h1>
 <section id="gymenvsimulator">
 <h2>GymEnvSimulator<a class="headerlink" href="#gymenvsimulator" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.GymEnvSimulator">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">GymEnvSimulator</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env_id</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/simulators/gym_env_simulator.html#GymEnvSimulator"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.GymEnvSimulator" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>A simple gym environment simulator in GenerativeRL.
+This simulator is used to collect episodes and steps using a given policy in a gym environment.
+It runs in single process and is suitable for small-scale experiments.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">collect_episodes</span></code>, <code class="docutils literal notranslate"><span class="pre">collect_steps</span></code>, <code class="docutils literal notranslate"><span class="pre">evaluate</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.GymEnvSimulator.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">env_id</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/simulators/gym_env_simulator.html#GymEnvSimulator.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.GymEnvSimulator.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialize the GymEnvSimulator according to the given configuration.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>env_id</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">str</span></code>) – The id of the gym environment to simulate.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.GymEnvSimulator.collect_episodes">
+<span class="sig-name descname"><span class="pre">collect_episodes</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_episodes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/simulators/gym_env_simulator.html#GymEnvSimulator.collect_episodes"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.GymEnvSimulator.collect_episodes" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Collect several episodes using the given policy. The environment will be reset at the beginning of each episode.
+No history will be stored in this method. The collected information of steps will be returned as a list of dictionaries.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>policy</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[Callable,</span> <span class="pre">torch.nn.Module]</span></code>) – The policy to collect episodes.</p></li>
+<li><p><strong>num_episodes</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The number of episodes to collect.</p></li>
+<li><p><strong>num_steps</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The number of steps to collect.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">List</span></code>[<code class="xref py py-class docutils literal notranslate"><span class="pre">Dict</span></code>]</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.GymEnvSimulator.collect_steps">
+<span class="sig-name descname"><span class="pre">collect_steps</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_episodes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_steps</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">random_policy</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">False</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/simulators/gym_env_simulator.html#GymEnvSimulator.collect_steps"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.GymEnvSimulator.collect_steps" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Collect several steps using the given policy. The environment will not be reset until the end of the episode.
+Last observation will be stored in this method. The collected information of steps will be returned as a list of dictionaries.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>policy</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[Callable,</span> <span class="pre">torch.nn.Module]</span></code>) – The policy to collect steps.</p></li>
+<li><p><strong>num_episodes</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The number of episodes to collect.</p></li>
+<li><p><strong>num_steps</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">int</span></code>) – The number of steps to collect.</p></li>
+<li><p><strong>random_policy</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">bool</span></code>) – Whether to use a random policy.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">List</span></code>[<code class="xref py py-class docutils literal notranslate"><span class="pre">Dict</span></code>]</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.GymEnvSimulator.evaluate">
+<span class="sig-name descname"><span class="pre">evaluate</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">policy</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">num_episodes</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">render_args</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/simulators/gym_env_simulator.html#GymEnvSimulator.evaluate"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.GymEnvSimulator.evaluate" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="field-list simple">
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">List</span></code>[<code class="xref py py-class docutils literal notranslate"><span class="pre">Dict</span></code>]</p>
+</dd>
+</dl>
+<dl class="simple">
+<dt>Overview:</dt><dd><p>Evaluate the given policy using the environment. The environment will be reset at the beginning of each episode.
+No history will be stored in this method. The evaluation resultswill be returned as a list of dictionaries.</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="oneshotvaluefunction">
 <h2>OneShotValueFunction<a class="headerlink" href="#oneshotvaluefunction" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.OneShotValueFunction">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">OneShotValueFunction</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/one_shot_value_function.html#OneShotValueFunction"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.OneShotValueFunction" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Value network for one-shot cases, which means that no Bellman backup is needed for training.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.OneShotValueFunction.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/one_shot_value_function.html#OneShotValueFunction.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.OneShotValueFunction.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of one-shot value network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.OneShotValueFunction.compute_double_v">
+<span class="sig-name descname"><span class="pre">compute_double_v</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/one_shot_value_function.html#OneShotValueFunction.compute_double_v"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.OneShotValueFunction.compute_double_v" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two value networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first value network.
+v2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second value network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>v1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.OneShotValueFunction.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/one_shot_value_function.html#OneShotValueFunction.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.OneShotValueFunction.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of one-shot value network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Return type<span class="colon">:</span></dt>
+<dd class="field-even"><p><code class="xref py py-class docutils literal notranslate"><span class="pre">Tensor</span></code></p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.OneShotValueFunction.v_loss">
+<span class="sig-name descname"><span class="pre">v_loss</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">value</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/one_shot_value_function.html#OneShotValueFunction.v_loss"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.OneShotValueFunction.v_loss" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Calculate the v loss.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>value</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input value.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The v loss.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>v_loss (<code class="xref py py-obj docutils literal notranslate"><span class="pre">torch.Tensor</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="vnetwork">
 <h2>VNetwork<a class="headerlink" href="#vnetwork" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.VNetwork">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">VNetwork</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#VNetwork"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.VNetwork" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Value network, which is used to approximate the value function.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.VNetwork.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#VNetwork.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.VNetwork.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of value network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.VNetwork.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span><span class="o"><span class="pre">=</span></span><span class="default_value"><span class="pre">None</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#VNetwork.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.VNetwork.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return output of value networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of value network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>value (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="doublevnetwork">
 <h2>DoubleVNetwork<a class="headerlink" href="#doublevnetwork" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleVNetwork">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">DoubleVNetwork</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#DoubleVNetwork"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleVNetwork" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Double value network, which has two value networks.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_double_v</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_mininum_v</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleVNetwork.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#DoubleVNetwork.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleVNetwork.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialize internal Module state, shared by both nn.Module and ScriptModule.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleVNetwork.compute_double_v">
+<span class="sig-name descname"><span class="pre">compute_double_v</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#DoubleVNetwork.compute_double_v"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleVNetwork.compute_double_v" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two value networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first value network.
+v2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second value network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>v1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleVNetwork.compute_mininum_v">
+<span class="sig-name descname"><span class="pre">compute_mininum_v</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#DoubleVNetwork.compute_mininum_v"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleVNetwork.compute_mininum_v" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the minimum output of two value networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The minimum output of value network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>minimum_v (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleVNetwork.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">state</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">condition</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/value_network.html#DoubleVNetwork.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleVNetwork.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the minimum output of two value networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+<li><p><strong>condition</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input condition.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The minimum output of value network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>minimum_v (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="qnetwork">
 <h2>QNetwork<a class="headerlink" href="#qnetwork" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.QNetwork">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">QNetwork</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#QNetwork"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.QNetwork" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Q network, which is used to approximate the Q value.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.QNetwork.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#QNetwork.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.QNetwork.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Initialization of Q network.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><p><strong>config</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">EasyDict</span></code>) – The configuration dict.</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.QNetwork.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#QNetwork.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.QNetwork.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return output of Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 <section id="doubleqnetwork">
 <h2>DoubleQNetwork<a class="headerlink" href="#doubleqnetwork" title="Permalink to this heading">¶</a></h2>
+<dl class="py class">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleQNetwork">
+<em class="property"><span class="pre">class</span><span class="w"> </span></em><span class="sig-prename descclassname"><span class="pre">grl.rl_modules.</span></span><span class="sig-name descname"><span class="pre">DoubleQNetwork</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#DoubleQNetwork"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleQNetwork" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Double Q network, which has two Q networks.</p>
+</dd>
+<dt>Interfaces:</dt><dd><p><code class="docutils literal notranslate"><span class="pre">__init__</span></code>, <code class="docutils literal notranslate"><span class="pre">forward</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_double_q</span></code>, <code class="docutils literal notranslate"><span class="pre">compute_mininum_q</span></code></p>
+</dd>
+</dl>
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleQNetwork.__init__">
+<span class="sig-name descname"><span class="pre">__init__</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">config</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#DoubleQNetwork.__init__"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleQNetwork.__init__" title="Permalink to this definition">¶</a></dt>
+<dd><p>Initialize internal Module state, shared by both nn.Module and ScriptModule.</p>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleQNetwork.compute_double_q">
+<span class="sig-name descname"><span class="pre">compute_double_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#DoubleQNetwork.compute_double_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleQNetwork.compute_double_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The output of the first Q network.
+q2 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>): The output of the second Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>q1 (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleQNetwork.compute_mininum_q">
+<span class="sig-name descname"><span class="pre">compute_mininum_q</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#DoubleQNetwork.compute_mininum_q"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleQNetwork.compute_mininum_q" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the minimum output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The minimum output of Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>minimum_q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+<dl class="py method">
+<dt class="sig sig-object py" id="grl.rl_modules.DoubleQNetwork.forward">
+<span class="sig-name descname"><span class="pre">forward</span></span><span class="sig-paren">(</span><em class="sig-param"><span class="n"><span class="pre">action</span></span></em>, <em class="sig-param"><span class="n"><span class="pre">state</span></span></em><span class="sig-paren">)</span><a class="reference internal" href="../../_modules/grl/rl_modules/value_network/q_network.html#DoubleQNetwork.forward"><span class="viewcode-link"><span class="pre">[source]</span></span></a><a class="headerlink" href="#grl.rl_modules.DoubleQNetwork.forward" title="Permalink to this definition">¶</a></dt>
+<dd><dl class="simple">
+<dt>Overview:</dt><dd><p>Return the minimum output of two Q networks.</p>
+</dd>
+</dl>
+<dl class="field-list simple">
+<dt class="field-odd">Parameters<span class="colon">:</span></dt>
+<dd class="field-odd"><ul class="simple">
+<li><p><strong>action</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input action.</p></li>
+<li><p><strong>state</strong> (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>) – The input state.</p></li>
+</ul>
+</dd>
+<dt class="field-even">Returns<span class="colon">:</span></dt>
+<dd class="field-even"><p>The minimum output of Q network.</p>
+</dd>
+<dt class="field-odd">Return type<span class="colon">:</span></dt>
+<dd class="field-odd"><p>minimum_q (<code class="xref py py-obj docutils literal notranslate"><span class="pre">Union[torch.Tensor,</span> <span class="pre">TensorDict]</span></code>)</p>
+</dd>
+</dl>
+</dd></dl>
+
+</dd></dl>
+
 </section>
 </section>
 
@@ -376,12 +826,62 @@ <h2>DoubleQNetwork<a class="headerlink" href="#doubleqnetwork" title="Permalink
             <div class="pytorch-side-scroll" id="pytorch-side-scroll-right">
               <ul>
 <li><a class="reference internal" href="#">grl.rl_modules</a><ul>
-<li><a class="reference internal" href="#gymenvsimulator">GymEnvSimulator</a></li>
-<li><a class="reference internal" href="#oneshotvaluefunction">OneShotValueFunction</a></li>
-<li><a class="reference internal" href="#vnetwork">VNetwork</a></li>
-<li><a class="reference internal" href="#doublevnetwork">DoubleVNetwork</a></li>
-<li><a class="reference internal" href="#qnetwork">QNetwork</a></li>
-<li><a class="reference internal" href="#doubleqnetwork">DoubleQNetwork</a></li>
+<li><a class="reference internal" href="#gymenvsimulator">GymEnvSimulator</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.GymEnvSimulator"><code class="docutils literal notranslate"><span class="pre">GymEnvSimulator</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.GymEnvSimulator.__init__"><code class="docutils literal notranslate"><span class="pre">GymEnvSimulator.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.GymEnvSimulator.collect_episodes"><code class="docutils literal notranslate"><span class="pre">GymEnvSimulator.collect_episodes()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.GymEnvSimulator.collect_steps"><code class="docutils literal notranslate"><span class="pre">GymEnvSimulator.collect_steps()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.GymEnvSimulator.evaluate"><code class="docutils literal notranslate"><span class="pre">GymEnvSimulator.evaluate()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#oneshotvaluefunction">OneShotValueFunction</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.OneShotValueFunction"><code class="docutils literal notranslate"><span class="pre">OneShotValueFunction</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.OneShotValueFunction.__init__"><code class="docutils literal notranslate"><span class="pre">OneShotValueFunction.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.OneShotValueFunction.compute_double_v"><code class="docutils literal notranslate"><span class="pre">OneShotValueFunction.compute_double_v()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.OneShotValueFunction.forward"><code class="docutils literal notranslate"><span class="pre">OneShotValueFunction.forward()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.OneShotValueFunction.v_loss"><code class="docutils literal notranslate"><span class="pre">OneShotValueFunction.v_loss()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#vnetwork">VNetwork</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.VNetwork"><code class="docutils literal notranslate"><span class="pre">VNetwork</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.VNetwork.__init__"><code class="docutils literal notranslate"><span class="pre">VNetwork.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.VNetwork.forward"><code class="docutils literal notranslate"><span class="pre">VNetwork.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#doublevnetwork">DoubleVNetwork</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleVNetwork"><code class="docutils literal notranslate"><span class="pre">DoubleVNetwork</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleVNetwork.__init__"><code class="docutils literal notranslate"><span class="pre">DoubleVNetwork.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleVNetwork.compute_double_v"><code class="docutils literal notranslate"><span class="pre">DoubleVNetwork.compute_double_v()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleVNetwork.compute_mininum_v"><code class="docutils literal notranslate"><span class="pre">DoubleVNetwork.compute_mininum_v()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleVNetwork.forward"><code class="docutils literal notranslate"><span class="pre">DoubleVNetwork.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#qnetwork">QNetwork</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.QNetwork"><code class="docutils literal notranslate"><span class="pre">QNetwork</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.QNetwork.__init__"><code class="docutils literal notranslate"><span class="pre">QNetwork.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.QNetwork.forward"><code class="docutils literal notranslate"><span class="pre">QNetwork.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
+<li><a class="reference internal" href="#doubleqnetwork">DoubleQNetwork</a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleQNetwork"><code class="docutils literal notranslate"><span class="pre">DoubleQNetwork</span></code></a><ul>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleQNetwork.__init__"><code class="docutils literal notranslate"><span class="pre">DoubleQNetwork.__init__()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleQNetwork.compute_double_q"><code class="docutils literal notranslate"><span class="pre">DoubleQNetwork.compute_double_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleQNetwork.compute_mininum_q"><code class="docutils literal notranslate"><span class="pre">DoubleQNetwork.compute_mininum_q()</span></code></a></li>
+<li><a class="reference internal" href="#grl.rl_modules.DoubleQNetwork.forward"><code class="docutils literal notranslate"><span class="pre">DoubleQNetwork.forward()</span></code></a></li>
+</ul>
+</li>
+</ul>
+</li>
 </ul>
 </li>
 </ul>
diff --git a/genindex.html b/genindex.html
index 7ac03a4..2cc0329 100644
--- a/genindex.html
+++ b/genindex.html
@@ -311,6 +311,7 @@ <h1 id="index">Index</h1>
 <div class="genindex-jumpbox">
  <a href="#_"><strong>_</strong></a>
  | <a href="#A"><strong>A</strong></a>
+ | <a href="#B"><strong>B</strong></a>
  | <a href="#C"><strong>C</strong></a>
  | <a href="#D"><strong>D</strong></a>
  | <a href="#E"><strong>E</strong></a>
@@ -322,6 +323,7 @@ <h1 id="index">Index</h1>
  | <a href="#M"><strong>M</strong></a>
  | <a href="#N"><strong>N</strong></a>
  | <a href="#O"><strong>O</strong></a>
+ | <a href="#P"><strong>P</strong></a>
  | <a href="#Q"><strong>Q</strong></a>
  | <a href="#S"><strong>S</strong></a>
  | <a href="#T"><strong>T</strong></a>
@@ -338,6 +340,30 @@ <h2 id="_">_</h2>
         <li><a href="api_doc/agents/index.html#grl.agents.QGPOAgent.__init__">(grl.agents.QGPOAgent method)</a>
 </li>
         <li><a href="api_doc/agents/index.html#grl.agents.SRPOAgent.__init__">(grl.agents.SRPOAgent method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm.__init__">(grl.algorithms.GMPGAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.__init__">(grl.algorithms.GMPGCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.__init__">(grl.algorithms.GMPGPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm.__init__">(grl.algorithms.GMPOAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.__init__">(grl.algorithms.GMPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.__init__">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.__init__">(grl.algorithms.QGPOAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.__init__">(grl.algorithms.QGPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.__init__">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.__init__">(grl.algorithms.SRPOAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOCritic.__init__">(grl.algorithms.SRPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.__init__">(grl.algorithms.SRPOPolicy method)</a>
 </li>
         <li><a href="api_doc/datasets/index.html#grl.datasets.GPD4RLDataset.__init__">(grl.datasets.GPD4RLDataset method)</a>
 </li>
@@ -380,6 +406,18 @@ <h2 id="_">_</h2>
         <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.SDE.__init__">(grl.numerical_methods.SDE method)</a>
 </li>
         <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.SDESolver.__init__">(grl.numerical_methods.SDESolver method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.__init__">(grl.rl_modules.DoubleQNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.__init__">(grl.rl_modules.DoubleVNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.__init__">(grl.rl_modules.GymEnvSimulator method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.__init__">(grl.rl_modules.OneShotValueFunction method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.QNetwork.__init__">(grl.rl_modules.QNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.VNetwork.__init__">(grl.rl_modules.VNetwork method)</a>
 </li>
       </ul></li>
   </ul></td>
@@ -399,13 +437,71 @@ <h2 id="A">A</h2>
   </ul></td>
 </tr></table>
 
+<h2 id="B">B</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.behaviour_policy_loss">behaviour_policy_loss() (grl.algorithms.GMPGPolicy method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.behaviour_policy_loss">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.behaviour_policy_loss">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.behaviour_policy_loss">(grl.algorithms.SRPOPolicy method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.behaviour_policy_sample">behaviour_policy_sample() (grl.algorithms.GMPGPolicy method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.behaviour_policy_sample">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.behaviour_policy_sample">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+      </ul></li>
+  </ul></td>
+</tr></table>
+
 <h2 id="C">C</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateLayer">ConcatenateLayer (class in grl.neural_network)</a>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.collect_episodes">collect_episodes() (grl.rl_modules.GymEnvSimulator method)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.collect_steps">collect_steps() (grl.rl_modules.GymEnvSimulator method)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.compute_double_q">compute_double_q() (grl.algorithms.GMPGCritic method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.compute_double_q">(grl.algorithms.GMPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.compute_double_q">(grl.algorithms.QGPOCritic method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.compute_double_q">(grl.rl_modules.DoubleQNetwork method)</a>
+</li>
+      </ul></li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.compute_double_v">compute_double_v() (grl.rl_modules.DoubleVNetwork method)</a>
+
+      <ul>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.compute_double_v">(grl.rl_modules.OneShotValueFunction method)</a>
 </li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.compute_mininum_q">compute_mininum_q() (grl.rl_modules.DoubleQNetwork method)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.compute_mininum_v">compute_mininum_v() (grl.rl_modules.DoubleVNetwork method)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.compute_q">compute_q() (grl.algorithms.GMPGPolicy method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.compute_q">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.compute_q">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+      </ul></li>
+      <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateLayer">ConcatenateLayer (class in grl.neural_network)</a>
+</li>
       <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateMLP">ConcatenateMLP (class in grl.neural_network)</a>
 </li>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.GaussianConditionalProbabilityPath.covariance">covariance() (grl.numerical_methods.GaussianConditionalProbabilityPath method)</a>
@@ -432,6 +528,12 @@ <h2 id="D">D</h2>
       </ul></li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.EnergyConditionalDiffusionModel.data_prediction_function_with_energy_guidance">data_prediction_function_with_energy_guidance() (grl.generative_models.EnergyConditionalDiffusionModel method)</a>
 </li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.deploy">deploy() (grl.algorithms.QGPOAlgorithm method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.deploy">(grl.algorithms.SRPOAlgorithm method)</a>
+</li>
+      </ul></li>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion">diffusion() (grl.numerical_methods.GaussianConditionalProbabilityPath method)</a>
 </li>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion_squared">diffusion_squared() (grl.numerical_methods.GaussianConditionalProbabilityPath method)</a>
@@ -447,6 +549,10 @@ <h2 id="D">D</h2>
       <li><a href="api_doc/neural_network/index.html#grl.neural_network.DiT2D">DiT2D (in module grl.neural_network)</a>
 </li>
       <li><a href="api_doc/neural_network/index.html#grl.neural_network.DiT3D">DiT3D (class in grl.neural_network)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork">DoubleQNetwork (class in grl.rl_modules)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork">DoubleVNetwork (class in grl.rl_modules)</a>
 </li>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.DPMSolver">DPMSolver (class in grl.numerical_methods)</a>
 </li>
@@ -462,11 +568,17 @@ <h2 id="D">D</h2>
 <h2 id="E">E</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="api_doc/generative_models/index.html#grl.generative_models.EnergyConditionalDiffusionModel.energy_guidance_loss">energy_guidance_loss() (grl.generative_models.EnergyConditionalDiffusionModel method)</a>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.energy_guidance_loss">energy_guidance_loss() (grl.algorithms.QGPOPolicy method)</a>
+
+      <ul>
+        <li><a href="api_doc/generative_models/index.html#grl.generative_models.EnergyConditionalDiffusionModel.energy_guidance_loss">(grl.generative_models.EnergyConditionalDiffusionModel method)</a>
 </li>
+      </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.EnergyConditionalDiffusionModel">EnergyConditionalDiffusionModel (class in grl.generative_models)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator.evaluate">evaluate() (grl.rl_modules.GymEnvSimulator method)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -488,9 +600,25 @@ <h2 id="F">F</h2>
 </li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.IndependentConditionalFlowModel.flow_matching_loss_with_mask">flow_matching_loss_with_mask() (grl.generative_models.IndependentConditionalFlowModel method)</a>
 </li>
-      <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateLayer.forward">forward() (grl.neural_network.ConcatenateLayer method)</a>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.forward">forward() (grl.algorithms.GMPGCritic method)</a>
 
       <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.forward">(grl.algorithms.GMPGPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOCritic.forward">(grl.algorithms.GMPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.forward">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.forward">(grl.algorithms.QGPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.forward">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOCritic.forward">(grl.algorithms.SRPOCritic method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.forward">(grl.algorithms.SRPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateLayer.forward">(grl.neural_network.ConcatenateLayer method)</a>
+</li>
         <li><a href="api_doc/neural_network/index.html#grl.neural_network.ConcatenateMLP.forward">(grl.neural_network.ConcatenateMLP method)</a>
 </li>
         <li><a href="api_doc/neural_network/index.html#grl.neural_network.DiT.forward">(grl.neural_network.DiT method)</a>
@@ -502,6 +630,16 @@ <h2 id="F">F</h2>
         <li><a href="api_doc/neural_network/index.html#grl.neural_network.MultiLayerPerceptron.forward">(grl.neural_network.MultiLayerPerceptron method)</a>
 </li>
         <li><a href="api_doc/neural_network/index.html#grl.neural_network.TemporalSpatialResidualNet.forward">(grl.neural_network.TemporalSpatialResidualNet method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleQNetwork.forward">(grl.rl_modules.DoubleQNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.DoubleVNetwork.forward">(grl.rl_modules.DoubleVNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.forward">(grl.rl_modules.OneShotValueFunction method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.QNetwork.forward">(grl.rl_modules.QNetwork method)</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.VNetwork.forward">(grl.rl_modules.VNetwork method)</a>
 </li>
       </ul></li>
   </ul></td>
@@ -527,6 +665,18 @@ <h2 id="G">G</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.GaussianConditionalProbabilityPath">GaussianConditionalProbabilityPath (class in grl.numerical_methods)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm">GMPGAlgorithm (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGCritic">GMPGCritic (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy">GMPGPolicy (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm">GMPOAlgorithm (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOCritic">GMPOCritic (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy">GMPOPolicy (class in grl.algorithms)</a>
 </li>
       <li><a href="api_doc/agents/index.html#grl.agents.GPAgent">GPAgent (class in grl.agents)</a>
 </li>
@@ -542,15 +692,22 @@ <h2 id="G">G</h2>
 </li>
       </ul></li>
       <li>
-    grl.datasets
+    grl.algorithms
 
       <ul>
-        <li><a href="api_doc/datasets/index.html#module-grl.datasets">module</a>
+        <li><a href="api_doc/algorithms/index.html#module-grl.algorithms">module</a>
 </li>
       </ul></li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li>
+    grl.datasets
+
+      <ul>
+        <li><a href="api_doc/datasets/index.html#module-grl.datasets">module</a>
+</li>
+      </ul></li>
+      <li>
     grl.generative_models
 
       <ul>
@@ -569,6 +726,13 @@ <h2 id="G">G</h2>
 
       <ul>
         <li><a href="api_doc/numerical_methods/index.html#module-grl.numerical_methods">module</a>
+</li>
+      </ul></li>
+      <li>
+    grl.rl_modules
+
+      <ul>
+        <li><a href="api_doc/rl_modules/index.html#module-grl.rl_modules">module</a>
 </li>
       </ul></li>
       <li>
@@ -578,6 +742,8 @@ <h2 id="G">G</h2>
         <li><a href="api_doc/utils/index.html#module-grl.utils">module</a>
 </li>
       </ul></li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.GymEnvSimulator">GymEnvSimulator (class in grl.rl_modules)</a>
+</li>
   </ul></td>
 </tr></table>
 
@@ -592,6 +758,8 @@ <h2 id="H">H</h2>
 <h2 id="I">I</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGCritic.in_support_ql_loss">in_support_ql_loss() (grl.algorithms.GMPGCritic method)</a>
+</li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.IndependentConditionalFlowModel">IndependentConditionalFlowModel (class in grl.generative_models)</a>
 </li>
       <li><a href="api_doc/neural_network/index.html#grl.neural_network.DiT.initialize_weights">initialize_weights() (grl.neural_network.DiT method)</a>
@@ -641,6 +809,8 @@ <h2 id="M">M</h2>
 
       <ul>
         <li><a href="api_doc/agents/index.html#module-grl.agents">grl.agents</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#module-grl.algorithms">grl.algorithms</a>
 </li>
         <li><a href="api_doc/datasets/index.html#module-grl.datasets">grl.datasets</a>
 </li>
@@ -649,6 +819,8 @@ <h2 id="M">M</h2>
         <li><a href="api_doc/neural_network/index.html#module-grl.neural_network">grl.neural_network</a>
 </li>
         <li><a href="api_doc/numerical_methods/index.html#module-grl.numerical_methods">grl.numerical_methods</a>
+</li>
+        <li><a href="api_doc/rl_modules/index.html#module-grl.rl_modules">grl.rl_modules</a>
 </li>
         <li><a href="api_doc/utils/index.html#module-grl.utils">grl.utils</a>
 </li>
@@ -685,6 +857,8 @@ <h2 id="O">O</h2>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction">OneShotValueFunction (class in grl.rl_modules)</a>
+</li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.IndependentConditionalFlowModel.optimal_transport_flow_matching_loss">optimal_transport_flow_matching_loss() (grl.generative_models.IndependentConditionalFlowModel method)</a>
 </li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.OptimalTransportConditionalFlowModel">OptimalTransportConditionalFlowModel (class in grl.generative_models)</a>
@@ -692,16 +866,42 @@ <h2 id="O">O</h2>
   </ul></td>
 </tr></table>
 
+<h2 id="P">P</h2>
+<table style="width: 100%" class="indextable genindextable"><tr>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression">policy_optimization_loss_by_advantage_weighted_regression() (grl.algorithms.GMPOPolicy method)</a>
+</li>
+  </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax">policy_optimization_loss_by_advantage_weighted_regression_softmax() (grl.algorithms.GMPOPolicy method)</a>
+</li>
+  </ul></td>
+</tr></table>
+
 <h2 id="Q">Q</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOCritic.q_loss">q_loss() (grl.algorithms.QGPOCritic method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.q_loss">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+      </ul></li>
       <li><a href="api_doc/agents/index.html#grl.agents.QGPOAgent">QGPOAgent (class in grl.agents)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm">QGPOAlgorithm (class in grl.algorithms)</a>
 </li>
   </ul></td>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOCritic">QGPOCritic (class in grl.algorithms)</a>
+</li>
       <li><a href="api_doc/datasets/index.html#grl.datasets.QGPOD4RLDataset">QGPOD4RLDataset (class in grl.datasets)</a>
 </li>
       <li><a href="api_doc/datasets/index.html#grl.datasets.QGPODataset">QGPODataset (class in grl.datasets)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy">QGPOPolicy (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.QNetwork">QNetwork (class in grl.rl_modules)</a>
 </li>
   </ul></td>
 </tr></table>
@@ -709,9 +909,17 @@ <h2 id="Q">Q</h2>
 <h2 id="S">S</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
-      <li><a href="api_doc/generative_models/index.html#grl.generative_models.DiffusionModel.sample">sample() (grl.generative_models.DiffusionModel method)</a>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGPolicy.sample">sample() (grl.algorithms.GMPGPolicy method)</a>
 
       <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOPolicy.sample">(grl.algorithms.GMPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOPolicy.sample">(grl.algorithms.QGPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.sample">(grl.algorithms.SRPOPolicy method)</a>
+</li>
+        <li><a href="api_doc/generative_models/index.html#grl.generative_models.DiffusionModel.sample">(grl.generative_models.DiffusionModel method)</a>
+</li>
         <li><a href="api_doc/generative_models/index.html#grl.generative_models.EnergyConditionalDiffusionModel.sample">(grl.generative_models.EnergyConditionalDiffusionModel method)</a>
 </li>
         <li><a href="api_doc/generative_models/index.html#grl.generative_models.IndependentConditionalFlowModel.sample">(grl.generative_models.IndependentConditionalFlowModel method)</a>
@@ -778,8 +986,16 @@ <h2 id="S">S</h2>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.SDESolver">SDESolver (class in grl.numerical_methods)</a>
 </li>
       <li><a href="api_doc/utils/index.html#grl.utils.set_seed">set_seed() (in module grl.utils)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy.srpo_actor_loss">srpo_actor_loss() (grl.algorithms.SRPOPolicy method)</a>
 </li>
       <li><a href="api_doc/agents/index.html#grl.agents.SRPOAgent">SRPOAgent (class in grl.agents)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm">SRPOAlgorithm (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOCritic">SRPOCritic (class in grl.algorithms)</a>
+</li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOPolicy">SRPOPolicy (class in grl.algorithms)</a>
 </li>
       <li><a href="api_doc/numerical_methods/index.html#grl.numerical_methods.GaussianConditionalProbabilityPath.std">std() (grl.numerical_methods.GaussianConditionalProbabilityPath method)</a>
 </li>
@@ -791,6 +1007,16 @@ <h2 id="T">T</h2>
   <td style="width: 33%; vertical-align: top;"><ul>
       <li><a href="api_doc/neural_network/index.html#grl.neural_network.TemporalSpatialResidualNet">TemporalSpatialResidualNet (class in grl.neural_network)</a>
 </li>
+      <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPGAlgorithm.train">train() (grl.algorithms.GMPGAlgorithm method)</a>
+
+      <ul>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.GMPOAlgorithm.train">(grl.algorithms.GMPOAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.QGPOAlgorithm.train">(grl.algorithms.QGPOAlgorithm method)</a>
+</li>
+        <li><a href="api_doc/algorithms/index.html#grl.algorithms.SRPOAlgorithm.train">(grl.algorithms.SRPOAlgorithm method)</a>
+</li>
+      </ul></li>
   </ul></td>
 </tr></table>
 
@@ -809,6 +1035,8 @@ <h2 id="U">U</h2>
 <h2 id="V">V</h2>
 <table style="width: 100%" class="indextable genindextable"><tr>
   <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.OneShotValueFunction.v_loss">v_loss() (grl.rl_modules.OneShotValueFunction method)</a>
+</li>
       <li><a href="api_doc/generative_models/index.html#grl.generative_models.DiffusionModel.velocity_function">velocity_function() (grl.generative_models.DiffusionModel method)</a>
 
       <ul>
@@ -816,6 +1044,10 @@ <h2 id="V">V</h2>
 </li>
       </ul></li>
   </ul></td>
+  <td style="width: 33%; vertical-align: top;"><ul>
+      <li><a href="api_doc/rl_modules/index.html#grl.rl_modules.VNetwork">VNetwork (class in grl.rl_modules)</a>
+</li>
+  </ul></td>
 </tr></table>
 
 
diff --git a/objects.inv b/objects.inv
index 871a0dd9b64c008095b0fb365f4e75cffb06bf47..3dd9c5f718b5d7dd8dfa9c9be6f0e2097b1fbeb3 100644
GIT binary patch
delta 6266
zcmV-=7=`EXBE&I}fqzYN+c?s`=U1r8?^T*jG^f37jWeE9IiV-Y`pTjySjHQQph-xH
z^XnJ<5DAj_MuVC|QZ~_e`soJHXn-_uD6>s+Ksl{e#oND+WPi%g>R+p*!111>zqLib
z;e3yNZeHjyyJ<z%|F>GdJM?uocMt!mf2c9iEUBv1dj*8J?tdnZagJ#mH$)J9A$u2;
zB&BWuf8RYs?nd;rJ<S+!oDJE1^)aNc?P<t><7~*`IPX_$ReeE+909%_3L<J}Q_!L6
z2(~I2tibE0utU`jHan0K)0d-UO!md9aoG!P?mj=<{pa$luulj9bx4~2;f6`e1n2&M
zf3Tl%>TPQa1Ak~}2bhv$aiWOTKRsnAegy-5CgqQ$+=JoaJg!bfK}s6GW^qQU${+fH
zWH^2EZkrYcux&cPC-jn>F*%iS(L4aPdX8Qt$AXP+DEv#$dIduS>rx#akiijHM2iAM
zv<Nz)MKBR9f{tiWsE8H;N3;kg>_pIECkh&NqQGG%0)G!X5pdYK;B|JBg5o3ol~7Fb
z#>Mf|Tb%6ANlsZZ7XLu_@Iui(F43VxRmG&P&mgYIGd(6h!I(faev=A=gy0bp(7+mF
z?opAEH%LT)pk4z41oZ(1&~-tAItL6gxH-I6fM{960n8Bt3}AbNn<G@{P+<agj^Gec
zj>^MZe1ACMeUhgL)*WDdw8Mk#qaZQ7*>?bm;UgrVjz7kPh~Z;IfEZo_0>tnE2GDho
zp|-{Yh>Zgbpq=4jBZm&`MX=F(fh!9VCn+T*fZ2y*aggm9u620Itw*`4=^%2^(_zS!
zOnb14k`6<pgvhof9P~tLrxD?nfQuf5(}-}{?0=#}=Colu-rs3s7`ZB6r*Rl^CB9DM
zFlI`Imks_-8^g#|`8timkSp<Z8i&y;*(WrqkmSYYrBLw-<s!1Vd$|4m>-}x}t7rxk
zfvHi{6QC)cKO-<Ub(e+k(gX*J83ZdZMu$SyrPgXBMXwa9@Prpb_fgK<f+>hpk++hO
zf`3E3ZcHdXqnM3&l!*hxOiB?cX0n@G{QP{XH}5{zzl-{v65kY9-5Ft2)Sirs676x?
z>{&ja^5%z-Dp@)!O=MwIJZI!bd`xKig7ZUgW$p4owWAV35o<M)qM(*#<WOsQ3aBC{
zxI#<xy5OzTwaTTD!nclCVf=$7Oz|`RiGTL-&+yu>plyL(S*4_0rdKwKmWotol#vwE
zw;+~%Z1!vaAo(8G&`B0-megnpGHvQ~E-{a~a%hLmWIugLV#Ztff%Jz>2XxxQO>uUb
zuig#dr(iRUA?IW_2EnFHLpuK;_02EjM6cg5{}D`rB_4K~uOBPICPq5-K{KUKOn<0A
z?7y6H4E|)36m+Jf(G(<8(&-F48QW`byZSMyzAwrn*rtJ<<`8qDjzNe8oK9!+VP2BO
zv`q4<`Q-h&{c!nq51$JeG6=Sax6!}!c%SMH*$z?L*S}r5df-XML|u@X#z=A4VeUvF
zu2`ikeyX3v(YLtBl6-Mm@FB=TZGXuApAKrfDBmc?!w`)nBF357+K{AM0%&R2d~TBn
z+64wb8;x|y4BcO{@s9ZPciGmWALR+EDY<Ty#QS_IV!Su%XMj#kYf+9)CF7VQ`h%3;
zg|A1)B8qpTW5EqmohB6J?B9LzhDy;aBgZxbRnH~<@T$)Neb7JOKS29~L4StxMhy<?
zi(C8+!~qNk*y<V)+SGob)#QBX^8pUIHXSD!{&o3_q6!ZClow5=^85yd`TiEF+27y7
zH$20HZh8h8u!%l2?o22x@zaSSPqZyq<7@*o&KACLwm}<*p+k?L&!>#yW@>ssWr_+~
zw%d{3Z6*Q+ZbG37&=&oMj(;q@OtKwwI&0IfsKWbGl6?_>4+sbk>?wsJP=7Ux1crD-
zWu3~>@vOWyL6%JI#_IU_z(XN}F;=;SQMv6^o)|h#S!vrM;;#&6QmRaPD!aLT_`D<8
zS&~JopbaoJz1J5V=M){-;sim$-zBH2!b#38a2`tXlsw@K)3=9&zJCCEO0R75SCT#7
zlf&-I*JZ8Te9D=RD|9veA^MJi+LWA=5=-AihEu$c2i5VOF0Q@aEU#Ftt0=#oV!FSA
z+RKi~we-f->nSPGerf$Bex}#Z$%Ynse#R;84p&=He?P1i)_WD56tqW0w;uuLT80*6
zPGPv<8B~uMmT{O2YJUgXY`Z|swhPc~yP(as3)^hNld93emNmt(`&qP1SQ~28tvk&5
zkUhHa5ezy%J_DdRpK9Q<gXXi-@?qW>M@Vl6NL3X>oR5n-(AzAM{Ad|ylCfsZGmb^x
zEz+qfv$$PXix=cWv0^1Y2yJegvyuM(GQ29Ah9fbe7D^q3Tz^50j&$+`KQiL134qa6
zdt8>7k8sWP7^1lzCCzmX0)A;OSagu)x_di*%+EV~JY@+brB{1Ruz(tDikgxvLn)0>
zfh!i|t1##lMFlW4Iw#plmX#QzMmgHO5c<fl(4X9g(ax<V0t9M0AvElW6RH3i8A9Z<
z{OdJiV34T{cz+UuodZCkKXBZK4V%?vR9BnB+c8G@Iqo0HW9nL`NfVrBH0p?g`j;al
zX9+j!vT^(P@@Es8kYP(oh^AroI=sM<WOKGGCOF3W{WY8F9RDUui`?vfbmHKzeWLe7
zvE*!zrbLn7H|3iOv56M7`>g#R`Mj5d)U|&TUieT}bbnRR{lBy1ss6@JaV^AZxE4Z=
zb#o}1M~0Zacy}j;3Yfcm!&1lm>W%p$E6qb>b*3;tD9Y?e)t8yL^Qmi#ADgkLkHm3p
zmf`Xe(L+o9K8+)|Do0srOU<o`#ux9%3e33FXPUV-({LG#=%J;4pJozV1f(prrRLU5
z<7<Uv1%C=IU8o;wnv$4TG>X;MLw2ZOGB~Zf+E78%sip_*$!9Lnk$kK1k$h_0oBCkR
zzQ97uq~hp|Q3I7}dk~?ezOL4A(5Qi?_9R+cO<k?wv{Ah#;_5~+a${uSM&jf~GPp4^
zbt7?dBN^NnnYnR(YOI@ARVU!83O)Gg!n`%nNq@-KN%>H3kKu;m-J<D5>=`@scj+0$
z(h^r%P#s`;3b|gynepsR1PJpPs=27MC6_H55Cbk?S_x;mf;-(nm<w=igzfEdm=~l6
zdP_@OX+e$1>3R8j5ogBYBlJP&i=i#$;SB5kt~rcp9k_K3XY+=ORX_|H;0$D(Ny7xq
z$$#|>S_x;mkUd7*K^*%70m@e+RlXXz=c@!dUyY3N)d(P8C7}6gq|a9)-+Yxo<g1Z1
zUyU5|RRWr?M*4g;^37LCkbE^V&sQU;e3d}vtC2QejXd*J0+HWE()`YKSAc-#cac87
zi+uAt5-z`sEc3evG`}Mu^Sj78zl(tLJAVS3-$e%bUF4nL5y<>5(&l%OXMT5~>wY~f
zh=K0v17I%i#Quic>pHWi5fIzixsWkU8^T;7R`cEpU<ES1$xBt}!4G2kmRwwHB;`ZB
zy9yJEcn4=7<3rka*(ADuSubMG*n8Q;T@WWNais;-Yc<Ozfrv9>z-5!_W@>X$XMaol
zGaA7S*jfo^y05<J{rrAyoq#=8?<F30Q=+uQl@`=!(=71>BF>DVmw4LC$1UaI4D(Kh
z3~oNRuHkGR#1c<<)w+R<Gil+SEg<}b$adn+R>6dM^}=;7;Y{}x(Cx1}NBf2O4dj^B
z4pEm8*?b!Zu!I@ktE(#X;0G~1jeodEXDG3h4|VS)%$SmR2_us6A?>?_8S@b?VFV)f
zjJ=mI+;z>;5?5MKy;ie?5r{Z5_MZ_rHj)`(E@4mCJDKKg(3Y0C(t>JtO)@PIab^si
zOmp0fl4+g1vtckDTAkv|C7kJcrwtqzaoR8waOcW?jFXg-60o;SL5(FfW`FR1(a@LM
zP!<DN{SkokuJO2{&AzbPHXm2Zcq7kki-W6WyouqQxsEH^<fd+^23N~CnQ)ujxLTs=
zYjSbC^bcJG7tF8t3+7dbH-}>Xdzp0w#`u$JcMrF}f4%SSu-B<`P&KGAQNfwMaW#*}
z7+JTH7df)h<Q;bO#%YH}#(#>iuL~vab8sD)+jK5-c2^xA{rg=VTBSX2Qs~Uh*Nqb%
z5@*V!ENT0@Q|d}5Hv+m)?>-yXacR$`)SR5CvhjT4-1VmwZ92G9=in;|yMXNSBI!h|
zy6tEsyzR(H*-d}0Zc}2fdkQeVQOS%$yMxW$59Lithp4#-%8a(=_J1o^?nZZSnFzsI
zp@~A?=8Qv=u{5B8^<a&Q676w&y>ox!Ng#uz`n+mGI)p8y<!g8V2VC&2qyY^S+<O_w
zRDmYPdXVOi?^h0G`dEuYonR*S7i%tJdauo+E}$#=+l2!e-{V_J0~(kUT%q7me4@pn
z4xq_lN3zWb1|PYSD}Ql=nmW_wQ8&0N+B+1V@lUjme=h5nv1%wFc#kdUA!m;);DOMQ
zU#QEuCZrQmQih)qCR!ZofSbHXjw@2-S`p9#XOxk&KKeg&yU!K5Rr9eOejCN@7Hy|m
z0S$-Wz0laA+s-hp9?~blH#~GkTJC_j!d=6M?Ho4wF8At=6@Rl@Ku5?XF#ifWfTyJ&
zYQsQ<^jpB)FP*8z+hO)VAw3poM?q(#(H4Up$Z}q~ZXh(_5)3({lYw`7bk-`je#|O|
z_eQYIAu|IFcZ=M>miJzm-4ZwJO}0}2kQZ?BHJu9Q#49?j`GuV5)ut31PQf)S<oth#
zzk|4VX|IOagMZW-Y_ch72eO=(uA4)ea0!MS-pSWl0h(_XJ0OL0TDa|GouQ`t%hotP
z?yAcR#Qw`E=d*fQ4!hy}Y0$%2_9xS$+Hls?3TQa|hO@>N-G;Mi^^iUZxZ|WV&v?hl
z9%xyQwX?)AslH#)cN__L$e{iV^U0gmT$69$>_C?D5`Xx1ik+dF?G!h#klq9Tyh3N9
z<{Jys>LGp792c2nF)fq4YA(IF;#^=vCLDA~KQA2Dyy98-I2L$Y*vvq~ZDBXC1-uvL
zlQBbcO}-&>fm+IMi{@!F#V{~S`s&(aRZb)ftdDQIxu&0Lg08=#R@t|UGK)pHN!8GP
zfM1TASbwEklUrc~cTvEM%*asVB+L=*3J#1bRw;|0>Sr;baginYwVgWR6n$$s1=kSV
z`M{a4k?G3x*8*W7=LDNvElf3>S3MBToC&{gtwRLai{{Qwn29-XR>FClC=e($F@m*A
zH*$0;*?K)k^am-w>rP-0O83Vvj7#-8ZW#YGp?@f6|FYx_m6l59_5T<i+}986I2^OW
zgF#)J)BpMY!9Y7}8C#Wgm0SGH4E+7x0iIQ23f|wEsrcZc;zOh2gQ1G8i;8WdVr!ye
z-g!5^T~h!#?VKwE85r`K?BC0ZagJ{)3}lz`97{j5_){$nWxb7Z2taCjEC{W%5)iZl
z^?xwN&a{8=q97Ip>032Rv!2CCx|!oJwFppH2wjOEJF|l9D~yM-gYf0<gyFhE%}3Gx
zT(LLXcGE3=KETo*U=8Km4XK+ACmH^AxlgSEGDQGvEa`5}DKDB`g6B6NGdMu4gfs2;
zK;8cR?MhbQ!3{W;yuZ~&6Hda1HfTg)oPX3YWf1V;9BMc+cE$rzDC=z02cQP{AnV&7
z-23(xh}%}iZR^7gc-(EZ<8BKu?zX_=ZmS!2TmNyl4L9z#7UOOUI_{WJ(32q}sGSZ+
zGH&FLr;Ore?OC8QMFlNoA3$3f@VSO<){+kctf3s7A&`Sw#8f%Pl@$POgo^+|#(#={
zppthpkS$aT!X8wtQ?sF2q6+U%NtPpsmEX4xeAj}1?ZCfu$2%KKLz@QKOXaMUebt~E
zxYcm|R>5A;d-b&pOy=IVjAd-ik^?!th=2&|LJY@%4L7hANJc~UbVMai8TJv;7qZu$
z(JiYmyd;_m7%98i7srZZXX!?~LVqn+_x9oQuKCGK=^;5)6;5*QJzM?pT=Il7Oy8K>
zUL4pMfZlZ?+^f5XLF9pn81fhSd*kCuF=Fr5m8Kkowr&FO;6I7_27)ja;hdsFnNSqK
zqygJl(#NPUV@9Y-KTKAx6~lS}z6a|q(sgYMguu>8$vG*p{7;<2xQEjUfPWF#Mf-SA
z74PYiewwO=0t)W2`qTG{)mq+RBh5fK!QFKoS3$UGITz9W@(yZsdLx8(&gD<;7xhlB
z)E{Cg|HRenDJjwZDt_vf!$F1iTZx~S9dV69zv@f)giWUC`5C7e<;(kLq#O<^u-{&q
zuVxQbUM}gdznIp0a@c+Ox_<(|2<#%9vvpyGuH&gst#Sy5&7cDNt<Th!^w*%&A0n`S
z7Wa*(Ul#ERT{H=()%jHR@dnw$HGXvaaV0JBBniJy!#L?SVt5fx{=nP3jG1zqw=V~w
z9mM%&+q`o@7>nSyc?YJtZC-(-k5Lui5Z+0L@Xl`tS0RS*PCtZqKz~EH0w2OV%@E!}
z4B;x=5Z;*%;T`A@t^y9>o$(Ofxej6eZTVEp!44&y$2(rPw4knKJk|S5ibGw?iOwxn
z*0qe|pHHM1>Iz1GnZ<2$Yv26OB>PwXLx~#qW=~E}8G2QI6CzYIt$Ex0`uCUV2OtWq
zXJ@VFvDQa3tz*Y*+<#4<0F6ywDNB7QYGS(s*KtVKi+Qn6$+0+56t|D#S2!zX$adl&
zRvnp#*q9Gt)&OlO?`4?s>o*s3_%GeGQZCfbP(%4qIh1{(%^7?sKbj5YM~I<(mJH=H
zoE0-<J8=-JF5@SFSp&4Cyq956L;2BYC_j1)<-^+%<>v|?Pk&iLN$J7)?(O(7Kks@Z
zb+H#qh~YfpBOT8&IX?qZl4U5RF)DCXXWf8?%%CmhVGOG%DneM*;@SxN*@MnWc9JfJ
zolNN=4dv_%AUUdD2(9ZP^#uk-<f9zz7~EqG_a}cVfkwukG{hhmF_VsTr7(a!fU~%e
zs%|bfssv!C|9|u+WGa~iRk8raoE66;y4!Ld4nH&#wX+0Zku6(ZyDh9Cm(<$DwC6G!
za7CtDi}|g>0M=i!m6zL^3v#ukU1xc&umF>FU7Bv2pnGKGld5((H@E3Ml-sBm16b{k
z`erY}`VRStO9buf7{*AK@!Qv#kI)mvnRW}C7wUJfn}3H=pqpM~Qz4d9BiW~%Q*2Si
z`6Ibrt~)hFhFWLU3`}HX))s~h;=K{|(ORgW(gv86H@^R)dnT%Vb9tnN86=JH*5r)J
zGe$qmfrly=4XdboB2>i|k@%3WixTH4E@nYQq-tK}wt2F8=${Bx4Tp)YMMtEHRL!g0
z^-orxyMH541*%Gfa~8o<#9}O6XDBIioFDZ1B=x@Xk5~8I<9D+D!*!d1?$`U(ElE!`
zLed5`k!Q+mz2~K5z^W={I>lX!56>5Yq5semo0)LZ46uqOS=OM++@O?hyz_~Bu1CM&
zA6u##*OlpgJ>m3w%*sltH)<~2*z|Y(c(tn^Yk#3{(9ilbZlytDHKUpzhoAK-r$cIu
z^EKa@EO}_*xB=Uq2#m))RL{71x^A9YlH+SywTnso&}z2~CZ`IO%|)Z=w{AD7KEXX<
z&ZO16A1bArj`$b(v7%(v?_jZD&=#)>R5Aj`_Adi<YHwc1k2NLh3(lIwo3?b#;aHM0
z1b?+RK{9G*5{-xc%bu?8>Zf9ioBH9pd1wH~OG}Z5xT7J-3G%Jk6^vtilJ8fTIpuPq
zd5Y^9SfTgg{_go`z^)nEnxU<EG;^Z%&|a3&GO1q!8I6;vEbrH*tWn2QW#nx&8oaB1
z@U~TT6fRC^iW;k1)U`MybY0(yxT6X{bARX81Q<DgUTxkEhsm5_!{8=8Rg@g@FSK8`
z2a&9WYd3Rl3dBG9l2u!>>Q8wwCp>CNO_FTES_2E`@OIuWk}^3Wic0)Tkk44~mcX@l
z8ciSD@MKMuz9bdJ>3V+fg9X7U&aVG`RWye+m{YnGugTN@qqJ!rHVW7E-!Y=H9)G`Z
z-N8ZCx30>nud-rQR(%ygx4A6C+rZJzjtyn@kYA?r<-_Ji7jAl??7%WC`f^kOO=LK*
zzN81-Cp4*$iq}|T0J}VYr@0wJgsHkjLvpQ$>LewR3agtiG@oG#@$Ju1lI@L&;Eg`k
z6zuSbuoSyy;}t(&S-IoGnrEoc4|BcC)5}Vh{rGN%Yqk@>EEFgx-qx3b7U6T_h)xw(
zs;Tzy#u_9a*RI$EpH3oR`>d_AYs(+lfPAM~Tl2PBF83A7Co!tQdRw*b;6b4lPt$dP
kM2C3EA<3ep7~U%ac}6MG379Y&O;kD>ZmHw{02CHj5P+IT3;+NC

delta 4376
zcmV+z5$Ep2G4LXgfqz?b+cp+{&#&N&_La`s>Qmo#;?&KI9lKGsuN<0$WNaytAt5{N
zuV3&YUIF5E4%L~aV*xndcg}|^ArUwf$yInDDJ#AF{nuj_pAzEz+Y56V#98#Q$@)ms
znEbqYVaH_C6!HJ%`5z9Q?bY4Wf2uz!j3^1q(z{-O5Zhh_0e?*?3xe7a!d|l21|^J`
z9l#%VPmlINbk>ex^f=am?7q1K(pftO(&JbMayZW0mA_;!XpkeoABQ{>)w3>WZ#sf4
z3l1w#T^F`DZD8Y&g(Z>n$aCgGpF9`gBHaG+?f$m;C~6HNuw|6xR-udM?h%+bRh>ep
zG{J%L48kigkADuitV#LHNDHk}NZ|-ChVFX5a|BZmDUmbDh=30fqzD;(B?0g8BoPk~
zvr-Eq#jNbrE#2==CC$=@>a(cbE#m6}FE>UQib}~KFGx%y#uJ16DXss&q|CD*$;uLu
zVxMGh!7*gf3r!E`WLfbR7I9F9$DB8^wTO7FWf4J*EPu%k70WXsMVir)tkLSwYp1Q1
zb0y)|j+iibqwFQv)1M>`e&VxVfNh0VSw>m0POGem)*7i^Ns>jBy`x0-nI|0HKV@l5
zE9fvmn<W)YDAT5jbB%e_)`zCsklH#poM;@T5n0o*2{m{#SMlR62UP5MQ=A#|#hU^A
z6s*UHIe#bHd4M);YP$0eqOU(>CwBRU`H%1fZQ)_YeEG2gcVVQWM_nm>;e~R-|Ch3X
z2fy)23VNlaU_x0bsW@>bV{`VVsUO4guT}j(+cYp^#+VaT9$-AcsW`Ko(PNkdtO(OG
z&k7b?wjHit@AzvWO%Ko>;!XJ1?(b7>%zAii+JE}@b5lp2WOV3IW*RMG+-`2^LQry}
zBzUgUg2(Sco`mV@Zov;h2DF&%Kk8}QQNAXoeHRTRMYLCDzNV9Q3qZrb=5w2*pxMCS
z7NZuIEYSG88gCt+ewJ-5y16_-)pf3YN*ZcDEuy_Q>K1^Crimyer-J*K684rAe+j=H
z9e)>D_-=Gu@QPDMAtNdOcOSl!LNv?Bu{A-L=Ms1Lc4Puaf4F~w)`LUhsZoK0YH>@y
zg9yNJfTOMup+oH+wCXiqv_HThSE17|p?~uQC838GR>EPQ(!5@&?BBsKuWzBM{rVQZ
z;yEUC)pJP1D!QrV3>hov^NA5hv@KZWY=03dXA56BThz+o=+Hgr;gm31Pfbsxh)B+g
zW;@ck&P2e#RVbtYt<mq~$d{L4vg4xjI{ijU8lS@CtN8bTfbhUdEf9g~RX-$f#3L!H
zr7RoI%DxV=WNO!@8_ov~gd9ejatlMb?I=$iokl#jsS)w73}>a5R?^e5SGP|OyMHWs
zm8_zdpfxZRt=AQuri>i;!wG?ezY9-gNyBvTfb&#j&*3voD0_bj*$bdjYO<@}!(@M-
z9d=*8tsCXlmy~N<l8f<Uv>grFD0>YHD*YxBk2nr`>L6yTvsattCAYc=`Q?aNd;!|?
zj>)BXgYw5IEJ(aIe?j-`5}dqik$?T3Mznn^Xhr_6TdmA{5l#l$q8@KQ1J1P^4P{Q@
zxZo?O4ind7oE6j#wAyw^)wV;ZwjFA<?QpBDPbq5_{#cVA+rLGR3BD$y>bXPTpDZS4
ze*~S*&7U4n-=DJgX9w-iPU#O<V?07S3m~P+`*A+VtAXC+A<4}x4JMh_ynlMeW07->
zv{WZXC2#!IISbF<b^cXJSWuE?_0|3K?^+I0S$`D1zg(2e<CE^MN%&lS^S1Dov)8}n
zEXUd$@;XTqvn$@d;=Kesc$eIeWBw-jJjsZ;ADpdS=ph#J%$%y;&A0cbvKA-nc~QM6
zYg;Y-yZE9+Lw=Xa5uE(6n15^Pnq3u*&ykR2==oBeZ(v(Z{n-YhL_>a;Y7(4lv6yS>
znq4)GPsxyFEcnt6^}VI86LUkYvD&!H_69ng)3~Yi2BJol9I}G4m!o>-nwIQmuP$d9
zcXK%Ahc3f_Wny^u@O1Z|^Cu0;h^NxXl&`g_$UfD7YB1$lLZf$6rhnF|VtT6oR5N9^
zGG-$g9}Q&8tYpl386S0J%&cV0dKn+}WGoWD&oE*eTN?F&y0hC<-q^4nDKsmuvNW%}
zfmKDORe6<-dF2hPDkiPUs|Ph38OMh8h^Q%JWoa(sz^WqClCiQemvLZKF->KhoTefj
z=LM&(c*9dymJs=aM}PcFk+d1w_!G0y={G7m3#y(*hhlv6j$L^2vwh@QmR>0qfM)KE
z7lMj1Mh?45D3Q-XIxyK(l3B}DjgRi_Zh9iqQl_<Ut};rG2-7NM=(f9@QYo!u1e8!M
zpNVvX2choZJ#FVi#@h3Vb<>|3nlx~$#xXP!HUZf$`lS=`(tj%ep70d_EwWAbWpkZl
z&OHSfzh<E4L-W?e;H3#?r&NfFw<Gl2R=g5o>$}zqDLRGVqEL)N&f$!QChgLI0ZPy8
zK?+#P=VT2j$oXVGECJ5=Mx_A*6ub<I6smy9(hf5G@u34)p^sTCY|ujP-Zot&^p4HJ
z7Ep@rm3yS%JAZtm(trU@4%$KrbHZX_0~j)HPd4en;5}FJo;Yf#Gd2fXbScKCc&)0-
zm>LQQUa=JwvQ}gT1+YhcA(yo!qzL2V)Ud)Ivsl=GhrG%fS43rN2&lmP>^7wM=R|g9
zF0sRJqu3oSVP%CFIQ;H~_Nl{e=9rqGZ+KXrk_-!X34aa6CuUw+Sg}_ta9~z}@HpwU
zlopc1L1F5Kxcg;s0yh*8rea7t3Wg_!Lx8NO(q#ui9beFpF+~R6>Crr^-NhJR4YbW6
z%X8%+!PZv~XSW36fP6IM6-2(IsBj`)P&DbW{1+5c>JvJ{O5*=R^hS|*ZB=phAPsMl
zfB;!frGLw=A$5E~L&g{RGEac|o5dDLn4;lrC!1eF0)*ot*WeWGfo9cXIqZhB>WpkF
zE5yLzH=MOEZ*eon)C6(I$>N$BD4=x}8{AiMIqe2cz(b<yiSv^;!|Qz@K-N<Ud^^SR
zN+L)wO!dHjUZH(~lAAfECR+C`t)-WiGkDOLI)AS`t~rfo_~RJzwy@<DTaaKYsE6~D
zF{{hL;GovhZPj(!j2H%HO|357SLKf2z`AJL&NbasgZlifb$^q+DYg#qkK<<7+yP*q
zON6*0v%Q)R6zu{6jxP4gSaY%8g+&!!Hi*uEE<W(e*W}7XXM~l+L7QA%E_wt<)Dsha
z-+x+#2(lMFI6Glh%);kIIENDjkd`J|ux85*;gv7a6Bwiy#CY=yV$>X)sJ~q=sqaTL
zBc0n%FE2Fn;h5wO9#q!j>jE{{dCizoRwlRfyB_#;Yyr=W>idNBC~j;hZfc4fO^U4z
z#kQu{>QD%7H*#&7I=6vpl!0+xvHEw4Vt>5G*DVYb*ZC?igs{%g24$UtvKWBWcdRN)
zK)8+6!bTUm>K6rx2&HWeFOk(QX%~*g)FQdbPMmD*6=Yi(-F>Ubw|5w>DGYDcUCws)
zw!df>)a@Qtvz&b(f_q6}LJ<IKm$VOOa1km@7z03M32V2nftvmGttZQH@C|q@8Gl}=
ztSsT;Ht2{lxUyMQz{O{*?kK(<+Muj;P&Ysoa3gEmH}-9N3*_5Y=G)fAH{gD^Rrb3r
zK)>4p_q(mC-)-Id-4?IkZ4LU}7PQ~-pr9wi@kQerW$c_kRu_2J&z^aI`M7%k!aL11
z%fST#*{PQ=Q#UmLj1g`GSiH>Luz$Q=fULbFy=*Q?FWO7eQv&hiw{VlZQEBMVAX}-<
zb@p~<;8DZ1+Xe3zTCdtlBjmyNE#oq#Vab84zKDPr)`b|B12$a8UO>|7vXa{e<=+r3
zTvzA`uPf9d+r;^?xxmt#c3|7x<*7${Xs>h}e9tzxV6wVj(!v`JQ1w-knt%QauZMJz
zQgubDA|J$U)db++|76tHC<qf#e@!lYNIkZ8Ntd8-`i$+3tG0%?3c$BujVsR;P1^tg
zS)3?)4GSuN#TiGQ0V@CovP5yvQw1?wQ>Q646cD;%)lc6`ZneH(BW55Rbh$1g6@*Od
zNyOsy1!_2*5wOKMzjD8-I)5FhJH%T01m%xYSdjQ4I(6i5P}sT^biZzos|nrA*U*Gd
zrewdT5tZJ9jHu6u91aRux0m`?vxhP*))ee_&U&96c3;1F02s&;(Ud<ImgF)@eQC%c
z1e-x2>(;H**3_#fb%#LKXLW5Hby-Cdw(26FqH{5JQ6r1tD*y5JvwtVeadZ-XpN9LS
z+K3qzar7T}o0ogGxXs(;gSd?%zTP(PydX?O@Y}q-r>bpUK}naOO296>lXl^qTNf@d
zy6{fjg?B(*xCHOQJ4F}XL3H5~uM6*VyYLRQ3zvvpc&FWkceY)4_-*;Lm_;0ma1P(`
z+ARwzEA6S?Wm4>I4Sy#(yRove(jNa@MvC56(EE!dXsTQJ&Ht=q_mzL2vy8imv(s}z
zek}ebL`XBWysba}@pbwGkOkIPYu48>>z{h8To|AK*JhZoPArWSKD-}E`dZTCDG6Ct
z7|~8l@7|A})7Rbkvw}EFN%@ko*DyJe<&$H@>_Yp;l<auopMO>2Z?nT(g?`vHuFgiY
zLD@8=&Su_xPK+kX-Zw1Nb-X%J3bg5pT$O|cC6VnyPq9UY^CUU%VE(AHG+Ae68X<CL
ze1pLH;$0BcTY)5J(h8X5*V=z-(?r&rbCMFKFR6v+XMEs(rQ}T?xHma7c#mz0kcv+f
z^pN^_LDPulvwvYrL^U_Lty8?GE=5SypM&6wPInMd%}wsQ6z`!uy+J@#5Ss3@A|iZz
zV}3%yBBkj;%_p(@Hca;J+vE?j_A_WUy}RG;`D7BEDul2Z)I`egNgy7Uk^wK7=y8gh
z)^K<}7wFp$JMme8hII!kS(qd>s!WE((zQBY2I*?_&3`c2kZNoz<Na}>(O&`2E0{W{
zdEq*yKdNMJS0yW<H{@q^kkDd4Vw#cV=l*Xs<+MxrH1&s#$<Pla+@QlYhndiE3srku
zr}}lOp>sn^qk7R9Ka}i-gUP8RMSVvC`ADiY5!WX@1R)obmGgGESh{YAzh`eA%e*$1
zcziHuvVXmt6x@Mh^P?se?dBzW^I7JfajJD{lj{#~44u;iH4j13YiA{Dh5pM^y}K$^
zjIpT_{W?(tZdh81+>bj7CkF+Gwb^Ej$M`UfJ<3HnAI22XY6f25J<H#wk2<W+(R_~P
z57G1;HHUVJj1?hGHT%i5>`>P_ucqTvN%roII)AU%b>7BQ<-%EnI;)PlLG{H$LfiC>
z9JizZ40nFQnU?r-vw1xnCUb^~2b<_rvg}CzCb8eVL*Wab-SmB1K>XC@cukJiy`ZA+
z@Tevgi(~_@6|iuEH}ifT7U7XFQqaEz>lp*TC2-AgtkYx@KY3L}FJZ}O<j;SzZs6b)
zXMfjy_VW67=K3z3v;FM(e<Z4_hxbCi`Uw^(s{RYt94x55w<ca^;&BtNGZ8eK^J923
za5S@H?J`dsKBf=z`^}AZxakTd2fo5$FUKXINtppym(u}O_dAzl$**yV9_*a{L2;;`
z2y^NDKgo%NOD}<mD2xvAQ|urM@y%ZWlYi}viQu*NnFTvMBCLg7v+)!E(0FmjhgVN;
z&~?3Y>iJ2Q|M_8ttG5%tBNPzi@BTTXL3pTzXsHId3bUtoULon&y5tjlG#LS#w8m!F
z<UjEa`C;kVdKjzW<Nm_qlNeRwd3))(V+acM@HBl6kZ_0}IV7uSDTebCfqX?N;SmH}
SFl$XzDmUzwj{gUuH(rqb8JK+l

diff --git a/py-modindex.html b/py-modindex.html
index 640a0ad..4b0820a 100644
--- a/py-modindex.html
+++ b/py-modindex.html
@@ -328,6 +328,11 @@ <h1>Python Module Index</h1>
        <td>&#160;&#160;&#160;
        <a href="api_doc/agents/index.html#module-grl.agents"><code class="xref">grl.agents</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="api_doc/algorithms/index.html#module-grl.algorithms"><code class="xref">grl.algorithms</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
@@ -348,6 +353,11 @@ <h1>Python Module Index</h1>
        <td>&#160;&#160;&#160;
        <a href="api_doc/numerical_methods/index.html#module-grl.numerical_methods"><code class="xref">grl.numerical_methods</code></a></td><td>
        <em></em></td></tr>
+     <tr class="cg-1">
+       <td></td>
+       <td>&#160;&#160;&#160;
+       <a href="api_doc/rl_modules/index.html#module-grl.rl_modules"><code class="xref">grl.rl_modules</code></a></td><td>
+       <em></em></td></tr>
      <tr class="cg-1">
        <td></td>
        <td>&#160;&#160;&#160;
diff --git a/searchindex.js b/searchindex.js
index c1a09cb..3739b5a 100644
--- a/searchindex.js
+++ b/searchindex.js
@@ -1 +1 @@
-Search.setIndex({"docnames": ["api_doc/agents/index", "api_doc/algorithms/index", "api_doc/datasets/index", "api_doc/generative_models/index", "api_doc/neural_network/index", "api_doc/numerical_methods/index", "api_doc/rl_modules/index", "api_doc/utils/index", "concepts/index", "index", "tutorials/installation/index", "tutorials/quick_start/index", "user_guide/evaluating_agents", "user_guide/index", "user_guide/installation", "user_guide/training_agents", "user_guide/training_generative_models"], "filenames": ["api_doc/agents/index.rst", "api_doc/algorithms/index.rst", "api_doc/datasets/index.rst", "api_doc/generative_models/index.rst", "api_doc/neural_network/index.rst", "api_doc/numerical_methods/index.rst", "api_doc/rl_modules/index.rst", "api_doc/utils/index.rst", "concepts/index.rst", "index.rst", "tutorials/installation/index.rst", "tutorials/quick_start/index.rst", "user_guide/evaluating_agents.rst", "user_guide/index.rst", "user_guide/installation.rst", "user_guide/training_agents.rst", "user_guide/training_generative_models.rst"], "titles": ["grl.agents", "grl.algorithms", "grl.datasets", "grl.generative_models", "grl.neural_network", "grl.numerical_methods", "grl.rl_modules", "grl.utils", "Concepts", "GenerativeRL Documentation", "Installation", "Quick Start", "How to evaluate RL agents performance", "User Guide", "How to install GenerativeRL and its dependencies", "How to train and deploy reinforcement learning agents", "How to train generative models"], "terms": {"class": [0, 2, 3, 4, 5, 8, 12, 15, 16], "config": [0, 3, 5, 11, 12, 15, 16], "model": [0, 3, 4, 5, 9, 13, 15], "sourc": [0, 2, 3, 4, 5, 7, 8], "overview": [0, 2, 3, 4, 5, 7], "The": [0, 2, 3, 4, 5, 7, 8, 11, 12, 16], "qgpo": [0, 2, 11, 15], "algorithm": [0, 2, 8, 9, 11, 12, 15], "interfac": [0, 2, 3, 4, 5, 8, 11], "__init__": [0, 2, 3, 4, 5, 16], "action": [0, 2, 8, 12], "initi": [0, 2, 3, 4, 5, 8, 11, 16], "paramet": [0, 2, 3, 4, 5, 7, 8], "easydict": [0, 3, 5, 16], "configur": [0, 3, 5, 8, 11, 15, 16], "union": [0, 3, 4, 5], "torch": [0, 3, 4, 5], "nn": [0, 3, 5, 16], "modul": [0, 3, 5, 12, 15, 16], "moduledict": [0, 3], "act": [0, 11, 12, 15], "ob": 0, "return_as_torch_tensor": 0, "fals": [0, 3, 4, 5, 7], "given": [0, 3, 5, 8], "an": [0, 3, 4, 5, 8, 11, 12, 15], "observ": [0, 8, 11, 12, 15], "return": [0, 3, 4, 5, 7, 12, 15, 16], "np": 0, "ndarrai": 0, "tensor": [0, 3, 4, 5, 8], "dict": [0, 16], "bool": [0, 3, 4, 5, 7], "whether": [0, 3, 4, 5, 7, 8, 14], "type": [0, 3, 4, 5, 7, 8, 16], "srpo": 0, "train": [0, 2, 3, 8, 9, 11, 13], "gener": [0, 2, 3, 5, 7, 9, 13], "polici": [0, 2, 3, 8, 11], "thi": [0, 3, 4, 8, 9, 11, 16], "i": [0, 2, 3, 4, 5, 7, 8, 9, 11, 12, 13, 14, 16], "design": [0, 3, 9], "us": [0, 3, 4, 5, 7, 8, 9, 10, 11, 12, 14, 15, 16], "gmpgalgorithm": [0, 9], "gmpoalgorithm": [0, 9], "numpi": 0, "arrai": 0, "env_id": [2, 11, 12, 15], "base": [2, 3, 5, 8], "contrast": [2, 3], "energi": [2, 3], "predict": [2, 3, 5], "which": [2, 3, 5, 8, 12, 14, 16], "need": [2, 8, 11, 15], "true": [2, 3, 4, 5, 7], "fake": 2, "sampl": [2, 3, 5, 8, 16], "from": [2, 3, 5, 8, 10, 11, 15, 16], "support": [2, 3, 5, 11, 16], "behaviour": 2, "__getitem__": 2, "__len__": 2, "method": [2, 3, 5, 8, 11, 12, 15, 16], "str": [2, 3, 5], "environ": [2, 8, 11, 12, 14, 15], "id": 2, "d4rl": [2, 14], "sometim": 2, "data": [2, 3, 4, 5, 8, 16], "augment": [2, 8], "diffus": [3, 4, 5, 8, 9, 11, 16], "variou": [3, 8], "continu": [3, 8], "time": [3, 5, 8, 16], "path": [3, 5, 8, 13], "comput": [3, 5, 8], "score": [3, 8, 16], "function": [3, 4, 5, 8, 11, 16], "veloc": [3, 16], "It": [3, 5, 14], "can": [3, 5, 8, 10, 11, 12, 14, 15, 16], "via": 3, "nois": [3, 5, 16], "both": [3, 16], "match": [3, 8, 16], "loss": [3, 16], "flow": [3, 5, 8, 9, 16], "ar": [3, 8, 15, 16], "score_funct": 3, "score_matching_loss": [3, 16], "velocity_funct": 3, "flow_matching_loss": [3, 16], "data_prediction_funct": [3, 5], "t": [3, 4, 5, 8, 16], "x": [3, 4, 5, 16], "condit": [3, 4, 5, 16], "none": [3, 4, 5, 7, 16], "state": [3, 5, 11], "frac": [3, 5, 16], "sigma": [3, 4, 5, 8, 16], "x_t": [3, 8, 16], "2": [3, 4, 5, 14, 16], "nabla_": [3, 16], "log": [3, 5, 8, 11, 16], "p_": 3, "theta": [3, 16], "": [3, 5, 11], "input": [3, 4, 5, 12, 15, 16], "tensordict": [3, 4, 5], "treetensor": 3, "dpo_loss": 3, "ref_dm": 3, "beta": [3, 5], "process": [3, 5, 8, 11, 16], "direct": [3, 8], "optim": [3, 8, 11], "dpo": 3, "develop": [3, 10], "featur": 3, "recommend": [3, 5], "averag": 3, "across": [3, 8], "batch": [3, 4], "forward_sampl": 3, "t_span": [3, 5], "with_grad": 3, "solver_config": 3, "forward": [3, 4, 8, 16], "note": [3, 14], "revers": [3, 8, 16], "thu": 3, "form": [3, 5, 16], "rather": 3, "encod": 3, "latent": [3, 4], "space": [3, 5], "span": 3, "gradient": [3, 8], "solver": [3, 5, 16], "forward_sample_process": 3, "all": [3, 4], "intermedi": [3, 5], "log_prob": 3, "using_hutchinson_trace_estim": 3, "probabl": [3, 4, 5], "noise_funct": [3, 5, 16], "batch_siz": 3, "x_0": [3, 16], "final": [3, 4, 5], "size": [3, 4], "int": [3, 4, 5, 7], "tupl": [3, 4], "list": [3, 4, 13], "provid": [3, 7, 8, 9, 11, 15, 16], "gaussian": [3, 5, 16], "distribut": [3, 8, 16], "result": [3, 8], "shape": [3, 4, 5, 16], "where": [3, 5, 16], "number": [3, 4, 5, 11], "step": [3, 5, 11, 12, 14, 15], "b": 3, "could": 3, "scalar": [3, 5], "b1": 3, "b2": 3, "n": [3, 4, 5, 11], "d": [3, 5, 16], "dimens": [3, 4, 8], "d1": 3, "d2": 3, "extra": 3, "If": [3, 5, 7], "sample_forward_process": 3, "repeat": 3, "same": [3, 5, 16], "sample_forward_process_with_fixed_x": 3, "fixed_x": 3, "fixed_mask": 3, "fix": [3, 8], "mask": 3, "sample_with_fixed_x": 3, "sample_with_log_prob": 3, "likelihood": [3, 8, 16], "weighting_schem": 3, "uncondit": [3, 4], "weight": [3, 4, 8, 16], "scheme": 3, "maximum_likelihood": 3, "vanilla": 3, "maximum": [3, 8, 16], "estim": [3, 8, 16], "refer": [3, 11, 13, 15], "paper": 3, "more": [3, 5, 11, 13, 15], "detail": [3, 5, 11, 13], "lambda": [3, 5, 16], "denot": [3, 16], "g": [3, 5, 8, 14, 16], "numer": [3, 8], "stabil": 3, "we": [3, 5, 8, 11, 16], "mont": 3, "carlo": 3, "approxim": [3, 5], "integr": [3, 5, 8], "p": [3, 5, 14, 16], "balanc": 3, "mse": 3, "scale": [3, 4, 5, 16], "output": [3, 4, 5, 16], "valu": [3, 5, 7, 8], "through": [3, 4, 8, 11], "stochast": [3, 5, 8, 13], "differenti": [3, 5, 8, 16], "equat": [3, 5, 8, 16], "v_": [3, 16], "energy_model": 3, "text": [3, 16], "e": [3, 5, 8, 14, 16], "c": [3, 4, 14, 16], "sim": 3, "exp": 3, "mathcal": [3, 5, 16], "z": 3, "sample_without_energy_guid": 3, "score_function_with_energy_guid": 3, "energy_guidance_loss": 3, "data_prediction_function_with_energy_guid": 3, "guidance_scal": 3, "1": [3, 4, 5, 14, 16], "0": [3, 4, 5, 14, 16], "guidanc": [3, 4], "float": [3, 4, 5], "cep": 3, "propos": 3, "exact": 3, "guid": [3, 11], "offlin": [3, 8], "reinforc": [3, 9, 12, 13, 14], "learn": [3, 4, 9, 12, 13, 14], "noise_function_with_energy_guid": 3, "nose": 3, "nabla": 3, "sample_with_fixed_x_without_energy_guid": 3, "without": [3, 5], "independ": [3, 8, 16], "get_typ": 3, "x0": [3, 5], "x1": 3, "flow_matching_loss_with_mask": 3, "signal": [3, 8], "either": 3, "ha": [3, 5, 12, 15, 16], "correspond": 3, "element": [3, 4, 5], "usual": [3, 16], "x_1": [3, 16], "log_prob_x_0": 3, "function_log_prob_x_0": 3, "callabl": [3, 5], "hutchinson": 3, "trace": 3, "jacobian": 3, "drift": [3, 5, 8, 16], "faster": 3, "less": 3, "accur": [3, 8], "set": [3, 7, 16], "high": [3, 5, 8], "dimension": 3, "log_likelihood": 3, "optimal_transport_flow_matching_loss": 3, "transport": 3, "plan": 3, "two": 3, "sample_with_mask": 3, "sample_with_mask_forward_process": 3, "between": [3, 5, 8, 16], "flow_matching_loss_small_batch_ot_plan": 3, "small": 3, "acceler": 3, "concaten": 4, "along": 4, "last": [4, 5], "layer": [4, 16], "hidden_s": [4, 16], "output_s": 4, "activ": 4, "dropout": 4, "layernorm": 4, "final_activ": 4, "shrink": 4, "multi": 4, "perceptron": 4, "fulli": 4, "connect": 4, "fc1": 4, "act1": 4, "fcn": 4, "actn": 4, "out": 4, "hidden": 4, "channel": 4, "option": [4, 7], "zero": 4, "default": [4, 7, 15], "block": [4, 11], "shrinkag": 4, "factor": [4, 5], "kwarg": [4, 5], "pass": 4, "mlp": [4, 16], "keyword": 4, "argument": [4, 5], "output_dim": [4, 16], "t_dim": [4, 16], "input_dim": 4, "condition_dim": 4, "condition_hidden_dim": 4, "t_condition_hidden_dim": 4, "tempor": 4, "spatial": 4, "residu": 4, "network": [4, 8, 13], "multipl": 4, "temporalspatialresblock": 4, "input_s": 4, "32": 4, "patch_siz": 4, "in_channel": 4, "4": [4, 5], "1152": 4, "depth": 4, "28": 4, "num_head": 4, "16": 4, "mlp_ratio": 4, "class_dropout_prob": 4, "num_class": 4, "1000": 4, "learn_sigma": 4, "transform": [4, 8, 16], "backbon": [4, 16], "offici": 4, "implement": [4, 8, 12, 15], "github": [4, 10, 14], "repo": 4, "http": [4, 10, 14], "com": [4, 10, 14], "facebookresearch": 4, "blob": 4, "main": 4, "py": [4, 14], "patch": 4, "attent": 4, "head": 4, "respect": 4, "timestep": 4, "imag": [4, 8, 14], "represent": 4, "label": 4, "forward_with_cfg": 4, "cfg_scale": 4, "also": [4, 5, 8, 10, 15, 16], "classifi": [4, 8], "free": [4, 8], "initialize_weight": 4, "unpatchifi": 4, "img": 4, "h": 4, "w": [4, 16], "token_s": 4, "condition_embedd": 4, "1d": 4, "3d": 4, "inform": [4, 11, 13, 15], "origin": 4, "video": [4, 8], "alia": 4, "patch_block_s": 4, "10": 4, "convolv": 4, "each": 4, "token": 4, "total_patch": 4, "ordinari": [5, 8], "defin": [5, 8, 15, 16], "dx": 5, "f": [5, 8, 16], "dt": [5, 8, 16], "term": 5, "dw": 5, "wiener": [5, 16], "order": 5, "devic": [5, 16], "atol": 5, "1e": 5, "05": 5, "rtol": 5, "dpm_solver": 5, "singlestep": 5, "solver_typ": 5, "skip_typ": 5, "time_uniform": 5, "denois": [5, 8, 16], "dpm": 5, "should": 5, "3": [5, 14], "absolut": 5, "toler": 5, "adapt": [5, 8], "rel": 5, "total": 5, "evalu": [5, 8, 9, 11, 13, 15], "nfe": 5, "multistep": 5, "singlestep_fix": 5, "taylor": 5, "slightli": 5, "impact": 5, "perform": [5, 9, 13, 15], "logsnr": 5, "time_quadrat": 5, "diffusion_process": 5, "save_intermedi": 5, "diffusionprocess": 5, "t_start": 5, "solut": 5, "t_end": 5, "x_end": 5, "ode_solv": 5, "euler": [5, 8], "01": 5, "librari": [5, 8, 9, 11, 14, 16], "torchdyn": [5, 8, 16], "torchdiffeq": [5, 8], "current": [5, 16], "addit": [5, 14], "first": [5, 11], "For": [5, 8, 11, 13, 14, 15, 16], "exampl": [5, 8, 11, 13, 14, 16], "trajectori": 5, "len": [5, 16], "sde_solv": 5, "sde_noise_typ": 5, "diagon": 5, "sde_typ": 5, "ito": 5, "001": 5, "torchsd": 5, "stratonovich": 5, "logqp": 5, "case": [5, 11], "mu": 5, "written": 5, "mathrm": [5, 16], "w_": 5, "sqrt": 5, "covari": 5, "matrix": 5, "standard": [5, 16], "deviat": 5, "half": 5, "differ": [5, 8, 13], "vp": [5, 16], "int_": [5, 16], "linear": [5, 16], "todo": 5, "add": 5, "cosin": 5, "ve": 5, "opt": 5, "halflogsnr": 5, "inversehalflogsnr": 5, "invers": 5, "sinc": 5, "invert": 5, "beta_1": [5, 16], "beta_0": [5, 16], "d_covariance_dt": 5, "deriv": [5, 16], "d_log_scale_dt": 5, "d_scale_dt": 5, "d_std_dt": 5, "follow": [5, 8, 14, 15, 16], "diffusion_squar": 5, "drift_coeffici": 5, "coeffici": [5, 16], "satisfi": 5, "log_scal": 5, "std": 5, "seed_valu": 7, "cudnn_determinist": 7, "cudnn_benchmark": 7, "random": [7, 8], "seed": [7, 8], "make": [7, 8, 9, 11, 12, 14, 15], "cudnn": 7, "oper": 7, "determinist": 7, "enabl": [7, 8], "benchmark": 7, "convolut": 7, "framework": [8, 9], "consist": 8, "code": [8, 16], "api": [8, 11, 13, 15, 16], "deploy": [8, 11], "generativerl": [8, 10, 12, 13, 15, 16], "user": [8, 12, 16], "friendli": 8, "deploi": [8, 9, 11, 12, 13], "rl": [8, 9, 13, 15], "agent": [8, 9, 11, 13], "In": [8, 11, 12, 15, 16], "section": [8, 11, 13, 15], "explor": 8, "core": 8, "includ": [8, 11, 16], "discuss": 8, "kei": 8, "underpin": 8, "how": [8, 9, 11, 13], "thei": 8, "leverag": 8, "address": 8, "complex": 8, "problem": [8, 9, 14], "field": [8, 16], "addition": 8, "explain": 8, "why": 8, "import": [8, 11, 12, 14, 15, 16], "what": 8, "uniqu": 8, "wide": 8, "rang": [8, 11, 12, 15, 16], "applic": [8, 16], "machin": 8, "new": [8, 11, 16], "typic": [8, 16], "dataset": [8, 9, 11, 15], "most": 8, "unsupervis": 8, "techniqu": 8, "appli": 8, "task": 8, "audio": 8, "interpol": 8, "focus": 8, "dynam": 8, "These": [8, 16], "have": [8, 14], "capac": 8, "captur": 8, "demonstr": [8, 11], "promis": 8, "varieti": 8, "its": [8, 9, 11, 13, 15, 16], "variant": [8, 16], "qualiti": 8, "solv": [8, 9, 14], "od": [8, 9], "sde": [8, 9, 16], "dx_t": [8, 16], "dw_t": [8, 16], "unifi": [8, 12, 16], "howev": 8, "vari": 8, "definit": 8, "some": [8, 14], "under": [8, 12, 15], "common": 8, "while": [8, 15, 16], "other": [8, 11, 13, 15], "mai": 8, "requir": [8, 14], "specif": [8, 11, 15], "There": 8, "four": 8, "open": 8, "neural": [8, 13], "parameter": [8, 13], "certain": 8, "part": 8, "potenti": 8, "determin": 8, "procedur": 8, "fundament": 8, "object": [8, 13], "maxim": 8, "pretrain": 8, "like": 8, "bridg": [8, 16], "fine": 8, "tune": 8, "advantag": 8, "regress": 8, "adjoint": 8, "involv": 8, "depend": [8, 9, 13], "maruyama": 8, "rung": 8, "kutta": 8, "offer": 8, "flexibl": [8, 11], "allow": 8, "custom": [8, 13], "extend": 8, "suit": [8, 11, 14], "instanc": [8, 11, 15], "easili": 8, "own": [8, 16], "architectur": [8, 16], "creat": [8, 11, 15, 16], "tailor": 8, "format": [8, 11], "decis": [8, 9], "interact": [8, 15], "receiv": 8, "reward": [8, 11, 12, 15], "penalti": 8, "cumul": 8, "take": [8, 12, 15, 16], "updat": 8, "categor": 8, "directli": [8, 16], "onlin": 8, "strategi": 8, "off": 8, "actor": 8, "critic": 8, "research": 8, "improv": 8, "effici": 8, "synthet": 8, "decoupl": 8, "littl": 8, "modif": 8, "rank": 8, "least": 8, "automat": 8, "pytorch": [8, 14], "unif": 8, "within": [8, 11], "singl": 8, "simplic": 8, "simpl": [8, 11], "intuit": 8, "extens": 8, "dictionari": [8, 15], "modular": 8, "built": 8, "mix": 8, "compon": [8, 11], "reproduc": 8, "ensur": 8, "checkpoint": 8, "possibl": 8, "run": [8, 12, 14], "minim": 8, "seek": 8, "extern": 8, "lightweight": 8, "instal": [8, 9, 13], "platform": 8, "compat": 8, "exist": 8, "work": [8, 16], "seamlessli": 8, "openai": [8, 11], "gym": [8, 11, 12, 14, 15], "torchrl": 8, "python": [9, 14], "aim": 9, "combin": 9, "power": [9, 11], "capabl": 9, "quick": 9, "start": 9, "explan": 9, "principl": 9, "grl": [9, 10, 11, 12, 14, 15, 16], "qgpoagent": 9, "srpoagent": 9, "gpagent": 9, "qgpocrit": 9, "qgpopolici": 9, "qgpoalgorithm": [9, 11, 15], "srpocrit": 9, "srpopolici": 9, "srpoalgorithm": 9, "gmpocrit": 9, "gmpopolici": 9, "gmpgcritic": 9, "gmpgpolici": 9, "qgpod4rldataset": 9, "qgpodataset": 9, "gpd4rldataset": 9, "gpdataset": 9, "generative_model": [9, 16], "diffusionmodel": [9, 16], "energyconditionaldiffusionmodel": 9, "independentconditionalflowmodel": 9, "optimaltransportconditionalflowmodel": 9, "neural_network": [9, 16], "concatenatelay": 9, "multilayerperceptron": 9, "concatenatemlp": 9, "temporalspatialresidualnet": [9, 16], "dit": 9, "dit1d": 9, "dit2d": 9, "dit3d": 9, "numerical_method": [9, 16], "dpmsolver": 9, "odesolv": [9, 16], "sdesolv": 9, "gaussianconditionalprobabilitypath": [9, 16], "rl_modul": 9, "gymenvsimul": 9, "oneshotvaluefunct": 9, "vnetwork": 9, "doublevnetwork": 9, "qnetwork": 9, "doubleqnetwork": 9, "util": [9, 11], "set_se": 9, "pip": [10, 14], "you": [10, 11, 14, 15], "latest": 10, "version": [10, 14], "git": [10, 14], "opendilab": [10, 14], "easi": 11, "swiss": 11, "roll": 11, "colab": 11, "usag": [11, 13], "found": 11, "folder": 11, "grl_pipelin": [11, 15], "tutori": 11, "here": [11, 13, 16], "q": 11, "halfcheetah": 11, "diffusion_model": [11, 15, 16], "d4rl_halfcheetah_qgpo": [11, 15], "def": [11, 16], "qgpo_pipelin": 11, "env": [11, 12, 15], "reset": [11, 12, 15], "_": [11, 12, 15, 16], "num_deploy_step": [11, 12, 15], "render": [11, 12, 15], "done": [11, 12, 15], "__name__": 11, "__main__": 11, "info": 11, "necessari": 11, "well": 11, "encapsul": 11, "call": [11, 16], "after": [11, 14], "obtain": [11, 16], "A": [11, 16], "loop": 11, "execut": 11, "specifi": 11, "print": 11, "consol": 11, "modifi": 11, "your": 11, "advanc": [11, 13], "pleas": [11, 13, 15], "document": [11, 13, 15], "simul": 12, "collect": 12, "9": 14, "higher": 14, "command": 14, "clone": 14, "cd": 14, "pybullet": 14, "mujoco": 14, "deepmind": 14, "control": 14, "etc": 14, "dm_control": 14, "setup": 14, "licens": 14, "special": 14, "23": 14, "anoth": 14, "thing": 14, "sudo": 14, "apt": 14, "get": 14, "libgl1": 14, "mesa": 14, "glx": 14, "libglib2": 14, "libsm6": 14, "libxext6": 14, "libxrend": 14, "dev": 14, "y": 14, "swig": 14, "gcc": 14, "local": 14, "dnsutil": 14, "cmake": 14, "build": 14, "essenti": 14, "libglew": 14, "libosmesa6": 14, "libglfw3": 14, "libsdl2": 14, "libglm": 14, "libfreetype6": 14, "patchelf": 14, "ffmpeg": 14, "mkdir": 14, "root": 14, "wget": 14, "org": 14, "download": 14, "mujoco210": 14, "linux": 14, "x86_64": 14, "tar": 14, "gz": 14, "o": 14, "xf": 14, "export": 14, "ld_library_path": 14, "mjpro210": 14, "bin": 14, "farama": 14, "foundat": 14, "lockfil": 14, "cython": 14, "check": 14, "success": 14, "everi": [15, 16], "hyperparamet": 15, "copi": 15, "trained_model": 15, "divers": 16, "describ": 16, "evolut": 16, "over": 16, "increment": 16, "probability_path": 16, "kind": 16, "varianc": 16, "preserv": 16, "gvp": 16, "usal": 16, "want": 16, "normal": 16, "target": 16, "By": 16, "fokker": 16, "planck": 16, "kolmogorov": 16, "fpk": 16, "hat": 16, "_t": 16, "s_": 16, "codebas": 16, "ddpm": 16, "compar": 16, "Or": 16, "v": 16, "nerual": 16, "therefor": 16, "intrinsicmodel": 16, "ani": 16, "cnn": 16, "u": 16, "net": 16, "x_size": 16, "alpha": 16, "arg": 16, "linear_vp_sd": 16, "20": 16, "t_encod": 16, "512": 16, "256": 16, "128": 16, "t_embedding_dim": 16, "register_modul": 16, "regist": 16, "so": 16, "mymodul": 16, "self": 16, "super": 16, "modulelist": 16, "append": 16, "relu": 16, "mle": 16, "onli": 16, "mean": 16, "squar": 16, "error": 16, "l": 16, "dsm": 16, "mathbb": 16, "left": 16, "right": 16, "cfm": 16, "simpli": 16}, "objects": {"grl": [[0, 0, 0, "-", "agents"], [2, 0, 0, "-", "datasets"], [3, 0, 0, "-", "generative_models"], [4, 0, 0, "-", "neural_network"], [5, 0, 0, "-", "numerical_methods"], [7, 0, 0, "-", "utils"]], "grl.agents": [[0, 1, 1, "", "GPAgent"], [0, 1, 1, "", "QGPOAgent"], [0, 1, 1, "", "SRPOAgent"]], "grl.agents.GPAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.agents.QGPOAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.agents.SRPOAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.datasets": [[2, 1, 1, "", "GPD4RLDataset"], [2, 1, 1, "", "GPDataset"], [2, 1, 1, "", "QGPOD4RLDataset"], [2, 1, 1, "", "QGPODataset"]], "grl.datasets.GPD4RLDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.GPDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.QGPOD4RLDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.QGPODataset": [[2, 2, 1, "", "__init__"]], "grl.generative_models": [[3, 1, 1, "", "DiffusionModel"], [3, 1, 1, "", "EnergyConditionalDiffusionModel"], [3, 1, 1, "", "IndependentConditionalFlowModel"], [3, 1, 1, "", "OptimalTransportConditionalFlowModel"]], "grl.generative_models.DiffusionModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "data_prediction_function"], [3, 2, 1, "", "dpo_loss"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "forward_sample"], [3, 2, 1, "", "forward_sample_process"], [3, 2, 1, "", "log_prob"], [3, 2, 1, "", "noise_function"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_forward_process_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x"], [3, 2, 1, "", "sample_with_log_prob"], [3, 2, 1, "", "score_function"], [3, 2, 1, "", "score_matching_loss"], [3, 2, 1, "", "velocity_function"]], "grl.generative_models.EnergyConditionalDiffusionModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "data_prediction_function"], [3, 2, 1, "", "data_prediction_function_with_energy_guidance"], [3, 2, 1, "", "energy_guidance_loss"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "noise_function"], [3, 2, 1, "", "noise_function_with_energy_guidance"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_forward_process_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x_without_energy_guidance"], [3, 2, 1, "", "sample_without_energy_guidance"], [3, 2, 1, "", "score_function"], [3, 2, 1, "", "score_function_with_energy_guidance"], [3, 2, 1, "", "score_matching_loss"], [3, 2, 1, "", "velocity_function"]], "grl.generative_models.IndependentConditionalFlowModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "flow_matching_loss_with_mask"], [3, 2, 1, "", "forward_sample"], [3, 2, 1, "", "forward_sample_process"], [3, 2, 1, "", "log_prob"], [3, 2, 1, "", "optimal_transport_flow_matching_loss"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_with_log_prob"], [3, 2, 1, "", "sample_with_mask"], [3, 2, 1, "", "sample_with_mask_forward_process"]], "grl.generative_models.OptimalTransportConditionalFlowModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "flow_matching_loss_small_batch_OT_plan"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"]], "grl.neural_network": [[4, 1, 1, "", "ConcatenateLayer"], [4, 1, 1, "", "ConcatenateMLP"], [4, 1, 1, "", "DiT"], [4, 1, 1, "", "DiT1D"], [4, 3, 1, "", "DiT2D"], [4, 1, 1, "", "DiT3D"], [4, 1, 1, "", "MultiLayerPerceptron"], [4, 1, 1, "", "TemporalSpatialResidualNet"]], "grl.neural_network.ConcatenateLayer": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.ConcatenateMLP": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.DiT": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "forward_with_cfg"], [4, 2, 1, "", "initialize_weights"], [4, 2, 1, "", "unpatchify"]], "grl.neural_network.DiT1D": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "initialize_weights"]], "grl.neural_network.DiT3D": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "initialize_weights"], [4, 2, 1, "", "unpatchify"]], "grl.neural_network.MultiLayerPerceptron": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.TemporalSpatialResidualNet": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.numerical_methods": [[5, 1, 1, "", "DPMSolver"], [5, 1, 1, "", "GaussianConditionalProbabilityPath"], [5, 1, 1, "", "ODE"], [5, 1, 1, "", "ODESolver"], [5, 1, 1, "", "SDE"], [5, 1, 1, "", "SDESolver"]], "grl.numerical_methods.DPMSolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.numerical_methods.GaussianConditionalProbabilityPath": [[5, 2, 1, "", "HalfLogSNR"], [5, 2, 1, "", "InverseHalfLogSNR"], [5, 2, 1, "", "__init__"], [5, 2, 1, "", "covariance"], [5, 2, 1, "", "d_covariance_dt"], [5, 2, 1, "", "d_log_scale_dt"], [5, 2, 1, "", "d_scale_dt"], [5, 2, 1, "", "d_std_dt"], [5, 2, 1, "", "diffusion"], [5, 2, 1, "", "diffusion_squared"], [5, 2, 1, "", "drift"], [5, 2, 1, "", "drift_coefficient"], [5, 2, 1, "", "log_scale"], [5, 2, 1, "", "scale"], [5, 2, 1, "", "std"]], "grl.numerical_methods.ODE": [[5, 2, 1, "", "__init__"]], "grl.numerical_methods.ODESolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.numerical_methods.SDE": [[5, 2, 1, "", "__init__"]], "grl.numerical_methods.SDESolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.utils": [[7, 4, 1, "", "set_seed"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:attribute", "4": "py:function"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "attribute", "Python attribute"], "4": ["py", "function", "Python function"]}, "titleterms": {"grl": [0, 1, 2, 3, 4, 5, 6, 7], "agent": [0, 12, 15], "qgpoagent": 0, "srpoagent": 0, "gpagent": 0, "algorithm": 1, "qgpocrit": 1, "qgpopolici": 1, "qgpoalgorithm": 1, "srpocrit": 1, "srpopolici": 1, "srpoalgorithm": 1, "gmpocrit": 1, "gmpopolici": 1, "gmpoalgorithm": 1, "gmpgcritic": 1, "gmpgpolici": 1, "gmpgalgorithm": 1, "dataset": 2, "qgpod4rldataset": 2, "qgpodataset": 2, "gpd4rldataset": 2, "gpdataset": 2, "generative_model": 3, "diffusionmodel": 3, "energyconditionaldiffusionmodel": 3, "independentconditionalflowmodel": 3, "optimaltransportconditionalflowmodel": 3, "neural_network": 4, "concatenatelay": 4, "multilayerperceptron": 4, "concatenatemlp": 4, "temporalspatialresidualnet": 4, "dit": 4, "dit1d": 4, "dit2d": 4, "dit3d": 4, "numerical_method": 5, "od": 5, "sde": 5, "dpmsolver": 5, "odesolv": 5, "sdesolv": 5, "gaussianconditionalprobabilitypath": 5, "rl_modul": 6, "gymenvsimul": 6, "oneshotvaluefunct": 6, "vnetwork": 6, "doublevnetwork": 6, "qnetwork": 6, "doubleqnetwork": 6, "util": 7, "set_se": 7, "concept": [8, 9], "overview": [8, 9], "gener": [8, 11, 16], "model": [8, 11, 16], "reinforc": [8, 11, 15], "learn": [8, 11, 15], "design": 8, "principl": 8, "generativerl": [9, 11, 14], "document": 9, "tutori": 9, "user": [9, 13], "guid": [9, 13], "api": 9, "instal": [10, 14], "quick": 11, "start": 11, "explan": 11, "how": [12, 14, 15, 16], "evalu": 12, "rl": 12, "perform": 12, "its": 14, "depend": 14, "train": [15, 16], "deploi": 15, "stochast": 16, "path": 16, "parameter": 16, "custom": 16, "neural": 16, "network": 16, "object": 16, "differ": 16}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx.ext.todo": 2, "sphinx.ext.intersphinx": 1, "nbsphinx": 4, "sphinx": 57}, "alltitles": {"grl.agents": [[0, "module-grl.agents"]], "QGPOAgent": [[0, "qgpoagent"]], "SRPOAgent": [[0, "srpoagent"]], "GPAgent": [[0, "gpagent"]], "grl.algorithms": [[1, "grl-algorithms"]], "QGPOCritic": [[1, "qgpocritic"]], "QGPOPolicy": [[1, "qgpopolicy"]], "QGPOAlgorithm": [[1, "qgpoalgorithm"]], "SRPOCritic": [[1, "srpocritic"]], "SRPOPolicy": [[1, "srpopolicy"]], "SRPOAlgorithm": [[1, "srpoalgorithm"]], "GMPOCritic": [[1, "gmpocritic"]], "GMPOPolicy": [[1, "gmpopolicy"]], "GMPOAlgorithm": [[1, "gmpoalgorithm"]], "GMPGCritic": [[1, "gmpgcritic"]], "GMPGPolicy": [[1, "gmpgpolicy"]], "GMPGAlgorithm": [[1, "gmpgalgorithm"]], "grl.datasets": [[2, "module-grl.datasets"]], "QGPOD4RLDataset": [[2, "qgpod4rldataset"]], "QGPODataset": [[2, "qgpodataset"]], "GPD4RLDataset": [[2, "gpd4rldataset"]], "GPDataset": [[2, "gpdataset"]], "grl.generative_models": [[3, "module-grl.generative_models"]], "DiffusionModel": [[3, "diffusionmodel"]], "EnergyConditionalDiffusionModel": [[3, "energyconditionaldiffusionmodel"]], "IndependentConditionalFlowModel": [[3, "independentconditionalflowmodel"]], "OptimalTransportConditionalFlowModel": [[3, "optimaltransportconditionalflowmodel"]], "grl.neural_network": [[4, "module-grl.neural_network"]], "ConcatenateLayer": [[4, "concatenatelayer"]], "MultiLayerPerceptron": [[4, "multilayerperceptron"]], "ConcatenateMLP": [[4, "concatenatemlp"]], "TemporalSpatialResidualNet": [[4, "temporalspatialresidualnet"]], "DiT": [[4, "dit"]], "DiT1D": [[4, "dit1d"]], "DiT2D": [[4, "dit2d"]], "DiT3D": [[4, "dit3d"]], "grl.numerical_methods": [[5, "module-grl.numerical_methods"]], "ODE": [[5, "ode"]], "SDE": [[5, "sde"]], "DPMSolver": [[5, "dpmsolver"]], "ODESolver": [[5, "odesolver"]], "SDESolver": [[5, "sdesolver"]], "GaussianConditionalProbabilityPath": [[5, "gaussianconditionalprobabilitypath"]], "grl.rl_modules": [[6, "grl-rl-modules"]], "GymEnvSimulator": [[6, "gymenvsimulator"]], "OneShotValueFunction": [[6, "oneshotvaluefunction"]], "VNetwork": [[6, "vnetwork"]], "DoubleVNetwork": [[6, "doublevnetwork"]], "QNetwork": [[6, "qnetwork"]], "DoubleQNetwork": [[6, "doubleqnetwork"]], "grl.utils": [[7, "module-grl.utils"]], "set_seed": [[7, "set-seed"]], "Concepts": [[8, "concepts"], [9, null]], "Concepts Overview": [[8, "concepts-overview"]], "Generative Models": [[8, "generative-models"]], "Reinforcement Learning": [[8, "reinforcement-learning"], [11, "reinforcement-learning"]], "Design Principles": [[8, "design-principles"]], "GenerativeRL Documentation": [[9, "generativerl-documentation"]], "Overview": [[9, "overview"]], "Tutorials": [[9, null]], "User Guide": [[9, null], [13, "user-guide"], [13, null]], "API Documentation": [[9, null]], "Installation": [[10, "installation"]], "Quick Start": [[11, "quick-start"]], "Generative model in GenerativeRL": [[11, "generative-model-in-generativerl"]], "Explanation": [[11, "explanation"]], "How to evaluate RL agents performance": [[12, "how-to-evaluate-rl-agents-performance"]], "How to install GenerativeRL and its dependencies": [[14, "how-to-install-generativerl-and-its-dependencies"]], "How to train and deploy reinforcement learning agents": [[15, "how-to-train-and-deploy-reinforcement-learning-agents"]], "How to train generative models": [[16, "how-to-train-generative-models"]], "Stochastic path": [[16, "stochastic-path"]], "Model parameterization": [[16, "model-parameterization"]], "Customized neural network": [[16, "customized-neural-network"]], "Training objective for different generative models": [[16, "training-objective-for-different-generative-models"]]}, "indexentries": {"gpagent (class in grl.agents)": [[0, "grl.agents.GPAgent"]], "qgpoagent (class in grl.agents)": [[0, "grl.agents.QGPOAgent"]], "srpoagent (class in grl.agents)": [[0, "grl.agents.SRPOAgent"]], "__init__() (grl.agents.gpagent method)": [[0, "grl.agents.GPAgent.__init__"]], "__init__() (grl.agents.qgpoagent method)": [[0, "grl.agents.QGPOAgent.__init__"]], "__init__() (grl.agents.srpoagent method)": [[0, "grl.agents.SRPOAgent.__init__"]], "act() (grl.agents.gpagent method)": [[0, "grl.agents.GPAgent.act"]], "act() (grl.agents.qgpoagent method)": [[0, "grl.agents.QGPOAgent.act"]], "act() (grl.agents.srpoagent method)": [[0, "grl.agents.SRPOAgent.act"]], "grl.agents": [[0, "module-grl.agents"]], "module": [[0, "module-grl.agents"], [2, "module-grl.datasets"], [3, "module-grl.generative_models"], [4, "module-grl.neural_network"], [5, "module-grl.numerical_methods"], [7, "module-grl.utils"]], "gpd4rldataset (class in grl.datasets)": [[2, "grl.datasets.GPD4RLDataset"]], "gpdataset (class in grl.datasets)": [[2, "grl.datasets.GPDataset"]], "qgpod4rldataset (class in grl.datasets)": [[2, "grl.datasets.QGPOD4RLDataset"]], "qgpodataset (class in grl.datasets)": [[2, "grl.datasets.QGPODataset"]], "__init__() (grl.datasets.gpd4rldataset method)": [[2, "grl.datasets.GPD4RLDataset.__init__"]], "__init__() (grl.datasets.gpdataset method)": [[2, "grl.datasets.GPDataset.__init__"]], "__init__() (grl.datasets.qgpod4rldataset method)": [[2, "grl.datasets.QGPOD4RLDataset.__init__"]], "__init__() (grl.datasets.qgpodataset method)": [[2, "grl.datasets.QGPODataset.__init__"]], "grl.datasets": [[2, "module-grl.datasets"]], "diffusionmodel (class in grl.generative_models)": [[3, "grl.generative_models.DiffusionModel"]], "energyconditionaldiffusionmodel (class in grl.generative_models)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel"]], "independentconditionalflowmodel (class in grl.generative_models)": [[3, "grl.generative_models.IndependentConditionalFlowModel"]], "optimaltransportconditionalflowmodel (class in grl.generative_models)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel"]], "__init__() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.__init__"]], "__init__() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.__init__"]], "__init__() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.__init__"]], "__init__() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.__init__"]], "data_prediction_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.data_prediction_function"]], "data_prediction_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.data_prediction_function"]], "data_prediction_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.data_prediction_function_with_energy_guidance"]], "dpo_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.dpo_loss"]], "energy_guidance_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.energy_guidance_loss"]], "flow_matching_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.flow_matching_loss"]], "flow_matching_loss_small_batch_ot_plan() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.flow_matching_loss_small_batch_OT_plan"]], "flow_matching_loss_with_mask() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.flow_matching_loss_with_mask"]], "forward_sample() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.forward_sample"]], "forward_sample() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.forward_sample"]], "forward_sample_process() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.forward_sample_process"]], "forward_sample_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.forward_sample_process"]], "grl.generative_models": [[3, "module-grl.generative_models"]], "log_prob() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.log_prob"]], "log_prob() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.log_prob"]], "noise_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.noise_function"]], "noise_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.noise_function"]], "noise_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.noise_function_with_energy_guidance"]], "optimal_transport_flow_matching_loss() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.optimal_transport_flow_matching_loss"]], "sample() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample"]], "sample() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample"]], "sample() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample"]], "sample() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.sample"]], "sample_forward_process() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.sample_forward_process"]], "sample_forward_process_with_fixed_x() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_forward_process_with_fixed_x"]], "sample_forward_process_with_fixed_x() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_forward_process_with_fixed_x"]], "sample_with_fixed_x() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_with_fixed_x"]], "sample_with_fixed_x() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_with_fixed_x"]], "sample_with_fixed_x_without_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_with_fixed_x_without_energy_guidance"]], "sample_with_log_prob() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_with_log_prob"]], "sample_with_log_prob() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_log_prob"]], "sample_with_mask() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_mask"]], "sample_with_mask_forward_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_mask_forward_process"]], "sample_without_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_without_energy_guidance"]], "score_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.score_function"]], "score_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_function"]], "score_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_function_with_energy_guidance"]], "score_matching_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.score_matching_loss"]], "score_matching_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_matching_loss"]], "velocity_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.velocity_function"]], "velocity_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.velocity_function"]], "concatenatelayer (class in grl.neural_network)": [[4, "grl.neural_network.ConcatenateLayer"]], "concatenatemlp (class in grl.neural_network)": [[4, "grl.neural_network.ConcatenateMLP"]], "dit (class in grl.neural_network)": [[4, "grl.neural_network.DiT"]], "dit1d (class in grl.neural_network)": [[4, "grl.neural_network.DiT1D"]], "dit2d (in module grl.neural_network)": [[4, "grl.neural_network.DiT2D"]], "dit3d (class in grl.neural_network)": [[4, "grl.neural_network.DiT3D"]], "multilayerperceptron (class in grl.neural_network)": [[4, "grl.neural_network.MultiLayerPerceptron"]], "temporalspatialresidualnet (class in grl.neural_network)": [[4, "grl.neural_network.TemporalSpatialResidualNet"]], "__init__() (grl.neural_network.concatenatelayer method)": [[4, "grl.neural_network.ConcatenateLayer.__init__"]], "__init__() (grl.neural_network.concatenatemlp method)": [[4, "grl.neural_network.ConcatenateMLP.__init__"]], "__init__() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.__init__"]], "__init__() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.__init__"]], "__init__() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.__init__"]], "__init__() (grl.neural_network.multilayerperceptron method)": [[4, "grl.neural_network.MultiLayerPerceptron.__init__"]], "__init__() (grl.neural_network.temporalspatialresidualnet method)": [[4, "grl.neural_network.TemporalSpatialResidualNet.__init__"]], "forward() (grl.neural_network.concatenatelayer method)": [[4, "grl.neural_network.ConcatenateLayer.forward"]], "forward() (grl.neural_network.concatenatemlp method)": [[4, "grl.neural_network.ConcatenateMLP.forward"]], "forward() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.forward"]], "forward() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.forward"]], "forward() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.forward"]], "forward() (grl.neural_network.multilayerperceptron method)": [[4, "grl.neural_network.MultiLayerPerceptron.forward"]], "forward() (grl.neural_network.temporalspatialresidualnet method)": [[4, "grl.neural_network.TemporalSpatialResidualNet.forward"]], "forward_with_cfg() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.forward_with_cfg"]], "grl.neural_network": [[4, "module-grl.neural_network"]], "initialize_weights() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.initialize_weights"]], "initialize_weights() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.initialize_weights"]], "initialize_weights() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.initialize_weights"]], "unpatchify() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.unpatchify"]], "unpatchify() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.unpatchify"]], "dpmsolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.DPMSolver"]], "gaussianconditionalprobabilitypath (class in grl.numerical_methods)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath"]], "halflogsnr() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.HalfLogSNR"]], "inversehalflogsnr() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.InverseHalfLogSNR"]], "ode (class in grl.numerical_methods)": [[5, "grl.numerical_methods.ODE"]], "odesolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.ODESolver"]], "sde (class in grl.numerical_methods)": [[5, "grl.numerical_methods.SDE"]], "sdesolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.SDESolver"]], "__init__() (grl.numerical_methods.dpmsolver method)": [[5, "grl.numerical_methods.DPMSolver.__init__"]], "__init__() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.__init__"]], "__init__() (grl.numerical_methods.ode method)": [[5, "grl.numerical_methods.ODE.__init__"]], "__init__() (grl.numerical_methods.odesolver method)": [[5, "grl.numerical_methods.ODESolver.__init__"]], "__init__() (grl.numerical_methods.sde method)": [[5, "grl.numerical_methods.SDE.__init__"]], "__init__() (grl.numerical_methods.sdesolver method)": [[5, "grl.numerical_methods.SDESolver.__init__"]], "covariance() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.covariance"]], "d_covariance_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_covariance_dt"]], "d_log_scale_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_log_scale_dt"]], "d_scale_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_scale_dt"]], "d_std_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_std_dt"]], "diffusion() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion"]], "diffusion_squared() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion_squared"]], "drift() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.drift"]], "drift_coefficient() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.drift_coefficient"]], "grl.numerical_methods": [[5, "module-grl.numerical_methods"]], "integrate() (grl.numerical_methods.dpmsolver method)": [[5, "grl.numerical_methods.DPMSolver.integrate"]], "integrate() (grl.numerical_methods.odesolver method)": [[5, "grl.numerical_methods.ODESolver.integrate"]], "integrate() (grl.numerical_methods.sdesolver method)": [[5, "grl.numerical_methods.SDESolver.integrate"]], "log_scale() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.log_scale"]], "scale() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.scale"]], "std() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.std"]], "grl.utils": [[7, "module-grl.utils"]], "set_seed() (in module grl.utils)": [[7, "grl.utils.set_seed"]]}})
\ No newline at end of file
+Search.setIndex({"docnames": ["api_doc/agents/index", "api_doc/algorithms/index", "api_doc/datasets/index", "api_doc/generative_models/index", "api_doc/neural_network/index", "api_doc/numerical_methods/index", "api_doc/rl_modules/index", "api_doc/utils/index", "concepts/index", "index", "tutorials/installation/index", "tutorials/quick_start/index", "user_guide/evaluating_agents", "user_guide/index", "user_guide/installation", "user_guide/training_agents", "user_guide/training_generative_models"], "filenames": ["api_doc/agents/index.rst", "api_doc/algorithms/index.rst", "api_doc/datasets/index.rst", "api_doc/generative_models/index.rst", "api_doc/neural_network/index.rst", "api_doc/numerical_methods/index.rst", "api_doc/rl_modules/index.rst", "api_doc/utils/index.rst", "concepts/index.rst", "index.rst", "tutorials/installation/index.rst", "tutorials/quick_start/index.rst", "user_guide/evaluating_agents.rst", "user_guide/index.rst", "user_guide/installation.rst", "user_guide/training_agents.rst", "user_guide/training_generative_models.rst"], "titles": ["grl.agents", "grl.algorithms", "grl.datasets", "grl.generative_models", "grl.neural_network", "grl.numerical_methods", "grl.rl_modules", "grl.utils", "Concepts", "GenerativeRL Documentation", "Installation", "Quick Start", "How to evaluate RL agents performance", "User Guide", "How to install GenerativeRL and its dependencies", "How to train and deploy reinforcement learning agents", "How to train generative models"], "terms": {"class": [0, 1, 2, 3, 4, 5, 6, 8, 12, 15, 16], "config": [0, 1, 3, 5, 6, 11, 12, 15, 16], "model": [0, 1, 3, 4, 5, 9, 13, 15], "sourc": [0, 1, 2, 3, 4, 5, 6, 7, 8], "overview": [0, 1, 2, 3, 4, 5, 6, 7], "The": [0, 1, 2, 3, 4, 5, 6, 7, 8, 11, 12, 16], "qgpo": [0, 1, 2, 11, 15], "algorithm": [0, 2, 8, 9, 11, 12, 15], "interfac": [0, 1, 2, 3, 4, 5, 6, 8, 11], "__init__": [0, 1, 2, 3, 4, 5, 6, 16], "action": [0, 1, 2, 6, 8, 12], "initi": [0, 1, 2, 3, 4, 5, 6, 8, 11, 16], "paramet": [0, 1, 2, 3, 4, 5, 6, 7, 8], "easydict": [0, 1, 3, 5, 6, 16], "configur": [0, 1, 3, 5, 6, 8, 11, 15, 16], "union": [0, 1, 3, 4, 5, 6], "torch": [0, 1, 3, 4, 5, 6], "nn": [0, 1, 3, 5, 6, 16], "modul": [0, 1, 3, 5, 6, 12, 15, 16], "moduledict": [0, 1, 3], "act": [0, 11, 12, 15], "ob": 0, "return_as_torch_tensor": 0, "fals": [0, 1, 3, 4, 5, 6, 7], "given": [0, 1, 3, 5, 6, 8], "an": [0, 1, 3, 4, 5, 8, 11, 12, 15], "observ": [0, 6, 8, 11, 12, 15], "return": [0, 1, 3, 4, 5, 6, 7, 12, 15, 16], "np": 0, "ndarrai": 0, "tensor": [0, 1, 3, 4, 5, 6, 8], "dict": [0, 1, 6, 16], "bool": [0, 1, 3, 4, 5, 6, 7], "whether": [0, 1, 3, 4, 5, 6, 7, 8, 14], "type": [0, 1, 3, 4, 5, 6, 7, 8, 16], "srpo": [0, 1], "train": [0, 1, 2, 3, 6, 8, 9, 11, 13], "gener": [0, 1, 2, 3, 5, 7, 9, 13], "polici": [0, 1, 2, 3, 6, 8, 11], "thi": [0, 1, 3, 4, 6, 8, 9, 11, 16], "i": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 14, 16], "design": [0, 3, 9], "us": [0, 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 15, 16], "gmpgalgorithm": [0, 9], "gmpoalgorithm": [0, 9], "numpi": 0, "arrai": 0, "critic": [1, 8], "network": [1, 4, 6, 8, 13], "forward": [1, 3, 4, 6, 8, 16], "compute_double_q": [1, 6], "state": [1, 3, 5, 6, 11], "none": [1, 3, 4, 5, 6, 7, 16], "output": [1, 3, 4, 5, 6, 16], "two": [1, 3, 6], "q": [1, 6, 11], "tensordict": [1, 3, 4, 5, 6], "input": [1, 3, 4, 5, 6, 12, 15, 16], "first": [1, 5, 6, 11], "q2": [1, 6], "second": [1, 6], "q1": [1, 6], "q_loss": 1, "reward": [1, 8, 11, 12, 15], "next_stat": 1, "done": [1, 11, 12, 15], "fake_next_act": 1, "discount_factor": 1, "1": [1, 3, 4, 5, 14, 16], "0": [1, 3, 4, 5, 14, 16], "calcul": [1, 6], "loss": [1, 3, 6, 16], "next": 1, "fake": [1, 2], "float": [1, 3, 4, 5], "discount": 1, "factor": [1, 4, 5], "sampl": [1, 2, 3, 5, 8, 16], "behaviour_policy_sampl": 1, "compute_q": 1, "behaviour_policy_loss": 1, "energy_guidance_loss": [1, 3], "intern": [1, 6], "share": [1, 6], "both": [1, 3, 6, 16], "scriptmodul": [1, 6], "behaviour": [1, 2], "batch_siz": [1, 3], "solver_config": [1, 3], "t_span": [1, 3, 5], "which": [1, 2, 3, 5, 6, 8, 12, 14, 16], "condit": [1, 3, 4, 5, 6, 16], "od": [1, 8, 9], "solver": [1, 3, 5, 16], "time": [1, 3, 5, 8, 16], "span": [1, 3], "sde": [1, 8, 9, 16], "valu": [1, 3, 5, 6, 7, 8], "energi": [1, 2, 3], "guidanc": [1, 3, 4], "guidance_scal": [1, 3], "scale": [1, 3, 4, 5, 6, 16], "simul": [1, 6, 12], "dataset": [1, 8, 9, 11, 15], "guid": [1, 3, 11], "optim": [1, 3, 8, 11], "offlin": [1, 3, 8], "reinforc": [1, 3, 9, 12, 13, 14], "learn": [1, 3, 4, 9, 12, 13, 14], "base": [1, 2, 3, 5, 8], "diffus": [1, 3, 4, 5, 8, 9, 11, 16], "deploi": [1, 8, 9, 11, 12, 13], "must": 1, "contain": 1, "follow": [1, 5, 8, 14, 15, 16], "kei": [1, 8], "deploy": [1, 8, 11], "object": [1, 8, 13], "environ": [1, 2, 6, 8, 11, 12, 14, 15], "qgpodataset": [1, 9], "qgpoagent": [1, 9], "A": [1, 6, 11, 16], "weight": [1, 3, 4, 8, 16], "bia": 1, "run": [1, 6, 8, 12, 14], "creat": [1, 8, 11, 15, 16], "automat": [1, 8], "when": 1, "function": [1, 3, 4, 5, 6, 8, 11, 16], "call": [1, 11, 16], "v_loss": [1, 6], "srpo_actor_loss": 1, "srpoagent": [1, 9], "gmpo": 1, "includ": [1, 8, 11, 16], "optin": 1, "policy_optimization_loss_by_advantage_weighted_regress": 1, "policy_optimization_loss_by_advantage_weighted_regression_softmax": 1, "maximum_likelihood": [1, 3], "with_grad": [1, 3], "size": [1, 3, 4], "int": [1, 3, 4, 5, 6, 7], "tupl": [1, 3, 4], "list": [1, 3, 4, 6, 13], "batch": [1, 3, 4], "gradient": [1, 3, 8], "beta": [1, 3, 5], "weight_clamp": 1, "100": 1, "fake_act": 1, "seed": [1, 7, 8], "gpg": 1, "gpdataset": [1, 9], "random": [1, 6, 7, 8], "gpo": 1, "in_support_ql_loss": 1, "gmpg": 1, "env_id": [2, 6, 11, 12, 15], "contrast": [2, 3], "predict": [2, 3, 5], "need": [2, 6, 8, 11, 15], "true": [2, 3, 4, 5, 7], "from": [2, 3, 5, 8, 10, 11, 15, 16], "support": [2, 3, 5, 11, 16], "__getitem__": 2, "__len__": 2, "method": [2, 3, 5, 6, 8, 11, 12, 15, 16], "str": [2, 3, 5, 6], "id": [2, 6], "d4rl": [2, 14], "sometim": 2, "data": [2, 3, 4, 5, 8, 16], "augment": [2, 8], "variou": [3, 8], "continu": [3, 8], "path": [3, 5, 8, 13], "comput": [3, 5, 8], "score": [3, 8, 16], "veloc": [3, 16], "It": [3, 5, 6, 14], "can": [3, 5, 8, 10, 11, 12, 14, 15, 16], "via": 3, "nois": [3, 5, 16], "match": [3, 8, 16], "flow": [3, 5, 8, 9, 16], "ar": [3, 8, 15, 16], "score_funct": 3, "score_matching_loss": [3, 16], "velocity_funct": 3, "flow_matching_loss": [3, 16], "data_prediction_funct": [3, 5], "t": [3, 4, 5, 8, 16], "x": [3, 4, 5, 16], "frac": [3, 5, 16], "sigma": [3, 4, 5, 8, 16], "x_t": [3, 8, 16], "2": [3, 4, 5, 14, 16], "nabla_": [3, 16], "log": [3, 5, 8, 11, 16], "p_": 3, "theta": [3, 16], "": [3, 5, 11], "treetensor": 3, "dpo_loss": 3, "ref_dm": 3, "process": [3, 5, 6, 8, 11, 16], "direct": [3, 8], "dpo": 3, "develop": [3, 10], "featur": 3, "recommend": [3, 5], "averag": 3, "across": [3, 8], "forward_sampl": 3, "note": [3, 14], "revers": [3, 8, 16], "thu": 3, "form": [3, 5, 16], "rather": 3, "encod": 3, "latent": [3, 4], "space": [3, 5], "forward_sample_process": 3, "all": [3, 4], "intermedi": [3, 5], "log_prob": 3, "using_hutchinson_trace_estim": 3, "probabl": [3, 4, 5], "noise_funct": [3, 5, 16], "x_0": [3, 16], "final": [3, 4, 5], "provid": [3, 7, 8, 9, 11, 15, 16], "gaussian": [3, 5, 16], "distribut": [3, 8, 16], "result": [3, 8], "shape": [3, 4, 5, 16], "where": [3, 5, 16], "number": [3, 4, 5, 6, 11], "step": [3, 5, 6, 11, 12, 14, 15], "b": 3, "could": 3, "scalar": [3, 5], "b1": 3, "b2": 3, "n": [3, 4, 5, 11], "d": [3, 5, 16], "dimens": [3, 4, 8], "d1": 3, "d2": 3, "extra": 3, "If": [3, 5, 7], "sample_forward_process": 3, "repeat": 3, "same": [3, 5, 16], "sample_forward_process_with_fixed_x": 3, "fixed_x": 3, "fixed_mask": 3, "fix": [3, 8], "mask": 3, "sample_with_fixed_x": 3, "sample_with_log_prob": 3, "likelihood": [3, 8, 16], "weighting_schem": 3, "uncondit": [3, 4], "scheme": 3, "vanilla": 3, "maximum": [3, 8, 16], "estim": [3, 8, 16], "refer": [3, 11, 13, 15], "paper": 3, "more": [3, 5, 11, 13, 15], "detail": [3, 5, 11, 13], "lambda": [3, 5, 16], "denot": [3, 16], "g": [3, 5, 8, 14, 16], "numer": [3, 8], "stabil": 3, "we": [3, 5, 8, 11, 16], "mont": 3, "carlo": 3, "approxim": [3, 5, 6], "integr": [3, 5, 8], "p": [3, 5, 14, 16], "balanc": 3, "mse": 3, "through": [3, 4, 8, 11], "stochast": [3, 5, 8, 13], "differenti": [3, 5, 8, 16], "equat": [3, 5, 8, 16], "v_": [3, 16], "energy_model": 3, "text": [3, 16], "e": [3, 5, 8, 14, 16], "c": [3, 4, 14, 16], "sim": 3, "exp": 3, "mathcal": [3, 5, 16], "z": 3, "sample_without_energy_guid": 3, "score_function_with_energy_guid": 3, "data_prediction_function_with_energy_guid": 3, "cep": 3, "propos": 3, "exact": 3, "noise_function_with_energy_guid": 3, "nose": 3, "nabla": 3, "sample_with_fixed_x_without_energy_guid": 3, "without": [3, 5], "independ": [3, 8, 16], "get_typ": 3, "x0": [3, 5], "x1": 3, "flow_matching_loss_with_mask": 3, "signal": [3, 8], "either": 3, "ha": [3, 5, 6, 12, 15, 16], "correspond": 3, "element": [3, 4, 5], "usual": [3, 16], "x_1": [3, 16], "log_prob_x_0": 3, "function_log_prob_x_0": 3, "callabl": [3, 5, 6], "hutchinson": 3, "trace": 3, "jacobian": 3, "drift": [3, 5, 8, 16], "faster": 3, "less": 3, "accur": [3, 8], "set": [3, 7, 16], "high": [3, 5, 8], "dimension": 3, "log_likelihood": 3, "optimal_transport_flow_matching_loss": 3, "transport": 3, "plan": 3, "sample_with_mask": 3, "sample_with_mask_forward_process": 3, "between": [3, 5, 8, 16], "flow_matching_loss_small_batch_ot_plan": 3, "small": [3, 6], "acceler": 3, "concaten": 4, "along": 4, "last": [4, 5, 6], "layer": [4, 16], "hidden_s": [4, 16], "output_s": 4, "activ": 4, "dropout": 4, "layernorm": 4, "final_activ": 4, "shrink": 4, "multi": 4, "perceptron": 4, "fulli": 4, "connect": 4, "fc1": 4, "act1": 4, "fcn": 4, "actn": 4, "out": 4, "hidden": 4, "channel": 4, "option": [4, 7], "zero": 4, "default": [4, 7, 15], "block": [4, 11], "shrinkag": 4, "kwarg": [4, 5], "pass": 4, "mlp": [4, 16], "keyword": 4, "argument": [4, 5], "output_dim": [4, 16], "t_dim": [4, 16], "input_dim": 4, "condition_dim": 4, "condition_hidden_dim": 4, "t_condition_hidden_dim": 4, "tempor": 4, "spatial": 4, "residu": 4, "multipl": 4, "temporalspatialresblock": 4, "input_s": 4, "32": 4, "patch_siz": 4, "in_channel": 4, "4": [4, 5], "1152": 4, "depth": 4, "28": 4, "num_head": 4, "16": 4, "mlp_ratio": 4, "class_dropout_prob": 4, "num_class": 4, "1000": 4, "learn_sigma": 4, "transform": [4, 8, 16], "backbon": [4, 16], "offici": 4, "implement": [4, 8, 12, 15], "github": [4, 10, 14], "repo": 4, "http": [4, 10, 14], "com": [4, 10, 14], "facebookresearch": 4, "blob": 4, "main": 4, "py": [4, 14], "patch": 4, "attent": 4, "head": 4, "respect": 4, "timestep": 4, "imag": [4, 8, 14], "represent": 4, "label": 4, "forward_with_cfg": 4, "cfg_scale": 4, "also": [4, 5, 8, 10, 15, 16], "classifi": [4, 8], "free": [4, 8], "initialize_weight": 4, "unpatchifi": 4, "img": 4, "h": 4, "w": [4, 16], "token_s": 4, "condition_embedd": 4, "1d": 4, "3d": 4, "inform": [4, 6, 11, 13, 15], "origin": 4, "video": [4, 8], "alia": 4, "patch_block_s": 4, "10": 4, "convolv": 4, "each": [4, 6], "token": 4, "total_patch": 4, "ordinari": [5, 8], "defin": [5, 8, 15, 16], "dx": 5, "f": [5, 8, 16], "dt": [5, 8, 16], "term": 5, "dw": 5, "wiener": [5, 16], "order": 5, "devic": [5, 16], "atol": 5, "1e": 5, "05": 5, "rtol": 5, "dpm_solver": 5, "singlestep": 5, "solver_typ": 5, "skip_typ": 5, "time_uniform": 5, "denois": [5, 8, 16], "dpm": 5, "should": 5, "3": [5, 14], "absolut": 5, "toler": 5, "adapt": [5, 8], "rel": 5, "total": 5, "evalu": [5, 6, 8, 9, 11, 13, 15], "nfe": 5, "multistep": 5, "singlestep_fix": 5, "taylor": 5, "slightli": 5, "impact": 5, "perform": [5, 9, 13, 15], "logsnr": 5, "time_quadrat": 5, "diffusion_process": 5, "save_intermedi": 5, "diffusionprocess": 5, "t_start": 5, "solut": 5, "t_end": 5, "x_end": 5, "ode_solv": 5, "euler": [5, 8], "01": 5, "librari": [5, 8, 9, 11, 14, 16], "torchdyn": [5, 8, 16], "torchdiffeq": [5, 8], "current": [5, 16], "addit": [5, 14], "For": [5, 8, 11, 13, 14, 15, 16], "exampl": [5, 8, 11, 13, 14, 16], "trajectori": 5, "len": [5, 16], "sde_solv": 5, "sde_noise_typ": 5, "diagon": 5, "sde_typ": 5, "ito": 5, "001": 5, "torchsd": 5, "stratonovich": 5, "logqp": 5, "case": [5, 6, 11], "mu": 5, "written": 5, "mathrm": [5, 16], "w_": 5, "sqrt": 5, "covari": 5, "matrix": 5, "standard": [5, 16], "deviat": 5, "half": 5, "differ": [5, 8, 13], "vp": [5, 16], "int_": [5, 16], "linear": [5, 16], "todo": 5, "add": 5, "cosin": 5, "ve": 5, "opt": 5, "halflogsnr": 5, "inversehalflogsnr": 5, "invers": 5, "sinc": 5, "invert": 5, "beta_1": [5, 16], "beta_0": [5, 16], "d_covariance_dt": 5, "deriv": [5, 16], "d_log_scale_dt": 5, "d_scale_dt": 5, "d_std_dt": 5, "diffusion_squar": 5, "drift_coeffici": 5, "coeffici": [5, 16], "satisfi": 5, "log_scal": 5, "std": 5, "simpl": [6, 8, 11], "gym": [6, 8, 11, 12, 14, 15], "generativerl": [6, 8, 10, 12, 13, 15, 16], "collect": [6, 12], "episod": 6, "singl": [6, 8], "suitabl": 6, "experi": 6, "collect_episod": 6, "collect_step": 6, "accord": 6, "num_episod": 6, "num_step": 6, "sever": 6, "reset": [6, 11, 12, 15], "begin": 6, "No": 6, "histori": 6, "store": 6, "dictionari": [6, 8, 15], "random_polici": 6, "until": 6, "end": 6, "render_arg": 6, "resultswil": 6, "one": 6, "shot": 6, "mean": [6, 16], "bellman": 6, "backup": 6, "compute_double_v": 6, "v2": 6, "v1": 6, "v": [6, 16], "doubl": 6, "compute_mininum_v": 6, "minimum": 6, "minimum_v": 6, "compute_mininum_q": 6, "minimum_q": 6, "seed_valu": 7, "cudnn_determinist": 7, "cudnn_benchmark": 7, "make": [7, 8, 9, 11, 12, 14, 15], "cudnn": 7, "oper": 7, "determinist": 7, "enabl": [7, 8], "benchmark": 7, "convolut": 7, "framework": [8, 9], "consist": 8, "code": [8, 16], "api": [8, 11, 13, 15, 16], "user": [8, 12, 16], "friendli": 8, "rl": [8, 9, 13, 15], "agent": [8, 9, 11, 13], "In": [8, 11, 12, 15, 16], "section": [8, 11, 13, 15], "explor": 8, "core": 8, "discuss": 8, "underpin": 8, "how": [8, 9, 11, 13], "thei": 8, "leverag": 8, "address": 8, "complex": 8, "problem": [8, 9, 14], "field": [8, 16], "addition": 8, "explain": 8, "why": 8, "import": [8, 11, 12, 14, 15, 16], "what": 8, "uniqu": 8, "wide": 8, "rang": [8, 11, 12, 15, 16], "applic": [8, 16], "machin": 8, "new": [8, 11, 16], "typic": [8, 16], "most": 8, "unsupervis": 8, "techniqu": 8, "appli": 8, "task": 8, "audio": 8, "interpol": 8, "focus": 8, "dynam": 8, "These": [8, 16], "have": [8, 14], "capac": 8, "captur": 8, "demonstr": [8, 11], "promis": 8, "varieti": 8, "its": [8, 9, 11, 13, 15, 16], "variant": [8, 16], "qualiti": 8, "solv": [8, 9, 14], "dx_t": [8, 16], "dw_t": [8, 16], "unifi": [8, 12, 16], "howev": 8, "vari": 8, "definit": 8, "some": [8, 14], "under": [8, 12, 15], "common": 8, "while": [8, 15, 16], "other": [8, 11, 13, 15], "mai": 8, "requir": [8, 14], "specif": [8, 11, 15], "There": 8, "four": 8, "open": 8, "neural": [8, 13], "parameter": [8, 13], "certain": 8, "part": 8, "potenti": 8, "determin": 8, "procedur": 8, "fundament": 8, "maxim": 8, "pretrain": 8, "like": 8, "bridg": [8, 16], "fine": 8, "tune": 8, "advantag": 8, "regress": 8, "adjoint": 8, "involv": 8, "depend": [8, 9, 13], "maruyama": 8, "rung": 8, "kutta": 8, "offer": 8, "flexibl": [8, 11], "allow": 8, "custom": [8, 13], "extend": 8, "suit": [8, 11, 14], "instanc": [8, 11, 15], "easili": 8, "own": [8, 16], "architectur": [8, 16], "tailor": 8, "format": [8, 11], "decis": [8, 9], "interact": [8, 15], "receiv": 8, "penalti": 8, "cumul": 8, "take": [8, 12, 15, 16], "updat": 8, "categor": 8, "directli": [8, 16], "onlin": 8, "strategi": 8, "off": 8, "actor": 8, "research": 8, "improv": 8, "effici": 8, "synthet": 8, "decoupl": 8, "littl": 8, "modif": 8, "rank": 8, "least": 8, "pytorch": [8, 14], "unif": 8, "within": [8, 11], "simplic": 8, "intuit": 8, "extens": 8, "modular": 8, "built": 8, "mix": 8, "compon": [8, 11], "reproduc": 8, "ensur": 8, "checkpoint": 8, "possibl": 8, "minim": 8, "seek": 8, "extern": 8, "lightweight": 8, "instal": [8, 9, 13], "platform": 8, "compat": 8, "exist": 8, "work": [8, 16], "seamlessli": 8, "openai": [8, 11], "torchrl": 8, "python": [9, 14], "aim": 9, "combin": 9, "power": [9, 11], "capabl": 9, "quick": 9, "start": 9, "explan": 9, "principl": 9, "grl": [9, 10, 11, 12, 14, 15, 16], "gpagent": 9, "qgpocrit": 9, "qgpopolici": 9, "qgpoalgorithm": [9, 11, 15], "srpocrit": 9, "srpopolici": 9, "srpoalgorithm": 9, "gmpocrit": 9, "gmpopolici": 9, "gmpgcritic": 9, "gmpgpolici": 9, "qgpod4rldataset": 9, "gpd4rldataset": 9, "generative_model": [9, 16], "diffusionmodel": [9, 16], "energyconditionaldiffusionmodel": 9, "independentconditionalflowmodel": 9, "optimaltransportconditionalflowmodel": 9, "neural_network": [9, 16], "concatenatelay": 9, "multilayerperceptron": 9, "concatenatemlp": 9, "temporalspatialresidualnet": [9, 16], "dit": 9, "dit1d": 9, "dit2d": 9, "dit3d": 9, "numerical_method": [9, 16], "dpmsolver": 9, "odesolv": [9, 16], "sdesolv": 9, "gaussianconditionalprobabilitypath": [9, 16], "rl_modul": 9, "gymenvsimul": 9, "oneshotvaluefunct": 9, "vnetwork": 9, "doublevnetwork": 9, "qnetwork": 9, "doubleqnetwork": 9, "util": [9, 11], "set_se": 9, "pip": [10, 14], "you": [10, 11, 14, 15], "latest": 10, "version": [10, 14], "git": [10, 14], "opendilab": [10, 14], "easi": 11, "swiss": 11, "roll": 11, "colab": 11, "usag": [11, 13], "found": 11, "folder": 11, "grl_pipelin": [11, 15], "tutori": 11, "here": [11, 13, 16], "halfcheetah": 11, "diffusion_model": [11, 15, 16], "d4rl_halfcheetah_qgpo": [11, 15], "def": [11, 16], "qgpo_pipelin": 11, "env": [11, 12, 15], "_": [11, 12, 15, 16], "num_deploy_step": [11, 12, 15], "render": [11, 12, 15], "__name__": 11, "__main__": 11, "info": 11, "necessari": 11, "well": 11, "encapsul": 11, "after": [11, 14], "obtain": [11, 16], "loop": 11, "execut": 11, "specifi": 11, "print": 11, "consol": 11, "modifi": 11, "your": 11, "advanc": [11, 13], "pleas": [11, 13, 15], "document": [11, 13, 15], "9": 14, "higher": 14, "command": 14, "clone": 14, "cd": 14, "pybullet": 14, "mujoco": 14, "deepmind": 14, "control": 14, "etc": 14, "dm_control": 14, "setup": 14, "licens": 14, "special": 14, "23": 14, "anoth": 14, "thing": 14, "sudo": 14, "apt": 14, "get": 14, "libgl1": 14, "mesa": 14, "glx": 14, "libglib2": 14, "libsm6": 14, "libxext6": 14, "libxrend": 14, "dev": 14, "y": 14, "swig": 14, "gcc": 14, "local": 14, "dnsutil": 14, "cmake": 14, "build": 14, "essenti": 14, "libglew": 14, "libosmesa6": 14, "libglfw3": 14, "libsdl2": 14, "libglm": 14, "libfreetype6": 14, "patchelf": 14, "ffmpeg": 14, "mkdir": 14, "root": 14, "wget": 14, "org": 14, "download": 14, "mujoco210": 14, "linux": 14, "x86_64": 14, "tar": 14, "gz": 14, "o": 14, "xf": 14, "export": 14, "ld_library_path": 14, "mjpro210": 14, "bin": 14, "farama": 14, "foundat": 14, "lockfil": 14, "cython": 14, "check": 14, "success": 14, "everi": [15, 16], "hyperparamet": 15, "copi": 15, "trained_model": 15, "divers": 16, "describ": 16, "evolut": 16, "over": 16, "increment": 16, "probability_path": 16, "kind": 16, "varianc": 16, "preserv": 16, "gvp": 16, "usal": 16, "want": 16, "normal": 16, "target": 16, "By": 16, "fokker": 16, "planck": 16, "kolmogorov": 16, "fpk": 16, "hat": 16, "_t": 16, "s_": 16, "codebas": 16, "ddpm": 16, "compar": 16, "Or": 16, "nerual": 16, "therefor": 16, "intrinsicmodel": 16, "ani": 16, "cnn": 16, "u": 16, "net": 16, "x_size": 16, "alpha": 16, "arg": 16, "linear_vp_sd": 16, "20": 16, "t_encod": 16, "512": 16, "256": 16, "128": 16, "t_embedding_dim": 16, "register_modul": 16, "regist": 16, "so": 16, "mymodul": 16, "self": 16, "super": 16, "modulelist": 16, "append": 16, "relu": 16, "mle": 16, "onli": 16, "squar": 16, "error": 16, "l": 16, "dsm": 16, "mathbb": 16, "left": 16, "right": 16, "cfm": 16, "simpli": 16}, "objects": {"grl": [[0, 0, 0, "-", "agents"], [1, 0, 0, "-", "algorithms"], [2, 0, 0, "-", "datasets"], [3, 0, 0, "-", "generative_models"], [4, 0, 0, "-", "neural_network"], [5, 0, 0, "-", "numerical_methods"], [6, 0, 0, "-", "rl_modules"], [7, 0, 0, "-", "utils"]], "grl.agents": [[0, 1, 1, "", "GPAgent"], [0, 1, 1, "", "QGPOAgent"], [0, 1, 1, "", "SRPOAgent"]], "grl.agents.GPAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.agents.QGPOAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.agents.SRPOAgent": [[0, 2, 1, "", "__init__"], [0, 2, 1, "", "act"]], "grl.algorithms": [[1, 1, 1, "", "GMPGAlgorithm"], [1, 1, 1, "", "GMPGCritic"], [1, 1, 1, "", "GMPGPolicy"], [1, 1, 1, "", "GMPOAlgorithm"], [1, 1, 1, "", "GMPOCritic"], [1, 1, 1, "", "GMPOPolicy"], [1, 1, 1, "", "QGPOAlgorithm"], [1, 1, 1, "", "QGPOCritic"], [1, 1, 1, "", "QGPOPolicy"], [1, 1, 1, "", "SRPOAlgorithm"], [1, 1, 1, "", "SRPOCritic"], [1, 1, 1, "", "SRPOPolicy"]], "grl.algorithms.GMPGAlgorithm": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "train"]], "grl.algorithms.GMPGCritic": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "compute_double_q"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "in_support_ql_loss"]], "grl.algorithms.GMPGPolicy": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "behaviour_policy_loss"], [1, 2, 1, "", "behaviour_policy_sample"], [1, 2, 1, "", "compute_q"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "sample"]], "grl.algorithms.GMPOAlgorithm": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "train"]], "grl.algorithms.GMPOCritic": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "compute_double_q"], [1, 2, 1, "", "forward"]], "grl.algorithms.GMPOPolicy": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "behaviour_policy_loss"], [1, 2, 1, "", "behaviour_policy_sample"], [1, 2, 1, "", "compute_q"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "policy_optimization_loss_by_advantage_weighted_regression"], [1, 2, 1, "", "policy_optimization_loss_by_advantage_weighted_regression_softmax"], [1, 2, 1, "", "sample"]], "grl.algorithms.QGPOAlgorithm": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "deploy"], [1, 2, 1, "", "train"]], "grl.algorithms.QGPOCritic": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "compute_double_q"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "q_loss"]], "grl.algorithms.QGPOPolicy": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "behaviour_policy_loss"], [1, 2, 1, "", "behaviour_policy_sample"], [1, 2, 1, "", "compute_q"], [1, 2, 1, "", "energy_guidance_loss"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "q_loss"], [1, 2, 1, "", "sample"]], "grl.algorithms.SRPOAlgorithm": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "deploy"], [1, 2, 1, "", "train"]], "grl.algorithms.SRPOCritic": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "forward"]], "grl.algorithms.SRPOPolicy": [[1, 2, 1, "", "__init__"], [1, 2, 1, "", "behaviour_policy_loss"], [1, 2, 1, "", "forward"], [1, 2, 1, "", "sample"], [1, 2, 1, "", "srpo_actor_loss"]], "grl.datasets": [[2, 1, 1, "", "GPD4RLDataset"], [2, 1, 1, "", "GPDataset"], [2, 1, 1, "", "QGPOD4RLDataset"], [2, 1, 1, "", "QGPODataset"]], "grl.datasets.GPD4RLDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.GPDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.QGPOD4RLDataset": [[2, 2, 1, "", "__init__"]], "grl.datasets.QGPODataset": [[2, 2, 1, "", "__init__"]], "grl.generative_models": [[3, 1, 1, "", "DiffusionModel"], [3, 1, 1, "", "EnergyConditionalDiffusionModel"], [3, 1, 1, "", "IndependentConditionalFlowModel"], [3, 1, 1, "", "OptimalTransportConditionalFlowModel"]], "grl.generative_models.DiffusionModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "data_prediction_function"], [3, 2, 1, "", "dpo_loss"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "forward_sample"], [3, 2, 1, "", "forward_sample_process"], [3, 2, 1, "", "log_prob"], [3, 2, 1, "", "noise_function"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_forward_process_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x"], [3, 2, 1, "", "sample_with_log_prob"], [3, 2, 1, "", "score_function"], [3, 2, 1, "", "score_matching_loss"], [3, 2, 1, "", "velocity_function"]], "grl.generative_models.EnergyConditionalDiffusionModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "data_prediction_function"], [3, 2, 1, "", "data_prediction_function_with_energy_guidance"], [3, 2, 1, "", "energy_guidance_loss"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "noise_function"], [3, 2, 1, "", "noise_function_with_energy_guidance"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_forward_process_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x"], [3, 2, 1, "", "sample_with_fixed_x_without_energy_guidance"], [3, 2, 1, "", "sample_without_energy_guidance"], [3, 2, 1, "", "score_function"], [3, 2, 1, "", "score_function_with_energy_guidance"], [3, 2, 1, "", "score_matching_loss"], [3, 2, 1, "", "velocity_function"]], "grl.generative_models.IndependentConditionalFlowModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "flow_matching_loss_with_mask"], [3, 2, 1, "", "forward_sample"], [3, 2, 1, "", "forward_sample_process"], [3, 2, 1, "", "log_prob"], [3, 2, 1, "", "optimal_transport_flow_matching_loss"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"], [3, 2, 1, "", "sample_with_log_prob"], [3, 2, 1, "", "sample_with_mask"], [3, 2, 1, "", "sample_with_mask_forward_process"]], "grl.generative_models.OptimalTransportConditionalFlowModel": [[3, 2, 1, "", "__init__"], [3, 2, 1, "", "flow_matching_loss"], [3, 2, 1, "", "flow_matching_loss_small_batch_OT_plan"], [3, 2, 1, "", "sample"], [3, 2, 1, "", "sample_forward_process"]], "grl.neural_network": [[4, 1, 1, "", "ConcatenateLayer"], [4, 1, 1, "", "ConcatenateMLP"], [4, 1, 1, "", "DiT"], [4, 1, 1, "", "DiT1D"], [4, 3, 1, "", "DiT2D"], [4, 1, 1, "", "DiT3D"], [4, 1, 1, "", "MultiLayerPerceptron"], [4, 1, 1, "", "TemporalSpatialResidualNet"]], "grl.neural_network.ConcatenateLayer": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.ConcatenateMLP": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.DiT": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "forward_with_cfg"], [4, 2, 1, "", "initialize_weights"], [4, 2, 1, "", "unpatchify"]], "grl.neural_network.DiT1D": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "initialize_weights"]], "grl.neural_network.DiT3D": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"], [4, 2, 1, "", "initialize_weights"], [4, 2, 1, "", "unpatchify"]], "grl.neural_network.MultiLayerPerceptron": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.neural_network.TemporalSpatialResidualNet": [[4, 2, 1, "", "__init__"], [4, 2, 1, "", "forward"]], "grl.numerical_methods": [[5, 1, 1, "", "DPMSolver"], [5, 1, 1, "", "GaussianConditionalProbabilityPath"], [5, 1, 1, "", "ODE"], [5, 1, 1, "", "ODESolver"], [5, 1, 1, "", "SDE"], [5, 1, 1, "", "SDESolver"]], "grl.numerical_methods.DPMSolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.numerical_methods.GaussianConditionalProbabilityPath": [[5, 2, 1, "", "HalfLogSNR"], [5, 2, 1, "", "InverseHalfLogSNR"], [5, 2, 1, "", "__init__"], [5, 2, 1, "", "covariance"], [5, 2, 1, "", "d_covariance_dt"], [5, 2, 1, "", "d_log_scale_dt"], [5, 2, 1, "", "d_scale_dt"], [5, 2, 1, "", "d_std_dt"], [5, 2, 1, "", "diffusion"], [5, 2, 1, "", "diffusion_squared"], [5, 2, 1, "", "drift"], [5, 2, 1, "", "drift_coefficient"], [5, 2, 1, "", "log_scale"], [5, 2, 1, "", "scale"], [5, 2, 1, "", "std"]], "grl.numerical_methods.ODE": [[5, 2, 1, "", "__init__"]], "grl.numerical_methods.ODESolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.numerical_methods.SDE": [[5, 2, 1, "", "__init__"]], "grl.numerical_methods.SDESolver": [[5, 2, 1, "", "__init__"], [5, 2, 1, "", "integrate"]], "grl.rl_modules": [[6, 1, 1, "", "DoubleQNetwork"], [6, 1, 1, "", "DoubleVNetwork"], [6, 1, 1, "", "GymEnvSimulator"], [6, 1, 1, "", "OneShotValueFunction"], [6, 1, 1, "", "QNetwork"], [6, 1, 1, "", "VNetwork"]], "grl.rl_modules.DoubleQNetwork": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "compute_double_q"], [6, 2, 1, "", "compute_mininum_q"], [6, 2, 1, "", "forward"]], "grl.rl_modules.DoubleVNetwork": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "compute_double_v"], [6, 2, 1, "", "compute_mininum_v"], [6, 2, 1, "", "forward"]], "grl.rl_modules.GymEnvSimulator": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "collect_episodes"], [6, 2, 1, "", "collect_steps"], [6, 2, 1, "", "evaluate"]], "grl.rl_modules.OneShotValueFunction": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "compute_double_v"], [6, 2, 1, "", "forward"], [6, 2, 1, "", "v_loss"]], "grl.rl_modules.QNetwork": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "forward"]], "grl.rl_modules.VNetwork": [[6, 2, 1, "", "__init__"], [6, 2, 1, "", "forward"]], "grl.utils": [[7, 4, 1, "", "set_seed"]]}, "objtypes": {"0": "py:module", "1": "py:class", "2": "py:method", "3": "py:attribute", "4": "py:function"}, "objnames": {"0": ["py", "module", "Python module"], "1": ["py", "class", "Python class"], "2": ["py", "method", "Python method"], "3": ["py", "attribute", "Python attribute"], "4": ["py", "function", "Python function"]}, "titleterms": {"grl": [0, 1, 2, 3, 4, 5, 6, 7], "agent": [0, 12, 15], "qgpoagent": 0, "srpoagent": 0, "gpagent": 0, "algorithm": 1, "qgpocrit": 1, "qgpopolici": 1, "qgpoalgorithm": 1, "srpocrit": 1, "srpopolici": 1, "srpoalgorithm": 1, "gmpocrit": 1, "gmpopolici": 1, "gmpoalgorithm": 1, "gmpgcritic": 1, "gmpgpolici": 1, "gmpgalgorithm": 1, "dataset": 2, "qgpod4rldataset": 2, "qgpodataset": 2, "gpd4rldataset": 2, "gpdataset": 2, "generative_model": 3, "diffusionmodel": 3, "energyconditionaldiffusionmodel": 3, "independentconditionalflowmodel": 3, "optimaltransportconditionalflowmodel": 3, "neural_network": 4, "concatenatelay": 4, "multilayerperceptron": 4, "concatenatemlp": 4, "temporalspatialresidualnet": 4, "dit": 4, "dit1d": 4, "dit2d": 4, "dit3d": 4, "numerical_method": 5, "od": 5, "sde": 5, "dpmsolver": 5, "odesolv": 5, "sdesolv": 5, "gaussianconditionalprobabilitypath": 5, "rl_modul": 6, "gymenvsimul": 6, "oneshotvaluefunct": 6, "vnetwork": 6, "doublevnetwork": 6, "qnetwork": 6, "doubleqnetwork": 6, "util": 7, "set_se": 7, "concept": [8, 9], "overview": [8, 9], "gener": [8, 11, 16], "model": [8, 11, 16], "reinforc": [8, 11, 15], "learn": [8, 11, 15], "design": 8, "principl": 8, "generativerl": [9, 11, 14], "document": 9, "tutori": 9, "user": [9, 13], "guid": [9, 13], "api": 9, "instal": [10, 14], "quick": 11, "start": 11, "explan": 11, "how": [12, 14, 15, 16], "evalu": 12, "rl": 12, "perform": 12, "its": 14, "depend": 14, "train": [15, 16], "deploi": 15, "stochast": 16, "path": 16, "parameter": 16, "custom": 16, "neural": 16, "network": 16, "object": 16, "differ": 16}, "envversion": {"sphinx.domains.c": 2, "sphinx.domains.changeset": 1, "sphinx.domains.citation": 1, "sphinx.domains.cpp": 8, "sphinx.domains.index": 1, "sphinx.domains.javascript": 2, "sphinx.domains.math": 2, "sphinx.domains.python": 3, "sphinx.domains.rst": 2, "sphinx.domains.std": 2, "sphinx.ext.viewcode": 1, "sphinx.ext.todo": 2, "sphinx.ext.intersphinx": 1, "nbsphinx": 4, "sphinx": 57}, "alltitles": {"grl.agents": [[0, "module-grl.agents"]], "QGPOAgent": [[0, "qgpoagent"]], "SRPOAgent": [[0, "srpoagent"]], "GPAgent": [[0, "gpagent"]], "grl.algorithms": [[1, "module-grl.algorithms"]], "QGPOCritic": [[1, "qgpocritic"]], "QGPOPolicy": [[1, "qgpopolicy"]], "QGPOAlgorithm": [[1, "qgpoalgorithm"]], "SRPOCritic": [[1, "srpocritic"]], "SRPOPolicy": [[1, "srpopolicy"]], "SRPOAlgorithm": [[1, "srpoalgorithm"]], "GMPOCritic": [[1, "gmpocritic"]], "GMPOPolicy": [[1, "gmpopolicy"]], "GMPOAlgorithm": [[1, "gmpoalgorithm"]], "GMPGCritic": [[1, "gmpgcritic"]], "GMPGPolicy": [[1, "gmpgpolicy"]], "GMPGAlgorithm": [[1, "gmpgalgorithm"]], "grl.datasets": [[2, "module-grl.datasets"]], "QGPOD4RLDataset": [[2, "qgpod4rldataset"]], "QGPODataset": [[2, "qgpodataset"]], "GPD4RLDataset": [[2, "gpd4rldataset"]], "GPDataset": [[2, "gpdataset"]], "grl.generative_models": [[3, "module-grl.generative_models"]], "DiffusionModel": [[3, "diffusionmodel"]], "EnergyConditionalDiffusionModel": [[3, "energyconditionaldiffusionmodel"]], "IndependentConditionalFlowModel": [[3, "independentconditionalflowmodel"]], "OptimalTransportConditionalFlowModel": [[3, "optimaltransportconditionalflowmodel"]], "grl.neural_network": [[4, "module-grl.neural_network"]], "ConcatenateLayer": [[4, "concatenatelayer"]], "MultiLayerPerceptron": [[4, "multilayerperceptron"]], "ConcatenateMLP": [[4, "concatenatemlp"]], "TemporalSpatialResidualNet": [[4, "temporalspatialresidualnet"]], "DiT": [[4, "dit"]], "DiT1D": [[4, "dit1d"]], "DiT2D": [[4, "dit2d"]], "DiT3D": [[4, "dit3d"]], "grl.numerical_methods": [[5, "module-grl.numerical_methods"]], "ODE": [[5, "ode"]], "SDE": [[5, "sde"]], "DPMSolver": [[5, "dpmsolver"]], "ODESolver": [[5, "odesolver"]], "SDESolver": [[5, "sdesolver"]], "GaussianConditionalProbabilityPath": [[5, "gaussianconditionalprobabilitypath"]], "grl.rl_modules": [[6, "module-grl.rl_modules"]], "GymEnvSimulator": [[6, "gymenvsimulator"]], "OneShotValueFunction": [[6, "oneshotvaluefunction"]], "VNetwork": [[6, "vnetwork"]], "DoubleVNetwork": [[6, "doublevnetwork"]], "QNetwork": [[6, "qnetwork"]], "DoubleQNetwork": [[6, "doubleqnetwork"]], "grl.utils": [[7, "module-grl.utils"]], "set_seed": [[7, "set-seed"]], "Concepts": [[8, "concepts"], [9, null]], "Concepts Overview": [[8, "concepts-overview"]], "Generative Models": [[8, "generative-models"]], "Reinforcement Learning": [[8, "reinforcement-learning"], [11, "reinforcement-learning"]], "Design Principles": [[8, "design-principles"]], "GenerativeRL Documentation": [[9, "generativerl-documentation"]], "Overview": [[9, "overview"]], "Tutorials": [[9, null]], "User Guide": [[9, null], [13, "user-guide"], [13, null]], "API Documentation": [[9, null]], "Installation": [[10, "installation"]], "Quick Start": [[11, "quick-start"]], "Generative model in GenerativeRL": [[11, "generative-model-in-generativerl"]], "Explanation": [[11, "explanation"]], "How to evaluate RL agents performance": [[12, "how-to-evaluate-rl-agents-performance"]], "How to install GenerativeRL and its dependencies": [[14, "how-to-install-generativerl-and-its-dependencies"]], "How to train and deploy reinforcement learning agents": [[15, "how-to-train-and-deploy-reinforcement-learning-agents"]], "How to train generative models": [[16, "how-to-train-generative-models"]], "Stochastic path": [[16, "stochastic-path"]], "Model parameterization": [[16, "model-parameterization"]], "Customized neural network": [[16, "customized-neural-network"]], "Training objective for different generative models": [[16, "training-objective-for-different-generative-models"]]}, "indexentries": {"gpagent (class in grl.agents)": [[0, "grl.agents.GPAgent"]], "qgpoagent (class in grl.agents)": [[0, "grl.agents.QGPOAgent"]], "srpoagent (class in grl.agents)": [[0, "grl.agents.SRPOAgent"]], "__init__() (grl.agents.gpagent method)": [[0, "grl.agents.GPAgent.__init__"]], "__init__() (grl.agents.qgpoagent method)": [[0, "grl.agents.QGPOAgent.__init__"]], "__init__() (grl.agents.srpoagent method)": [[0, "grl.agents.SRPOAgent.__init__"]], "act() (grl.agents.gpagent method)": [[0, "grl.agents.GPAgent.act"]], "act() (grl.agents.qgpoagent method)": [[0, "grl.agents.QGPOAgent.act"]], "act() (grl.agents.srpoagent method)": [[0, "grl.agents.SRPOAgent.act"]], "grl.agents": [[0, "module-grl.agents"]], "module": [[0, "module-grl.agents"], [1, "module-grl.algorithms"], [2, "module-grl.datasets"], [3, "module-grl.generative_models"], [4, "module-grl.neural_network"], [5, "module-grl.numerical_methods"], [6, "module-grl.rl_modules"], [7, "module-grl.utils"]], "gmpgalgorithm (class in grl.algorithms)": [[1, "grl.algorithms.GMPGAlgorithm"]], "gmpgcritic (class in grl.algorithms)": [[1, "grl.algorithms.GMPGCritic"]], "gmpgpolicy (class in grl.algorithms)": [[1, "grl.algorithms.GMPGPolicy"]], "gmpoalgorithm (class in grl.algorithms)": [[1, "grl.algorithms.GMPOAlgorithm"]], "gmpocritic (class in grl.algorithms)": [[1, "grl.algorithms.GMPOCritic"]], "gmpopolicy (class in grl.algorithms)": [[1, "grl.algorithms.GMPOPolicy"]], "qgpoalgorithm (class in grl.algorithms)": [[1, "grl.algorithms.QGPOAlgorithm"]], "qgpocritic (class in grl.algorithms)": [[1, "grl.algorithms.QGPOCritic"]], "qgpopolicy (class in grl.algorithms)": [[1, "grl.algorithms.QGPOPolicy"]], "srpoalgorithm (class in grl.algorithms)": [[1, "grl.algorithms.SRPOAlgorithm"]], "srpocritic (class in grl.algorithms)": [[1, "grl.algorithms.SRPOCritic"]], "srpopolicy (class in grl.algorithms)": [[1, "grl.algorithms.SRPOPolicy"]], "__init__() (grl.algorithms.gmpgalgorithm method)": [[1, "grl.algorithms.GMPGAlgorithm.__init__"]], "__init__() (grl.algorithms.gmpgcritic method)": [[1, "grl.algorithms.GMPGCritic.__init__"]], "__init__() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.__init__"]], "__init__() (grl.algorithms.gmpoalgorithm method)": [[1, "grl.algorithms.GMPOAlgorithm.__init__"]], "__init__() (grl.algorithms.gmpocritic method)": [[1, "grl.algorithms.GMPOCritic.__init__"]], "__init__() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.__init__"]], "__init__() (grl.algorithms.qgpoalgorithm method)": [[1, "grl.algorithms.QGPOAlgorithm.__init__"]], "__init__() (grl.algorithms.qgpocritic method)": [[1, "grl.algorithms.QGPOCritic.__init__"]], "__init__() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.__init__"]], "__init__() (grl.algorithms.srpoalgorithm method)": [[1, "grl.algorithms.SRPOAlgorithm.__init__"]], "__init__() (grl.algorithms.srpocritic method)": [[1, "grl.algorithms.SRPOCritic.__init__"]], "__init__() (grl.algorithms.srpopolicy method)": [[1, "grl.algorithms.SRPOPolicy.__init__"]], "behaviour_policy_loss() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.behaviour_policy_loss"]], "behaviour_policy_loss() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.behaviour_policy_loss"]], "behaviour_policy_loss() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.behaviour_policy_loss"]], "behaviour_policy_loss() (grl.algorithms.srpopolicy method)": [[1, "grl.algorithms.SRPOPolicy.behaviour_policy_loss"]], "behaviour_policy_sample() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.behaviour_policy_sample"]], "behaviour_policy_sample() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.behaviour_policy_sample"]], "behaviour_policy_sample() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.behaviour_policy_sample"]], "compute_double_q() (grl.algorithms.gmpgcritic method)": [[1, "grl.algorithms.GMPGCritic.compute_double_q"]], "compute_double_q() (grl.algorithms.gmpocritic method)": [[1, "grl.algorithms.GMPOCritic.compute_double_q"]], "compute_double_q() (grl.algorithms.qgpocritic method)": [[1, "grl.algorithms.QGPOCritic.compute_double_q"]], "compute_q() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.compute_q"]], "compute_q() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.compute_q"]], "compute_q() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.compute_q"]], "deploy() (grl.algorithms.qgpoalgorithm method)": [[1, "grl.algorithms.QGPOAlgorithm.deploy"]], "deploy() (grl.algorithms.srpoalgorithm method)": [[1, "grl.algorithms.SRPOAlgorithm.deploy"]], "energy_guidance_loss() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.energy_guidance_loss"]], "forward() (grl.algorithms.gmpgcritic method)": [[1, "grl.algorithms.GMPGCritic.forward"]], "forward() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.forward"]], "forward() (grl.algorithms.gmpocritic method)": [[1, "grl.algorithms.GMPOCritic.forward"]], "forward() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.forward"]], "forward() (grl.algorithms.qgpocritic method)": [[1, "grl.algorithms.QGPOCritic.forward"]], "forward() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.forward"]], "forward() (grl.algorithms.srpocritic method)": [[1, "grl.algorithms.SRPOCritic.forward"]], "forward() (grl.algorithms.srpopolicy method)": [[1, "grl.algorithms.SRPOPolicy.forward"]], "grl.algorithms": [[1, "module-grl.algorithms"]], "in_support_ql_loss() (grl.algorithms.gmpgcritic method)": [[1, "grl.algorithms.GMPGCritic.in_support_ql_loss"]], "policy_optimization_loss_by_advantage_weighted_regression() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression"]], "policy_optimization_loss_by_advantage_weighted_regression_softmax() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.policy_optimization_loss_by_advantage_weighted_regression_softmax"]], "q_loss() (grl.algorithms.qgpocritic method)": [[1, "grl.algorithms.QGPOCritic.q_loss"]], "q_loss() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.q_loss"]], "sample() (grl.algorithms.gmpgpolicy method)": [[1, "grl.algorithms.GMPGPolicy.sample"]], "sample() (grl.algorithms.gmpopolicy method)": [[1, "grl.algorithms.GMPOPolicy.sample"]], "sample() (grl.algorithms.qgpopolicy method)": [[1, "grl.algorithms.QGPOPolicy.sample"]], "sample() (grl.algorithms.srpopolicy method)": [[1, "grl.algorithms.SRPOPolicy.sample"]], "srpo_actor_loss() (grl.algorithms.srpopolicy method)": [[1, "grl.algorithms.SRPOPolicy.srpo_actor_loss"]], "train() (grl.algorithms.gmpgalgorithm method)": [[1, "grl.algorithms.GMPGAlgorithm.train"]], "train() (grl.algorithms.gmpoalgorithm method)": [[1, "grl.algorithms.GMPOAlgorithm.train"]], "train() (grl.algorithms.qgpoalgorithm method)": [[1, "grl.algorithms.QGPOAlgorithm.train"]], "train() (grl.algorithms.srpoalgorithm method)": [[1, "grl.algorithms.SRPOAlgorithm.train"]], "gpd4rldataset (class in grl.datasets)": [[2, "grl.datasets.GPD4RLDataset"]], "gpdataset (class in grl.datasets)": [[2, "grl.datasets.GPDataset"]], "qgpod4rldataset (class in grl.datasets)": [[2, "grl.datasets.QGPOD4RLDataset"]], "qgpodataset (class in grl.datasets)": [[2, "grl.datasets.QGPODataset"]], "__init__() (grl.datasets.gpd4rldataset method)": [[2, "grl.datasets.GPD4RLDataset.__init__"]], "__init__() (grl.datasets.gpdataset method)": [[2, "grl.datasets.GPDataset.__init__"]], "__init__() (grl.datasets.qgpod4rldataset method)": [[2, "grl.datasets.QGPOD4RLDataset.__init__"]], "__init__() (grl.datasets.qgpodataset method)": [[2, "grl.datasets.QGPODataset.__init__"]], "grl.datasets": [[2, "module-grl.datasets"]], "diffusionmodel (class in grl.generative_models)": [[3, "grl.generative_models.DiffusionModel"]], "energyconditionaldiffusionmodel (class in grl.generative_models)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel"]], "independentconditionalflowmodel (class in grl.generative_models)": [[3, "grl.generative_models.IndependentConditionalFlowModel"]], "optimaltransportconditionalflowmodel (class in grl.generative_models)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel"]], "__init__() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.__init__"]], "__init__() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.__init__"]], "__init__() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.__init__"]], "__init__() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.__init__"]], "data_prediction_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.data_prediction_function"]], "data_prediction_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.data_prediction_function"]], "data_prediction_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.data_prediction_function_with_energy_guidance"]], "dpo_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.dpo_loss"]], "energy_guidance_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.energy_guidance_loss"]], "flow_matching_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.flow_matching_loss"]], "flow_matching_loss() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.flow_matching_loss"]], "flow_matching_loss_small_batch_ot_plan() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.flow_matching_loss_small_batch_OT_plan"]], "flow_matching_loss_with_mask() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.flow_matching_loss_with_mask"]], "forward_sample() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.forward_sample"]], "forward_sample() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.forward_sample"]], "forward_sample_process() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.forward_sample_process"]], "forward_sample_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.forward_sample_process"]], "grl.generative_models": [[3, "module-grl.generative_models"]], "log_prob() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.log_prob"]], "log_prob() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.log_prob"]], "noise_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.noise_function"]], "noise_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.noise_function"]], "noise_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.noise_function_with_energy_guidance"]], "optimal_transport_flow_matching_loss() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.optimal_transport_flow_matching_loss"]], "sample() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample"]], "sample() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample"]], "sample() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample"]], "sample() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.sample"]], "sample_forward_process() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_forward_process"]], "sample_forward_process() (grl.generative_models.optimaltransportconditionalflowmodel method)": [[3, "grl.generative_models.OptimalTransportConditionalFlowModel.sample_forward_process"]], "sample_forward_process_with_fixed_x() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_forward_process_with_fixed_x"]], "sample_forward_process_with_fixed_x() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_forward_process_with_fixed_x"]], "sample_with_fixed_x() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_with_fixed_x"]], "sample_with_fixed_x() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_with_fixed_x"]], "sample_with_fixed_x_without_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_with_fixed_x_without_energy_guidance"]], "sample_with_log_prob() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.sample_with_log_prob"]], "sample_with_log_prob() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_log_prob"]], "sample_with_mask() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_mask"]], "sample_with_mask_forward_process() (grl.generative_models.independentconditionalflowmodel method)": [[3, "grl.generative_models.IndependentConditionalFlowModel.sample_with_mask_forward_process"]], "sample_without_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.sample_without_energy_guidance"]], "score_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.score_function"]], "score_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_function"]], "score_function_with_energy_guidance() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_function_with_energy_guidance"]], "score_matching_loss() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.score_matching_loss"]], "score_matching_loss() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.score_matching_loss"]], "velocity_function() (grl.generative_models.diffusionmodel method)": [[3, "grl.generative_models.DiffusionModel.velocity_function"]], "velocity_function() (grl.generative_models.energyconditionaldiffusionmodel method)": [[3, "grl.generative_models.EnergyConditionalDiffusionModel.velocity_function"]], "concatenatelayer (class in grl.neural_network)": [[4, "grl.neural_network.ConcatenateLayer"]], "concatenatemlp (class in grl.neural_network)": [[4, "grl.neural_network.ConcatenateMLP"]], "dit (class in grl.neural_network)": [[4, "grl.neural_network.DiT"]], "dit1d (class in grl.neural_network)": [[4, "grl.neural_network.DiT1D"]], "dit2d (in module grl.neural_network)": [[4, "grl.neural_network.DiT2D"]], "dit3d (class in grl.neural_network)": [[4, "grl.neural_network.DiT3D"]], "multilayerperceptron (class in grl.neural_network)": [[4, "grl.neural_network.MultiLayerPerceptron"]], "temporalspatialresidualnet (class in grl.neural_network)": [[4, "grl.neural_network.TemporalSpatialResidualNet"]], "__init__() (grl.neural_network.concatenatelayer method)": [[4, "grl.neural_network.ConcatenateLayer.__init__"]], "__init__() (grl.neural_network.concatenatemlp method)": [[4, "grl.neural_network.ConcatenateMLP.__init__"]], "__init__() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.__init__"]], "__init__() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.__init__"]], "__init__() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.__init__"]], "__init__() (grl.neural_network.multilayerperceptron method)": [[4, "grl.neural_network.MultiLayerPerceptron.__init__"]], "__init__() (grl.neural_network.temporalspatialresidualnet method)": [[4, "grl.neural_network.TemporalSpatialResidualNet.__init__"]], "forward() (grl.neural_network.concatenatelayer method)": [[4, "grl.neural_network.ConcatenateLayer.forward"]], "forward() (grl.neural_network.concatenatemlp method)": [[4, "grl.neural_network.ConcatenateMLP.forward"]], "forward() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.forward"]], "forward() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.forward"]], "forward() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.forward"]], "forward() (grl.neural_network.multilayerperceptron method)": [[4, "grl.neural_network.MultiLayerPerceptron.forward"]], "forward() (grl.neural_network.temporalspatialresidualnet method)": [[4, "grl.neural_network.TemporalSpatialResidualNet.forward"]], "forward_with_cfg() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.forward_with_cfg"]], "grl.neural_network": [[4, "module-grl.neural_network"]], "initialize_weights() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.initialize_weights"]], "initialize_weights() (grl.neural_network.dit1d method)": [[4, "grl.neural_network.DiT1D.initialize_weights"]], "initialize_weights() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.initialize_weights"]], "unpatchify() (grl.neural_network.dit method)": [[4, "grl.neural_network.DiT.unpatchify"]], "unpatchify() (grl.neural_network.dit3d method)": [[4, "grl.neural_network.DiT3D.unpatchify"]], "dpmsolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.DPMSolver"]], "gaussianconditionalprobabilitypath (class in grl.numerical_methods)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath"]], "halflogsnr() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.HalfLogSNR"]], "inversehalflogsnr() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.InverseHalfLogSNR"]], "ode (class in grl.numerical_methods)": [[5, "grl.numerical_methods.ODE"]], "odesolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.ODESolver"]], "sde (class in grl.numerical_methods)": [[5, "grl.numerical_methods.SDE"]], "sdesolver (class in grl.numerical_methods)": [[5, "grl.numerical_methods.SDESolver"]], "__init__() (grl.numerical_methods.dpmsolver method)": [[5, "grl.numerical_methods.DPMSolver.__init__"]], "__init__() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.__init__"]], "__init__() (grl.numerical_methods.ode method)": [[5, "grl.numerical_methods.ODE.__init__"]], "__init__() (grl.numerical_methods.odesolver method)": [[5, "grl.numerical_methods.ODESolver.__init__"]], "__init__() (grl.numerical_methods.sde method)": [[5, "grl.numerical_methods.SDE.__init__"]], "__init__() (grl.numerical_methods.sdesolver method)": [[5, "grl.numerical_methods.SDESolver.__init__"]], "covariance() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.covariance"]], "d_covariance_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_covariance_dt"]], "d_log_scale_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_log_scale_dt"]], "d_scale_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_scale_dt"]], "d_std_dt() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.d_std_dt"]], "diffusion() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion"]], "diffusion_squared() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.diffusion_squared"]], "drift() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.drift"]], "drift_coefficient() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.drift_coefficient"]], "grl.numerical_methods": [[5, "module-grl.numerical_methods"]], "integrate() (grl.numerical_methods.dpmsolver method)": [[5, "grl.numerical_methods.DPMSolver.integrate"]], "integrate() (grl.numerical_methods.odesolver method)": [[5, "grl.numerical_methods.ODESolver.integrate"]], "integrate() (grl.numerical_methods.sdesolver method)": [[5, "grl.numerical_methods.SDESolver.integrate"]], "log_scale() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.log_scale"]], "scale() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.scale"]], "std() (grl.numerical_methods.gaussianconditionalprobabilitypath method)": [[5, "grl.numerical_methods.GaussianConditionalProbabilityPath.std"]], "doubleqnetwork (class in grl.rl_modules)": [[6, "grl.rl_modules.DoubleQNetwork"]], "doublevnetwork (class in grl.rl_modules)": [[6, "grl.rl_modules.DoubleVNetwork"]], "gymenvsimulator (class in grl.rl_modules)": [[6, "grl.rl_modules.GymEnvSimulator"]], "oneshotvaluefunction (class in grl.rl_modules)": [[6, "grl.rl_modules.OneShotValueFunction"]], "qnetwork (class in grl.rl_modules)": [[6, "grl.rl_modules.QNetwork"]], "vnetwork (class in grl.rl_modules)": [[6, "grl.rl_modules.VNetwork"]], "__init__() (grl.rl_modules.doubleqnetwork method)": [[6, "grl.rl_modules.DoubleQNetwork.__init__"]], "__init__() (grl.rl_modules.doublevnetwork method)": [[6, "grl.rl_modules.DoubleVNetwork.__init__"]], "__init__() (grl.rl_modules.gymenvsimulator method)": [[6, "grl.rl_modules.GymEnvSimulator.__init__"]], "__init__() (grl.rl_modules.oneshotvaluefunction method)": [[6, "grl.rl_modules.OneShotValueFunction.__init__"]], "__init__() (grl.rl_modules.qnetwork method)": [[6, "grl.rl_modules.QNetwork.__init__"]], "__init__() (grl.rl_modules.vnetwork method)": [[6, "grl.rl_modules.VNetwork.__init__"]], "collect_episodes() (grl.rl_modules.gymenvsimulator method)": [[6, "grl.rl_modules.GymEnvSimulator.collect_episodes"]], "collect_steps() (grl.rl_modules.gymenvsimulator method)": [[6, "grl.rl_modules.GymEnvSimulator.collect_steps"]], "compute_double_q() (grl.rl_modules.doubleqnetwork method)": [[6, "grl.rl_modules.DoubleQNetwork.compute_double_q"]], "compute_double_v() (grl.rl_modules.doublevnetwork method)": [[6, "grl.rl_modules.DoubleVNetwork.compute_double_v"]], "compute_double_v() (grl.rl_modules.oneshotvaluefunction method)": [[6, "grl.rl_modules.OneShotValueFunction.compute_double_v"]], "compute_mininum_q() (grl.rl_modules.doubleqnetwork method)": [[6, "grl.rl_modules.DoubleQNetwork.compute_mininum_q"]], "compute_mininum_v() (grl.rl_modules.doublevnetwork method)": [[6, "grl.rl_modules.DoubleVNetwork.compute_mininum_v"]], "evaluate() (grl.rl_modules.gymenvsimulator method)": [[6, "grl.rl_modules.GymEnvSimulator.evaluate"]], "forward() (grl.rl_modules.doubleqnetwork method)": [[6, "grl.rl_modules.DoubleQNetwork.forward"]], "forward() (grl.rl_modules.doublevnetwork method)": [[6, "grl.rl_modules.DoubleVNetwork.forward"]], "forward() (grl.rl_modules.oneshotvaluefunction method)": [[6, "grl.rl_modules.OneShotValueFunction.forward"]], "forward() (grl.rl_modules.qnetwork method)": [[6, "grl.rl_modules.QNetwork.forward"]], "forward() (grl.rl_modules.vnetwork method)": [[6, "grl.rl_modules.VNetwork.forward"]], "grl.rl_modules": [[6, "module-grl.rl_modules"]], "v_loss() (grl.rl_modules.oneshotvaluefunction method)": [[6, "grl.rl_modules.OneShotValueFunction.v_loss"]], "grl.utils": [[7, "module-grl.utils"]], "set_seed() (in module grl.utils)": [[7, "grl.utils.set_seed"]]}})
\ No newline at end of file