首页|Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach

Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach

来源：

英文摘要

We address the problem of quantum reinforcement learning (QRL) under model-free settings with quantum oracle access to the Markov Decision Process (MDP). This paper introduces a Quantum Natural Policy Gradient (QNPG) algorithm, which replaces the random sampling used in classical Natural Policy Gradient (NPG) estimators with a deterministic gradient estimation approach, enabling seamless integration into quantum systems. While this modification introduces a bounded bias in the estimator, the bias decays exponentially with increasing truncation levels. This paper demonstrates that the proposed QNPG algorithm achieves a sample complexity of $\tilde{\mathcal{O}}(Îµ^{-1.5})$ for queries to the quantum oracle, significantly improving the classical lower bound of $\tilde{\mathcal{O}}(Îµ^{-2})$ for queries to the MDP.

作者：Yang Xu、Vaneet Aggarwal

作者单位：

学科分类：计算技术、计算机技术

推荐引用：Yang Xu,Vaneet Aggarwal.Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach[EB/OL].(2025-06-30)[2025-07-20].https://arxiv.org/abs/2501.16243.点此复制

Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach

Accelerating Quantum Reinforcement Learning with a Quantum Natural Policy Gradient Based Approach

评论