An Incremental Off-policy Search in a Model-free Markov Decision Process\n Using a Single Sample Path

Ajin George Joseph; Shalabh Bhatnagar

doi:10.48550/arxiv.1801.10287

An Incremental Off-policy Search in a Model-free Markov Decision Process\n Using a Single Sample Path | NobleID