Nieuws

Het fundamentele keuze in reinforcement learning: on-policy vs off-policy

Dit artikel van Towards Data Science legt het verschil uit tussen on-policy en off-policy methoden in reinforcement learning. Het bespreekt hoe deze keuze invloed heeft op exploratie, veiligheid en efficiëntie. De vergelijking tussen SARSA en Q-learning wordt gebruikt om de concepten te verduidelijken, inclusief de trade-offs tussen stabiliteit en datagebruik.

Bron: Towards Data Science

Originele taal: [en-US]

Lees hier het originele artikel