Nieuws
RL voor dynamische prijsstelling: hoe we RL trainden om boodschappen te prijzen zonder eigen marges uit te hollen
Onderzoekers trainden een recurrent PPO-agent om kortingen te bepalen in een gesimuleerde supermarkt met psychologisch verschillende shoppers. Het model leerde, enkel beloond op onmiddellijke marge, om prijsankers, retentie en bederf te beheren. Het versloeg een handmatig afgestemde heuristiek met dubbele cijfers op producten die het nog nooit had gezien. Het artikel beschrijft de architectuur, mislukte pogingen en de cruciale rol van discrete actieruimte en asymmetrische actor-critic.