Nieuws
Data leakage in ML-pipelines opsporen met synthetische databases
Een model voor het voorspellen van betalingsachterstanden liet een perfecte validatiescore zien, maar faalde in productie door data leakage. De oorzaak was een feature die de uitkomst zelf lekte. Standaardvalidatie vangt dit niet op. Het artikel stelt voor om structurele analyse uit te voeren op synthetische databases om leakage systematisch te detecteren voordat training begint.