Nieuws

Data leakage in ML-pipelines opsporen met synthetische databases

Een model voor het voorspellen van betalingsachterstanden liet een perfecte validatiescore zien, maar faalde in productie door data leakage. De oorzaak was een feature die de uitkomst zelf lekte. Standaardvalidatie vangt dit niet op. Het artikel stelt voor om structurele analyse uit te voeren op synthetische databases om leakage systematisch te detecteren voordat training begint.

Bron: Towards AI

Originele taal: [en]

Lees hier het originele artikel