Nieuws
Pingouin: een tool voor robuuste EDA-pipelines in data science
Pingouin, een open-source Python-bibliotheek, gebruikt kan worden om robuuste exploratoire data-analyse (EDA)-pipelines te bouwen. Het legt uit hoe de bibliotheek helpt bij het valideren van belangrijke data-eigenschappen zoals univariate en multivariate normaliteit, homoscedasticiteit, sphericiteit en multicollineariteit. Door middel van statistische tests zoals Shapiro-Wilk, Levene's test en Pearson-correlaties, helpt Pingouin bij het identificeren van data-issues die relevant zijn voor machine learning-modellen. Het artikel geeft praktische voorbeelden van hoe deze analyses uitgevoerd worden en benadrukt de belangrijkheid van deze stappen voor het bouwen van betrouwbare modellen.