Nieuws
Pretraining Data Filtering voor Open-Weight AI Veiligheid
EleutherAI presenteert een onderzoek waarin ze laten zien dat het filteren van pretraining data kan helpen bij het voorkomen van onveilige kennis in open-weight grote taalmodellen (LLMs). Het onderzoek toont aan dat dit proces niet alleen de veiligheid verhoogt, maar ook tamper-resistentie biedt. De auteurs gebruiken een meervoudige filterpipeline en testen de effectiviteit op verschillende benchmarks, zoals WMDP-Bio. De resultaten laten zien dat het filteren van gegevens kan leiden tot een significante afname van onveilige kennis zonder grote invloed op algemene prestaties. Bovendien blijken gefilterde modellen beter te zijn bestand tegen aanpassingen via fine-tuning dan modellen met traditionele veiligheidsmaatregelen.