Nieuws
RLHF en RLAIF worden ondersteund in GPT-NeoX
EleutherAI en SynthLabs hebben aangekondigd dat GPT-NeoX nu post-training ondersteunt, waaronder Direct Preference Optimization (DPO) en Kahneman-Tversky Optimization (KTO). Deze ontwikkeling maakt het mogelijk om grote schalen preference learning te implementeren en verbetert de toegankelijkheid van onderzoek in dit gebied. GPT-NeoX combineert hierbij technologieën zoals ZeRO en flash attention met ondersteuning voor verschillende GPU's en modelarchitecturen.