Nieuws

RLHF en RLAIF worden ondersteund in GPT-NeoX

EleutherAI en SynthLabs hebben aangekondigd dat GPT-NeoX nu post-training ondersteunt, waaronder Direct Preference Optimization (DPO) en Kahneman-Tversky Optimization (KTO). Deze ontwikkeling maakt het mogelijk om grote schalen preference learning te implementeren en verbetert de toegankelijkheid van onderzoek in dit gebied. GPT-NeoX combineert hierbij technologieën zoals ZeRO en flash attention met ondersteuning voor verschillende GPU's en modelarchitecturen.

Bron: EleutherAI Blog

Originele taal: [en-us]

Lees hier het originele artikel