1306 shaares
Un article qui parle de l'entrainement des LLMs.
Les LLMs sont d'abord entrainé un contenu de "basse qualité" équivalent à ~15 millions de livre.
Ensuite ils sont fine tuné une première fois avec des prompts/réponses de qualité, par exemple pour le dialogue.
La dernière étape est le RLHF, avec des réponses notés par des utilisateurs afin d'améliorer la dernière couche du modèle.