RLHF: Reinforcement Learning from Human Feedback

1391 shaares

Filters

Links per page

20 50 100

Un article qui parle de l'entrainement des LLMs.

Les LLMs sont d'abord entrainé un contenu de "basse qualité" équivalent à ~15 millions de livre.

Ensuite ils sont fine tuné une première fois avec des prompts/réponses de qualité, par exemple pour le dialogue.

La dernière étape est le RLHF, avec des réponses notés par des utilisateurs afin d'améliorer la dernière couche du modèle.

c-ai · text-ai · llm-training

Filters

Links per page

20 50 100