RLHF: Reinforcement Learning from Human Feedback

1391 shaares

Filters

Links per page

20 50 100

1 result tagged llm-training

Un article qui parle de l'entrainement des LLMs.

Les LLMs sont d'abord entrainé un contenu de "basse qualité" équivalent à ~15 millions de livre.

Ensuite ils sont fine tuné une première fois avec des prompts/réponses de qualité, par exemple pour le dialogue.

La dernière étape est le RLHF, avec des réponses notés par des utilisateurs afin d'améliorer la dernière couche du modèle.

c-ai · text-ai · llm-training

Filters

Links per page

20 50 100