1306 shaares
Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.
C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.