1306 shaares
Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)
Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.
L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:
- question/réponse: évaluation par un LLM
- génération de code: exécution du code et message d'erreur
- prise de décision: vérification avec l'arbre des "bonnes" décisions
Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.
Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew