Daily Shaarli
April 24, 2024
2 modèles de re-ranking open source ont été release par Jina.
Pour rappel, le re-ranking est une méthode supplémentaire utilisée pour noter la pertinence de documents retrouvés dans la partie retrieval d'un RAG.
Ce sont de plus petits modèles de langue qui coûtent beaucoup moins cher à faire fonctionner et qui donne une note de similarité supplémentaire en plus de la simple recherche vectorielle.
Ça me rappelle le temps des modèles comme BERT par exemple.
Une collection de datasets pour évaluer un RAG est disponible chez LlaMa Hub.
Par exemple, ce dataset contient 44 questions et réponses basées sur les articles de Paul Graham. (Pas forcément le meilleur car il y a de fortes chances que ces articles soient dans les données d'entraînement de votre LLM)
Les évaluations se font entre autre avec le module LabelledRagDataset de LlaMaIndex.
On peut aussi créer ses propres datasets bien sûr.