1306 shaares
Microsoft ont continué leurs recherches autour de la compression de prompt avec maintenant une v2 de LLMLingua.
C'est très pratique parce que ça permet de compresser les prompts pour utiliser moins de tokens lors de l'appel au LLM.
Cela fonctionne avec un plus petit modèle comme LlaMa 7B pour identifier et supprimer les tokens non-essentiels dans le prompt.
Pour l'instant, cela n'existe qu'en Python.