Squeezing the Juice: Microsoft’s LLMLingua2 demonstrates a Token-Saving Technique using Task-agnostic Prompt Compression

1371 shaares

Filters

Links per page

20 50 100

Microsoft ont continué leurs recherches autour de la compression de prompt avec maintenant une v2 de LLMLingua.

C'est très pratique parce que ça permet de compresser les prompts pour utiliser moins de tokens lors de l'appel au LLM.

Cela fonctionne avec un plus petit modèle comme LlaMa 7B pour identifier et supprimer les tokens non-essentiels dans le prompt.

Pour l'instant, cela n'existe qu'en Python.

c-ai · text-ai

Filters

Links per page

20 50 100