Une méthode de compression des prompts pour réduire leur taille.
La méthode utilise de plus petit LLMs pour compresser un texte en ne conservant que les informations pertinentes pour un LLM.
La différence de performances avec le prompt compressé est minime mais on peut diviser la taille par 20!
Leur deuxième méthode est aussi de la compression de prompt mais dans le cadre d'un RAG. Le contenu du prompt est compressé et surtout ré-organisé lorsqu'il contient des documents afin d'améliorer le score de retrieval.
Ils affichent des performances de 17% supérieures sur NaturalQuestions avec 4x moins de tokens.
Bref, moins de tokens = plus rapide + moins cher, sans baisse de performances significatives voir de meilleures performances.
Des exemples sont disponibles et utilisable en ligne dans Google Collab https://github.com/microsoft/LLMLingua/tree/main/examples