Daily Shaarli
October 17, 2024
OpenAI fait du caching automatique de prompts.
C'est une bonne nouvelle car ça permet de réduire la latence (jusqu'à 80%) et les coûts des tokens d'input (les tokens en cache sont 50% moins cher)
Ça fonctionne de manière transparente sur les derniers modèles d'OpenAI.
Pour optimiser le caching, il est conseillé de mettre les instructions statiques au début du prompt. Si vous avez une instruction statique après du contenu dynamique, elle ne sera pas caché.
Ça apporte une sacré contrainte au niveau de la construction des prompts si on veut maximiser le caching mais dans des cas d'usage ou la latence est importante ça peut vraiment changer les choses.