Discover how Dust built infrastructure for AI agents that deliver deep, comprehensive answers. Learn patterns from 9 months of agent logs and optimization.
Alternative à Postman en Opensource
Pleins de techniques pour écrire du Javascript optimizable en terme de bundle frontend
Excellent article de Manus sur la manière de créer un système agentique performant.
1/ Utiliser un maximum le cache des modèles
Le début du prompt doit toujours être le même et le résultat de chaque itération doit être ajouté à la fin.
Le début du prompt sera caché ce qui réduit les coûts (x10 chez Anthropic) et la latence.
2/ Toujours garder la même liste d'outils
Si on change la liste d'outils disponible, le LLM peut se "perdre" car il verra dans son historique des outils utilisés sans les voir dans la liste des outils disponibles.
Pour limiter la liste des outils disponible, il vaut mieux contraindre la génération à choisir uniquement parmi une liste dynamique (avec la Structured Generation)
3/ Ne pas encombrer le contexte inutilement
La "compression" du contexte amène toujours à des baisses de performance alors il faut éviter de conserver des documents entiers dans le contexte mais plutôt garder seulement l'observation en découlant et le chemin pour le relire au cas ou.
4/ Répéter les instructions
Si l'on conserve des instructions importantes (comme la liste des tâches) au début du contexte, le LLM aura tendance à les "oublier".
Pour éviter ça, il ne faut pas hésiter à les répéter au fur et à mesure de la progression.
5/ Conserver les erreurs de jugement
Il faut aussi conserver les erreurs qu'à fait l'agent afin de lui permettre de ne pas les reproduire.
6/ Attention au few-shot prompting
Donner des exemples des actions à réaliser dans le prompt de l'agent peut l'amener à les confondre avec de véritables actions qu'il aurait lui même réalisé.
Anthropic publie une formation complète sur l'utilisation de l'IA à destination des non-techs.
Une attaque de prompt injection par MCP assez sophistiquée.
- une application de réponse aux tickets de support à un accès limité au MCP de Supabase,
- l'attaquant envoi un message contenant une prompt injection
- un développeur lit plus tard dans la table des tickets via son serveur MCP Cursor et exécute l'instruction malicieuse
- l'attaquant peut voir les données privées extraites dans sa conversation
Il n'y a pas d'erreur de configuration dans les droits, cependant les LLMs permettent de faire des "sauts" entre les utilisateurs/permissions en laissant des instructions malicieuses au bon endroit.
Mercury est un modèle spécialisé dans la génération de code mais qui fonctionne selon le principe de diffusion.
Au lieu de générer un stream de tokens, il fonctionne comme un modèle de génération d'image en générant une réponse contenant une première version des tokens puis en itérant sur tous les tokens de cette réponse.
Une très bonne visualisation de ce principe est disponible sur le site de Google pour Gemini Diffusion
Le modèle Mercury est disponible en deux versions Mini (1000 tok/sec) et Small (700 tok/sec)
Les performances de Small sont comparables aux modèles Gemini 2.5 Flash-Lite (200 tok/sec) ou GPT-4o mini (60 tok/sec).
On peut tester la vitesse directement sur https://chat.inceptionlabs.ai/
Les DiffusionLM ont fait du chemin depuis les premiers papiers sortis en décembre 2024, c'est une architecture qui a beaucoup d'avenir étant donné les performances et la vitesse !
Cela résume très bien les bonnes pratiques dans le développement d'agents et de systèmes LLM en général
Un repository d'outils pour LLM au format MCP.
On y retrouve Gmail, Github, Slack et plus de 200 intégrations.
Ça gère l'authentification si besoin en ouvrant une fenêtre du navigateur pour la demander.
Un site pour consulter tout un tas d'informations en accès libre.
Par exemple ici ce sont les données du cadastre liées aux ventes de biens immobilliers