Aschen | Sharing the webz

Si on change la liste d'outils disponible, le LLM peut se "perdre" car il verra dans son historique des outils utilisés sans les voir dans la liste des outils disponibles.

Pour limiter la liste des outils disponible, il vaut mieux contraindre la génération à choisir uniquement parmi une liste dynamique (avec la Structured Generation)

3/ Ne pas encombrer le contexte inutilement

La "compression" du contexte amène toujours à des baisses de performance alors il faut éviter de conserver des documents entiers dans le contexte mais plutôt garder seulement l'observation en découlant et le chemin pour le relire au cas ou.

4/ Répéter les instructions

Si l'on conserve des instructions importantes (comme la liste des tâches) au début du contexte, le LLM aura tendance à les "oublier".

Pour éviter ça, il ne faut pas hésiter à les répéter au fur et à mesure de la progression.

5/ Conserver les erreurs de jugement

Il faut aussi conserver les erreurs qu'à fait l'agent afin de lui permettre de ne pas les reproduire.

6/ Attention au few-shot prompting

Donner des exemples des actions à réaliser dans le prompt de l'agent peut l'amener à les confondre avec de véritables actions qu'il aurait lui même réalisé.

c-ai · text-ai · agent-ai

August 4, 2025 at 14:01:14 UTC * · permalink

·

https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

AI Fluency: Frameworks and Foundations

Anthropic publie une formation complète sur l'utilisation de l'IA à destination des non-techs.

c-ai

August 4, 2025 at 07:50:32 UTC * · permalink

·

https://www.anthropic.com/ai-fluency

Supabase MCP can leak your entire SQL database

Une attaque de prompt injection par MCP assez sophistiquée.

une application de réponse aux tickets de support à un accès limité au MCP de Supabase,
l'attaquant envoi un message contenant une prompt injection
un développeur lit plus tard dans la table des tickets via son serveur MCP Cursor et exécute l'instruction malicieuse
l'attaquant peut voir les données privées extraites dans sa conversation

Il n'y a pas d'erreur de configuration dans les droits, cependant les LLMs permettent de faire des "sauts" entre les utilisateurs/permissions en laissant des instructions malicieuses au bon endroit.

c-ai · prompt-injection

July 9, 2025 at 15:22:46 UTC * · permalink

·

https://www.generalanalysis.com/blog/supabase-mcp-blog

Mercury: Ultra-Fast Language Models Based on Diffusion

Mercury est un modèle spécialisé dans la génération de code mais qui fonctionne selon le principe de diffusion.

Au lieu de générer un stream de tokens, il fonctionne comme un modèle de génération d'image en générant une réponse contenant une première version des tokens puis en itérant sur tous les tokens de cette réponse.

Une très bonne visualisation de ce principe est disponible sur le site de Google pour Gemini Diffusion

Le modèle Mercury est disponible en deux versions Mini (1000 tok/sec) et Small (700 tok/sec)

Les performances de Small sont comparables aux modèles Gemini 2.5 Flash-Lite (200 tok/sec) ou GPT-4o mini (60 tok/sec).

On peut tester la vitesse directement sur https://chat.inceptionlabs.ai/

Les DiffusionLM ont fait du chemin depuis les premiers papiers sortis en décembre 2024, c'est une architecture qui a beaucoup d'avenir étant donné les performances et la vitesse !

c-ai · text-ai · diffusion-lm

July 7, 2025 at 13:51:14 UTC * · permalink

·

https://arxiv.org/pdf/2506.17298

Introducing pay per crawl: enabling content owners to charge AI crawlers for access

c-ai

July 1, 2025 at 15:56:53 UTC * · permalink

·

https://blog.cloudflare.com/introducing-pay-per-crawl/

Agentic Misalignment

c-ai

June 30, 2025 at 16:44:02 UTC * · permalink

·

https://www.anthropic.com/research/agentic-misalignment

Casser les mots de passe de ses utilisateurs avec le plus gros dictionnaire français du monde | Le blog de Zythom

c-securite

May 12, 2025 at 14:42:33 UTC * · permalink

·

https://zythom.fr/2025/04/casser-les-mots-de-passe-de-ses-utilisateurs-avec-le-plus-gros-dictionnaire-francais-du-monde/

humanlayer/12-factor-agents: What are the principles we can use to build LLM-powered software that is actually good enough to put in the hands of production customers?

Cela résume très bien les bonnes pratiques dans le développement d'agents et de systèmes LLM en général

c-ai

April 18, 2025 at 19:41:13 UTC * · permalink

·

https://github.com/humanlayer/12-factor-agents

Composio - Access 250+ Apps in Just One Line of Code - Composio

Un repository d'outils pour LLM au format MCP.

On y retrouve Gmail, Github, Slack et plus de 200 intégrations.

Ça gère l'authentification si besoin en ouvrant une fenêtre du navigateur pour la demander.

c-ai · assistant-ai · model-context-protocol

March 24, 2025 at 18:36:26 UTC * · permalink

·

https://composio.dev/

Pappers Immobilier : toutes les données immobilières sur une plateforme unique

Un site pour consulter tout un tas d'informations en accès libre.

Par exemple ici ce sont les données du cadastre liées aux ventes de biens immobilliers

c-outils · osint

March 16, 2025 at 09:15:48 UTC * · permalink

·

https://immobilier.pappers.fr/

compar:IA, le comparateur d'IA conversationnelles

Le gouvernement a sorti un comparateur d'IA en mode arène.

Ça permet de comparer les réponses de deux IA à une question pour alimenter un dataset afin de les comparer.

Au passage, ça donne des informations sur les modèles (après avoir voté) et la consommation énergétique.

c-ai · text-ai

February 18, 2025 at 16:53:11 UTC * · permalink

·

https://www.comparia.beta.gouv.fr/

Mirascope/mirascope: LLM abstractions that aren't obstructions

La meilleure lib pour utiliser des LLMs en Python selon moi car ils supportent:

quasiment tous les providers
la génération structurée
les input multi-modaux
du streaming
le retry

Bref, tout ce qu'il faut pour faire sérieusement du LLM Engineering en python.

La documentation est ici

c-ai · text-ai

February 16, 2025 at 19:05:36 UTC * · permalink

·

https://github.com/mirascope/mirascope

LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models

Ce site est pas mal lorsqu'il s'agit de comparer les modèles sur leurs différentes caractéristiques:

taille de la fenêtre de contexte
"intelligence"
prix du million de token
vitesse de génération de token

c-ai · text-ai

February 16, 2025 at 08:31:18 UTC * · permalink

·

https://artificialanalysis.ai/leaderboards/models

s1: Simple test-time scaling

Une technique intéressante pour améliorer les capacités des modèles de raisonnement des modèles, même les petits modèles entrainés sur de petits dataset.

Ici le modèle s1 possède seulement 32 milliards de paramètres (32B) mais est capable de dépasser les performances du modèle o1-preview d'OpenAI.

Leur approche se base sur deux techniques;

limiter la "longueur" du raisonnement (les "reasoning tokens") en ajoutant à un moment de l'inférence un token indiquant au modèle qu'il doit fournir sa réponse définitive
forcer le modèle à réfléchir sur la solution qu'il a généré jusqu'à maintenant en insérant "Wait" à la fin de la séquence de raisonnement

Le simple fait d'insérer "Wait', force le modèle à réfléchir sur la solution qu'il a envisagé et leur permet d'atteindre des performances similaires à un énorme modèle comme o1-preview.

C'est assez impressionnant car cela veut dire que de simples techniques de Prompt Engineering peuvent permettre d'atteindre des performances qui rivalisent avec celles des gros modèles.

c-ai · text-ai

February 10, 2025 at 07:54:43 UTC * · permalink

·

https://arxiv.org/pdf/2501.19393