Search: [text-ai] - Aschen | Sharing the webz

Context Engineering for AI Agents: Lessons from Building Manus

Excellent article de Manus sur la manière de créer un système agentique performant.

1/ Utiliser un maximum le cache des modèles

Le début du prompt doit toujours être le même et le résultat de chaque itération doit être ajouté à la fin.

Le début du prompt sera caché ce qui réduit les coûts (x10 chez Anthropic) et la latence.

2/ Toujours garder la même liste d'outils

Si on change la liste d'outils disponible, le LLM peut se "perdre" car il verra dans son historique des outils utilisés sans les voir dans la liste des outils disponibles.

Pour limiter la liste des outils disponible, il vaut mieux contraindre la génération à choisir uniquement parmi une liste dynamique (avec la Structured Generation)

3/ Ne pas encombrer le contexte inutilement

La "compression" du contexte amène toujours à des baisses de performance alors il faut éviter de conserver des documents entiers dans le contexte mais plutôt garder seulement l'observation en découlant et le chemin pour le relire au cas ou.

4/ Répéter les instructions

Si l'on conserve des instructions importantes (comme la liste des tâches) au début du contexte, le LLM aura tendance à les "oublier".

Pour éviter ça, il ne faut pas hésiter à les répéter au fur et à mesure de la progression.

5/ Conserver les erreurs de jugement

Il faut aussi conserver les erreurs qu'à fait l'agent afin de lui permettre de ne pas les reproduire.

6/ Attention au few-shot prompting

Donner des exemples des actions à réaliser dans le prompt de l'agent peut l'amener à les confondre avec de véritables actions qu'il aurait lui même réalisé.

c-ai · text-ai · agent-ai

August 4, 2025 at 14:01:14 UTC * · permalink

·

https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

Mercury: Ultra-Fast Language Models Based on Diffusion

Mercury est un modèle spécialisé dans la génération de code mais qui fonctionne selon le principe de diffusion.

Au lieu de générer un stream de tokens, il fonctionne comme un modèle de génération d'image en générant une réponse contenant une première version des tokens puis en itérant sur tous les tokens de cette réponse.

Une très bonne visualisation de ce principe est disponible sur le site de Google pour Gemini Diffusion

Le modèle Mercury est disponible en deux versions Mini (1000 tok/sec) et Small (700 tok/sec)

Les performances de Small sont comparables aux modèles Gemini 2.5 Flash-Lite (200 tok/sec) ou GPT-4o mini (60 tok/sec).

On peut tester la vitesse directement sur https://chat.inceptionlabs.ai/

Les DiffusionLM ont fait du chemin depuis les premiers papiers sortis en décembre 2024, c'est une architecture qui a beaucoup d'avenir étant donné les performances et la vitesse !

c-ai · text-ai · diffusion-lm

July 7, 2025 at 13:51:14 UTC * · permalink

·

https://arxiv.org/pdf/2506.17298

compar:IA, le comparateur d'IA conversationnelles

Le gouvernement a sorti un comparateur d'IA en mode arène.

Ça permet de comparer les réponses de deux IA à une question pour alimenter un dataset afin de les comparer.

Au passage, ça donne des informations sur les modèles (après avoir voté) et la consommation énergétique.

c-ai · text-ai

February 18, 2025 at 16:53:11 UTC * · permalink

·

https://www.comparia.beta.gouv.fr/

Mirascope/mirascope: LLM abstractions that aren't obstructions

La meilleure lib pour utiliser des LLMs en Python selon moi car ils supportent:

quasiment tous les providers
la génération structurée
les input multi-modaux
du streaming
le retry

Bref, tout ce qu'il faut pour faire sérieusement du LLM Engineering en python.

La documentation est ici

c-ai · text-ai

February 16, 2025 at 19:05:36 UTC * · permalink

·

https://github.com/mirascope/mirascope

LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models

Ce site est pas mal lorsqu'il s'agit de comparer les modèles sur leurs différentes caractéristiques:

taille de la fenêtre de contexte
"intelligence"
prix du million de token
vitesse de génération de token

c-ai · text-ai

February 16, 2025 at 08:31:18 UTC * · permalink

·

https://artificialanalysis.ai/leaderboards/models

s1: Simple test-time scaling

Une technique intéressante pour améliorer les capacités des modèles de raisonnement des modèles, même les petits modèles entrainés sur de petits dataset.

Ici le modèle s1 possède seulement 32 milliards de paramètres (32B) mais est capable de dépasser les performances du modèle o1-preview d'OpenAI.

Leur approche se base sur deux techniques;

limiter la "longueur" du raisonnement (les "reasoning tokens") en ajoutant à un moment de l'inférence un token indiquant au modèle qu'il doit fournir sa réponse définitive
forcer le modèle à réfléchir sur la solution qu'il a généré jusqu'à maintenant en insérant "Wait" à la fin de la séquence de raisonnement

Le simple fait d'insérer "Wait', force le modèle à réfléchir sur la solution qu'il a envisagé et leur permet d'atteindre des performances similaires à un énorme modèle comme o1-preview.

C'est assez impressionnant car cela veut dire que de simples techniques de Prompt Engineering peuvent permettre d'atteindre des performances qui rivalisent avec celles des gros modèles.

c-ai · text-ai

February 10, 2025 at 07:54:43 UTC * · permalink

·

https://arxiv.org/pdf/2501.19393

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

Le nombre de contenu généré par IA explose.

Certains de ces articles généré par IA et publié souvent sans être vérifiés sont ensuite utilisés comme source sur Wikipedia.

c-ai · text-ai

February 8, 2025 at 16:22:26 UTC * · permalink

·

https://next.ink/153613/enquete-plus-de-1-000-medias-en-francais-generes-par-ia-polluent-le-web-et-google/

PDF extraction with Gemini 2.0 flash

Gemini 2.0 flash obtient les meilleurs résultats sur la reconnaissance et l'extraction de texte depuis un PDF que la plupart des autres solutions du marché.

L'auteur propose aussi d'utiliser le LLM pour découper le texte en chunk de taille convenable conservant la même thématique.

c-ai · text-ai

February 7, 2025 at 17:10:43 UTC * · permalink

·

https://www.sergey.fyi/articles/gemini-flash-2

How DeepSeek Cracked the Cost Barrier with $5.6M

Le modèle chinois DeepSeek est impressionnant en terme d'optimisation de calcul.

Ce modèle de 671 milliards de paramètres aurait été entrainé avec seulement 2.78 millions de GPU hours sur des cartes graphiques Nvidia H800 bridées pour le marché chinois.

À titre de comparaison, Llama 3 a eu besoin de 11 fois plus de puissance de calcul et possède 405 milliards de paramètres.

Plusieurs optimisations ont été implémentées par l'équipe de DeepSeek avec notamment de la prédiction de token qui fait pensé à ce qu'il se fait dans les CPU mais aussi avec une activation de seulement 37 milliards des paramètres les plus pertinents pour générer chaque token.

C'est vraiment impressionnant car DeepSeek v3 est en 7e position de https://livebench.ai avec devant lui seulement les dernières versions des modèles Gemini de Google et les modèles à raisonnement o1 de OpenAI et DeepSeek r1.

Maintenant à voir si des équipes indépendantes arrivent à reproduire des résultats similaire.

Il faut quand même prendre des pincettes avec ce modèle qui pourrait être considéré par le gouvernement chinois comme une nouvelle source de propagande.

c-ai · text-ai

January 27, 2025 at 13:12:10 UTC * · permalink

·

https://www.unite.ai/how-deepseek-cracked-the-cost-barrier-with-5-6m/

Fireworks - AI Inference

Fireworks est un acteur majeur dans l'infrastructure d'inférence pour modèles Open Source.

Ils proposent la plupart des modèles existant comme Mistral, LlaMa, Qwen mais aussi DeepSeek v3 et R1.

Les prix sont très compétitifs avec seulement 0.9$/MTok (million de tokens) pour DeepSeek v3 qui offre de meilleures performances que GPT-4o (3$/MTok).

De nombreuses entreprises utilisent Fireworks, je l'ai découvert pendant que j’étudiai le fonctionnement de Cursor.

Ils utilisent notamment une version custom de LlaMa pour la partie "apply" des suggestions générées par des modèles plus performants.

c-ai · text-ai · ai-ops

January 24, 2025 at 14:47:41 UTC * · permalink

·

https://fireworks.ai/pricing

MiniCPM-o 2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone

Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)

Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.

A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.

Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.

Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.

c-ai · text-ai

January 17, 2025 at 12:07:58 UTC * · permalink

·

https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file

IA Bot DDos the internet

Un administrateur s'est rendu compte que près de la moitié des requêtes servies par son serveurs étaient pour des crawlers IA !

24% du trafic pour GPTBot (OpenAI), 15% pour AmazonBot, 4% pour ClaudeBot, etc

Les bot IA crawlent comme des porcs et même des pages complètement inutiles comme la liste des mises à jour d'une page wiki.

Par comparaison, le Google bot représente 0.14% de son trafic.

En plus, ils ne respectent pas les robots.txt, changent constamment d'IP et parfois masquent même leur user agents.

Ce sont vraiment des pratiques intolérables.

Un autre exemple d'un gérant de site de e-commerce qui a subit l'équivalent d'une attaque DDoS avec le bot d'OpenAI ayant scrappé les milliers de produits et dizaine de milliers d'images de son site avec plus de 600 IP différentes (/!) alors que son robots.txt interdit au bot d'OpenAI d'opérer.

Non seulement ce genre de pratique peut avoir des répercussion au niveau du copyright mais aussi très concrètement au niveau du porte monnaie car les serveurs sont beaucoup plus sollicités !

c-ai · text-ai

January 8, 2025 at 04:19:56 UTC * · permalink

·

https://pod.geraspora.de/posts/17342163

OpenAI's Latest AI Can Cost More Than $1,000 Per Query

Pour résoudre les tâches du benchmark ARC-AGI, les requêtes faites à o3 coutaient en moyenne 1000€ !

Ce genre de prix est vraiment prohibitif même pour des tâches compliquées car à ce prix, autant demandé à un humain.

La version "low-compute" du modèle o3 s'en tire avec avec 10 points de moins (76%) mais pour seulement 20$ par tâche.

Les résultats du modèle d'OpenAI o3 au benchmark ARC-AGI sont contestés, notamment parce qu'OpenAI a avoué avoir entrainé son modèle avec les données des exercices.

c-ai · text-ai

January 8, 2025 at 04:09:33 UTC * · permalink

·

https://futurism.com/the-byte/openai-o3-cost-per-query

Large Concept Models: Language Modeling in a Sentence Representation Space

Meta publie un article sur une nouvelle architecture de modèle de langue.

Au lieu de s'appuyer sur des tokens qui représente des "bouts" de mots de quelques lettres, ils proposent de s'appuyer directement sur des concepts de haut niveau.

Un exemple de token avec cette architecture serait "Tim n'était pas très athlétique".

Cela ressemble aux idéogrammes chinois vs les alphabets et d'ailleurs les compromis sont sensiblement les mêmes:

Par exemple, la vitesse d'inférence (= écriture) accrue pour les concepts mais au prix d'un nombre de concepts beaucoup plus importants et donc aussi un coût d'entrainement + inférence (FLOPS) plus élevé.

En tout cas c'est rassurant de voir qu'il y a des architectures radicalement différente des LLMs actuels qui émergent !

c-ai · text-ai

January 4, 2025 at 23:44:11 UTC * · permalink

·

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

LearnLM: Improving Gemini for Learning

Google a fine tuné Gemini 1.5 Pro pour améliorer le modèle dans un cadre d'enseignement en respectant les concepts de la pédagogie.

Les LLMs ont tendance à présenter l'information plutôt qu'à engager l'utilisateur dans un processus de réflexion et de compréhension. C'est justement l'un des axe qu'ils ont essayé d'améliorer.

Les résultats présentés ont été fait sur 2360 conversations pour un total de 58000 messages et chaque pair de message a été évalué par 3 experts en moyenne.

Ils affichent des résultats 13% meilleurs que le modèle Gemini 1.5 Pro de base.

C'est aussi intéressant de voir que dans l'étude, GPT-4o possède les moins bons résultats face à Claude 3.5 Sonnet et Gemini 1.5 Pro. Les meilleurs modèles "pédagogues" seraient donc Claude et Gemini.

Il est possible de le tester en mode chat ici: https://aistudio.google.com/

De nombreux exemples de prompt sont dans la documentation https://ai.google.dev/gemini-api/docs/learnlm

Le modèle est déjà disponible dans le SDK sous le nom learnlm-1.5-pro-experimental

c-ai · text-ai

January 4, 2025 at 23:31:40 UTC * · permalink

·

https://services.google.com/fh/files/misc/improving-gemini-for-education_v7.pdf

How to Create an llms.txt File for Any Website

llms.txt c'est le nouveau standard pour aider les LLM à comprendre les pages web.

Concrètement c'est un fichier qui comme le fameux robots.txt (ou security.txt ou humans.txt) donne des informations au format texte.

Ces fichiers ne se mettent pas forcément à la racine, exemple avec la doc de Cursor https://docs.cursor.com/llms-full.txt

c-ai · text-ai

January 4, 2025 at 17:12:13 UTC * · permalink

·

https://www.firecrawl.dev/blog/How-to-Create-an-llms-txt-File-for-Any-Website

Google introduces Gemini 2.0: A new AI model for the agentic era

Google annonce Gemini 2.0 Flash.

Niveau benchmark comme d'habitude il faut attendre que ça sorte sur Livebench pour avoir une meilleure comparaison mais quand même ils affichent de très bon résultats:

89.7% sur MATH (76.6 GPT-4o)
62.1% sur GPQA (59.4% Claude 3.5 Sonnet)
35.1% sur LiveCodeBench (42% Claude 3.5 Sonnet, 67% o1-mini)

La big new c'est surtout la multi-modalité en entrée et en sortie du modèle qui est capable de générer un mix de texte, son et image pour répondre si besoin.

Google a vraiment rattrapé son retard, c'est cool de voir toutes ces améliorations.

c-ai · text-ai

December 11, 2024 at 23:32:35 UTC * · permalink

·

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

Use our prompt improver to optimize your prompts - Anthropic

Anthropic propose un optimisateur de prompt.

Pendant son entrainement, Claude a été optimisé sur certains patterns comme l'utilisation de balises XML pour organiser le contenu et ces patterns peuvent améliorer la performance des prompts.

c-ai · text-ai

December 11, 2024 at 16:56:46 UTC * · permalink

·

https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/prompt-improver

I spent 8 hours testing o1 Pro ($200) vs Claude Sonnet 3.5 ($20) - Here's what nobody tells you about the real-world performance difference : ChatGPT

Un retour d'expérience sur l'utilisation de o1 et Claude 3.5 Sonnet.

La conclusion c'est que dans la majorité des cas, Claude 3.5 Sonnet est suffisamment bon et que la différence prix + latence entre les deux modèles fait plutôt pencher la balance du côté de Claude 3.5 Sonnet

c-ai · text-ai

December 8, 2024 at 17:10:09 UTC * · permalink

·

https://old.reddit.com/r/ChatGPT/comments/1h82qp5/i_spent_8_hours_testing_o1_pro_200_vs_claude/

OpenAI réfléchit à sa stratégie pour ajouter la publicité à son modèle économique

Tout est dans le titre.

OpenAI recrute des spécialistes de la publicité en provenance de chez Google et Meta pour réfléchir à son offre publicitaire.

À priori, ça sera sûrement du placement de produit dans les résultats de génération de ChatGPT.

Un article proposait une méthode pour transposer le système d'enchères traditionnel de la pub en ligne aux LLM

c-ai · text-ai

December 3, 2024 at 04:00:41 UTC * · permalink

·

https://next.ink/brief_article/openai-reflechit-a-sa-strategie-pour-ajouter-la-publicite-a-son-modele-economique/