Daily Shaarli

All links of one day in a single page.

23 octobre 2024

Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku \ Anthropic
thumbnail

Anthropic a sorti une mise à jour importante de Claude 3.5 Sonnet et il obtient des résultats impressionnant sur les benchmark !

Il dépasse GPT4-o sur la plupart des benchmarks existants et de loin mais c'est surtout sur la partie code qu'il réalise un exploit car il dépasse tous les autres modèles spécialisés sur le benchmark SWE-Bench avec 49% des tâches de réalisées.

La progression des modèles pour les tâches de programmation est vertigineuse, pour rappel en août le SOTA était Aider avec 19%

Personnellement, j'utilise uniquement Claude 3.5 Sonnet dans Cursor et c'est vrai qu'il y a une différence notable avec GPT-4o.

Ad Auctions for LLMs via Retrieval Augmented Generation

Un article qui propose d'intégrer des publicités dans les réponses des LLMs.

Par exemple, si vous recherchez un livre de science fiction similaire à un que vous avez aimé, le LLM vous proposera un nouveau livre ainsi qu'un lien vers un site de vente de ligne pour l'acheter.

Le système utiliserait un système type RAG pour intégrer des instructions spécifiques de publicité dans la réponse du LLM.

Autant ce genre de système pourrait apparaitre dans les applications finales comme ChatGPT, autant cela parait difficile de faire utiliser une API incluant de la publicité à un client qui intègre de la GenAI dans son produit.

Je serais assez frileux d'utiliser ce système, même si l'API était gratuite car cela introduit encore plus imprédictibilité des résultats à cause de l'injection d'instructions potentiellement différentes à chaque utilisation.

Pour des cas d'usage très simple cela serait moins problématique mais dans des workflows LLM un peu complexe cela peut avoir des effets très dur à contrôler.