Monthly - February, 2025 - Aschen

Delete Set public Set private

Monthly Shaarli

Previous month

All links of one month in a single page.

Next month

February, 2025

compar:IA, le comparateur d'IA conversationnelles

Le gouvernement a sorti un comparateur d'IA en mode arène.

Ça permet de comparer les réponses de deux IA à une question pour alimenter un dataset afin de les comparer.

Au passage, ça donne des informations sur les modèles (après avoir voté) et la consommation énergétique.

c-ai text-ai

s1: Simple test-time scaling

Une technique intéressante pour améliorer les capacités des modèles de raisonnement des modèles, même les petits modèles entrainés sur de petits dataset.

Ici le modèle s1 possède seulement 32 milliards de paramètres (32B) mais est capable de dépasser les performances du modèle o1-preview d'OpenAI.

Leur approche se base sur deux techniques;

limiter la "longueur" du raisonnement (les "reasoning tokens") en ajoutant à un moment de l'inférence un token indiquant au modèle qu'il doit fournir sa réponse définitive
forcer le modèle à réfléchir sur la solution qu'il a généré jusqu'à maintenant en insérant "Wait" à la fin de la séquence de raisonnement

Le simple fait d'insérer "Wait', force le modèle à réfléchir sur la solution qu'il a envisagé et leur permet d'atteindre des performances similaires à un énorme modèle comme o1-preview.

C'est assez impressionnant car cela veut dire que de simples techniques de Prompt Engineering peuvent permettre d'atteindre des performances qui rivalisent avec celles des gros modèles.

c-ai text-ai

Launch YC: Osmosis: Unlocking Real-Time Learning for AI Agents | Y Combinator

c-ai

https://omnihuman-lab.github.io/

Bytedance (TikTok) ont sorti un modèle de génération de vidéo spécialisé dans la génération de personnes.

Depuis une image, un enregistrement audio, une vidéo sans audio ou une combinaison des deux, ils peuvent générer des vidéos entières quasiment sans artefacts (hallucinations).

Le modèle est privé pour le moment.

c-ai video-ai

Mirascope/mirascope: LLM abstractions that aren't obstructions

La meilleure lib pour utiliser des LLMs en Python selon moi car ils supportent:

quasiment tous les providers
la génération structurée
les input multi-modaux
du streaming
le retry

Bref, tout ce qu'il faut pour faire sérieusement du LLM Engineering en python.

La documentation est ici

c-ai text-ai

.CursorRules

Un annuaire d'instructions à ajouter dans les règles custom de Cursor (.cursorrules).

Il y a des règles spécialisées pour les langages, frameworks, etc

c-ai code-ai

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

Le nombre de contenu généré par IA explose.

Certains de ces articles généré par IA et publié souvent sans être vérifiés sont ensuite utilisés comme source sur Wikipedia.

c-ai text-ai

OpenAI o3-mini is now available in GitHub Copilot Free

OpenAI et Github ont rendu le modèle o3-mini disponible dans l'extension Copilot.

Le modèle est configuré sur le niveau de raisonnement "moyen" ce qui en fait l'un des meilleurs modèles du marché (3e position sur Livebench)

Cependant, Claude 3.5 Sonnet a toujours les meilleurs résultats dans les benchmarks uniquement en code (67 contre 65 pour o3-mini-medium)

c-ai code-ai

LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models

Ce site est pas mal lorsqu'il s'agit de comparer les modèles sur leurs différentes caractéristiques:

taille de la fenêtre de contexte
"intelligence"
prix du million de token
vitesse de génération de token

c-ai text-ai

microsoft/SoM: Set-of-Mark Prompting for GPT-4V and LMMs

Set of Mark c'est la technique qui consiste à annoter une image avec des numéro avant de la passer à un LLM vision.

Ça permet au LLM d'identifier précisément les entités et de les citer dans le prompt.

C'est ce qui est utilisé dans beaucoup de systèmes de manipulation d'interface pour que le LLM puisse identifier les différentes parties de l'interface.

c-ai image-ai

PDF extraction with Gemini 2.0 flash

Gemini 2.0 flash obtient les meilleurs résultats sur la reconnaissance et l'extraction de texte depuis un PDF que la plupart des autres solutions du marché.

L'auteur propose aussi d'utiliser le LLM pour découper le texte en chunk de taille convenable conservant la même thématique.

c-ai text-ai

Jim & Jimmies : comment Partoo transforme sa plateforme SaaS en Multi-agent System ?

c-ai