Daily Shaarli

All links of one day in a single page.

October 16, 2024

Un Ministral, des Ministraux

Mistral sort deux nouveaux SLM avec une version 3B et une version 8B (un peu gros pour un SLM quand même)

Le but affiché est de concurrencer les autres Small Language Model Open Source comme Phi de Microsoft ou Gemma de Google.

Les modèles ont de meilleures performances que les mêmes modèles de la même catégorie, ce qui pourrait en faire les meilleures SLM du marché pour l'instant.

Attention car les modèles sont release avec la MNPL et donc pas d'application commercial sans passer par la case licence.

LLMs don’t do formal reasoning - and that is a HUGE problem

Le résultat d'une étude menée par 6 chercheurs de chez Apple sur les capacités de "raisonnement" des LLMs.

On entend beaucoup dire que les LLMs sont capable de raisonner sur des problèmes alors que c'est faux dans la mesure ou la seule chose qu'est capable de faire un LLM c'est de prévoir une suite de mots en fonction d'une autre suite de mot.

La complexité des modèles est telle que cette simple capacité des LLM leur permet de résoudre des tâches plus ou moins complexe.

Mais il ne faut pas leur attribuer des capacités de raisonnement comme on l'entendrait pour un humain.

Les LLMs restent quand même excellent dans de nombreuses tâches comme l'extraction d'entités ou l'extrapolation depuis des exemples.

nvidia/Llama-3.1-Nemotron-70B-Instruct
thumbnail

Un modèle basé sur LlaMa 3.1 qui a été ré-entrainé par Nvidia.

Les performances sont impressionnantes, il se classe tout simplement juste derrière les modèles d'OpenAI et d'Anthropic sur Arena Hard

Alors après ces résultats sont quand même à prendre avec des pincettes car Arena Hard est basé sur une évaluation automatique d'une sélection de question de [Chatbot Arena](http://Chatbot Arena).

Il faudra attendre le résultat sur d'autres benchmark (raisonnement, code, math, etc) et notamment sur Livebench qui reste pour l'instant une référence.

C'est quand même une bonne nouvelle car cela prouve que les modèles Open Source sont capables d'approcher les performances des modèles closed source.

Understanding Retrieval Augmented Generation
thumbnail

La page de Dust qui explique le concept et les limites du RAG.

C'est la meilleure explication que j'ai trouvé et de loin !

OpenAI/Swarm - Educational framework exploring ergonomic, lightweight multi-agent orchestration. Managed by OpenAI Solution team.
thumbnail

OpenAI propose un framework d'expérimentation multi-agents.

Concrètement, ça permet de déclarer des agents spécialisés et surtout de pouvoir donner la main à un autre agent mieux qualifier à gérer une demande.

Par exemple, on peut avoir deux agents spécialisés, Sales et Refund et un agent de "triage" qui va recevoir les demande et les rediriger vers les agents spécialisés.

Tant qu'on reste sur des cas d'usages assez simple de ce genre (ça ressemble fortement à du routing d'API) alors les résultats sont plutôt bon. On utilise quelque chose de similaire chez Didask pour que les demandes soient traités par des agents spécialisés (nous on appelle ça des "behaviors")

Par contre je trouve que les cas d'usages ou il y a plusieurs boucles de communications entre plusieurs agents (comme agency-swarm) partent rapidement dans le n'importe quoi car les hallucinations deviennent ingérables.