Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)
Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.
A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.
Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.
Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.
Meta aurait utilisé des livres et articles scientifiques en provenance de Library Genesis, une plateforme de contenu pirate, pour entraîner ses modèles d'IA.
Les données auraient été téléchargé en torrent, comme au bon vieux de temps de The Pirate Bay.
Cela relance le débat sur la légitimité des LLMs vis-à-vis de leur entrainement sur du contenu sous droit d'auteur.
Un administrateur s'est rendu compte que près de la moitié des requêtes servies par son serveurs étaient pour des crawlers IA !
24% du trafic pour GPTBot (OpenAI), 15% pour AmazonBot, 4% pour ClaudeBot, etc
Les bot IA crawlent comme des porcs et même des pages complètement inutiles comme la liste des mises à jour d'une page wiki.
Par comparaison, le Google bot représente 0.14% de son trafic.
En plus, ils ne respectent pas les robots.txt, changent constamment d'IP et parfois masquent même leur user agents.
Ce sont vraiment des pratiques intolérables.
Un autre exemple d'un gérant de site de e-commerce qui a subit l'équivalent d'une attaque DDoS avec le bot d'OpenAI ayant scrappé les milliers de produits et dizaine de milliers d'images de son site avec plus de 600 IP différentes (/!) alors que son robots.txt interdit au bot d'OpenAI d'opérer.
Non seulement ce genre de pratique peut avoir des répercussion au niveau du copyright mais aussi très concrètement au niveau du porte monnaie car les serveurs sont beaucoup plus sollicités !
Pour résoudre les tâches du benchmark ARC-AGI, les requêtes faites à o3 coutaient en moyenne 1000€ !
Ce genre de prix est vraiment prohibitif même pour des tâches compliquées car à ce prix, autant demandé à un humain.
La version "low-compute" du modèle o3 s'en tire avec avec 10 points de moins (76%) mais pour seulement 20$ par tâche.
Les résultats du modèle d'OpenAI o3 au benchmark ARC-AGI sont contestés, notamment parce qu'OpenAI a avoué avoir entrainé son modèle avec les données des exercices.
Un outil no-code pour évaluer des prompts.
On retrouve tous les évaluateurs habituels: code, LLM as a judge, etc
L'outil est Open Source et tourne en local si besoin
Le meilleur résumé de l'année 2024 en GenAI
- les modèles du niveau de GPT-4 sont légions
- le coût des tokens a été divisé par 10
- les modèles multi-modaux sont monnaie courante
- la génération de code fonctionne très très bien
- les agents autonomes peinent à sortir
- le début des modèles de "raisonnement" comme o1
- les données synthétique pour l'entrainement se développent
Hâte de voir ce que 2025 nous réserve !
Meta publie un article sur une nouvelle architecture de modèle de langue.
Au lieu de s'appuyer sur des tokens qui représente des "bouts" de mots de quelques lettres, ils proposent de s'appuyer directement sur des concepts de haut niveau.
Un exemple de token avec cette architecture serait "Tim n'était pas très athlétique".
Cela ressemble aux idéogrammes chinois vs les alphabets et d'ailleurs les compromis sont sensiblement les mêmes:
Par exemple, la vitesse d'inférence (= écriture) accrue pour les concepts mais au prix d'un nombre de concepts beaucoup plus importants et donc aussi un coût d'entrainement + inférence (FLOPS) plus élevé.
En tout cas c'est rassurant de voir qu'il y a des architectures radicalement différente des LLMs actuels qui émergent !
Google a fine tuné Gemini 1.5 Pro pour améliorer le modèle dans un cadre d'enseignement en respectant les concepts de la pédagogie.
Les LLMs ont tendance à présenter l'information plutôt qu'à engager l'utilisateur dans un processus de réflexion et de compréhension. C'est justement l'un des axe qu'ils ont essayé d'améliorer.
Les résultats présentés ont été fait sur 2360 conversations pour un total de 58000 messages et chaque pair de message a été évalué par 3 experts en moyenne.
Ils affichent des résultats 13% meilleurs que le modèle Gemini 1.5 Pro de base.
C'est aussi intéressant de voir que dans l'étude, GPT-4o possède les moins bons résultats face à Claude 3.5 Sonnet et Gemini 1.5 Pro. Les meilleurs modèles "pédagogues" seraient donc Claude et Gemini.
Il est possible de le tester en mode chat ici: https://aistudio.google.com/
De nombreux exemples de prompt sont dans la documentation https://ai.google.dev/gemini-api/docs/learnlm
Le modèle est déjà disponible dans le SDK sous le nom learnlm-1.5-pro-experimental
Une liste assez exhaustive de tous les outils disponible pour générer du code
Ça va du niveau de l'outil qui génère une application entière à l'extension comme Copilot en passant par les IDE AI plus ou moins avancés
Un framework clé en main qui permet de faire de la manipulation de site web par un Agent LLM.
On peut bien sur donner la tâche, choisir le modèle mais aussi fournir des outils custom que l'Agent va pouvoir utiliser.
Très pratique pour le brancher avec nos propres outils internes via du code Python ou plus simplement une API
llms.txt c'est le nouveau standard pour aider les LLM à comprendre les pages web.
Concrètement c'est un fichier qui comme le fameux robots.txt (ou security.txt ou humans.txt) donne des informations au format texte.
Ces fichiers ne se mettent pas forcément à la racine, exemple avec la doc de Cursor https://docs.cursor.com/llms-full.txt
E2B propose un service d'exécution de code dans des sandboxs.
C'est ciblé précisément pour les Agents LLM capable d'exécuter directement du code pour accomplir leur tâche.
Les fonctionnalités sont très complètes avec:
- lecture/écriture de fichiers
- accès au réseau de la sandbox (e.g. accéder un serveur web)
- streaming de la sortie standard
- paquets custom (npm, pip, etc)
- Javascript, Python, R, Java, Bash
Un exemple de la manière dont Superlinked utilise un scoring pour rechercher des documents.
Ils ont 3 métadata:
- relevance
- recency
- usefulness
L'API d'Anthropic propose aussi une fonction de conversion de PDF en markdown
Microsoft sort aussi une lib pour convertir les documents PDF, Docx, Excel, etc au format markdown
OpenAI tire à balles réelles sur Elon Musk en publiant des échanges de mails et même des SMS.
Google annonce Gemini 2.0 Flash.
Niveau benchmark comme d'habitude il faut attendre que ça sorte sur Livebench pour avoir une meilleure comparaison mais quand même ils affichent de très bon résultats:
- 89.7% sur MATH (76.6 GPT-4o)
- 62.1% sur GPQA (59.4% Claude 3.5 Sonnet)
- 35.1% sur LiveCodeBench (42% Claude 3.5 Sonnet, 67% o1-mini)
La big new c'est surtout la multi-modalité en entrée et en sortie du modèle qui est capable de générer un mix de texte, son et image pour répondre si besoin.
Google a vraiment rattrapé son retard, c'est cool de voir toutes ces améliorations.
Anthropic propose un optimisateur de prompt.
Pendant son entrainement, Claude a été optimisé sur certains patterns comme l'utilisation de balises XML pour organiser le contenu et ces patterns peuvent améliorer la performance des prompts.
Unsloth est un framework de fine-tuning qui permet d'entrainer plus rapidement et avoir moins de mémoire des modèles Open Source.
Ils annoncent un gain jusqu'à x2 sur la vitesse d'entrainement !
Ça s'utilise en Python mais aussi directement dans un Notebook
Un retour d'expérience sur l'utilisation de o1 et Claude 3.5 Sonnet.
La conclusion c'est que dans la majorité des cas, Claude 3.5 Sonnet est suffisamment bon et que la différence prix + latence entre les deux modèles fait plutôt pencher la balance du côté de Claude 3.5 Sonnet