Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.
Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.
Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.
OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures
Il faut maintenant utiliser le modèle gpt-4-turbo
pour être sur de pointer sur la dernière version en date (9 avril 2024).
Les modèles GPT 4 turbo preview ne devraient plus être utilisés.
Gemini 1.5 est disponible pour le grand publique.
Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.
On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.
Bref, Gemini est un des meilleurs modèle de 4e génération jusqu'à l'arrivée de GPT5.
Un projet qui propose une interface de recherche à la Perplexity en local et 100% gratuit en se basant sur l'API publique de ChatGPT.
En gros ça permet de répondre à vos questions en agrégeant les résultats des moteurs de recherche comme un RAG
Un article que j'ai écrit sur l'utilisation des LLMs chez Didask et plus généralement sur la manière dont on peut donner des instructions précises à des LLMs pour en faire des experts capables d'exécuter des tâches précises.
Je parle aussi de quelques unes de nos techniques de Prompt Engineering :-)
Huggingface passe son moteur d'inférence texte en Apache 2.
C'est une excellente nouvelle car c'est cette techno qui fait tourner HuggingFace.
Ça permet de servir des modèles à travers une API. C'est un Python et en Rust et de gros efforts ont été fait sur la scalabilité.
Cela permet à tout le monde de déployer un système d'inférence robuste au sein de son infrastructure.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.
Une étude sur les performances des LLMs sur de longs contexte.
Même si les LLMs supportent des contextes très long maintenant, ce n'est pas un secret que plus il y a de token et moins le LLM est performant.
Dans leur benchmark, GPT4-Turbo s'en sort mieux que les autres mais ils n'ont pas testé Claude 3 ou Gemini 1.5.
Dans un autre benchmark, Gemini 1.5 arrivait à de meilleurs résultats que GPT4-Turbo avec un très long contexte
Ils ont créé un benchmark pour continuer à analyser les performances des LLMs sur de long contextes: LongICLBench
Nvidia se fait de la pub en lançant une application de RAG locale qui utilise un de ses GPU pour fonctionner.
Sous le capot c'est Llama 2 et une simple DB vectorielle (Faiss).
Bref, plus une démo marketing qu'un vrai produit :-)
A priori le modèle Gemini de Google s'en sort beaucoup mieux sur des prompts long.
Ici l'auteur pose des question avec la totalité de sa code base dans les 120K tokens du prompt
Un Agent LLM qui aide à répondre automatiquement aux questionnaires des grandes entreprises quand on leur vend des solutions SaaS par exemple
Un chatbot d'Air Canada s'est trompé en conseillant une procédure de remboursement rétro-active qui n'existait pas à un client.
Une court a jugé Air Canada responsable de ce que sont chatbot disait.
Moralité attention à ce qu'il sort des LLMs car vous pourrez être tenu responsable
Gemini 1.5 arrive avec une fenêtre de contexte jusqu'à 1 million de tokens !
Les performances restent très bonnes malgré la masse de tokens avec 99% de succès au problème de trouver une chaîne de caractère dans le prompt (Needle in a Haystack)
La latence et le prix d'un tel prompt va continuer à pousser les gens vers du RAG pour le moment mais c'est quand même une prouesse technique inimaginable il y a moins d'un an.
Des recherches sur un modèle capable de s'entrainer lui même en se fournissant du feedback à lui même.
Ça me fait penser à de l'apprentissage non-supervisé mais appliqué aux LLMs
Voyage AI propose des modèles d'embeddings plus performants que ceux de OpenAI.
Ils sont premier du leaderboard MTEB avec leur modèle voyage-lite-02-instruct (67.13 vs 64.59 pour OpenAI), un benchmark qui mesure la performance de la recherche par embeddings.
Leur nouveau modèle d'embeddings, voyage-code-2, est meilleur que les précédents mais en plus à une fenêtre de contexte de 16K token!
Ce modèle est spécialisé pour le code mais offre aussi de très bonnes performances pour le texte normal
OpenAI dévoile plusieurs nouveautés et particulièrement un nouveau modèle d'embeddings (ada2 datait de fin 2022).
Le modèle est décliné en deux versions:
- text-embedding-3-small: 1536 dimensions, 62.3 MTEB
- text-embedding-3-large: 3072 dimensions, 64.6 MTEB
Le modèle large est en 4è position du classement MTEB. (Ada2 était à 61 MTEB)
Le prix du small est 5x moins cher que Ada2 (0.00002$ 1K token) et le large est ~ le même prix (0.00013$ pour 1K token)
La fenêtre de contexte est toujours de 8196 token, ce qui est toujours peu par rapport à celle des embeddings VoyageAI (16K) ou même de GPT4
Dee recherches menées sur l'exploitation des LLMs en tant que vecteur d'attaque.
Des techniques similaire à de l'obfuscation permettent d'apprendre au modèle à cacher ses intention malicieuse.
Par exemple durant les phases de validation, le code généré sera normal puis à partir d'une certaine date le code généré sera malicieux.
Cela peut aussi être déclenché par une instruction spéciale dans le prompt
Les biais des LLMs peuvent être très marqués et avoir des conséquences en fonction de l'utilisation faite du LLM.
Un modèle de type Transformers développé par Google pour résoudre des problèmes de géométrie.
Le modèle à résolu 25 problèmes sur 30, une personne ayant une médaille d'or en résout en moyenne 25.9.
Un article très intéressant sur l'écosystème des LLMs.
Il parle notamment des 5 types de frameworks:
- Open Ended (AutoGPT, AutoGen): résoudre des problèmes généraux et complexes de manière quasi autonome
- Compilation Driven (DSPy): génération de chaines de prompts à partir de schéma contraints sur les entrées et sorties
- Prompt Engineering Utils (Langchain, LlamaIndex): template de prompt, parsing, embeddings retrieval
- Schema Driven Generation (Langchain, LlamaIndex, Marvin): forcer la génération à respecter un schéma précis pour le parsing
- Controlled Generation (Outline, LMQL): contraindre le LLM à satisfaire un format et d'autres contraintes