A peine quelques semaines après la sortie du modèle AnimateAnyone, les équipes de Alibaba proposent une cabine d'essayage virtuelle.
Une véritable révolution pour le e-commerce !
Les résultats de Mistral en one-shot code generation sont meilleurs que ceux de GPT4.
J'ai testé moi même sur ses exemples et j'obtiens plus ou moins les mêmes résultats.
Après les capacités d'un LLM ne sont pas évaluable uniquement avec des demandes en one-shot et d'ailleurs GPT4 se démarque par ses capacités de "raisonnement" qui s'exprime plutôt avec des Chain of Thoughts et autres méthodes multi-shot.
Un projet soutenu par Firefox qui sauvegarde les sites que vous visitez puis les utilise dans un RAG local construit avec PrivateGPT.
Cela permet de chercher dans les sites qu'on a pu visiter plutôt que tout internet.
Phi-2 est un modèle de seulement 2.7 milliards de paramètre à destination des terminaux mobile.
Malgré sa petite taille, il affiche des performances similaires à Llama 70 ou Mistral 7B.
Il est même plus performant que Gemini Nano 2 alors qu'il est plus petit que celui-ci (3.2B vs 2.7B)
Une excellente analyse de la situation actuelle ou Google et Microsoft se battent d'un côté contre l'Open Source avec principalement Meta de l'autre côté du ring.
Google est enfaite en position d'avance technologique en GenAI depuis des années, c'est à eux qu'on doit l'architecture Transformers à la base de toute la GenAI mais aussi le premier LLM: BERT.
Ils sont juste assez mauvais en terme de communication et leurs succès ne sont pas reconnus du grand publique.
De leur côté, Amazon et Apple sont assez tranquille pour expérimenter petit à petit sans que cela fasse de vagues, notamment sur la cotation boursière.
Une version Open Source de Github Copilot.
C'est du self-hosted avec les modèles suivants:
- TabbyML/StarCoder-7B
- TabbyML/CodeLlama-13B
- TabbyML/DeepseekCoder-6.7B
Mistral propose maintenant ses propres API d'inférence pour leurs modèles.
Outre les modèles de génération de texte, ils proposent aussi un modèle d'embeddings en 1024 dimensions qui offre des performances similaires à ada-2 de OpenAI sur le benchmark MTEB (56.32 vs 55.26 pour Mistral en retrieval)
Au niveau du prix, c'est la même chose que OpenAI, c-a-d 0.1$ pour 1 million de tokens.
Le nouveau modèle de Mistral a été release, c'est un modèle de type "Mixture of Experts" qui contient en réalité 8 modèles spécialisés dans des tâches en particulier.
Ils annoncent des performances meilleures que Llama 70B sur la plupart des benchmark tout en ayant une inférence 6x plus rapide!
Plus d'info sur Mixture of Experts
Un bloqueur de popup, cookies et autres éléments qui pourrissent l'expérience web.
Un régale.
Google a un monorepo depuis 16 ans avec tous le code source des projets.
1 milliard de fichiers et 35 millions de commit. C'est juste incroyable.
LLMCompiler est une alternative à la méthode ReAct pour la planification et l'exécution de tâches.
2 composants:
- LLM Planer: découpe les tâches dans un Directed Acyclic Graph (DAG) pour une exécution en parallèle et un respect des dépendances
- Executor: un Agent qui exécute les différentes tâches avec les outils à sa disposition
Le LLM Planer est capable de recréer le DAG avec le résultat de chaque tâche pour une planification dynamique (e.g. embranchement if/else)
Concrètement ils ont mesuré des améliorations dans le processus de raisonnement sur certains benchmark comme HotspotQA mais c'est surtout la latence qui est réduite grâce à la parallélisation des tâches
Un LLM basé sur Llama 2 mais avec seulement 1.1 milliards de paramètres.
Tout comme les modèles Gemini Nano, une taille aussi petite permet de faire tourner le modèle sur un smartphone par exemple.
Ils estiment qu'il ne faut que 500 Mo de RAM pour faire fonctionner TinyLlama.
Les performances sur le benchmark CommonSense sont de 51 contre 63 (Llama 7B) et 71 (Llama 70B). GPT-3.5 et GPT-4 obtiennent respectivement 85 et 96.
Une explication technique du moteur de recherche de code de Github.
Avec 155 To de données et plus de 15 milliards de documents, ils ont développé une solution maison de l'ingestion jusqu'au moteur de recherche.
Le moteur de recherche est basé sur des ngrams (trigramme à priori)
Une vidéo qui résume les nouvelles fonctionnalités de Github Copilot.
On a notamment des Agents qu'il est capable d'invoquer pour poser des questions spécifiques. Ce sont des RAGs.
Par exemple @workspace
permet de poser des questions avec les fichiers du projet pour trouver un composant en particulier.
https://code.visualstudio.com/blogs/2023/11/13/vscode-copilot-smarter
Le modèle SeamlessStreaming de chez Facebook est disponible en Open Source.
Il permet de faire de la traduction en temps réel d'une langue vers une autre (audio + texte).
Voir la vidéo de démo
Un framework pour construire facilement une application type chat avec des LLMs.
Pleins de fonctionnalités:
- suivi threads
- ajout de fichiers
- multi-modalité (images, son)
- frontend custom
Claude 2.1 possède une fenêtre de contexte énorme de 200K tokens.
Bien sur, plus il y a de tokens et plus il est difficile pour le modèle de les prendre tous en compte.
Ici, les chercheurs d'Anthropic ont réussi à passer de 27% à 98% de succès sur des tâches de récupération d'informations passées dans les 200K tokens de contexte.
Ça se résume à une seule phrase de prompt engineering placée à la fin: Here is the most relevant sentence in the context:
(Voir aussi cet article qui évalue les performances des instructions dans un prompt en fonction de leur position)
Meta sort un LLM basé sur Llama 7B qui est spécialisé dans la classification d'un prompt et d'une réponse afin de détecter du contenu préjudiciable.
C'est une bonne alternative Open Source à des outils comme l'API de modération de OpenAI.
D'ailleurs les performances de Llama Guard sont globalement meilleures que celles de OpenAI
Un LLM Open Source spécialisé dans la génération de code.
Le modèle n'a que 7 milliards de paramètres et est capable de surpasser GPT-3.5 dans certains benchmarks.
Une technique qui améliore la résolution de problèmes avec du code.
C'est une variante de Chain of Thought pour la résolution de problèmes et c'est d'ailleurs sur ce genre de benchmark qu'ils ont évalué le modèle et non pas des benchmark de pure génération de code.
La méthode consiste à découper le problème en sous étape et ensuite soit:
- de générer le code Python de la sous étape et d'exécuter le tout à la fin
- d'utiliser un LLM pour pseudo exécuter le code de l'étape