Un article sur une méthode de prompt engineering pour réduire la latence d'un LLM en découpant une tâche en sous tâche puis en générant chaque partie indépendamment avant de merge le tout.
L'article est pleins d'exemples concrets en annexes
Un article sur la méthode du Tree of Thoughts pour résoudre des problèmes complexes avec un LLM.
Cet article a le mérite d'être compréhensible et de fournir des exemples concrets
Toute une liste d'articles sur le Chain Of Thought
OpenChat est une version fine tuné de Mistral 7B qui offre des performances comparable à ChatGPT (version de mars).
Il est aussi plus performant que le modèle Grok de X.com qui fait 30 milliards de paramètres contre 7 milliards pour Mistral.
Plus d'info ici https://twitter.com/baptistejamin/status/1726571942319460381
Une solution pour utiliser d'autres LLMs en conservant les mêmes API/SDK que pour OpenAI.
Mistral et Claude 2 sont disponibles simplement en changeant l'URL de OpenAI par celle du proxy.
Sous le capot ça utilise les Cloudflare Worker pour réduire la latence au maximum.
Un article qui évalue la performance des LLMs en fonction de l'endroit ou sont les informations dans le prompt.
Avec des prompts de plus en plus long, les LLMs ont tendance à "perdre" de l'information car la complexité du mécanisme d'attention est fonction du carré de la taille du prompt.
Les chercheurs ont trouvé que les informations placées au début et à la fin avaient plus de chance d'être retrouvées/utilisées.
C'est ce qui est placé au début du prompt qui a le plus d'importance pour le LLM, puis ce qui est placé à la fin et tout ce qui est au milieu
Microsoft lance aussi son service de création d'assistant à la "GPT" avec une intégration avec tous les outils Office 365.
Un jeux vidéo est dessiné sur un canvas avec des explications sur le fonctionnement des différents élements dynamique (score, barre de déplacement, etc)
Ensuite un Agent créer le jeux à partir de ça.
Dans le même genre pour des composants web https://twitter.com/jasoncwarner/status/1725291989506367727?s=46
Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.
Google ajoute un watermark inaudible dans les fichiers audio générés par son modèle Lyria.
Un autre bot Agent LLM qui lui propose de réaliser des tâches comme le support.
Un bot Agent LLM qui centralise le savoir de l'entreprise
OpenAI était surtout un fournisseur d'infrastructure LLM mais avec leurs dernières annonces ils se positionnent également en fournisseurs d'applications.
Il faut faire attention avec OpenAI, le vendor-lock est très important sur la plateforme.
Aussi puisqu'ils sont dans les apps, se sont de potentiels compétiteurs donc il faut réfléchir à deux fois avant de soumettre des Assistants.
Très intéressant!
En vrac:
- 10% des développeurs n'utilisent plus du tout Stackoverflow
- 66% des entreprises ont un usecase GenAI déployé
- 89% des employés utilisent la GenAI au boulot (15% secrètement)
- Copilot est l'outil GenAI le plus populaire après ChatGPT
Une explication détaillée de l'algorithme HNSW pour la recherche vectorielle.
J'ai beaucoup l'analogie utilisée par Qdrant avec un voyage.
Quand vous voyagez d'un petit village à un autre:
- bus pour Lyon
- train pour Paris
- avion pour Berlin
- train Hambourg
- bus pour Lüneburg
Chaque étape utilise un moyen de transport ayant moins de hub et capable de faire de plus grandes distances
L'algorithme HNSW fonctionne selon ce principe, le plan vectoriel est découpé en couches. Plus on est dans une couche haute, moins il y a de vecteurs et plus les vecteurs sont éloignés les uns des autres.
Au fur et à mesure de la recherche, on va de plus en plus bas dans les couches jusqu'à arriver à la dernière et on peut donc récupérer tous les vecteurs les plus proches en un minimum d'opérations.
Une nouvelle technique à base d'IA générative pour faire bouger des parties d'une photo
Un super-calculateur de Nvidia avec 10000 carte graphiques H100 spécialisées pour les opérations sur les réseaux de neurones.
Ils ont pu entrainer un modèle GPT-3 en seulement 4 minutes alors qu'il a fallu plus de 30 jours pour l'entrainer il y a 3 ans (sur 1000 GPU)
Le guide d'OpenAI sur le Prompt Engineering. Simple, clair et efficace.
Un benchmark de requêtage sur des vecteurs d'embeddings dans Postgres avec l'addon pgvector et dans le pure player Pinecone.
Sur un setup équivalent en coût chez Supabase, Postgres est 10x plus rapide avec la même précision.
Donc si on héberge sa propre base Postgres c'est encore moins cher!
A noter que Postgres est beaucoup plus qu'une base vectorielle et qu'on va pouvoir filtrer les résultats avec des WHERE, faire des jointures, etc
Excellent article qui expliquer le fonctionnement des LLMs