Un article qui évalue la performance des LLMs en fonction de l'endroit ou sont les informations dans le prompt.
Avec des prompts de plus en plus long, les LLMs ont tendance à "perdre" de l'information car la complexité du mécanisme d'attention est fonction du carré de la taille du prompt.
Les chercheurs ont trouvé que les informations placées au début et à la fin avaient plus de chance d'être retrouvées/utilisées.
C'est ce qui est placé au début du prompt qui a le plus d'importance pour le LLM, puis ce qui est placé à la fin et tout ce qui est au milieu
Microsoft lance aussi son service de création d'assistant à la "GPT" avec une intégration avec tous les outils Office 365.
Un jeux vidéo est dessiné sur un canvas avec des explications sur le fonctionnement des différents élements dynamique (score, barre de déplacement, etc)
Ensuite un Agent créer le jeux à partir de ça.
Dans le même genre pour des composants web https://twitter.com/jasoncwarner/status/1725291989506367727?s=46
Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.
Google ajoute un watermark inaudible dans les fichiers audio générés par son modèle Lyria.
Un autre bot Agent LLM qui lui propose de réaliser des tâches comme le support.
Un bot Agent LLM qui centralise le savoir de l'entreprise
OpenAI était surtout un fournisseur d'infrastructure LLM mais avec leurs dernières annonces ils se positionnent également en fournisseurs d'applications.
Il faut faire attention avec OpenAI, le vendor-lock est très important sur la plateforme.
Aussi puisqu'ils sont dans les apps, se sont de potentiels compétiteurs donc il faut réfléchir à deux fois avant de soumettre des Assistants.
Très intéressant!
En vrac:
- 10% des développeurs n'utilisent plus du tout Stackoverflow
- 66% des entreprises ont un usecase GenAI déployé
- 89% des employés utilisent la GenAI au boulot (15% secrètement)
- Copilot est l'outil GenAI le plus populaire après ChatGPT
Une explication détaillée de l'algorithme HNSW pour la recherche vectorielle.
J'ai beaucoup l'analogie utilisée par Qdrant avec un voyage.
Quand vous voyagez d'un petit village à un autre:
- bus pour Lyon
- train pour Paris
- avion pour Berlin
- train Hambourg
- bus pour Lüneburg
Chaque étape utilise un moyen de transport ayant moins de hub et capable de faire de plus grandes distances
L'algorithme HNSW fonctionne selon ce principe, le plan vectoriel est découpé en couches. Plus on est dans une couche haute, moins il y a de vecteurs et plus les vecteurs sont éloignés les uns des autres.
Au fur et à mesure de la recherche, on va de plus en plus bas dans les couches jusqu'à arriver à la dernière et on peut donc récupérer tous les vecteurs les plus proches en un minimum d'opérations.
Une nouvelle technique à base d'IA générative pour faire bouger des parties d'une photo
Un super-calculateur de Nvidia avec 10000 carte graphiques H100 spécialisées pour les opérations sur les réseaux de neurones.
Ils ont pu entrainer un modèle GPT-3 en seulement 4 minutes alors qu'il a fallu plus de 30 jours pour l'entrainer il y a 3 ans (sur 1000 GPU)
Le guide d'OpenAI sur le Prompt Engineering. Simple, clair et efficace.
Un benchmark de requêtage sur des vecteurs d'embeddings dans Postgres avec l'addon pgvector et dans le pure player Pinecone.
Sur un setup équivalent en coût chez Supabase, Postgres est 10x plus rapide avec la même précision.
Donc si on héberge sa propre base Postgres c'est encore moins cher!
A noter que Postgres est beaucoup plus qu'une base vectorielle et qu'on va pouvoir filtrer les résultats avec des WHERE, faire des jointures, etc
Excellent article qui expliquer le fonctionnement des LLMs
Un fil d'actualité sur les derniers papiers à propos des LLM
Une étude qui démontre des amélioration des performances des LLMs lorsque l'on inclut un enjeu émotionnel dans les questions.
Par exemple: "Rédige un compte rendu sur la RGPD, c'est très important pour ma carrière"
La fin de la phrase va améliorer la qualité de la réponse fournie par le LLM.
Une API de Text-to-Speech avec une latence très basse (300ms).
Ça veut dire que l'on peut envoyer du texte en streaming et recevoir de l'audio en streaming en pluguant GPT4 directement sur Turbo par exemple.
C'est la porte ouvertes aux conversations quasi temps réel (reste encore le Speech-to-Text et surtout l'envoi du prompt à GPT4 qu'il ne sera pas possible de streamer par contre)
Une explication de fonctionnement des opérations sur les vecteurs (embedding LLM)
- distance euclidienne
- produit intérieur négatif
- similarité cosinus
C'est avec des indexes Postgres dans cet exemple. L'index HNSW est celui recommandé https://supabase.com/docs/guides/ai/vector-indexes/hnsw-indexes
Des exemples de prompt pour faire du Tree of Thought