CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/
Une démo impressionnante sur ce que pourrais être les interfaces de demain.
Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).
Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.
Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)
Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.
L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:
- question/réponse: évaluation par un LLM
- génération de code: exécution du code et message d'erreur
- prise de décision: vérification avec l'arbre des "bonnes" décisions
Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.
Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew
Un dataset de problème de code avec un outil d'évaluation automatique.
Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.
Une méta-étude qui regroupe les différents travaux autour des RAG.
C'est un inventaire assez exhaustif de toutes les techniques de construction et d'amélioration d'un RAG et donc un must-read avant de se lancer en production.
Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.
C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.
PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.
Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.
PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.
Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!
L'informatique quantique n'est toujours pas pour demain.
Beaucoup d'interrogations sur la faisabilité:
- "1000 qbits physiques pour 1 qbit logique avec correction d'erreur"
- "la correction d'erreur pourrait être fondamentalement impossible"
Un autre problème est la bande passante entre le monde quantique et classique, jusqu'à 1 million de fois plus lent que sur un ordinateur classique
Une comparaison des différentes manières de cloner un objet en Javascript.
Sans surprise c'est toujours JSON.parse(JSON.stringify(object))
qui est le plus rapide et surtout le plus portable.
Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.
Ça permet notamment de comparer la qualité des réponses.
Google sort un nouveau modèle de génération de vidéo.
Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.
VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.
Toutes les démo sont visibles ici https://sites.research.google/videopoet/
Un SaaS d'observabilité des applications GenAI orienté métriques produit.
4 techniques pour améliorer la rétention des applications à base de LLM:
- pré-ecrire le prompt
- multimodalité en entrée (voix, image, documents)
- proposer plusieurs réponses
- rendre l'échange plus humain (memes, blagues, etc)
Un article qui résume les techniques autour des embeddings d'images.
CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.
https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1
La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.
Un exemple pratique d'un RAG hybride avec recherche vectorielle + recherche "classique" avec scoring par mots clés et filtres.
C'est ce qu'on pourrait aussi avoir en utilisant Elasticsearch avec ses fonctions de scoring et sa recherche vectorielle knn.
Les résultats sont bien sur meilleurs que du vectoriel classique.
Un site qui permet de tester ses prompts sur une vingtaines de modèles à la fois.
Il y a bien sur les modèles Open Source mais aussi les modèles fermés comme ceux de OpenAI ainsi que les familles Claude et Gemini.
Un autre exemple de navigation avec un GPT4V.
Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.
Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.
L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.
Un cloud serverless qui fait tourner des fonctions Python.
Ils ont notamment tout un service de GPU à la demande pour faire tourner des tâches de ML comme de la transcription audio, de l'inférence, etc
Utile dans une démarche GenAI + cloud pour mieux maitriser les coûts
Une démo d'une inférence en temps réel depuis l'image de la webcam qu'on peut modifier avec un prompt.
Le prompt n'est pas très suivi par le modèle mais le résultat est presque complètement fluide ce qui est impressionnant pour de l'inférence d'image.
Une étude faites avec des évaluateurs humains sur la qualité des réponses de différents LLMs.
Différentes versions de GPT4 sont en 1er, 2e et 4e position. Sinon ce sont Claude 1 et Claude 2 qui arrivent en 3e et 5e positions.