Weekly Shaarli

All links of one week in a single page.

Week 52 (December 25, 2023)

AI Stylist - Amazon Bedrock Demo

Une démo impressionnante sur ce que pourrais être les interfaces de demain.

Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).

Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.

Retrieval-Augmented Generation for Large Language Models: A Survey

Une méta-étude qui regroupe les différents travaux autour des RAG.

C'est un inventaire assez exhaustif de toutes les techniques de construction et d'amélioration d'un RAG et donc un must-read avant de se lancer en production.

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs
thumbnail

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

Reflexion: Language Agents with Verbal Reinforcement Learning

Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)

Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.

L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:

  • question/réponse: évaluation par un LLM
  • génération de code: exécution du code et message d'erreur
  • prise de décision: vérification avec l'arbre des "bonnes" décisions

Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.

Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew

Deep-copying in JavaScript
thumbnail

Une comparaison des différentes manières de cloner un objet en Javascript.

Sans surprise c'est toujours JSON.parse(JSON.stringify(object)) qui est le plus rapide et surtout le plus portable.

ChatHub - All-in-one chatbot client
thumbnail

Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.

Ça permet notamment de comparer la qualité des réponses.

leetcode-hard-gym: A hard gym for programming
thumbnail

Un dataset de problème de code avec un outil d'évaluation automatique.

Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.

Rest meets ReAct: self-improvement for multi-step reasoning llm agent

Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.

C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.

Quantum Computing’s Hard, Cold Reality Check
thumbnail

L'informatique quantique n'est toujours pas pour demain.

Beaucoup d'interrogations sur la faisabilité:

  • "1000 qbits physiques pour 1 qbit logique avec correction d'erreur"
  • "la correction d'erreur pourrait être fondamentalement impossible"

Un autre problème est la bande passante entre le monde quantique et classique, jusqu'à 1 million de fois plus lent que sur un ordinateur classique

VideoPoet: A large language model for zero-shot video generation
thumbnail

Google sort un nouveau modèle de génération de vidéo.

Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.

VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.

Toutes les démo sont visibles ici https://sites.research.google/videopoet/