Un autre outil de RAG pour la documentation orienté développeurs.
C'est utilisable autant pour les questions internes d'une équipe sur son produit que par des développeurs externes intégrant des API.
Un RAG de recherche dans une documentation.
Ça permet de faire une recherche "instantanée" comme avec Algolia par exemple mais aussi un RAG avec réponse en langage naturel à partir des sources/
Un framework un Python qui permet de définir plusieurs Agents puis de leur demander de se coordonner pour résoudre une tâche.
Ils ont notamment une démo assez avancée de génération de landing page avec GPT4 https://github.com/joaomdmoura/crewAI-examples/tree/main/landing_page_generator
Un modèle de génération de voix capable de cloner les voix.
Duolingo a viré la plupart de ses traducteurs car ils utilisent maintenant GPT4.
Le métier de traducteur est en grosse difficulté face aux avancées de la traduction automatique.
Il faut entre 2 et 10 fois moins de personnes pour relire les traductions de l'IA.
De plus en plus de grosses boites traduisent tout leur contenu dans des dizaines de langues sans faire relire par des humains. Github et Microsoft font ça pour toute leur documentation technique par exemple
Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.
Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.
L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.
Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.
Un Agent LLM qui est capable d'exécuter de petites fonctionnalités dans une codebase.
Un runtime qui permet d'exécuter du code de manière sécurisé dans une sandbox.
Le projet a été pensé pour exécuter le code en provenance d'Agents LLM.
Un service qui permet de bloquer les scrappers IA qui ne respecteraient pas les conditions d'un site.
Leur liste d'IP est dynamique en fonction des scrappers potentiels qui sont entrain de collecter des données à un instant T.
On peut bloquer la requête ou renvoyer une autre image pour perturber l'entrainement des modèles.
CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/
Une démo impressionnante sur ce que pourrais être les interfaces de demain.
Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).
Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.
Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)
Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.
L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:
- question/réponse: évaluation par un LLM
- génération de code: exécution du code et message d'erreur
- prise de décision: vérification avec l'arbre des "bonnes" décisions
Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.
Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew
Un dataset de problème de code avec un outil d'évaluation automatique.
Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.
Une méta-étude qui regroupe les différents travaux autour des RAG.
C'est un inventaire assez exhaustif de toutes les techniques de construction et d'amélioration d'un RAG et donc un must-read avant de se lancer en production.
Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.
C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.
PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.
Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.
PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.
Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!
L'informatique quantique n'est toujours pas pour demain.
Beaucoup d'interrogations sur la faisabilité:
- "1000 qbits physiques pour 1 qbit logique avec correction d'erreur"
- "la correction d'erreur pourrait être fondamentalement impossible"
Un autre problème est la bande passante entre le monde quantique et classique, jusqu'à 1 million de fois plus lent que sur un ordinateur classique
Une comparaison des différentes manières de cloner un objet en Javascript.
Sans surprise c'est toujours JSON.parse(JSON.stringify(object))
qui est le plus rapide et surtout le plus portable.
Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.
Ça permet notamment de comparer la qualité des réponses.
Google sort un nouveau modèle de génération de vidéo.
Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.
VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.
Toutes les démo sont visibles ici https://sites.research.google/videopoet/