La bataille juridique continue pour la rétribution des créateurs de contenu (visuel ou textuel) qui est ensuite utilisé pour entrainer des IA.
En gros OpenAI demande une exception pour l'entrainement des modèles d'IA même si ceux-ci sont capables de reproduire des scènes ou textes sous droits d'auteurs.
Un outil qui permet de brancher des LLM (Assistant GPT, LLM custom, etc) à des interfaces comme Slack ou Discord.
C'est parfait pour essayer rapidement d'intégrer des Assistant dans des process d'entreprise par exemple.
Un article qui résume assez bien tout ce qu'on a autour des Web Performance, ces métriques utilisées (entre autre) par Google pour mesurer la performance des sites web.
A part Google, il existe plusieurs outils en SaaS ou open source pour mesurer ces métriques soit même en vu de les améliorer.
Groq propose une technologie pour accélérer la vitesse d'inférence des LLMs.
Le résultat est impressionnant, ils arrivent à générer plus de 300 tokens/seconde avec Llama 2 70B.
- Il faut 8 GPU A100 à 30$ de l'heure chez Amazon pour arriver au même résultat
- la génération est de 35 tokens/seconde sur le GPU d'un particulier (Nvidia 4090)
Le moteur qu'il utilise s'appelle Groq LPU. Je suppose qu'ils utilisent la quantization et d'autres techniques comme PowerInfer
Ils développent aussi leur propre hardware, ce sont des puces spécialisés dans l'inférence.
Les opérations couteuses comme les multiplications de matrice sont gravés directement dans le silicium ce qui multiplie la vitesse par plusieurs ordres de grandeur.
Après les TPU de Google et les NPU de Microsoft, Groq propose une alternative hardware crédible sur un marché très dur à adresser.
Un LLM qui met l'accent sur la qualité de la conversation de la même manière qu'un humain.
Notamment il va très souvent relancer l'utilisateur avec des questions pour explorer en profondeur les sujets proposés.
Une extension basée sur Ublock Origin qui clique automatiquement sur les pubs bloquées pour coûter de l'argent aux annonceurs et fausser les statistiques.
Un article très technique sur la création d'un RAG.
L'auteur explore notamment plusieurs techniques pour le chunking sur la taille des chunks, le nombre de chunks retrouvés avec des métriques de qualité.
Un article sur l'architecture d'un RAG qui revient en détails sur les 4 composants principaux:
- data layer: ingestion des données et contrôle d'accès
- LLM layer: génération de la réponse augmentée
- reporting layer: monitoring et statistiques d'utilisation du RAG
- application layer: API et interfaces utilisateur
Très bonne explication de la stratégie Embrass, Extend, Extinguish utilisée par les GAFAM pour tuer les projets de logiciels libres décentralisés.
Google avec XMPP, Microsoft avec OOXML et aujourd'hui Meta avec le Fediverse.
Une awesome liste autour des Agents LLM
Un autre Agent capable d'écrire du code frontend simple.
Ils proposent un système de ticketing ou des product manager peuvent décrire leurs tickets pour qu'ils soient réalisés par les Agents.
Un autre outil de RAG pour la documentation orienté développeurs.
C'est utilisable autant pour les questions internes d'une équipe sur son produit que par des développeurs externes intégrant des API.
Un RAG de recherche dans une documentation.
Ça permet de faire une recherche "instantanée" comme avec Algolia par exemple mais aussi un RAG avec réponse en langage naturel à partir des sources/
Un framework un Python qui permet de définir plusieurs Agents puis de leur demander de se coordonner pour résoudre une tâche.
Ils ont notamment une démo assez avancée de génération de landing page avec GPT4 https://github.com/joaomdmoura/crewAI-examples/tree/main/landing_page_generator
Un modèle de génération de voix capable de cloner les voix.
Duolingo a viré la plupart de ses traducteurs car ils utilisent maintenant GPT4.
Le métier de traducteur est en grosse difficulté face aux avancées de la traduction automatique.
Il faut entre 2 et 10 fois moins de personnes pour relire les traductions de l'IA.
De plus en plus de grosses boites traduisent tout leur contenu dans des dizaines de langues sans faire relire par des humains. Github et Microsoft font ça pour toute leur documentation technique par exemple
Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.
Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.
L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.
Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.
Un Agent LLM qui est capable d'exécuter de petites fonctionnalités dans une codebase.
Un runtime qui permet d'exécuter du code de manière sécurisé dans une sandbox.
Le projet a été pensé pour exécuter le code en provenance d'Agents LLM.
Un service qui permet de bloquer les scrappers IA qui ne respecteraient pas les conditions d'un site.
Leur liste d'IP est dynamique en fonction des scrappers potentiels qui sont entrain de collecter des données à un instant T.
On peut bloquer la requête ou renvoyer une autre image pour perturber l'entrainement des modèles.