Un super-calculateur de Nvidia avec 10000 carte graphiques H100 spécialisées pour les opérations sur les réseaux de neurones.
Ils ont pu entrainer un modèle GPT-3 en seulement 4 minutes alors qu'il a fallu plus de 30 jours pour l'entrainer il y a 3 ans (sur 1000 GPU)
Un excellent article sur le fonctionnement des GPU
Un réseau de GPU décentralisé, c-a-d c'est les GPU de personnes qui sont utilisées pour faire des tâches complexes comme des entrainements de réseaux de neurones et en échange les propriétaires sont rémunérés.
Un article plus détaillé sur les possibilités que commence à offrir les LLM pouvant fonctionner en local dans le navigateur.
On est encore loin de l'adoption pour les utilisateurs standards car il faut:
- lancer chrome avec des flags spéciaux
- télécharger le modèle (plusieurs Go)
- une carte graphique puissante
J'en parlais ici aussi https://links.aschen.tech/shaare/Ov51-w
Les LLM commencent à arriver dans les navigateur en utilisant la technologie WebGPU.
Ils ont aussi porté StableDiffusion https://mlc.ai/web-stable-diffusion/
Excellente explication du fonctionnement des GPUs et particulièrement des 4 niveaux de mémoire de travail disponibles.
Une analogie est faite entre un GPU et une entreprise de bureau avec des équipes de personnes qui doivent s'échanger de l'information.
Un exemple de code CUDA, le framework pour bosser sur les GPU Nvidia, est expliqué pas à pas