Daily Shaarli
March 30, 2023

Excellent article sur les CRDTs (Conflict Free Replicated Data types).
Un CRDT c'est une structure de données qui
- peut être copiée sur plusieurs clients (souvent en p2p)
- peut être modifiée sans coordination par plusieurs clients
- chaque copie peut être mergée sur chaque client afin de former un état final déterministe
C'est ce qui est utilisé pour les outils de collaboration type Google Doc pour résoudre les conflits par exemple.

Onboarder une personne avec une position "haute" dans la hiérarchie n'est jamais simple.
Il est crucial de passer les premières semaines à apprendre et à appliquer les méthodes actuelles avant d'essayer de lancer ses propres méthodes.
Aussi, il est préférable de commencer par résoudre un problème mineur plutôt que de se casser les dents sur le problème majeur.

Cerebras, une entreprise qui fait aussi des supercalculateurs, a publié en Open Source un modèle LLM avec le code ET le modèle entrainé!
C'est le premier modèle 100% open source en licence Apache 2.

Un article plus posé sur l'éventuel remplacement des moteurs de recherche par des LLM.
Il faut considéré les problèmes de biais induit par les données sur lesquels les modèles sont entrainés mais il faut surtout prendre en compte le coût d'entrainement et de génération d'une réponse.
Pour avoir un modèle à jour, il faut constamment l'entrainer et ça coûte très cher.
Pareil pour une réponse qui coûte beaucoup plus cher à générer (Google traite ~10 000 requêtes/sec)
A priori, les LLM vont surtout être utilisé pour répondre à des sujets précis. Par exemple, entrainer un LLM sur toutes les publications relatives au cancer des 20 dernières années.