Daily Shaarli

All links of one day in a single page.

March 30, 2023

A Gentle Introduction to CRDTs - vlcn.io
thumbnail

Excellent article sur les CRDTs (Conflict Free Replicated Data types).

Un CRDT c'est une structure de données qui

  • peut être copiée sur plusieurs clients (souvent en p2p)
  • peut être modifiée sans coordination par plusieurs clients
  • chaque copie peut être mergée sur chaque client afin de former un état final déterministe

C'est ce qui est utilisé pour les outils de collaboration type Google Doc pour résoudre les conflits par exemple.

Executive Onboarding: Shishir's Tips & Best Practices
thumbnail

Onboarder une personne avec une position "haute" dans la hiérarchie n'est jamais simple.

Il est crucial de passer les premières semaines à apprendre et à appliquer les méthodes actuelles avant d'essayer de lancer ses propres méthodes.

Aussi, il est préférable de commencer par résoudre un problème mineur plutôt que de se casser les dents sur le problème majeur.

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
thumbnail

Cerebras, une entreprise qui fait aussi des supercalculateurs, a publié en Open Source un modèle LLM avec le code ET le modèle entrainé!

C'est le premier modèle 100% open source en licence Apache 2.

Generative AI Won’t Revolutionize Search — Yet
thumbnail

Un article plus posé sur l'éventuel remplacement des moteurs de recherche par des LLM.

Il faut considéré les problèmes de biais induit par les données sur lesquels les modèles sont entrainés mais il faut surtout prendre en compte le coût d'entrainement et de génération d'une réponse.

Pour avoir un modèle à jour, il faut constamment l'entrainer et ça coûte très cher.
Pareil pour une réponse qui coûte beaucoup plus cher à générer (Google traite ~10 000 requêtes/sec)

A priori, les LLM vont surtout être utilisé pour répondre à des sujets précis. Par exemple, entrainer un LLM sur toutes les publications relatives au cancer des 20 dernières années.