Weekly Shaarli

All links of one week in a single page.

Week 13 (March 27, 2023)

The Artificial Intelligence Revolution: Part 2
thumbnail

Un excellent article qui j'avais lu à l'époque sur l'avènement des AGI (Artificial Général Intelligence) et ASI (Artificial Super intelligence)

Ça revient au goût du jour avec tout ce qu'il se passe actuellement autour des LLM comme GPT-4.

L'article explore les concepts d'AGI et d'ASI avec les probabilités d'apparition dans les prochaines années, la vitesse à laquelle pourrait aller la transition.

C'est surtout vertigineux d'essayer de réaliser la portée d'une ASI et la manière donc elle nous considérera.

Thousands scammed by AI voices mimicking loved ones in emergencies
thumbnail

Les scammeurs utilisent des IA pour générer la voie d'une personne connue afin de soutirer de l'argent.

On entre dans une nouvelle ère du scam, c'est inquiétant

A Gentle Introduction to CRDTs - vlcn.io
thumbnail

Excellent article sur les CRDTs (Conflict Free Replicated Data types).

Un CRDT c'est une structure de données qui

  • peut être copiée sur plusieurs clients (souvent en p2p)
  • peut être modifiée sans coordination par plusieurs clients
  • chaque copie peut être mergée sur chaque client afin de former un état final déterministe

C'est ce qui est utilisé pour les outils de collaboration type Google Doc pour résoudre les conflits par exemple.

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
thumbnail

Cerebras, une entreprise qui fait aussi des supercalculateurs, a publié en Open Source un modèle LLM avec le code ET le modèle entrainé!

C'est le premier modèle 100% open source en licence Apache 2.

Arquero, query processing and transformation of array-backed data tables.
thumbnail

Arquero est une librairie Javascript qui permet de manipuler des données tabulaires en RAM.

Elle supporte l'algèbre relationnelle comme pour une base SQL.

C'est du même genre que Pandas en Python mais du coup pour faire de la datascience directement en Javascript!

Derrière les performances de la lib on retrouve encore une fois le format binaire Arrow

beers
  .orderby(aq.desc('ibu'))
  .select('name', 'style', 'ibu')
  .filter(d => op.includes(op.lower(d.name), 'hop'))
  .view()
Dorik - Simple & affordable No-Code website building platform
thumbnail

Un builder de site vitrine / landing page en no-code

scrapeghost

Une lib de scrapping qui utilise GPT pour extraire les informations voulues depuis une page web.

Ça fonctionne assez bien et ça permet de réduire le coût total en faisant un clean sur le HTML.

Un peut spécifier un budget de token et le scrapper s'arrête une fois le budget consommé.

The BigScience RAIL License for AI
thumbnail

Responsive AI Licence (RAIL) est une licence pour les modèles entraînés (weight) que l'ont pourrait considérer comme Open Source.

Elle permet la réutilisation, la modification, même dans un contexte commercial tout comme la licence Apache 2.

Néanmoins elle restreint l'usage du modèle à des utilisation "harmful" qui restent à la discrétion des créateurs en fonction des usages qui apparaîtront.

L'autre différence est son caractère copyleft (ou "viral") comme les licences GPL car un modèle dérivé doit reproduire la licence

Elasticsearch Indexing Strategy in Asset Management Platform (AMP)

Une histoire d'optimisation d'un cluster Elasticsearch.

Le problème chez Netflix venait d'une mauvaise allocation des shards des indices, tous les indices avaient le même nombre de shards et donc certains noeuds se retrouvent à héberger des shards contenant des millions de documents.

Leur stratégie a été de distribuer les documents non pas par type mais par date de création (time buckets) en utilisant des index template pour la création automatique et des alias pour la recherche (comme pour l'ingestion des logs donc).

ROFL with a LOL: rewriting an NGINX module in Rust
thumbnail

Un retour d'expérience de Cloudflare sur la ré-écriture d'un module Nginx en Rust.

Half-Life 2: VR Mod on Steam
thumbnail

Un mod de Half-life 2 en VR!

19 ans après sa sortie, Half-life 2 reste un monument incontournable du jeux vidéo

Executive Onboarding: Shishir's Tips & Best Practices
thumbnail

Onboarder une personne avec une position "haute" dans la hiérarchie n'est jamais simple.

Il est crucial de passer les premières semaines à apprendre et à appliquer les méthodes actuelles avant d'essayer de lancer ses propres méthodes.

Aussi, il est préférable de commencer par résoudre un problème mineur plutôt que de se casser les dents sur le problème majeur.

Nomic v1.1.10: Apache Arrow support
thumbnail

Nomic supporte maintenant le format Apache Arrow.

C'est véritablement entrain de devenir le standard de l'industrie data!

Nomic est une lib python qui permet d'intéragir avec de très gros jeux de données dans son navigateur.

Exemple avec une carte de 5.4 million de tweets

Collaborative data platform and canvas | Observable
thumbnail

Observable est une plateforme de dataviz qui propose des notebooks en Javascript.

C'est du même gout que Jupyter Notebook, très facile à manipuler et à créer, même pour des personnes pour qui le frontend n'est pas la compétence principale.

Des fractales
Tous les tirs de LeBron James

Automate your browser with GPT-4
thumbnail

Une extension navigateur qui permet de manipuler les site web avec le langage naturel.

Voir aussi:

Une introduction complète aux composants web en 2023
thumbnail

Un récapitulatif très complet sur les web component et ce qu'il est possible de faire avec.

How to reduce coupling in your React app

Un article sur l'utilisation de React Context dans une app pour partager facilement des informations entre les composants plutôt que les passer dans les props.

L'utilisation est un peu complexe et s'apparente à de l'injection de dépendances.

On fournit les contextes en encapsulant l'application dans des balises donc attention à l'utilisation de plusieurs contextes qui s'encapsulent entre eux et réintroduisent du couplage.

// ContainerContext a besoin de LangContext

<LangContext.Provider value={translate}>
  <ContainerContext.Provider value={findTasks}>
    <TodoList/>
  </ContainerContext.Provider>
</LangContext.Provider>
3CX : une attaque par supplychain
thumbnail

Analyse de l'attaque qui a touché les utilisateurs de la téléphonie IP 3CX.

Une attaque supply chain bien organisé qui avait le potentiel d'ouvrir des backdoor chez les 12 millions d'utilisateurs de 3CX.

Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery
thumbnail

Superbe démonstration pas à pas d'utilisation de la data science au travers d'une suite de suppositions pour détecter les faux comptes Github.

Par exemple, en analysant les comptes qui agissent les même jours on a plus de chance de détecter des comptes instrumentés par des scripts.

Generative AI Won’t Revolutionize Search — Yet
thumbnail

Un article plus posé sur l'éventuel remplacement des moteurs de recherche par des LLM.

Il faut considéré les problèmes de biais induit par les données sur lesquels les modèles sont entrainés mais il faut surtout prendre en compte le coût d'entrainement et de génération d'une réponse.

Pour avoir un modèle à jour, il faut constamment l'entrainer et ça coûte très cher.
Pareil pour une réponse qui coûte beaucoup plus cher à générer (Google traite ~10 000 requêtes/sec)

A priori, les LLM vont surtout être utilisé pour répondre à des sujets précis. Par exemple, entrainer un LLM sur toutes les publications relatives au cancer des 20 dernières années.

Lunii, Storyteller to develop kids imagination

Un jouet pour enfant low-tech sans écran ni connexion internet qui raconte des histoires.

Il est possible de personnaliser les histoires en choisissant le héro, le lieu, etc

Microsoft Ads In The New Bing Chat Interface
thumbnail

Bon c'était plus ou moins sur qu'on se retrouve avec de la publicité dans toutes ces réponses générées par des IA.

Daftpage
thumbnail

Un autre outil no-code de création de site web.

Un peu à la Notion mais avec un grand canvas.

Enquête : derrière l’IA, les travailleurs précaires des pays du Sud

La face cachée de l'IA qui est loin d'être aussi magique qu'on le croit.

Des milliers de travailleurs en provenances des pays moins développés ont pour tâche d'annoter les datasets pour entrainer les grands modèles des GAFAM et startups.

Database-like ops benchmark

Un benchmark des librairies et bases de données (en RAM) pour traiter des données tabulaires dans le genre de Pandas.

Polars remporte haut la main le benchmark, c'est une lib écrite en Rust et qui utilise aussi le standard Arrow