Weekly Shaarli

All links of one week in a single page.

Week 51 (18. Dezember 2023)

Phospho - The LLM App Monitoring Platform

Un SaaS d'observabilité des applications GenAI orienté métriques produit.

10k-GPT: Upgrading. Implementing BM25 (text) search…
thumbnail

Un exemple pratique d'un RAG hybride avec recherche vectorielle + recherche "classique" avec scoring par mots clés et filtres.

C'est ce qu'on pourrait aussi avoir en utilisant Elasticsearch avec ses fonctions de scoring et sa recherche vectorielle knn.

Les résultats sont bien sur meilleurs que du vectoriel classique.

reworkd/tarsier: Vision utilities for web interaction agents 👀
thumbnail

Un autre exemple de navigation avec un GPT4V.

Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.

Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.

L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.

The surprising connection between after-hours work and decreased productivity
thumbnail

Une excellente étude sur la productivité des développeurs.

  • les employés qui se déconnectent à la fin de la journée sont 20% plus productifs
  • faire des pauses améliore la productivité
  • en moyenne, le temps idéal de concentration par jour est 4h
  • au delà de 2h de réunion par jour, les développeurs se sente surchargés
  • seulement 1 développeur sur 4 se considère comme productif entre 15 et 18h
Firefox on the brink?

Firefox est à 2.2% de part de marché.

En dessous de 2% de trafic sur les sites du gouvernement US, il ne sera plus officiellement supporté.

Mamba-Chat: A chat LLM based on the state-space model architecture 🐍
thumbnail

Un LLM qui ne se base pas sur l'architecture Transformers.

C'est intéressant de voir qu'il y a toujours des expérimentations sur d'autres architectures, à voir si celle-ci se révèle meilleure

Améliorer la rétention pour les apps LLM
thumbnail

4 techniques pour améliorer la rétention des applications à base de LLM:

  • pré-ecrire le prompt
  • multimodalité en entrée (voix, image, documents)
  • proposer plusieurs réponses
  • rendre l'échange plus humain (memes, blagues, etc)
⚔️ Chatbot Arena ⚔️ : Benchmarking LLMs in the Wild

Un site qui permet de tester ses prompts sur une vingtaines de modèles à la fois.

Il y a bien sur les modèles Open Source mais aussi les modèles fermés comme ceux de OpenAI ainsi que les familles Claude et Gemini.

Realtime inference from webcam

Une démo d'une inférence en temps réel depuis l'image de la webcam qu'on peut modifier avec un prompt.

Le prompt n'est pas très suivi par le modèle mais le résultat est presque complètement fluide ce qui est impressionnant pour de l'inférence d'image.

Turing test on steroids: Chatbot Arena crowdsources ratings for 45 AI models
thumbnail

Une étude faites avec des évaluateurs humains sur la qualité des réponses de différents LLMs.

Différentes versions de GPT4 sont en 1er, 2e et 4e position. Sinon ce sont Claude 1 et Claude 2 qui arrivent en 3e et 5e positions.

LLMLingua | Designing a Language for LLMs via Prompt Compression

Une méthode de compression des prompts pour réduire leur taille.

La méthode utilise de plus petit LLMs pour compresser un texte en ne conservant que les informations pertinentes pour un LLM.

La différence de performances avec le prompt compressé est minime mais on peut diviser la taille par 20!

Leur deuxième méthode est aussi de la compression de prompt mais dans le cadre d'un RAG. Le contenu du prompt est compressé et surtout ré-organisé lorsqu'il contient des documents afin d'améliorer le score de retrieval.

Ils affichent des performances de 17% supérieures sur NaturalQuestions avec 4x moins de tokens.

Bref, moins de tokens = plus rapide + moins cher, sans baisse de performances significatives voir de meilleures performances.

Des exemples sont disponibles et utilisable en ligne dans Google Collab https://github.com/microsoft/LLMLingua/tree/main/examples

What is an Image Embedding?
thumbnail

Un article qui résume les techniques autour des embeddings d'images.

CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.

https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1

La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.

Modal - Cloud functions reimagined
thumbnail

Un cloud serverless qui fait tourner des fonctions Python.

Ils ont notamment tout un service de GPU à la demande pour faire tourner des tâches de ML comme de la transcription audio, de l'inférence, etc

Utile dans une démarche GenAI + cloud pour mieux maitriser les coûts

Clipdrop - SDXL Turbo

Un outil de génération d'image en temps réel.

Ça utilise SDXL Turbo pour générer une image en moins de 1 seconde. L'affichage des images se fait au fur et à mesure de l'écriture de la description.

L'effet est vraiment bluffant!

SSH3: faster and rich secure shell using HTTP/3, checkout our article here: https://arxiv.org/abs/2312.08396
thumbnail

Une proposition d'amélioration du protocol SSH en le faisant passer dans HTTP/3.

Plusieurs avantages:

  • plus rapide
  • utilisation d'authentification modernes (OAuth, etc)
  • serveur SSH invisible au port scanning
  • tous les autres avantages de HTTP/3
Internet Explorer is Evil: The story

L'histoire de Microsoft qui pousse IE très fort depuis sa création

Phi-2 - Slow inference times on gpu
thumbnail

A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.

Sur CPU c'est plusieurs minutes pour générer ~200 tokens.

Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.