Weekly Shaarli

All links of one week in a single page.

Week 16 (April 15, 2024)

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Une méta-étude sur l'avancement de la recherche sur une architecture alternative à celle des Transformers.

State Space Model (SSM) est une architecture qui se veut plus économe en terme de puissance de calcul nécessaire pour l'entrainement et la génération.

Pour l'instant on en est toujours au début et rien de concrètement utilisable au vu des faibles performances mais c'est bien de garder un oeil la dessus pour le futur.

Tips on Adding JSON Output to Your CLI App
thumbnail

Une liste de bon conseils pour structurer son JSON correctement dans la sortie d'une CLI.

IA pas que la Data : #7 - AI Act / Normes ISO : une nécessité pour une IA éthique et de confiance ?
thumbnail

Je ne partage pas souvent des podcast mais dans celui-ci on en apprend un peu plus sur l'IA Act (à partir de 23 min)

Notamment, le texte originel n'était pas pensé pour la GenAI et il sera surement amendé dans les prochains mois.

InstructLab - synthetic data-based alignment tuning method for Large Language Models
thumbnail

Un framework de fine tuning de LLMs.

Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.

D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte

C'est une contribution en provenance des labo de recherche d'IBM.

VASA-1 - Microsoft Research

Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.

En entrée, il lui suffit d'une image et d'un clip audio.

Impressionnant et en même temps ça fait peur pour les deepfakes

Mistral 8x22B - Cheaper, Better, Faster, Stronger

Mistral release leur nouveau modèle.

C'est le modèle qui présente le meilleur ratio performances / coût. Bien meilleur que le modèle Command R+ de Cohere par exemple.

Les performances sont bien en dessous de GPT 4 et Claude 3 Opus

Ça reste néanmoins le meilleur modèle Open Source et donc une très bonne base pour du fine tuning par exemple

Verified curl

La liste de toutes les procédures mises en place pour assurer la fiabilité de la supply chain pour cURL et éviter un fiasco comme avec xz

Understanding OpenAI’s “Temperature” and “Top_p” Parameters in Language Models

Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.

Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.

Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Une méta-étude sur les RAG.

Au programme les techniques pour chaque étape:

  • pre-retrieval: query extension, data modification
  • retrieval
  • post-retrieval: re-ranking, filtering
  • generation
  • evaluation
Editing your images with DALL·E

OpenAI a ajouté l'inpainting dans ChatGPT Plus.

On peut maintenant sélectionner une zone et indiquer à ChatGPT de quelle manière on souhaiterait la modifier

HuggingFaceFW - FineWeb dataset
thumbnail

FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.

Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.

Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant

Lessons after a half-billion GPT tokens

Un retour d'expérience sur l'utilisation de GPT4 pour un usage modéré (500M tokens sur 6 mois).

Les retours d'expérience que je partage:

  • Langchain et LlamaIndex ça apporte une couche d'abstraction supplémentaire difficile à maitriser alors que le SDK simple suffit
  • le streaming pour faire attendre les utilisateurs est indispensable
  • GPT4 a du mal à ne pas halluciner plutôt que de se taire lorsqu'il n'a pas d'info suffisantes
  • la fenêtre de contexte de 128K c'est que en input, pour l'output ça n'a pas bougé et c'est toujours 4K tokens seulement
  • les bases de données vectorielle sont inutiles dans la majorité des cas
An unfair advantage: multi-tenant queues in Postgres

Un système de queue qui utilise Postgres.

Ils expliquent comment ils ont construit cette gestion des queues et surtout le dépilage des tâches par des workers en présentant la structure des tables et les requêtes.

Ça à l'air chouette mais encore très peinture fraiche donc prudence :-)

Meta Llama 3
thumbnail

On attendait l'annonce de Meta sur la sortie de LlaMa 3 (8B et 70B) et c'est maintenant chose faite :-)

Pas trop de surprise avec un modèle aux performances similaires que tous les autres gros modèles de 4e génération comme GPT4 Turbo, Claude 3 Opus, Mistral 8x22B et Gemini 1.5.

Par contre pour l'instant la fenêtre de contexte n'est que de 8K tokens ce qui est très peu comparer à ce qu'il se fait maintenant. On peut s'attendre à une mise à jour du modèle dans les prochaines semaines pour améliorer ça.

Un autre très bon modèle open source qui aura sa carte à jouer dans les prochains mois avec l'entrainement et le fine tuning de modèles.

Sinon dans les annonces, il y aurait aussi un modèle à 400B paramètres de prévu ce qui est énorme

Stable Diffusion 3 API Now Available
thumbnail

La version 3 de Stable Diffusion est disponible en API chez Stability AI.

La génération d'image est meilleure et ils ont fait de gros efforts sur l'insertion de texte dans les images.

Ragas - Evaluate RAG system

RAGAS est un framework pour évaluer les RAG.

Il propose d'évaluer les deux aspects importants du RAG, à savoir:

  • le retrieval: le RAG est-il capable de retrouver les documents pertinents?
  • la génération: le RAG est-il capable de générer une réponse à la question?

Il y a plusieurs évaluateurs de disponible pour évaluer ces deux critères.

Pour tout ce qui est évaluation de la réponse à la question, RAGAS propose d'utiliser GPT4.

A noter aussi, le framework ARES

New features in the Assistants API
thumbnail

OpenAI a sorti une mise à jour de son API pour créer des Assistants.

On peut notamment utiliser jusqu'à 10000 fichiers dans leur RAG intégré et streamer les réponses.

Les Assistants permettent de développer très rapidement des POC d'Agents spécialisés en entreprise mais le côté boîte noir finit par se payer comme pour tout produit complètement fermé.

@GroqInc is serving LLaMA 3 at over 800 tokens per second! 800. Tokens. Per. Second. This unlocks so many incredible use-cases. It's one thing to see my demo — it's another thing entirely to experience it for yourself. Do yourself a favor and try it asap. https://t.co/Rd5NW5SDlW" / X

LlaMA 3 sur Groq est d'une vitesse incroyable: 800 token/sec.

Les modèles sont disponible sur l'API de Groq Cloud

Ils n'ont pas encore d'offre entreprise payante mais on peut déjà essayer avec le free tiers

Scale of the Universe

Une animation interactive pour explorer l'infiniment petit et l'infiniment grand :-)

Ça me rappelle le documentaire "Puissances de dix" (qui commence à dater un peu)

Scrape a page and convert it to Markdown
thumbnail

On a souvent besoin d'extraire le contenu d'une page web et de le convertir en markdown quand on travaille avec des LLMs.

Ce script de 75 lignes de JS utilise Playwright pour convertir n'importe quel site en document markdown

EU AI Act Compliance Checker | Loi européenne sur l'intelligence artificielle

IA Act est en application depuis le 13 mars 2024.

Concrètement, il y a 4 types de Systèmes d'IA (SIA):
1) SIA à risque inacceptable (e.g. scoring social)
2) SIA très risqués (e.g. recrutement)
3) SIA avec obligation de transparence (e.g chatbot, génération)
4) SIA à risque minime ou nul (e.g. maintenance prédictive)

Pour ceux qui rentrent dans la 3e catégorie, il faut respecter les points suivants:

  • informer les gens qu'ils interagissent avec un système d'IA
  • informer en cas d'usage de système de reconnaissance émotionnelle ou de catégorisation par biométrie
  • apposer un label identifiant les contenus modifiés ou créés grâce à une IA

(Le type d'entité du formulaire est "Fabricant de produits")

Broken Ownership

Très bonne analyse de ce qu'il faut pour un véritable leadership.

Vous ne pouvez pas être responsable de quelque chose que vous ne contrôlez pas. Il faut le mandat.

Vous ne pouvez pas utiliser ce mandat efficacement pour quelque chose que vous ne comprenez pas. Vous avez besoin de connaissances.

Vous n’acquérez des connaissances que si vous êtes entièrement responsable des conséquences de votre mandat.