Daily Shaarli

All links of one day in a single page.

April 27, 2024

OpenBioLLM-Llama3-70B
thumbnail

Ce modèle est une version fine tuné de LlaMa 3 pour le domaine médical.

Il surpasse GPT-4 sur les benchmark portant sur des dataset du domaine médical.

Encore une fois un signe que le fine tuning a de l'avenir pour créer des LLMs spécialisés.

Bland AI Phone Calling Platform

Une IA qui appel et répond au téléphone.

C'est assez incroyable, on peut mettre son numéro de téléphone et l'IA nous appelle.

Je lui ait demandé ce qu'elle pensait de mon entreprise par exemple et on a eu une conversation sur le futur de e-learning.

Stanford CS25 course on Transformers architecture

Un cours de Stanford sur les transformers.

https://web.stanford.edu/class/cs25/

Tiny but mighty: The Phi-3 small language models with big potential
thumbnail

Microsoft sort Phi-3 et tente de changer de paradigme avec un "Small Language Model" (SLM) vs les traditionnels LLMs.

SLM car une des version de Phi-3 ne possède "que" 4 milliards de paramètres, c'est 2 fois moins que LlaMa-3 8B ou Mistral 7B (le "B" signifie "billions").

Cette version Phi-3-mini surpasserait les modèles LlaMa-3 8B et Mistral 7B.

Un petit modèle c'est un modèle moins gourmand en ressources et donc plus rapide sur une grosse carte graphique de datacenter mais aussi possible sur du matériel de particulier.

Deux autres versions sont aussi disponibles: Phi-3-small (7B) et Phi-3-medium (14B).

Tous les modèles ont une fenêtre de contexte de 128K tokens.

A l'intérieur des LLMs: comprendre les tokens - Generative AI France
thumbnail

Un article que j'ai écrit à propos des tokens pour comprendre la manière dont ils découpent le texte avant d'être envoyé au LLM.

mistral.rs: Blazingly fast LLM inference.
thumbnail

Un moteur d'inférence LLM qui fonctionne avec CPU et GPU.

C'est utilisable depuis du code python mais aussi en API HTTP.

Ça supporte la plupart des modèles Open Source:

  • Mistral 7B et 8x7B
  • LlaMa 2 et 3
  • Phi 2 et 3

Pour de la production je conseille d'utiliser le moteur d'inférence de Hugging Face car c'est scalable et surtout maintenu mais c'est une alternative plus portable à garder sous le coude.