Aschen | Sharing the webz

A l'intérieur des LLMs: comprendre les tokens - Generative AI France

Un article que j'ai écrit à propos des tokens pour comprendre la manière dont ils découpent le texte avant d'être envoyé au LLM.

c-ai · text-ai

April 27, 2024 at 09:18:34 UTC * · permalink

·

https://gen-ai.fr/large-language-model/interieur-llm-comprendre-tokens/

Tiny but mighty: The Phi-3 small language models with big potential

Microsoft sort Phi-3 et tente de changer de paradigme avec un "Small Language Model" (SLM) vs les traditionnels LLMs.

SLM car une des version de Phi-3 ne possède "que" 4 milliards de paramètres, c'est 2 fois moins que LlaMa-3 8B ou Mistral 7B (le "B" signifie "billions").

Cette version Phi-3-mini surpasserait les modèles LlaMa-3 8B et Mistral 7B.

Un petit modèle c'est un modèle moins gourmand en ressources et donc plus rapide sur une grosse carte graphique de datacenter mais aussi possible sur du matériel de particulier.

Deux autres versions sont aussi disponibles: Phi-3-small (7B) et Phi-3-medium (14B).

Tous les modèles ont une fenêtre de contexte de 128K tokens.

c-ai · text-ai

April 27, 2024 at 09:15:36 UTC * · permalink

·

https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/

mistral.rs: Blazingly fast LLM inference.

Un moteur d'inférence LLM qui fonctionne avec CPU et GPU.

C'est utilisable depuis du code python mais aussi en API HTTP.

Ça supporte la plupart des modèles Open Source:

Mistral 7B et 8x7B
LlaMa 2 et 3
Phi 2 et 3

Pour de la production je conseille d'utiliser le moteur d'inférence de Hugging Face car c'est scalable et surtout maintenu mais c'est une alternative plus portable à garder sous le coude.

c-ai · text-ai · inference

April 27, 2024 at 09:01:00 UTC * · permalink

·

https://github.com/EricLBuehler/mistral.rs

Bland AI Phone Calling Platform

Une IA qui appel et répond au téléphone.

C'est assez incroyable, on peut mettre son numéro de téléphone et l'IA nous appelle.

Je lui ait demandé ce qu'elle pensait de mon entreprise par exemple et on a eu une conversation sur le futur de e-learning.

c-ai · audio-ai

April 27, 2024 at 08:55:09 UTC * · permalink

·

https://www.bland.ai/

Backend ressources for Albert. Albert, also known as LIA (Legal Information Assistant), is a conversational agent that uses official French data sources to answer administrative agents questions.

L'État français a fine tuné des modèles Open Source (LlaMa 2 et Mistral 7b) avec les données des procédures administratives afin de répondre correctement aux questions des utilisateurs.

C'est un choix curieux de fine tune les modèles plutôt que de faire un RAG car du coup la mise à jour de la connaissances est très difficile (impossible sans ré-entrainer)

Je me demande combien ça a coûté pour le fine tuning.

Exemple d'une réponse

c-ai · text-ai

April 26, 2024 at 12:19:48 UTC * · permalink

·

https://huggingface.co/AgentPublic

Dify.AI · The Innovation Engine for Generative AI Applications

Une solution clé en main complète autour des LLMs:

Assistant IA en NoCode
Génération de documents
Traduction
Ingestion de sources externes (fichier, web, Notion)
RAG intégré

Il y a aussi une version Open Source.

Ça fait un peu usine à gaz mais ça à le mérite d'être complet et rapide à mettre en place.

c-ai · assistant-ai

April 25, 2024 at 10:13:27 UTC * · permalink

·

https://dify.ai/

Ecosia Browser, ou quand le greenwashing numérique fume la moquette tout en plantant des arbres

La communication d'Ecosia pue le greenwashing.

Le deal c'est Ecosia vous fait voir des pubs et en échange ils plantent des arbres avec l'argent.

A voir si le coût énergétique des pubs est vraiment contrebalancé par les arbres qu'ils plantent.

Dans tous les cas, je préfère ne pas utiliser ce genre d'outil.

c-societe · ecologie

April 25, 2024 at 09:49:00 UTC * · permalink

·

https://louisderrac.com/2024/04/ecosia-browser-ou-quand-le-greenwashing-numerique-fume-la-moquette-tout-en-plantant-des-arbres/

Smaller, Faster, Cheaper: Introducing Jina Rerankers Turbo and Tiny

2 modèles de re-ranking open source ont été release par Jina.

Pour rappel, le re-ranking est une méthode supplémentaire utilisée pour noter la pertinence de documents retrouvés dans la partie retrieval d'un RAG.

Ce sont de plus petits modèles de langue qui coûtent beaucoup moins cher à faire fonctionner et qui donne une note de similarité supplémentaire en plus de la simple recherche vectorielle.

Ça me rappelle le temps des modèles comme BERT par exemple.

c-ai · retrieval-augmented-generation

April 24, 2024 at 06:52:39 UTC * · permalink

·

https://jina.ai/news/smaller-faster-cheaper-jina-rerankers-turbo-and-tiny/

LlaMa Hub Rag Evaluation Datasets

Une collection de datasets pour évaluer un RAG est disponible chez LlaMa Hub.

Par exemple, ce dataset contient 44 questions et réponses basées sur les articles de Paul Graham. (Pas forcément le meilleur car il y a de fortes chances que ces articles soient dans les données d'entraînement de votre LLM)

Les évaluations se font entre autre avec le module LabelledRagDataset de LlaMaIndex.

On peut aussi créer ses propres datasets bien sûr.

c-ai · retrieval-augmented-generation

April 24, 2024 at 06:47:11 UTC * · permalink

·

https://llamahub.ai/?tab=llama_datasets

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Un papier de recherche sur une méthode pour avoir une fenêtre de contexte virtuellement infinie.

Le mécanisme d'attention de Transformers présente une complexité quadratique (sous la forme O(na)) la fois en termes d'empreinte mémoire et de temps de calcul.

Leur méthode propose de réduire cette complexité en utilisant une une "mémoire compressée".

Dans les benchmarks, leur modèle utilise seulement 1.6Mo de mémoire vs 50 à 180Mo que des modèle Transformer classique ayant le même nombre de paramètre (et les perfs sont meilleures)

Cela questionne l'utilisation des RAG sans toutefois les remettre en question entièrement.

un contexte infini ne fait pas tout car on a remarqué que même avec 128K de contexte dans GPT-4, les résultats sont quand même meilleurs lorsque les prompts sont moins longs.
le coût de poser 128K tokens dans un prompt n'est pas le même que de sélectionner attentivement et de poser seulement les 4K tokens intéressants

PS: j'aime beaucoup ce format HTML des papiers de recherche, j'avoue ne jamais avoir apprécié le format LaTeX standard

c-ai · text-ai

April 23, 2024 at 07:13:01 UTC * · permalink

·

https://arxiv.org/html/2404.07143v1

Researchers: Windows Defender attack can delete databases

Des chercheurs exploitent des "failles" des anti-virus pour les amener à supprimer des fichiers.

Pour ça, il leur suffit d'ajouter des chaines de caractères faisant partie de la base de signatures de virus connus.

Par exemple en remplissant un formulaire, la chaine de caractère identifiée comme étant part d'un virus va se retrouver dans un fichier du serveur et l'antivirus risque de le supprimer (surement avec d'autres données au passage)

c-securite

April 22, 2024 at 20:04:21 UTC * · permalink

·

https://www.theregister.com/2024/04/22/edr_attack_remote_data_deletion/

Effect – The best way to build robust apps in TypeScript

La syntax de Javascript est tellement nul que depuis le début du langage, tout le monde cherche à utiliser des syntaxes alternatives.

Aucune de ces syntaxes ne survit sur le long terme car cela rajoute une couche de complexité à appréhender pour les développeurs.

Ici on a une nouvelle syntaxe qui change complètement le paradigme et le flow d'exécution.

Attention à ne pas mettre ce genre de chose en prod car c'est une énorme dette technique instantanément

c-programmation · javascript

April 22, 2024 at 08:02:35 UTC * · permalink

·

https://effect.website/

State Space Model for New-Generation Network Alternative to Transformers: A Survey

Une méta-étude sur l'avancement de la recherche sur une architecture alternative à celle des Transformers.

State Space Model (SSM) est une architecture qui se veut plus économe en terme de puissance de calcul nécessaire pour l'entrainement et la génération.

Pour l'instant on en est toujours au début et rien de concrètement utilisable au vu des faibles performances mais c'est bien de garder un oeil la dessus pour le futur.

c-ai · state-space-model

April 21, 2024 at 17:26:49 UTC * · permalink

·

https://arxiv.org/pdf/2404.09516.pdf

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Une méta-étude sur les RAG.

Au programme les techniques pour chaque étape:

pre-retrieval: query extension, data modification
retrieval
post-retrieval: re-ranking, filtering
generation
evaluation

c-ai · retrieval-augmented-generation

April 21, 2024 at 17:22:58 UTC * · permalink

·

https://arxiv.org/pdf/2404.10981.pdf

Ragas - Evaluate RAG system

RAGAS est un framework pour évaluer les RAG.

Il propose d'évaluer les deux aspects importants du RAG, à savoir:

le retrieval: le RAG est-il capable de retrouver les documents pertinents?
la génération: le RAG est-il capable de générer une réponse à la question?

Il y a plusieurs évaluateurs de disponible pour évaluer ces deux critères.

Pour tout ce qui est évaluation de la réponse à la question, RAGAS propose d'utiliser GPT4.

A noter aussi, le framework ARES

c-ai · retrieval-augmented-generation

April 21, 2024 at 17:20:52 UTC * · permalink

·

https://docs.ragas.io/en/stable/index.html

Editing your images with DALL·E

OpenAI a ajouté l'inpainting dans ChatGPT Plus.

On peut maintenant sélectionner une zone et indiquer à ChatGPT de quelle manière on souhaiterait la modifier

c-ai · image-ai

April 21, 2024 at 16:13:52 UTC * · permalink

·

https://help.openai.com/en/articles/9055440-editing-your-images-with-dall-e

New features in the Assistants API

OpenAI a sorti une mise à jour de son API pour créer des Assistants.

On peut notamment utiliser jusqu'à 10000 fichiers dans leur RAG intégré et streamer les réponses.

Les Assistants permettent de développer très rapidement des POC d'Agents spécialisés en entreprise mais le côté boîte noir finit par se payer comme pour tout produit complètement fermé.

c-ai · assistant-ai

April 21, 2024 at 08:53:55 UTC * · permalink

·

https://community.openai.com/t/new-features-in-the-assistants-api/720539

HuggingFaceFW - FineWeb dataset

FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.

Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.

Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant

c-ai · text-ai · training-ai · dataset

April 21, 2024 at 08:49:26 UTC * · permalink

·

https://huggingface.co/HuggingFaceFW

Tips on Adding JSON Output to Your CLI App

Une liste de bon conseils pour structurer son JSON correctement dans la sortie d'une CLI.

c-programmation

April 20, 2024 at 18:29:31 UTC * · permalink

·

https://blog.kellybrazil.com/2021/12/03/tips-on-adding-json-output-to-your-cli-app/

IA pas que la Data : #7 - AI Act / Normes ISO : une nécessité pour une IA éthique et de confiance ?

Je ne partage pas souvent des podcast mais dans celui-ci on en apprend un peu plus sur l'IA Act (à partir de 23 min)

Notamment, le texte originel n'était pas pensé pour la GenAI et il sera surement amendé dans les prochains mois.

c-ai · text-ai

April 20, 2024 at 18:16:11 UTC * · permalink

·

https://podcasts.apple.com/fr/podcast/ia-pas-que-la-data/id1707010229?i=1000650716498