Search: [c-ai] - Aschen | Sharing the webz

Inflection-2.5: meet the world's best personal AI

Inflection 2.5 est un modèle aux performances comparables à GPT-4.

c-ai · text-ai

June 30, 2024 at 18:51:29 UTC * · permalink

·

https://inflection.ai/inflection-2-5

All web “content” is freeware for Microsoft

Pour le CEO de la branche IA de Microsoft, tous le contenu sur internet est libre de droits et ils peuvent donc l'utiliser pour entrainer leurs modèles.

Malgré le lobbyisme de Microsoft pour nous faire croire qu'ils sont du bon côté, on continue d'entrevoir leur vrai visage à des moments.

c-ai

June 30, 2024 at 18:47:04 UTC * · permalink

·

https://rubenerd.com/all-web-content-is-freeware/

Scalable MatMul-free Language Modeling

Un papier scientifique qui explique une méthode pour faire tourner un LLM sans la multiplication des matrices.

En gros ça signifie qu'on aurait pas besoin de l'acceleration GPU pour faire tourner des LLMs mais qu'on pourrait faire ça sur des CPU standard que tout le monde a déjà.

c-ai · text-ai

June 26, 2024 at 18:36:21 UTC * · permalink

·

https://arxiv.org/abs/2406.02528

Florence 2, an Open Source Vision fondation model

Florence 2 est un modèle de reconnaissance d'image développé par Microsoft et disponible en open source.

Il est disponible en plusieurs versions et reste assez petit avec moins d'un milliard de paramètres.

Il performe mieux que les modèles actuels comme Flamingo bien qu'il soit 400x plus petit que celui-ci !

A priori c'est la qualité de la donnée d'entraînement qui permet ces performances avec 126 millions d'images et 5.4 milliards d'annotations utilisées.

Même le papier de recherche est Open Source, c'est bizarre de voir Microsoft faire ce qu'est sensé faire OpenAI 🙄

c-ai · image-ai

June 23, 2024 at 21:09:05 UTC * · permalink

·

https://huggingface.co/microsoft/Florence-2-large

PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

Les détails d'une méthode qui allie un RAG à des comportements d'Agent.

Leur benchmark est une optimisation de flux financiers et logistique à réaliser en interrogeant de la donnée dans une base relationnelle.

Concrètement, un plan des données nécessaires et de leurs relations est établie en amont puis les différentes requêtes sont exécutées.

Si des données sont manquantes, un nouveau plan peut être établie.

Ils affichent des résultats jusqu'à 2 fois meilleurs (60%) qu'un RAG simple sur le benchmark qu'ils ont créé.

Donner la représentation interne de la base de connaissance au modèle pour lui permettre de créer ses propres requêtes est une piste intéressante que j'avais déjà envisagé (mais repoussé faute de structuration correcte dans notre base de connaissances à l'époque)

c-ai · retrieval-augmented-generation

June 23, 2024 at 17:44:31 UTC * · permalink

·

https://arxiv.org/html/2406.12430v1

Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

Une étude sur les capacités des modèles ayant de grandes fenêtres de contexte à réaliser des tâches de type RAG.

Il apparaît que les modèles sont autant capable qu'un RAG lorsque l'on met tous les documents dans leur fenêtre de contexte.

A première vue, on pourrait se dire que les RAG sont obsolètes mais:

le nombre de tokens consommé est de 10 à 100x plus élevé
même 2 millions de tokens peuvent s'avérer insuffisant pour une grande base de connaissances

En général, les modèles se débrouillent aussi mieux lorsque l'on limite le nombre d'informations présentes dans leur prompt et sur des cas d'usages de raisonnement comme en SQL, cela peut améliorer les performances.

c-ai · retrieval-augmented-generation

June 23, 2024 at 17:36:25 UTC * · permalink

·

https://arxiv.org/html/2406.13121v1

Hacky repo to see what the Copilot extension sends to the server

Un travail impressionnant de reverse engineering sur le fonctionnement de l'extension Github Copilot.

Dans la partie sur le prompt engineering, on apprend notamment qu'un "token budget" est alloué à chaque prompt et que des chunks de documents potentiellement pertinents pour la génération sont ajoutés au prompt en fonction de différents scores.

La partie appel au modèle contient toutes les règles pour déclencher le modèle au meilleur moment. (par exemple juste après avoir écrit un caractère espace).

Surtout, il y a un contextual filter score qui est calculé à partir d'un simple modèle de régression local afin de déterminer si cela vaut la peine d'appeler le modèle distant.

Finalement pour la télémétrie, le point principal est un check fait par l'extension à différents intervalles (jusqu'à plusieurs minutes) pour vérifier si le code suggéré est toujours dans le code.

Bref, un très gros travail a été fait et est disponible sur le repo copilot-explorer.

Depuis cela a certainement évolué (par exemple l'utilisation de GPT-4 au lieu de Codex) car ce travail a plus d'un an maintenant.

c-ai · code-ai · reverse-engineering

June 23, 2024 at 17:13:40 UTC * · permalink

·

https://thakkarparth007.github.io/copilot-explorer/posts/copilot-internals.html#preventing-poor-requests-via-contextual-filter

Introducing Supermaven, the first code completion tool with a 300,000-token context window

Supermaven est un concurrent de Copilot pour la génération de code dans l'IDE des développeurs.

C'est le créateur de Tabnine, qui propose ce genre de solutions depuis 2018 (!), qui a développé Supermaven.

Leur parti pris c'est d'entrainer des modèles plus petits et plus spécialisés que GPT-4 pour pouvoir les utiliser virtuellement à chaque lettre écrite.

Ils ont donc développé leur propre solution en utilisant un modèle entrainé par leur soins:

fenêtre de contexte de 300 000 tokens
utilisation de la majorité du code d'un repo pour la suggestion
latence faible (250ms annoncées vs ~800 pour Copilot)

Pour moi, des insights donné le plus intéressant est leur utilisation des séquences d'éditions plutôt que des fichiers. C'est à dire qu'ils considèrent l'enchainement des éditions faites par l'utilisateur (renommer des variables, écrire 2 lignes, supprimer 1 ligne, etc)

Je l'ai essayé et même en version gratuite c'est bluffant car les complétions sont instantanés et d'une qualité comparable à Copilot.

c-ai · code-ai

June 23, 2024 at 17:00:13 UTC * · permalink

·

https://supermaven.com/blog/introducing-supermaven

GPUs Public Preview: Run AI workloads on H100, A100, L40S, and more

Koyeb est un cloud serverless assez moderne avec un scalling automatique en fonction de pleins de paramètres (RPS, active connections, latence, etc)

Ils proposent maintenant des GPU avec une facturation à la seconde !

C'est super pour l'inférence avec des modèles Open Source. Que ce soit des petits modèles sur un GPU à 0.5$/h ou un LlaMa 3 sur un H100 à 3.30$/h.

c-ai · serverless

June 21, 2024 at 11:31:03 UTC * · permalink

·

https://www.koyeb.com/blog/gpus-public-preview-run-ai-workloads-on-h100-a100-l40s-and-more

Introducing Claude 3.5 Sonnet

La dernière version de Claude serait le premier modèle à battre un modèle d'OpenAI.

Sur un benchmark de raisonnement par exemple, Claude 3.5 Sonnet fait 59% vs 53% pour GPT-4o.

Le million de token est à 3$ vs 5$ pour GPT-4o et ma fenêtre de contexte est de 200K tokens vs 128 pour GPT-4o.

Le modèle possède également des capacités d'analyse image.

Bref, un sérieux concurrent pour OpenAI !

c-ai · text-ai

June 20, 2024 at 16:56:41 UTC * · permalink

·

https://www.anthropic.com/news/claude-3-5-sonnet

LLMs are insecure

Une technique intéressante de prompt injection qui passe tous les niveaux du CTF de Lakera (une entreprise spécialisée dans la sécurité des LLMs)

Ils donnent des instructions en pseudo code qui permettent de faire leak le code secret

c-ai · text-ai · cybersecurite · prompt-injection

June 17, 2024 at 22:22:51 UTC * · permalink

·

https://antonz.org/ai-security/

Stable Diffusion 3 Medium

Stability AI release son modèle Stable Diffusion 3 medium en téléchargement.

Les modèles de la famille Stable Diffusion 3 sont disponibles depuis plusieurs mois via l'API de Stability AI, notamment SD3 Large qui est leur modèle le plus performant.

Le modèle est release avec une licence Open Source qui interdit l'utilisation commerciale.

Après la release de Codestral en MNPL par Mistral, Stability protège aussi ses investissements en restreignant l'utilisation de leur modèle.

D'un côté ça peut se comprendre au vu des investissement nécessaires à l'entrainement, d'un autre côté le succès de Stable Diffusion est beaucoup venu de sa très grande communauté qui ont créé énormément de ressources et beaucoup de valeur autour du modèle de base.

c-ai · image-ai · open-source

June 16, 2024 at 17:06:46 UTC * · permalink

·

https://stability.ai/news/stable-diffusion-3-medium

Perplexity AI Is Lying about Their User Agent

Perplexity n'utilisent pas le User Agent qu'ils déclarent utiliser.

Cela empêche de bloquer le bot qui scrape les pages web pour Perplexity (et ils ne respectent pas non plus le robot.txt bien évidemment)

c-ai · text-ai

June 16, 2024 at 16:49:47 UTC * · permalink

·

https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/

Firebase Genkit Typescript

La lib Firebase Genkit de Google pour LLM est très bien pensée.

Contrairement à Langchain, le design est simple et le nombre de features limité à des abstraction de bas niveau.

Abstraction autour des modèles (LLM et aussi image)
Génération de données structurées avec schéma de validation Zod en entrée et en sortie (on fait la même chose chez Didask)
Utilisation d'outils par les LLMs (la aussi définis avec Zod!)

Je ne suis pas super fan de leur manière de gérer les templates de prompt par contre, je préfère utiliser du pur Javascript.

Le gros bémol c'est que l'on a pas accès aux modèles d'OpenAI.

c-ai · text-ai · typescript

June 16, 2024 at 16:47:00 UTC * · permalink

·

https://firebase.google.com/docs/genkit

Introducing Lamini Memory Tuning: 95% LLM Accuracy, 10x Fewer Hallucinations

Une nouvelle technique qui comme le RAG, est utilisée pour permettre au LLM de répondre à des questions sur des données non présentes dans le corpus d'entrainement initial.

Pour ça, ils se basent sur un fine-tuning de millions de LoRa avec les documents qui seront sélectionnés au moment de l'inférence pour répondre à la question.

Ils annoncent des résultats impressionnants avec 95% de précision sur un cas d'usage Text-to-SQL vs 50% avec un RAG.

Cette méthode permet de remplacer un RAG avec une nouvelle technique d'entrainement mais aussi de réduire énormément les hallucinations.

Ils expliquent les détails de leur méthode dans ce papier de recherche: Banishing LLM Hallucinations Requires Rethinking Generalization

Si ça se concrétise c'est game changer pour l'écosystème LLM qui pourrait délaisser le RAG pour le Memory Tuning dans certains cas d'usage.

c-ai · text-ai · memory-tuning · text-to-sql

June 16, 2024 at 16:31:32 UTC * · permalink

·

https://www.lamini.ai/blog/lamini-memory-tuning

WrenAI makes your database RAG-ready. Implement Text-to-SQL more accurately and securely.

Une solution clé en main de Text-to-SQL, un RAG pour poser des questions en langage naturelle à sa base de données.

Une autre solution un peu plus mature: Dataherald

Les deux sont Open Source :-)

c-ai · retrieval-augmented-generation · text-to-sql

June 16, 2024 at 16:14:33 UTC * · permalink

·

https://github.com/Canner/WrenAI

How we built Text-to-SQL at Pinterest

Un retour d'expérience très complet sur le système d'interrogation du datawarehouse de Pinterest avec du langage naturel.

Ils ont construit un RAG avec lequel les utilisateurs peuvent poser des questions en langage naturel. 40% du temps le résultat est bon du premier coup et le reste du temps les utilisateurs doivent affiner leur question en plusieurs messages. (comme toujours, l'IA reste un copilote)

Une idée intéressante, ils utilisent les questions les plus courantes sur une table pour générer un summary de la table et son utilité. Ce summary est ensuite vectorisé.

Ils utilisent OpenSearch (la fork d'Elasticsearch) comme moteur de recherche vectoriel notamment parce qu'ils peuvent utiliser le scoring boost.

L'article est une mine d'information et ils donnent tous leurs prompts!

c-ai · retrieval-augmented-generation · text-to-sql

June 16, 2024 at 16:12:07 UTC * · permalink

·

https://medium.com/pinterest-engineering/how-we-built-text-to-sql-at-pinterest-30bad30dabff

AI Text to Sound Effects Generator | ElevenLabs

ElevenLabs propose maintenant de générer des sons d'ambiance.

Ça peut être des bruitages comme des applaudissements mais aussi des voix avec un style particulier comme "voix d'une vieille dame en sanglot".

Bonne nouvelle pour le monde de la création de contenu audio-visuel !

c-ai · audio-ai

June 15, 2024 at 13:53:23 UTC * · permalink

·

https://elevenlabs.io/sound-effects

Taxonomy of Prompting Techniques

Une méta étude qui regroupe toutes les méthodes connues de prompting.

c-ai · prompt-engineering

June 15, 2024 at 08:31:45 UTC * · permalink

·

https://arxiv.org/pdf/2406.06608

CodeAct - Executable Code Actions Elicit Better LLM Agents

Une nouvelle technique pour planifier et faire exécuter des actions par un Agent en utilisant uniquement du code Python.

Plutôt que de fournir des outils virtuels que l'Agent peut utiliser en répondant un certain format JSON par exemple, CodeAct propose plutôt de permettre à l'Agent d'utiliser directement ces actions dans du code sous la forme de fonctions.

Déjà c'est assez malin car le code est beaucoup plus facile à générer pour un LLM qu'un DSL custom représentant des fonctions.

Aussi, le LLM peut maintenant utiliser directement les primitives de programmation comme les boucles ou les conditions pour arriver à ses fins plus rapidement.

Par contre, il y a du gros travail sur la génération de code pour éviter de faire n'importe quoi (malicious inputs) ou des choses imprévues comme utiliser des paquets externes non disponibles.

c-ai · assistant-ai

June 13, 2024 at 17:05:30 UTC * · permalink

·

https://github.com/xingyaoww/code-act