Search: [c-ai] - Aschen | Sharing the webz

VASA-1 - Microsoft Research

Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.

En entrée, il lui suffit d'une image et d'un clip audio.

Impressionnant et en même temps ça fait peur pour les deepfakes

c-ai · video-ai

April 18, 2024 at 12:11:13 UTC * · permalink

·

https://www.microsoft.com/en-us/research/project/vasa-1/

EU AI Act Compliance Checker | Loi européenne sur l'intelligence artificielle

IA Act est en application depuis le 13 mars 2024.

Concrètement, il y a 4 types de Systèmes d'IA (SIA):
1) SIA à risque inacceptable (e.g. scoring social)
2) SIA très risqués (e.g. recrutement)
3) SIA avec obligation de transparence (e.g chatbot, génération)
4) SIA à risque minime ou nul (e.g. maintenance prédictive)

Pour ceux qui rentrent dans la 3e catégorie, il faut respecter les points suivants:

informer les gens qu'ils interagissent avec un système d'IA
informer en cas d'usage de système de reconnaissance émotionnelle ou de catégorisation par biométrie
apposer un label identifiant les contenus modifiés ou créés grâce à une IA

(Le type d'entité du formulaire est "Fabricant de produits")

c-ai

April 18, 2024 at 11:22:05 UTC * · permalink

·

https://artificialintelligenceact.eu/fr/evaluation/verificateur-de-conformite-a-l-acte-de-l-ai-de-l-ue/

Mistral 8x22B - Cheaper, Better, Faster, Stronger

Mistral release leur nouveau modèle.

C'est le modèle qui présente le meilleur ratio performances / coût. Bien meilleur que le modèle Command R+ de Cohere par exemple.

Les performances sont bien en dessous de GPT 4 et Claude 3 Opus

Ça reste néanmoins le meilleur modèle Open Source et donc une très bonne base pour du fine tuning par exemple

c-ai · text-ai · open-source

April 17, 2024 at 15:11:43 UTC * · permalink

·

https://mistral.ai/fr/news/mixtral-8x22b/

Stable Diffusion 3 API Now Available

La version 3 de Stable Diffusion est disponible en API chez Stability AI.

La génération d'image est meilleure et ils ont fait de gros efforts sur l'insertion de texte dans les images.

c-ai · image-ai

April 17, 2024 at 14:57:31 UTC * · permalink

·

https://stability.ai/news/stable-diffusion-3-api

Understanding OpenAI’s “Temperature” and “Top_p” Parameters in Language Models

Les paramètres "temperature" et "top_p" contrôlent les choix fait par le LLM pour choisir les tokens les plus probable lors de la génération.

Plus la température est haute, plus le LLM sera à même de choisir des tokens ayant une faible probabilité d'apparaitre.

Top_p définit le nombre de tokens considérés pour la génération, ainsi une valeur élevé permettra au LLM de choisir parmi plus de mots.

c-ai · prompt-engineering · text-ai

April 16, 2024 at 14:25:33 UTC * · permalink

·

https://medium.com/@1511425435311/understanding-openais-temperature-and-top-p-parameters-in-language-models-d2066504684f

New GPT4 Turbo 2024-04-09

OpenAI sort sa dernière version du modèle GPT4 Turbo avec des performances sensiblement meilleures

Il faut maintenant utiliser le modèle gpt-4-turbo pour être sur de pointer sur la dernière version en date (9 avril 2024).

Les modèles GPT 4 turbo preview ne devraient plus être utilisés.

c-ai · text-ai

April 14, 2024 at 15:37:23 UTC * · permalink

·

https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4

AIcrowd | Meta Comprehensive RAG Benchmark: KDD Cup 2024

Une compétition de RAG. Je trouve ça intéressant de garder sous la main les 8 types de questions:

Question simple : questions demandant des faits simples, comme la date de naissance d'une personne et les auteurs d'un livre.
Question simple avec certaines conditions : questions demandant des faits simples avec certaines conditions données, telles que le cours de l'action à une certaine date et les films récents d'un réalisateur dans un certain genre.
Set Question: Questions qui attendent un ensemble d'entités ou d'objets comme réponse. Un exemple : quels sont les continents de l’hémisphère sud ?
Question de comparaison : des questions qui peuvent comparer deux entités, comme par exemple qui a commencé à se produire plus tôt, Adele ou Ed Sheeran ?
Question d'agrégation : questions qui peuvent nécessiter une agrégation des résultats de récupération pour répondre, par exemple, combien d'Oscars Meryl Streep a-t-elle remportés ?
Questions multi-sauts : questions qui peuvent nécessiter d'enchaîner plusieurs éléments d'information pour composer la réponse, comme par exemple qui a joué dans le dernier film d'Ang Lee ?
Question de post-traitement : questions qui nécessitent un raisonnement ou un traitement des informations récupérées pour obtenir la réponse, par exemple : combien de jours Thurgood Marshall a-t-il été juge à la Cour suprême ?
Question à faux prémisse : questions comportant une fausse préposition ou hypothèse ; par exemple, quel est le nom de l'album rap de Taylor Swift avant sa transition vers la pop ? (Taylor Swift n'a sorti aucun album de rap.)

c-ai · retrieval-augmented-generation

April 13, 2024 at 14:10:00 UTC * · permalink

·

https://www.aicrowd.com/challenges/meta-comprehensive-rag-benchmark-kdd-cup-2024

ARAGOG: Advanced RAG Output Grading

Une méta étude sur les RAG avec notamment:

Sentence-window retrieval
Document summary index
HyDE
Multi-query
Maximal Marginal Relevance
Cohere Re-ranker
LLM-based Re-ranker

L'étude montre que la combinaisons des méthodes Sentence Window Retrieval, LLM Rerank, Cohere Rerank et HyDE donnent les meilleurs résultats.

Dommage que l'étude ne parle pas des techniques qui limitent le chunking et d'autre chose méthode que les seules Vector Database pour récupérer les documents comme Elasticsearch par exemple.

c-ai · retrieval-augmented-generation

April 13, 2024 at 13:55:40 UTC * · permalink

·

https://arxiv.org/pdf/2404.01037.pdf

Appel à projets « Accélérer l’usage de l’intelligence artificielle générative dans l’économie » | Bpifrance

La BPI lance un appel à projet autour de la GenAI avec à la clé entre 1 et 5 millions d'euro de financement.

c-ai

April 13, 2024 at 13:27:12 UTC * · permalink

·

https://www.bpifrance.fr/nos-appels-a-projets-concours/appel-a-projets-accelerer-lusage-de-lintelligence-artificielle-generative-dans-leconomie

RAFT: Adapting Language Model to Domain Specific RAG

Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.

En gros on va créer un dataset contenant:

une question
un document pertinent pour y répondre
un document non pertinent ("distractor")
la réponse générée depuis le document pertinent
une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)

Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)

Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.

Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.

c-ai · retrieval-augmented-generation · training-ai

April 13, 2024 at 10:42:05 UTC * · permalink

·

https://arxiv.org/pdf/2403.10131.pdf

Debunking Devin: "First AI Software Engineer" Upwork lie exposed!

Sans surprise, la vidéo de Devin qui prend une issue Upwork et la fix est pleine de fake.

Devin fix de soit disant erreurs dans des fichiers qui n'existent pas dans le repo et il utilise aussi des commandes Bash inutiles (head -n 5 file.json | tail -n 5)

Aussi, l'auteur de la vidéo a complété la tâche en 35 min et c'était assez simple vu que le Readme était très clair.

Bref encore une fois les Agents complètement autonomes restent très décevants.

c-ai · code-ai

April 13, 2024 at 08:58:33 UTC * · permalink

·

https://youtube.com/watch?v=tNmgmwEtoWE

Les testeurs du Humane AI Pin sont unanimes : il ne sert à rien

Il fallait s'y attendre, le gadget qui a fait beaucoup de bruit est tout simplement nul.

Ergonomie pas au point et peu d'autonomie en plus d'être décevant sur les fonctionnalités IA comme la reconnaissance d'image.

Bref, poubelle.

c-ai

April 12, 2024 at 00:31:33 UTC * · permalink

·

https://www.numerama.com/tech/1723688-les-testeurs-du-humane-ai-pin-sont-unanimes-il-ne-sert-a-rien.html

Large Language Models Suffer From Their Own Output: An Analysis of the Self-Consuming Training Loop - 2311.16822.pdf

Les performances des LLM baissent significativement lorsqu'on les entraines sur des données générées par d'autres LLM.

C'est le challenge des prochains mois/années, pouvoir distinguer les données générées par un LLM pour les exclure des données d'entrainement

c-ai · training-ai

April 11, 2024 at 14:20:00 UTC * · permalink

·

https://arxiv.org/pdf/2311.16822.pdf

Tarifs de l'API Gemini | Google AI for Developers

Gemini 1.5 est disponible pour le grand publique.

Non seulement le modèle est très prometteur sur une fenêtre de tokens très entendue (jusqu'à 1 millions de tokens !) mais en plus il est moins cher que GPT4 Turbo avec 7$ vs 10$ le million de tokens en input et 21$ vs 30$ le million de tokens en output.

On retiendra bien sûr la meilleur performance à moindre coût mais on retiendra aussi l'avance de OpenAI qui a sorti GPT 4 il y a 18 mois et GPT4 Turbo il y a 6 mois.

Bref, Gemini est un des meilleurs modèle de 4e génération jusqu'à l'arrivée de GPT5.

c-ai · text-ai

April 10, 2024 at 20:54:38 UTC * · permalink

·

https://ai.google.dev/pricing?hl=fr

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.

Dans la même veine, il y a aussi CogVML

c-ai · image-ai · interface-manipulation

April 10, 2024 at 09:08:37 UTC * · permalink

·

https://arxiv.org/abs/2404.05719

auto-code-rover: Autonomous program improvement

Un autre Agent capable de résoudre des issues GitHub.

Ils font mieux que Devin (13%) avec 22% des issues du SWE-bench-lite résolues

Sur le benchmark classique, ils sont à 16% vs le précédent SOTA, SWE-agent à 12.30

c-ai · code-ai

April 10, 2024 at 08:03:40 UTC * · permalink

·

https://github.com/nus-apr/auto-code-rover

Open-Sora-Plan: This project aim to reproduce Sora (Open AI T2V model)

Un modèle open source de Text to Video.

Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)

La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!

L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.

c-ai · video-ai · open-source

April 9, 2024 at 20:05:19 UTC * · permalink

·

https://github.com/PKU-YuanGroup/Open-Sora-Plan

UncovAI - Detect AI content

Un outil de détection des contenus créés par IA (texte, image et son).

La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.

Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !

Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.

c-ai · training-ai

April 9, 2024 at 19:26:57 UTC * · permalink

·

https://uncovai.com/