Des chercheurs de chez Google ont exploré l'utilisation de modèles de génération d'images comme moteur de jeu.
En gros ils génèrent 20 images par seconde qui représentent le gameplay du jeu Doom et ils guident la génération avec les input clavier.
Cela permet d'avancer, de tourner, de tirer etc
Impressionnant mais par contre je doute que ça remplace un jour les vrais engine au vu des problèmes d'hallucinations et des coûts faramineux associés à la génération de 20 images par seconde.
Aussi, les jeux modernes sont bien plus complexes que Doom et donc bien plus dur à simuler uniquement en générant des images. (Simuler un moteur physique par exemple)
Florence 2 est un modèle de reconnaissance d'image développé par Microsoft et disponible en open source.
Il est disponible en plusieurs versions et reste assez petit avec moins d'un milliard de paramètres.
Il performe mieux que les modèles actuels comme Flamingo bien qu'il soit 400x plus petit que celui-ci !
A priori c'est la qualité de la donnée d'entraînement qui permet ces performances avec 126 millions d'images et 5.4 milliards d'annotations utilisées.
Même le papier de recherche est Open Source, c'est bizarre de voir Microsoft faire ce qu'est sensé faire OpenAI 🙄
Stability AI release son modèle Stable Diffusion 3 medium en téléchargement.
Les modèles de la famille Stable Diffusion 3 sont disponibles depuis plusieurs mois via l'API de Stability AI, notamment SD3 Large qui est leur modèle le plus performant.
Le modèle est release avec une licence Open Source qui interdit l'utilisation commerciale.
Après la release de Codestral en MNPL par Mistral, Stability protège aussi ses investissements en restreignant l'utilisation de leur modèle.
D'un côté ça peut se comprendre au vu des investissement nécessaires à l'entrainement, d'un autre côté le succès de Stable Diffusion est beaucoup venu de sa très grande communauté qui ont créé énormément de ressources et beaucoup de valeur autour du modèle de base.
De plus en plus de créateurs quittent DeviantArt car de très nombreux contenus sont générés par IA et mis en avant par la plateforme ce qui donne beaucoup moins de visibilité aux créateurs humains.
Les œuvres humaines sont littéralement noyées sous la masses des œuvres IA.
OpenAI a ajouté l'inpainting dans ChatGPT Plus.
On peut maintenant sélectionner une zone et indiquer à ChatGPT de quelle manière on souhaiterait la modifier
La version 3 de Stable Diffusion est disponible en API chez Stability AI.
La génération d'image est meilleure et ils ont fait de gros efforts sur l'insertion de texte dans les images.
Un modèle multi-modal créé par Apple qui se spécialise dans la compréhension des UI mobile et autres interfaces graphiques.
Dans la même veine, il y a aussi CogVML
Stability AI n'a plus d'argent pour payer ses factures de cloud de presque 100 millions de dollars avec seulement 11 millions de revenus.
Dans les prochains mois, je pense que de nombreux fournisseurs de cloud IA vont suivre le même chemin vu que beaucoup on eu la même tactique en cassant les prix pour attirer des utilisateurs.
Un outil de workflow graphique avec des nœuds pour créer des pipeline de création d'images avec Stable Diffusion
Une manière de contrôler la génération d'images Stable Diffusion comme les ControlNet.
Un service qui permet de bloquer les scrappers IA qui ne respecteraient pas les conditions d'un site.
Leur liste d'IP est dynamique en fonction des scrappers potentiels qui sont entrain de collecter des données à un instant T.
On peut bloquer la requête ou renvoyer une autre image pour perturber l'entrainement des modèles.
CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.
Il a été entrainé sur des interfaces web mais aussi mobile.
Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!
Une démo est disponible ici http://36.103.203.44:7861/
Une démo impressionnante sur ce que pourrais être les interfaces de demain.
Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).
Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.
Un article qui résume les techniques autour des embeddings d'images.
CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.
https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1
La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.
Une démo d'une inférence en temps réel depuis l'image de la webcam qu'on peut modifier avec un prompt.
Le prompt n'est pas très suivi par le modèle mais le résultat est presque complètement fluide ce qui est impressionnant pour de l'inférence d'image.
Un outil de génération d'image en temps réel.
Ça utilise SDXL Turbo pour générer une image en moins de 1 seconde. L'affichage des images se fait au fur et à mesure de l'écriture de la description.
L'effet est vraiment bluffant!
A peine quelques semaines après la sortie du modèle AnimateAnyone, les équipes de Alibaba proposent une cabine d'essayage virtuelle.
Une véritable révolution pour le e-commerce !
SDXL Turbo est une version améliorée de Stable Diffusion XL qui permet de générer une image en seulement 200ms sur une carte A100 !
Concrètement il n'y a qu'une seule étape de génération au lieu de 20 à 50 aujourd'hui. Ces étapes de générations enlèvent des couches de "bruit" successive.
Le nom de la nouvelle méthode est Adversarial Diffusion Distillation (ADD)
Le modèle et les poids sont Open Source mais sans utilisation commerciale
Une expérimentation de manipulation automatique du browser avec GPT-4V en renfort pour la compréhension des interfaces.
Une nouvelle technique à base d'IA générative pour faire bouger des parties d'une photo