Google met des IA génératives dans sa suite Google Workspace donc dans Docs, Sheet, Slides etc
Des centaines de millions d'utilisateurs à travers le monde vont avoir accès à une IA générative pour écrire leur contenu.
GPT-4 commence à être rendu disponible sur liste d'attente.
Ils ont fait passé des examens non corrigés sur une vingtaine de sujets et GPT-4 a obtenu la moyenne dans 12 sujets sur 26!
Une autre nouveauté, GPT-4 peut aussi accepter les images en complément du texte.
ControlNet permet de controller la génération d'images faite avec StableDiffusion.
C'est notamment utilisé pour générer des création cohérentes entre elles par exemple dans un jeu vidéo.
Des modèles concurrents de GPT-3 commencent à émerger.
Celui-ci est même capable de tourner sur un téléphone (26sec/token) ou un raspberry pi! (ça sera très lent)
Il est intéressant de voir qu'ils ont pu fine-tune le modèle pour un coup assez bas, 600$ (de cloud j'imagine)
À noter, ce modèle n'est pas utilisable sous licence commerciale.
Une IA qui est capable de manipuler le navigateur depuis des instructions en langage naturel.
Par exemple, elle est capable de rechercher une location sur un site comme Airbnb simplement depuis une demande comme "trouver une maison pour 6 personnes à Houston pour maximum 600$"
Tout est dans le titre, OpenAI a beaucoup changé depuis 2015.
Les modèles ne sont plus ouverts, les investisseurs privés affluent, la rapidité prime sur la qualité, bref une entreprise tout ce qu'il y a de plus capitaliste et pas du tout dans le goût de la fondation créée au départ.
Excellent article de Cory Doctorow traduit par Framablog sur la situation actuelle de Microsoft et surtout Google par rapports aux IA génératrices de texte.
Outre la critique des ces IA qui ne seraient pas prêtes à remplacer les moteurs de recherche et les humains, Google est aussi descendu de son piédestal et ramené à une société financière incapable d'innover et qui rachète d'autres entreprise pour ça.
Les nouvelles API de OpenAI sont disponibles.
Notamment celle de ChatGPT (gpt-3.5) avec un coût par token 10x inférieur!
Whisper est une quand à elle une API de text to speech
Des outils pour détecter si un texte a été généré par une IA du style de GPT-X
Un clip musical créé entièrement avec des AI:
- paroles de la chanson
- vocales et instruments
- clip vidéo
Un article de Replicate sur l'état des outils tech pour faire du machine learning.
If you wanted to build a website 20 years ago it felt like trying to use machine learning today.
C'est vrai qu'avant Stable Diffusion, tous les outils pour générer des images étaient impossibles à utiliser par le commun des mortels et même pour les initiés.
Pour faciliter l'utilisation des modèles, ils ont créé Cog qui est une sorte de Docker pour le ML.
Ça réglera pas les problèmes de configuration de GPU mais au moins ça permet de packager et d'utiliser simplement des modèles 👍
Une extension chrome qui donne accès à une librairie communautaire de prompt pour ChatGPT.
Les prompt pour Midjourney sont assez impressionnant et donnent de très bon résultats!
Une IA qui génère des vidéos et c'est bluffant!
Ils sont capable d'appliquer un style provenant d'une photo sur une vidéo.
Exemple avec Indiana Jones
Skynet bientôt parmi nous
Quelqu'un a réussi à détourner la version de ChatGPT utilisé par Microsoft pour leur moteur de recherche.
Il a été possible de faire réciter l'ensemble des consignes donnés à l'IA sous la forme de texte.
Je pense qu'on peut parler d'un hack car il y a eu extraction de données s'apparentant à du code source (les prompts des ingénieurs de Microsoft)
Une amélioration de Dreambooth pour Stable Diffusion afin d'entraîner ses propres modèles puis de générer des images en rapport.
Par exemple en lui envoyant plusieurs images de vous, il sera capable de générer des images vous représentant dans différentes situation.
LoRA est beaucoup plus efficace, 8 min d'entraînement et un modèle de 5Mo contre 30 min et plusieurs Go pour Dreambooth
Une IA qui permet de générer des design d'interface à partir de prompt.
Il suffit de lui décrire ce que vous voulez et ça génère le design correspondant.
Par exemple: A settings page for users to edit their names, phone numbers and password
Le top c'est que derrière il est possible d'éditer directement le design dans Figma!
Explication du dilemne de l'innovateur qui tiraille Google entre rapidité d'innovation comme la startup OpenAI avec ChatGPT opposée à la stabilité et la confiance qui permettent à une entreprise de s'imposer sur le long terme.
Google achète une autre startup qui fait de la génération de texte comme GPT d'OpenAI.
C'est vrai que Google parait être en mauvaise posture par rapport à Microsoft/OpenAI.
Il est possible de contourner les limites de ChatGPT en lui indiquant une suite d'instructions en introduction puis de lui parler normalement.
C'est vraiment le cerveau positronique d'Asimov, c'est impressionnant..