Aschen | Sharing the webz

Big translators layoff at Duolingo

Duolingo a viré la plupart de ses traducteurs car ils utilisent maintenant GPT4.

Le métier de traducteur est en grosse difficulté face aux avancées de la traduction automatique.

Il faut entre 2 et 10 fois moins de personnes pour relire les traductions de l'IA.

De plus en plus de grosses boites traduisent tout leur contenu dans des dizaines de langues sans faire relire par des humains. Github et Microsoft font ça pour toute leur documentation technique par exemple

c-ai

January 4, 2024 at 08:26:38 UTC * · permalink

·

https://www.reddit.com/r/duolingo/comments/18sx06i/big_layoff_at_duolingo/

AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps.

Un Agent capable de manipuler les interfaces graphiques d'un smartphone Android.

Ils utilisent GPT4 pour la réflexion et GPT4V pour la reconnaissance d'image. En connectant l'Agent à un smartphone avec ADB, ils sont capable d'exécuter des actions de clique ou de swipe.

L'Agent inclue un mode "exploration" ou il va interagir en autonomie avec l'application afin de découvrir les fonctionnalités.

Cela ouvre beaucoup de nouvelles possibilités, notamment autour du testing des applications Android.

c-ai · assistant-ai · smartphone · interface-manipulation

January 4, 2024 at 07:57:35 UTC * · permalink

·

https://github.com/mnotgod96/AppAgent

Sweep: turn bugs and feature requests into code changes.

Un Agent LLM qui est capable d'exécuter de petites fonctionnalités dans une codebase.

c-ai · code-ai

January 3, 2024 at 20:39:08 UTC * · permalink

·

https://sweep.dev/

E2B: Cloud Runtime for AI Agents

Un runtime qui permet d'exécuter du code de manière sécurisé dans une sandbox.

Le projet a été pensé pour exécuter le code en provenance d'Agents LLM.

c-ai · code-ai

January 3, 2024 at 16:49:28 UTC * · permalink

·

https://github.com/e2b-dev/E2B

Kudurru - Block AI Scrapers

Un service qui permet de bloquer les scrappers IA qui ne respecteraient pas les conditions d'un site.

Leur liste d'IP est dynamique en fonction des scrappers potentiels qui sont entrain de collecter des données à un instant T.

On peut bloquer la requête ou renvoyer une autre image pour perturber l'entrainement des modèles.

c-ai · image-ai

January 2, 2024 at 22:29:46 UTC * · permalink

·

https://kudurru.ai/

CogVLM: a state-of-the-art-level open visual language model

CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.

Il a été entrainé sur des interfaces web mais aussi mobile.

Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!

Une démo est disponible ici http://36.103.203.44:7861/

c-ai · image-ai · interface-manipulation

January 2, 2024 at 20:01:03 UTC * · permalink

·

https://github.com/THUDM/CogVLM

AI Stylist - Amazon Bedrock Demo

Une démo impressionnante sur ce que pourrais être les interfaces de demain.

Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).

Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.

c-ai · image-ai

December 28, 2023 at 16:49:20 UTC * · permalink

·

https://aistylist.awsplayer.com/

Reflexion: Language Agents with Verbal Reinforcement Learning

Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)

Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.

L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:

question/réponse: évaluation par un LLM
génération de code: exécution du code et message d'erreur
prise de décision: vérification avec l'arbre des "bonnes" décisions

Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.

Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew

c-ai · assistant-ai

December 28, 2023 at 10:08:21 UTC * · permalink

·

https://arxiv.org/pdf/2303.11366.pdf

leetcode-hard-gym: A hard gym for programming

Un dataset de problème de code avec un outil d'évaluation automatique.

Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.

c-ai · code-ai · evaluation-ai

December 28, 2023 at 09:49:49 UTC * · permalink

·

https://github.com/GammaTauAI/leetcode-hard-gym

Retrieval-Augmented Generation for Large Language Models: A Survey

Une méta-étude qui regroupe les différents travaux autour des RAG.

C'est un inventaire assez exhaustif de toutes les techniques de construction et d'amélioration d'un RAG et donc un must-read avant de se lancer en production.

c-ai · retrieval-augmented-generation

December 28, 2023 at 09:45:41 UTC * · permalink

·

https://arxiv.org/pdf/2312.10997v1.pdf

Rest meets ReAct: self-improvement for multi-step reasoning llm agent

Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.

C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.

c-ai · text-ai · assistant-ai

December 28, 2023 at 09:42:11 UTC * · permalink

·

https://arxiv.org/pdf/2312.10003.pdf

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

c-ai · text-ai · inference · performance

December 28, 2023 at 09:30:11 UTC * · permalink

·

https://github.com/SJTU-IPADS/PowerInfer

Quantum Computing’s Hard, Cold Reality Check

L'informatique quantique n'est toujours pas pour demain.

Beaucoup d'interrogations sur la faisabilité:

"1000 qbits physiques pour 1 qbit logique avec correction d'erreur"
"la correction d'erreur pourrait être fondamentalement impossible"

Un autre problème est la bande passante entre le monde quantique et classique, jusqu'à 1 million de fois plus lent que sur un ordinateur classique

c-autres · quantique

December 26, 2023 at 12:13:44 UTC * · permalink

·

https://spectrum.ieee.org/quantum-computing-skeptics

Deep-copying in JavaScript

Une comparaison des différentes manières de cloner un objet en Javascript.

Sans surprise c'est toujours JSON.parse(JSON.stringify(object)) qui est le plus rapide et surtout le plus portable.

c-programmation · javascript · performance

December 26, 2023 at 08:32:02 UTC * · permalink

·

https://surma.dev/things/deep-copy/

ChatHub - All-in-one chatbot client

Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.

Ça permet notamment de comparer la qualité des réponses.

c-ai · text-ai

December 25, 2023 at 20:29:35 UTC * · permalink

·

https://chathub.gg/

VideoPoet: A large language model for zero-shot video generation

Google sort un nouveau modèle de génération de vidéo.

Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.

VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.

Toutes les démo sont visibles ici https://sites.research.google/videopoet/

c-ai · video-ai

December 25, 2023 at 14:54:57 UTC * · permalink

·

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1

Phospho - The LLM App Monitoring Platform

Un SaaS d'observabilité des applications GenAI orienté métriques produit.

c-ai · text-ai · observabilite

December 24, 2023 at 11:42:52 UTC * · permalink

·

https://phospho.app/

Améliorer la rétention pour les apps LLM

4 techniques pour améliorer la rétention des applications à base de LLM:

pré-ecrire le prompt
multimodalité en entrée (voix, image, documents)
proposer plusieurs réponses
rendre l'échange plus humain (memes, blagues, etc)

c-ai · text-ai

December 24, 2023 at 11:40:47 UTC * · permalink

·

https://www.linkedin.com/posts/nicolas-oulianov_cest-le-probl%C3%A8me-des-chatbots-bas%C3%A9s-sur-activity-7144636464830509057-aXCf

What is an Image Embedding?

Un article qui résume les techniques autour des embeddings d'images.

CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.

https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1

La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.

c-ai · image-ai · embeddings

December 22, 2023 at 22:16:55 UTC * · permalink

·

https://blog.roboflow.com/what-is-an-image-embedding/