Aschen | Sharing the webz

Kudurru - Block AI Scrapers

Un service qui permet de bloquer les scrappers IA qui ne respecteraient pas les conditions d'un site.

Leur liste d'IP est dynamique en fonction des scrappers potentiels qui sont entrain de collecter des données à un instant T.

On peut bloquer la requête ou renvoyer une autre image pour perturber l'entrainement des modèles.

c-ai · image-ai

January 2, 2024 at 22:29:46 UTC * · permalink

·

https://kudurru.ai/

CogVLM: a state-of-the-art-level open visual language model

CogVLM est un modèle de reconnaissance d'image spécialisé dans la reconnaissance et la navigation dans des interfaces graphiques.

Il a été entrainé sur des interfaces web mais aussi mobile.

Je dois dire que je suis assez impressionné par la qualité du modèle et surtout par sa rapidité!

Une démo est disponible ici http://36.103.203.44:7861/

c-ai · image-ai · interface-manipulation

January 2, 2024 at 20:01:03 UTC * · permalink

·

https://github.com/THUDM/CogVLM

AI Stylist - Amazon Bedrock Demo

Une démo impressionnante sur ce que pourrais être les interfaces de demain.

Depuis une vingtaine d'années, les interfaces hommes machines sont des écrans avec formulaires (grosso modo).

Les IA génératives permettent de rebattre les cartes et d'offrir une interface en langage naturelle enrichie avec des images.

c-ai · image-ai

December 28, 2023 at 16:49:20 UTC * · permalink

·

https://aistylist.awsplayer.com/

Reflexion: Language Agents with Verbal Reinforcement Learning

Une technique pour l'orchestration d'Agent qui obtient de bien meilleurs résultats de ReAct. (0.97 vs 0.76 sur HotPotQA)

Leur technique se base sur la réflexion autour du résultat obtenu par un premier LLM. Cette réflexion permet d'itérer sur la tâche à réaliser en corrigeant les erreurs.

L'étape de réflexion prend en compte la génération et un feedback sur cette génération. Le feedback dépend du type de problème:

question/réponse: évaluation par un LLM
génération de code: exécution du code et message d'erreur
prise de décision: vérification avec l'arbre des "bonnes" décisions

Une mémoire est également analysée pendant la phase de réflexion afin d'éviter le bouclage sur des solutions déjà essayées.

Cela me fait beaucoup pensé à cet article sur les Agent autonomes dans un jeu vidéo https://links.aschen.tech/shaare/a0Krew

c-ai · assistant-ai

December 28, 2023 at 10:08:21 UTC * · permalink

·

https://arxiv.org/pdf/2303.11366.pdf

leetcode-hard-gym: A hard gym for programming

Un dataset de problème de code avec un outil d'évaluation automatique.

Les problèmes sont en plusieurs langages et l'évaluateur permet de tester automatiquement des réponses qui auraient été générés par un LLM par exemple.

c-ai · code-ai · evaluation-ai

December 28, 2023 at 09:49:49 UTC * · permalink

·

https://github.com/GammaTauAI/leetcode-hard-gym

Retrieval-Augmented Generation for Large Language Models: A Survey

Une méta-étude qui regroupe les différents travaux autour des RAG.

C'est un inventaire assez exhaustif de toutes les techniques de construction et d'amélioration d'un RAG et donc un must-read avant de se lancer en production.

c-ai · retrieval-augmented-generation

December 28, 2023 at 09:45:41 UTC * · permalink

·

https://arxiv.org/pdf/2312.10997v1.pdf

Rest meets ReAct: self-improvement for multi-step reasoning llm agent

Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.

C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.

c-ai · text-ai · assistant-ai

December 28, 2023 at 09:42:11 UTC * · permalink

·

https://arxiv.org/pdf/2312.10003.pdf

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

c-ai · text-ai · inference · performance

December 28, 2023 at 09:30:11 UTC * · permalink

·

https://github.com/SJTU-IPADS/PowerInfer

Quantum Computing’s Hard, Cold Reality Check

L'informatique quantique n'est toujours pas pour demain.

Beaucoup d'interrogations sur la faisabilité:

"1000 qbits physiques pour 1 qbit logique avec correction d'erreur"
"la correction d'erreur pourrait être fondamentalement impossible"

Un autre problème est la bande passante entre le monde quantique et classique, jusqu'à 1 million de fois plus lent que sur un ordinateur classique

c-autres · quantique

December 26, 2023 at 12:13:44 UTC * · permalink

·

https://spectrum.ieee.org/quantum-computing-skeptics

Deep-copying in JavaScript

Une comparaison des différentes manières de cloner un objet en Javascript.

Sans surprise c'est toujours JSON.parse(JSON.stringify(object)) qui est le plus rapide et surtout le plus portable.

c-programmation · javascript · performance

December 26, 2023 at 08:32:02 UTC * · permalink

·

https://surma.dev/things/deep-copy/

ChatHub - All-in-one chatbot client

Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.

Ça permet notamment de comparer la qualité des réponses.

c-ai · text-ai

December 25, 2023 at 20:29:35 UTC * · permalink

·

https://chathub.gg/

VideoPoet: A large language model for zero-shot video generation

Google sort un nouveau modèle de génération de vidéo.

Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.

VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.

Toutes les démo sont visibles ici https://sites.research.google/videopoet/

c-ai · video-ai

December 25, 2023 at 14:54:57 UTC * · permalink

·

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1

Phospho - The LLM App Monitoring Platform

Un SaaS d'observabilité des applications GenAI orienté métriques produit.

c-ai · text-ai · observabilite

December 24, 2023 at 11:42:52 UTC * · permalink

·

https://phospho.app/

Améliorer la rétention pour les apps LLM

4 techniques pour améliorer la rétention des applications à base de LLM:

pré-ecrire le prompt
multimodalité en entrée (voix, image, documents)
proposer plusieurs réponses
rendre l'échange plus humain (memes, blagues, etc)

c-ai · text-ai

December 24, 2023 at 11:40:47 UTC * · permalink

·

https://www.linkedin.com/posts/nicolas-oulianov_cest-le-probl%C3%A8me-des-chatbots-bas%C3%A9s-sur-activity-7144636464830509057-aXCf

What is an Image Embedding?

Un article qui résume les techniques autour des embeddings d'images.

CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.

https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1

La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.

c-ai · image-ai · embeddings

December 22, 2023 at 22:16:55 UTC * · permalink

·

https://blog.roboflow.com/what-is-an-image-embedding/

10k-GPT: Upgrading. Implementing BM25 (text) search…

Un exemple pratique d'un RAG hybride avec recherche vectorielle + recherche "classique" avec scoring par mots clés et filtres.

C'est ce qu'on pourrait aussi avoir en utilisant Elasticsearch avec ses fonctions de scoring et sa recherche vectorielle knn.

Les résultats sont bien sur meilleurs que du vectoriel classique.

c-ai · text-ai · retrieval-augmented-generation

December 22, 2023 at 18:54:11 UTC * · permalink

·

https://medium.com/@trent.niemeyer/10k-gpt-upgrading-fb94603cc38b

⚔️ Chatbot Arena ⚔️ : Benchmarking LLMs in the Wild

Un site qui permet de tester ses prompts sur une vingtaines de modèles à la fois.

Il y a bien sur les modèles Open Source mais aussi les modèles fermés comme ceux de OpenAI ainsi que les familles Claude et Gemini.

c-ai · text-ai

December 22, 2023 at 18:28:08 UTC * · permalink

·

https://chat.lmsys.org/?arena

reworkd/tarsier: Vision utilities for web interaction agents 👀

Un autre exemple de navigation avec un GPT4V.

Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.

Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.

L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.

c-ai · text-ai · navigateur · interface-manipulation

December 22, 2023 at 13:43:43 UTC * · permalink

·

https://github.com/reworkd/tarsier

Modal - Cloud functions reimagined

Un cloud serverless qui fait tourner des fonctions Python.

Ils ont notamment tout un service de GPU à la demande pour faire tourner des tâches de ML comme de la transcription audio, de l'inférence, etc

Utile dans une démarche GenAI + cloud pour mieux maitriser les coûts

c-ai · serverless

December 22, 2023 at 08:25:09 UTC * · permalink

·

https://modal.com/

Realtime inference from webcam

Une démo d'une inférence en temps réel depuis l'image de la webcam qu'on peut modifier avec un prompt.

Le prompt n'est pas très suivi par le modèle mais le résultat est presque complètement fluide ce qui est impressionnant pour de l'inférence d'image.

c-ai · image-ai

December 21, 2023 at 09:00:23 UTC * · permalink

·

https://www.fal.ai/camera