Search: [c-ai] - Aschen | Sharing the webz

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

c-ai · text-ai · inference · performance

December 28, 2023 at 09:30:11 UTC * · permalink

·

https://github.com/SJTU-IPADS/PowerInfer

ChatHub - All-in-one chatbot client

Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.

Ça permet notamment de comparer la qualité des réponses.

c-ai · text-ai

December 25, 2023 at 20:29:35 UTC * · permalink

·

https://chathub.gg/

VideoPoet: A large language model for zero-shot video generation

Google sort un nouveau modèle de génération de vidéo.

Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.

VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.

Toutes les démo sont visibles ici https://sites.research.google/videopoet/

c-ai · video-ai

December 25, 2023 at 14:54:57 UTC * · permalink

·

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html?m=1

Phospho - The LLM App Monitoring Platform

Un SaaS d'observabilité des applications GenAI orienté métriques produit.

c-ai · text-ai · observabilite

December 24, 2023 at 11:42:52 UTC * · permalink

·

https://phospho.app/

Améliorer la rétention pour les apps LLM

4 techniques pour améliorer la rétention des applications à base de LLM:

pré-ecrire le prompt
multimodalité en entrée (voix, image, documents)
proposer plusieurs réponses
rendre l'échange plus humain (memes, blagues, etc)

c-ai · text-ai

December 24, 2023 at 11:40:47 UTC * · permalink

·

https://www.linkedin.com/posts/nicolas-oulianov_cest-le-probl%C3%A8me-des-chatbots-bas%C3%A9s-sur-activity-7144636464830509057-aXCf

What is an Image Embedding?

Un article qui résume les techniques autour des embeddings d'images.

CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.

https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1

La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.

c-ai · image-ai · embeddings

December 22, 2023 at 22:16:55 UTC * · permalink

·

https://blog.roboflow.com/what-is-an-image-embedding/

10k-GPT: Upgrading. Implementing BM25 (text) search…

Un exemple pratique d'un RAG hybride avec recherche vectorielle + recherche "classique" avec scoring par mots clés et filtres.

C'est ce qu'on pourrait aussi avoir en utilisant Elasticsearch avec ses fonctions de scoring et sa recherche vectorielle knn.

Les résultats sont bien sur meilleurs que du vectoriel classique.

c-ai · text-ai · retrieval-augmented-generation

December 22, 2023 at 18:54:11 UTC * · permalink

·

https://medium.com/@trent.niemeyer/10k-gpt-upgrading-fb94603cc38b

⚔️ Chatbot Arena ⚔️ : Benchmarking LLMs in the Wild

Un site qui permet de tester ses prompts sur une vingtaines de modèles à la fois.

Il y a bien sur les modèles Open Source mais aussi les modèles fermés comme ceux de OpenAI ainsi que les familles Claude et Gemini.

c-ai · text-ai

December 22, 2023 at 18:28:08 UTC * · permalink

·

https://chat.lmsys.org/?arena

reworkd/tarsier: Vision utilities for web interaction agents 👀

Un autre exemple de navigation avec un GPT4V.

Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.

Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.

L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.

c-ai · text-ai · navigateur · interface-manipulation

December 22, 2023 at 13:43:43 UTC * · permalink

·

https://github.com/reworkd/tarsier

Modal - Cloud functions reimagined

Un cloud serverless qui fait tourner des fonctions Python.

Ils ont notamment tout un service de GPU à la demande pour faire tourner des tâches de ML comme de la transcription audio, de l'inférence, etc

Utile dans une démarche GenAI + cloud pour mieux maitriser les coûts

c-ai · serverless

December 22, 2023 at 08:25:09 UTC * · permalink

·

https://modal.com/

Realtime inference from webcam

Une démo d'une inférence en temps réel depuis l'image de la webcam qu'on peut modifier avec un prompt.

Le prompt n'est pas très suivi par le modèle mais le résultat est presque complètement fluide ce qui est impressionnant pour de l'inférence d'image.

c-ai · image-ai

December 21, 2023 at 09:00:23 UTC * · permalink

·

https://www.fal.ai/camera

Turing test on steroids: Chatbot Arena crowdsources ratings for 45 AI models

Une étude faites avec des évaluateurs humains sur la qualité des réponses de différents LLMs.

Différentes versions de GPT4 sont en 1er, 2e et 4e position. Sinon ce sont Claude 1 et Claude 2 qui arrivent en 3e et 5e positions.

c-ai · text-ai

December 21, 2023 at 08:47:57 UTC * · permalink

·

https://arstechnica.com/ai/2023/12/turing-test-on-steroids-chatbot-arena-crowdsources-ratings-for-45-ai-models/

Clipdrop - SDXL Turbo

Un outil de génération d'image en temps réel.

Ça utilise SDXL Turbo pour générer une image en moins de 1 seconde. L'affichage des images se fait au fur et à mesure de l'écriture de la description.

L'effet est vraiment bluffant!

c-ai · image-ai

December 20, 2023 at 10:30:13 UTC * · permalink

·

https://clipdrop.co/stable-diffusion-turbo

LLMLingua | Designing a Language for LLMs via Prompt Compression

Une méthode de compression des prompts pour réduire leur taille.

La méthode utilise de plus petit LLMs pour compresser un texte en ne conservant que les informations pertinentes pour un LLM.

La différence de performances avec le prompt compressé est minime mais on peut diviser la taille par 20!

Leur deuxième méthode est aussi de la compression de prompt mais dans le cadre d'un RAG. Le contenu du prompt est compressé et surtout ré-organisé lorsqu'il contient des documents afin d'améliorer le score de retrieval.

Ils affichent des performances de 17% supérieures sur NaturalQuestions avec 4x moins de tokens.

Bref, moins de tokens = plus rapide + moins cher, sans baisse de performances significatives voir de meilleures performances.

Des exemples sont disponibles et utilisable en ligne dans Google Collab https://github.com/microsoft/LLMLingua/tree/main/examples

c-ai · text-ai · prompt-engineering

December 19, 2023 at 12:22:15 UTC * · permalink

·

https://llmlingua.com/

Phi-2 - Slow inference times on gpu

A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.

Sur CPU c'est plusieurs minutes pour générer ~200 tokens.

Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.

c-ai · text-ai · nano-ai

December 18, 2023 at 10:15:55 UTC * · permalink

·

https://huggingface.co/microsoft/phi-2/discussions/17

Mamba-Chat: A chat LLM based on the state-space model architecture 🐍

Un LLM qui ne se base pas sur l'architecture Transformers.

C'est intéressant de voir qu'il y a toujours des expérimentations sur d'autres architectures, à voir si celle-ci se révèle meilleure

c-ai · text-ai

December 18, 2023 at 09:46:07 UTC * · permalink

·

https://github.com/havenhq/mamba-chat

Sous le capot des bases de données vectorielles

Un article très détaillé sur le fonctionnement des bases de données vectorielles.

Encore une fois, ces "bases de données" servent surtout à faire de la recherche sémantique qui peut être considéré comme un fonctionnalité plutôt qu'un produit à part entière.

Postgres et Elasticsearch proposent de la recherche vectoriel en plus de toutes les autres fonctionnalités d'une application tout en offrant des performances similaires.

c-ai · embeddings

December 15, 2023 at 16:54:11 UTC * · permalink

·

https://blog.octo.com/sous-le-capot-des-bases-de-donnees-vectorielles-(vector-databases)

OutfitAnyone - a Hugging Face Space by HumanAIGC

A peine quelques semaines après la sortie du modèle AnimateAnyone, les équipes de Alibaba proposent une cabine d'essayage virtuelle.

Une véritable révolution pour le e-commerce !

c-ai · image-ai

December 15, 2023 at 12:18:05 UTC * · permalink

·

https://huggingface.co/spaces/HumanAIGC/OutfitAnyone

GPT4 vs Mistral for code generation

Les résultats de Mistral en one-shot code generation sont meilleurs que ceux de GPT4.

J'ai testé moi même sur ses exemples et j'obtiens plus ou moins les mêmes résultats.

Après les capacités d'un LLM ne sont pas évaluable uniquement avec des demandes en one-shot et d'ailleurs GPT4 se démarque par ses capacités de "raisonnement" qui s'exprime plutôt avec des Chain of Thoughts et autres méthodes multi-shot.

c-ai · code-ai

December 15, 2023 at 10:05:15 UTC * · permalink

·

https://twitter.com/deliprao/status/1734997263024329157

MemoryCache is an experimental developer project to turn a local desktop environment into an on-device AI agent.

Un projet soutenu par Firefox qui sauvegarde les sites que vous visitez puis les utilise dans un RAG local construit avec PrivateGPT.

Cela permet de chercher dans les sites qu'on a pu visiter plutôt que tout internet.

c-ai · retrieval-augmented-generation · navigateur

December 13, 2023 at 15:49:58 UTC * · permalink

·

https://memorycache.ai/