Search: [text-ai] - Aschen | Sharing the webz

PlugBear: Plug your AI to the world

Un outil qui permet de brancher des LLM (Assistant GPT, LLM custom, etc) à des interfaces comme Slack ou Discord.

C'est parfait pour essayer rapidement d'intégrer des Assistant dans des process d'entreprise par exemple.

c-ai · text-ai

January 9, 2024 at 14:44:57 UTC * · permalink

·

https://plugbear.io/

GroqChat - Fastest inference Engine

Groq propose une technologie pour accélérer la vitesse d'inférence des LLMs.

Le résultat est impressionnant, ils arrivent à générer plus de 300 tokens/seconde avec Llama 2 70B.

Il faut 8 GPU A100 à 30$ de l'heure chez Amazon pour arriver au même résultat
la génération est de 35 tokens/seconde sur le GPU d'un particulier (Nvidia 4090)

Le moteur qu'il utilise s'appelle Groq LPU. Je suppose qu'ils utilisent la quantization et d'autres techniques comme PowerInfer

Ils développent aussi leur propre hardware, ce sont des puces spécialisés dans l'inférence.

Les opérations couteuses comme les multiplications de matrice sont gravés directement dans le silicium ce qui multiplie la vitesse par plusieurs ordres de grandeur.

Après les TPU de Google et les NPU de Microsoft, Groq propose une alternative hardware crédible sur un marché très dur à adresser.

c-ai · text-ai · performance · micro-processeur

January 6, 2024 at 11:09:44 UTC * · permalink

·

https://chat.groq.com/

Inflection - Pi

Un LLM qui met l'accent sur la qualité de la conversation de la même manière qu'un humain.

Notamment il va très souvent relancer l'utilisateur avec des questions pour explorer en profondeur les sujets proposés.

c-ai · text-ai

January 6, 2024 at 09:37:30 UTC * · permalink

·

https://inflection.ai/

kapa.ai - ChatGPT for your developer-facing product

Un autre outil de RAG pour la documentation orienté développeurs.

C'est utilisable autant pour les questions internes d'une équipe sur son produit que par des développeurs externes intégrant des API.

c-ai · retrieval-augmented-generation · text-ai

January 4, 2024 at 12:07:11 UTC * · permalink

·

https://www.kapa.ai/

Inkeep - Answer developer questions, instantly.

Un RAG de recherche dans une documentation.

Ça permet de faire une recherche "instantanée" comme avec Algolia par exemple mais aussi un RAG avec réponse en langage naturel à partir des sources/

c-ai · retrieval-augmented-generation · text-ai

January 4, 2024 at 12:03:36 UTC * · permalink

·

https://inkeep.com/

Rest meets ReAct: self-improvement for multi-step reasoning llm agent

Un article sur un modèle d'agent capable de se fine-tuner à l'aide de ses propres itérations sur les tâches à résoudre.

C'est potentiellement intéressant pour générer des dataset d'entrainement sur des tâches à plusieurs étapes.

c-ai · text-ai · assistant-ai

December 28, 2023 at 09:42:11 UTC * · permalink

·

https://arxiv.org/pdf/2312.10003.pdf

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

c-ai · text-ai · inference · performance

December 28, 2023 at 09:30:11 UTC * · permalink

·

https://github.com/SJTU-IPADS/PowerInfer

ChatHub - All-in-one chatbot client

Une interface unifiée qui donne accès à ChatGPT, Bard, Claude, Bing Chat, Mistral et d'autres LLMs en version chat.

Ça permet notamment de comparer la qualité des réponses.

c-ai · text-ai

December 25, 2023 at 20:29:35 UTC * · permalink

·

https://chathub.gg/

Phospho - The LLM App Monitoring Platform

Un SaaS d'observabilité des applications GenAI orienté métriques produit.

c-ai · text-ai · observabilite

December 24, 2023 at 11:42:52 UTC * · permalink

·

https://phospho.app/

Améliorer la rétention pour les apps LLM

4 techniques pour améliorer la rétention des applications à base de LLM:

pré-ecrire le prompt
multimodalité en entrée (voix, image, documents)
proposer plusieurs réponses
rendre l'échange plus humain (memes, blagues, etc)

c-ai · text-ai

December 24, 2023 at 11:40:47 UTC * · permalink

·

https://www.linkedin.com/posts/nicolas-oulianov_cest-le-probl%C3%A8me-des-chatbots-bas%C3%A9s-sur-activity-7144636464830509057-aXCf

10k-GPT: Upgrading. Implementing BM25 (text) search…

Un exemple pratique d'un RAG hybride avec recherche vectorielle + recherche "classique" avec scoring par mots clés et filtres.

C'est ce qu'on pourrait aussi avoir en utilisant Elasticsearch avec ses fonctions de scoring et sa recherche vectorielle knn.

Les résultats sont bien sur meilleurs que du vectoriel classique.

c-ai · text-ai · retrieval-augmented-generation

December 22, 2023 at 18:54:11 UTC * · permalink

·

https://medium.com/@trent.niemeyer/10k-gpt-upgrading-fb94603cc38b

⚔️ Chatbot Arena ⚔️ : Benchmarking LLMs in the Wild

Un site qui permet de tester ses prompts sur une vingtaines de modèles à la fois.

Il y a bien sur les modèles Open Source mais aussi les modèles fermés comme ceux de OpenAI ainsi que les familles Claude et Gemini.

c-ai · text-ai

December 22, 2023 at 18:28:08 UTC * · permalink

·

https://chat.lmsys.org/?arena

reworkd/tarsier: Vision utilities for web interaction agents 👀

Un autre exemple de navigation avec un GPT4V.

Le problème jusqu'ici était que le HTML est une représentation unidimensionnel textuelle d'une interface graphique bidimensionnelle.

Cela couplé au fort niveau de bruit contenu dans le HTML rendait impossible la navigation dans des applications complexes de type SaaS.

L'utilisation de GPT4V avec des tags visuels permet au modèle de comprendre quelles sont ses possibilités d'interaction.

c-ai · text-ai · navigateur · interface-manipulation

December 22, 2023 at 13:43:43 UTC * · permalink

·

https://github.com/reworkd/tarsier

Turing test on steroids: Chatbot Arena crowdsources ratings for 45 AI models

Une étude faites avec des évaluateurs humains sur la qualité des réponses de différents LLMs.

Différentes versions de GPT4 sont en 1er, 2e et 4e position. Sinon ce sont Claude 1 et Claude 2 qui arrivent en 3e et 5e positions.

c-ai · text-ai

December 21, 2023 at 08:47:57 UTC * · permalink

·

https://arstechnica.com/ai/2023/12/turing-test-on-steroids-chatbot-arena-crowdsources-ratings-for-45-ai-models/

LLMLingua | Designing a Language for LLMs via Prompt Compression

Une méthode de compression des prompts pour réduire leur taille.

La méthode utilise de plus petit LLMs pour compresser un texte en ne conservant que les informations pertinentes pour un LLM.

La différence de performances avec le prompt compressé est minime mais on peut diviser la taille par 20!

Leur deuxième méthode est aussi de la compression de prompt mais dans le cadre d'un RAG. Le contenu du prompt est compressé et surtout ré-organisé lorsqu'il contient des documents afin d'améliorer le score de retrieval.

Ils affichent des performances de 17% supérieures sur NaturalQuestions avec 4x moins de tokens.

Bref, moins de tokens = plus rapide + moins cher, sans baisse de performances significatives voir de meilleures performances.

Des exemples sont disponibles et utilisable en ligne dans Google Collab https://github.com/microsoft/LLMLingua/tree/main/examples

c-ai · text-ai · prompt-engineering

December 19, 2023 at 12:22:15 UTC * · permalink

·

https://llmlingua.com/

Phi-2 - Slow inference times on gpu

A priori le modèle Phi-2 de Microsoft est assez lent, même sur des GPUs.

Sur CPU c'est plusieurs minutes pour générer ~200 tokens.

Aussi le modèle hallucine pas mal donc succès vraiment mitigé pour Microsoft.

c-ai · text-ai · nano-ai

December 18, 2023 at 10:15:55 UTC * · permalink

·

https://huggingface.co/microsoft/phi-2/discussions/17

Mamba-Chat: A chat LLM based on the state-space model architecture 🐍

Un LLM qui ne se base pas sur l'architecture Transformers.

C'est intéressant de voir qu'il y a toujours des expérimentations sur d'autres architectures, à voir si celle-ci se révèle meilleure

c-ai · text-ai

December 18, 2023 at 09:46:07 UTC * · permalink

·

https://github.com/havenhq/mamba-chat

Phi-2: The surprising power of small language models

Phi-2 est un modèle de seulement 2.7 milliards de paramètre à destination des terminaux mobile.

Malgré sa petite taille, il affiche des performances similaires à Llama 70 ou Mistral 7B.

Il est même plus performant que Gemini Nano 2 alors qu'il est plus petit que celui-ci (3.2B vs 2.7B)

EDIT: plutôt décevant finalement

c-ai · text-ai · nano-ai

December 12, 2023 at 20:31:28 UTC * · permalink

·

https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/

La plateforme | Mistral AI | Open source models

Mistral propose maintenant ses propres API d'inférence pour leurs modèles.

Outre les modèles de génération de texte, ils proposent aussi un modèle d'embeddings en 1024 dimensions qui offre des performances similaires à ada-2 de OpenAI sur le benchmark MTEB (56.32 vs 55.26 pour Mistral en retrieval)

Au niveau du prix, c'est la même chose que OpenAI, c-a-d 0.1$ pour 1 million de tokens.

c-ai · text-ai · embeddings · open-source

December 11, 2023 at 22:42:00 UTC * · permalink

·

https://mistral.ai/news/la-plateforme/

Mixtral of experts | Mistral AI | Open source models

Le nouveau modèle de Mistral a été release, c'est un modèle de type "Mixture of Experts" qui contient en réalité 8 modèles spécialisés dans des tâches en particulier.

Ils annoncent des performances meilleures que Llama 70B sur la plupart des benchmark tout en ayant une inférence 6x plus rapide!

Plus d'info sur Mixture of Experts

c-ai · text-ai · open-source

December 11, 2023 at 17:18:52 UTC * · permalink

·

https://mistral.ai/news/mixtral-of-experts/