Search: [inference] - Aschen | Sharing the webz

1381 shaares

Filters

Links per page

20 50 100

3 results tagged inference

vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

vLLM est un serveur d'inférence pour LLM.

Avec (Text Generation Inference](https://links.aschen.tech/shaare/Go1xSQ) (TGI) de Hugging Face, c'est une des référence pour monter sa propre infrastructure capable de servir des LLMs.

c-ai · text-ai · inference

April 29, 2024 at 13:17:53 UTC * · permalink

·

https://github.com/vllm-project/vllm?tab=readme-ov-file

mistral.rs: Blazingly fast LLM inference.

Un moteur d'inférence LLM qui fonctionne avec CPU et GPU.

C'est utilisable depuis du code python mais aussi en API HTTP.

Ça supporte la plupart des modèles Open Source:

Mistral 7B et 8x7B
LlaMa 2 et 3
Phi 2 et 3

Pour de la production je conseille d'utiliser le moteur d'inférence de Hugging Face car c'est scalable et surtout maintenu mais c'est une alternative plus portable à garder sous le coude.

c-ai · text-ai · inference

April 27, 2024 at 09:01:00 UTC * · permalink

·

https://github.com/EricLBuehler/mistral.rs

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

c-ai · text-ai · inference · performance

December 28, 2023 at 09:30:11 UTC * · permalink

·

https://github.com/SJTU-IPADS/PowerInfer