vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

1390 shaares

Filters

Links per page

20 50 100

vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

vLLM est un serveur d'inférence pour LLM.

Avec (Text Generation Inference](https://links.aschen.tech/shaare/Go1xSQ) (TGI) de Hugging Face, c'est une des référence pour monter sa propre infrastructure capable de servir des LLMs.

c-ai · text-ai · inference

April 29, 2024 at 13:17:53 UTC * · permalink

https://github.com/vllm-project/vllm?tab=readme-ov-file

Filters

Links per page

20 50 100