PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

1391 shaares

Filters

Links per page

20 50 100

PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs

PowerInfer est un nouveau moteur d'inférence qui permet d'utiliser les plus gros modèles sur du matériel de particulier.

Ils ont remarqué qu'il y a une répétition des neurones activés lors des phases d'inférence ("hot neurons") quelque soit le prompt et ils sont donc pré-chargés dans le GPU.

PowerInfer utilise également le CPU dans son moteur d'inférence hybride et atteint des performances à ~30 tokens/seconde sur une NVIDIA RTX 4090, soit seulement 20% moins que sur des GPU datacenter A100.

Avec LlamaCPP, la vitesse d'inférence est multipliée par 11!

December 28, 2023 at 09:30:11 UTC * · permalink

https://github.com/SJTU-IPADS/PowerInfer

Filters

Links per page

20 50 100