Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Delete Set public Set private

1391 shaares

Filters

Links per page

20 50 100

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

La recherche en optimisation des modèles de langue fais des pas de géant avec GaLore et maintenant Q-GaLore !

Concrètement ces techniques permettent de réduire la mémoire nécessaire pour entraîner un LLM.

Un modèle comme LlaMa 7B ne peut être entraîné que sur des GPU de datacenter car les poids pèsent lourd en mémoire.

Avec Q-GaLore, on peut entraîner ce modèle avec seulement 16Go de RAM et donc sur des GPU grand publique comme la RTX 4060 de Nvidia.

Autant du vote de l'inférence que de l'entraînement, les exigences en matériel dont de plus en plus basses, ce qui contribue à la baisse de coût du token.

c-ai · text-ai · performance

July 13, 2024 at 11:52:32 UTC * · permalink

https://arxiv.org/pdf/2407.08296

Filters

Links per page

20 50 100