Un modèle supportant une fenêtre de contexte de 100M de tokens.
L'avancée c'est surtout une réduction drastique de la mémoire nécessaire, LlaMa 3.1 405B aurait besoin de 638 H100 pour une inférence à 100M de tokens alors que le modèle LTM-2-mini en aurait besoin que d'une.
Pour l'instant, il faut prendre cette avancée avec des pincettes car leur modèle est beaucoup plus petit que LlaMa 3.1 405B.
Le seul benchmark utilisé est celui de "Needle in a haystack" qui consiste à retrouver une phrase dans un très long texte mais rien sur la capacité de raisonnement ou les connaissances générales.
Bref, à part les 100M tokens, on a pas plus d'info sur le modèle LTM-2-mini
Mistral sort un nouveau modèle en collaboration avec Nvidia.
C'est un petit modèle (16b paramètres) qui avec 68% au MMLU benchmark, joue dans la cour de LlaMa 3 8b (62%) mais assez loin de GPT-4o mini (82%)
L'autre nouvelle importante c'est surtout la nouvelle version de leur tokenizer qui utilise 30% de tokens en moins pour représenter du code !