Un guide très complet sur le fine tuning de modèles.
La méthode décrite dans ce guide se nomme PEFT (Parameter Efficient Fine-Tuning) et permet de fine tuné uniquement un certain nombres de paramètres d'un modèle.
Cela permet de conserver les performances d'origines sur la majorité des cas (e.g. la compréhension de la langue et les connaissances d'entrainement) tout en améliorant les performances sur une tâche précise.
C'est ce genre de méthode qui est très populaire dans les modèles d'image pour contrôler la génération et avoir des images du même style.
Ce modèle est une version fine tuné de LlaMa 3 pour le domaine médical.
Il surpasse GPT-4 sur les benchmark portant sur des dataset du domaine médical.
Encore une fois un signe que le fine tuning a de l'avenir pour créer des LLMs spécialisés.
FineWeb est un dataset crawlé depuis internet et épuré au maximum des contenus générés par d'autres IA.
Il contient 15 000 milliards de tokens et peut être utilisé pour entraîner des LLM depuis zéro.
Note: à priori vous ne voulez pas faire ça vous même mais plutôt fine tuner un modèle existant
Un framework de fine tuning de LLMs.
Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.
D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte
C'est une contribution en provenance des labo de recherche d'IBM.
Une méthode très intéressante pour améliorer les performances d'un RAG avec du fine tuning de modèle.
En gros on va créer un dataset contenant:
- une question
- un document pertinent pour y répondre
- un document non pertinent ("distractor")
- la réponse générée depuis le document pertinent
- une chaine de pensée (Chain of Thought) expliquant le raisonnement (généré par GPT4 par exemple)
Ensuite il faut fine tuner un modèle avec ce dataset (Voir ce LlamaPack ou un exemple sur Azure AI)
Ils ont des résultats avec Llama2 7B qui sont meilleurs que GPT3.5 + RAG.
Dommage qu'ils n'aient pas comparés avec GPT4 + RAG mais c'est surement parce que GPT4 est meilleur. Il faudrait fine tuner un modèle de 4è génération Open Source comme Mistral ou GPT4 via l'API de fine tuning pour arriver à des résultats vraiment bons.
Les performances des LLM baissent significativement lorsqu'on les entraines sur des données générées par d'autres LLM.
C'est le challenge des prochains mois/années, pouvoir distinguer les données générées par un LLM pour les exclure des données d'entrainement
Un outil de détection des contenus créés par IA (texte, image et son).
La grosse différence c'est qu'ils ne se basent pas sur un algorithme d'IA mais sur un système d'algorithmes mathématiques.
Du coup, pas besoin de GPU pour faire tourner une détection, un simple CPU et quelques centaines de ms suffisent !
Ce genre de techno est indispensable à toute personne souhaitant entrainer son propre modèle car il faut absolument écarter les données générées par IA pour l'entrainement des modèles de fondation.
Plusieurs startup du dernier batch YCombinator ont entrainé leur propre modèle de GenAI en seulement 2 mois et moins 500K$.
Pas que des LLM mais aussi un modèle de prévision météo ou un modèle de navigation.
Le coût d'entrainement des LLMs a drastiquement baissé en seulement quelques mois.
JetMoE offre des performances similaires à Llama 2 mais avec un coût d'entrainement de seulement 100 000$ vs 5 000 000$ pour Llama 2.