Daily Shaarli
April 19, 2024
Un retour d'expérience sur l'utilisation de GPT4 pour un usage modéré (500M tokens sur 6 mois).
Les retours d'expérience que je partage:
- Langchain et LlamaIndex ça apporte une couche d'abstraction supplémentaire difficile à maitriser alors que le SDK simple suffit
- le streaming pour faire attendre les utilisateurs est indispensable
- GPT4 a du mal à ne pas halluciner plutôt que de se taire lorsqu'il n'a pas d'info suffisantes
- la fenêtre de contexte de 128K c'est que en input, pour l'output ça n'a pas bougé et c'est toujours 4K tokens seulement
- les bases de données vectorielle sont inutiles dans la majorité des cas
Un système de queue qui utilise Postgres.
Ils expliquent comment ils ont construit cette gestion des queues et surtout le dépilage des tâches par des workers en présentant la structure des tables et les requêtes.
Ça à l'air chouette mais encore très peinture fraiche donc prudence :-)
LlaMA 3 sur Groq est d'une vitesse incroyable: 800 token/sec.
Les modèles sont disponible sur l'API de Groq Cloud
Ils n'ont pas encore d'offre entreprise payante mais on peut déjà essayer avec le free tiers
Un framework de fine tuning de LLMs.
Afin de pouvoir fine tuner des modèles même avec très peu de données (5-10 question/answer), ils ont une méthode pour générer de la donnée supplémentaire.
D'ailleurs, on voit qu'ils ont prévu les cas de RAG car on peut aussi renseigner un contexte
C'est une contribution en provenance des labo de recherche d'IBM.
Une animation interactive pour explorer l'infiniment petit et l'infiniment grand :-)
Ça me rappelle le documentaire "Puissances de dix" (qui commence à dater un peu)