Les résultats de Mistral en one-shot code generation sont meilleurs que ceux de GPT4.
J'ai testé moi même sur ses exemples et j'obtiens plus ou moins les mêmes résultats.
Après les capacités d'un LLM ne sont pas évaluable uniquement avec des demandes en one-shot et d'ailleurs GPT4 se démarque par ses capacités de "raisonnement" qui s'exprime plutôt avec des Chain of Thoughts et autres méthodes multi-shot.
Une version Open Source de Github Copilot.
C'est du self-hosted avec les modèles suivants:
- TabbyML/StarCoder-7B
- TabbyML/CodeLlama-13B
- TabbyML/DeepseekCoder-6.7B
Une vidéo qui résume les nouvelles fonctionnalités de Github Copilot.
On a notamment des Agents qu'il est capable d'invoquer pour poser des questions spécifiques. Ce sont des RAGs.
Par exemple @workspace
permet de poser des questions avec les fichiers du projet pour trouver un composant en particulier.
https://code.visualstudio.com/blogs/2023/11/13/vscode-copilot-smarter
Un LLM Open Source spécialisé dans la génération de code.
Le modèle n'a que 7 milliards de paramètres et est capable de surpasser GPT-3.5 dans certains benchmarks.
Google sort AlphaCode2 qui se base sur son LLM Gemini.
Cette nouvelle version utilise Gemini mais c'est surtout un Agent LLM complexe avec de multiples étapes:
- génération de solutions
- évaluation des solutions
- sélection des meilleures solutions
AlphaCode2 a résolu 43% des 8000 problèmes tirés de CodeForces, ce qui le positionne entre les rangs "Expert" et "Candidate Master" ou tout simplement meilleur que 85% des développeurs du site.
Un LLM Open Source surpasserait les performances de GPT-4 en terme d'appel de fonctions.
Notamment sur les appels de fonctions imbriqués.
Ce qui est intéressant c'est qu'ils ont aussi benchmark GPT3.5 et Gorilla et toutes les données et jeux de test sont disponibles sur Hugging Face 👉 https://huggingface.co/spaces/Nexusflow/Nexus_Function_Calling_Leaderboard
Un modèle de langue spécialisé dans le code dans le même genre que Codex (celui de OpenAI utilisé par Github Copilot)
Il offre de meilleures performances que CodeLlaMa.
Par contre aucune comparaison avec Codex et GPT4, les performances sont très certainement inférieures
Un jeux vidéo est dessiné sur un canvas avec des explications sur le fonctionnement des différents élements dynamique (score, barre de déplacement, etc)
Ensuite un Agent créer le jeux à partir de ça.
Dans le même genre pour des composants web https://twitter.com/jasoncwarner/status/1725291989506367727?s=46
Un Agent LLM fait par Github qui génère les test unitaires de votre code
Ça devait arriver, une version de Copilot qu'on pilote à la voix.
Un résumé de l'état de l'art sur les application à la génération de code des LLMs.
Sous le coude
Réflexion autour du changement de paradigme de notre métier de développeurs.
On passe plus de temps à réfléchir au design des systèmes que les coder.
Microsoft peut se permettre de perdre autant d'argent maintenant si c'est pour s'assurer la suprématie dans 5 ans quand le coût des technos aura diminué.
En attendant, aucune startup ne peut les concurrencer, voir aucune autre boite vu le fric qu'à Microsoft.
Facebook se lance dans la course au développement assisté par IA avec un prototype de recherche autour de la correction de bugs!
Quelques statistiques sur l'utilisation de Copilot:
- 30% des suggestions sont acceptées
- tâches effectuées 50% plus vite
- 46% du code total écrit par Copilot
- 75% des développeurs sont satisfait
- 1500 milliards de plus au PIB global du à la productivité supplémentaire
Retour d'expérience sur le développement de Github Copilot et donc d'une véritable application LLM en prod depuis plusieurs années et avec un trafic conséquent
Un outil pour générer des composants frontend à partir de prompt
Un plugin vscode qui assiste dans la création de tests avec de L'IA générative.
Un service de review de PR avec un LLM.
ça fait un résumé des changements de chaque fichier de la PR mais aussi des conseils sur le code modifié
Testé sur 2 PR
Un éditeur basé sur VSCode qui intègre GPT pour tout un tas de tâches comme le refactor, l'interrogation de la base de code, le debug.
On peut mettre sa propre clé OpenAI