Daily Shaarli

All links of one day in a single page.

November 11, 2024

Gemini Models on GitHub Copilot

Après les modèles d'OpenAI et d'Anthropic, c'est au tour des modèles de Google (Gemini) d'être disponible dans Github Copilot.

Personnellement, je reste sur Claude 3.5 Sonnet qui possède encore les meilleurs résultats sur les benchmarks liés à la génération de code.

GitHub Spark - Build and share micro app
thumbnail

Github développe un outil no-code de création d'applications (en technical preview pour l'instant)

Ils utilisent des LLMs pour comprendre les demandes des utilisateurs en langage naturel et l'application se met à jour directement sous vos yeux !

C'est clairement à destination de petites applications, un peu comme ce que l'on peut avoir sur les Spaces de HuggingFace, car ce sont des PWA avec un stockage type clé/valeur simplifié.

Le code est totalement caché apparement, ce qui peut être à la fois déroutant et limitant.

En tant que développeur, je suis plus intéressé de voir l'avancement de projets comme Copilot Workspace qui permet de développer des fonctionnalités depuis le langage naturel sur une codebase existante

Predicted Outputs - OpenAI API

OpenAI possède une fonctionnalité qui permet d'améliorer la latence de la complétion dans les cas ou l'ont peut fournir une partie de la réponse qui sera générée.

L'exemple le plus parlant est celui de la modification d'un texte existant, par exemple si l'on souhaite changer le type d'une variable dans du code, la requête ressemblera à quelque chose du genre:

  • le code entier dans le prompt
  • l'instruction du changement dans le prompt
  • le code entier dans le paramètre prediction

Comme la majeure partie de la réponse sera similaire au code fournit dans prediction, OpenAI fournira une réponse plus rapidement en plus de ne pas faire payer ces tokens.

Cette fonctionnalité est clairement destinée aux outils de génération de code même si on peut imaginer l'utiliser dans d'autres cas.

J'avais écrit un article qui propose une autre méthode pour modifier un texte sans devoir le re-générer dans son intégralité Modifier efficacement un texte avec un Agent LLM

CONFIRMED: LLMs have indeed reached a point of diminishing returns

OpenAI a avoué que son nouveau modèle n'était pas aussi bon que prévu. La différence de performance entre GPT-4 et ce nouveau modèle n'a rien à voir entre la différence entre GPT-3 et GPT-4.

On commence à atteindre un plafond de verre pour les performances des LLMs et à priori il n'y a que peu de place pour l'amélioration des modèles existants avec l'architecture actuelle.

Learn About - Google Experiments

Une expérimentation de Google avec un assistant conversationnel spécialisé dans l'apprentissage de nouveaux concepts.

On voit qu'ils ont bossé avec les sciences cognitives car on retrouve des choses que l'on utilise aussi chez Didask, comme la déconstruction d'idées reçues ou la multi-modalité.

C'est plus qu'un simple ChatGPT mais vraiment un produit conçu pour l'éducation

DORA metrics - 2024 final report

Le rapport de DORA 2024 est une étude de plus de 39000 personnes dans l'industrie du développement.

La moitié du rapport est consacré à l'utilisation et aux effets des IA génératives dans le monde du développement.

L'adoption des LLM augmente au fur et à mesure que la confiance dans leurs résultats augmente.

Les entreprises ont la perception qu'elles doivent utiliser de l'IA dans leurs processus de production pour rester compétitives mais aussi dans leurs produits avec 81% d'augmentation de l'incorporation de technologies IA dans les produits

Les technologies AI ont plus de chance d'être adoptées rapidement car les entreprises craignent que leurs concurrents gagnent un avantage décisif en les utilisant avant eux.

Le rapport continue avec des statistiques intéressantes sur les développeurs

76% des développeurs utilisent l'IA pour au moins une de leur tâches:

  • 75% pour écrire du code
  • 71% résumer des information
  • 69% pour écrire des tests
  • 56% pour déboguer

Au niveau de la perception du gain de productivité:

  • 10% gain extrême
  • 25% gain modéré
  • 40% gain léger
  • 20% aucun gain

Au niveau de la confiance dans le code généré:

  • 10% ont totalement confiance
  • 18% ont beaucoup confiance
  • 35% ont à peu près confiance
  • 29% ont un peu confiance
  • 8% n'ont pas du tout confiance

Au niveau des points négatifs, on retrouve notamment une estimation de perte en stabilité des déploiements (-7%) et un impact plus élevé de l'industrie sur l'environnement.