1321 shaares
Les gens de chez .txt (ce qui font Outlines) ont pris le temps de réfuter l'étude Let Me Speak Freely qui annonçait des performances moindre lorsque l'on utilisait un format contraint comme JSON.
Leurs résultats montrent que la génération structuré améliore un peu la performance de génération (ils ont utilisés les mêmes benchmark que l"étude)
Les erreurs faites dans l'étude:
- certains de leurs résultats présentaient déjà de meilleures performances en génération structurée
- les prompts n'étaient pas les mêmes entre génération structurée et non structurée
- le parsing des outputs était réalisé avec un autre LLM ce qui faussait les résultats
An apt analogy would be to programming language benchmarking: it would be easy to write a paper showing that Rust performs worse than Python simply by writting terrible Rust code.
Finalement c'est plutôt rassurant car il est difficile de se passer de la génération structurée aujourd'hui.
A noter qu'il faut bien faire la différence entre
- génération structurée: JSON-mode d'OpenAI ou lib Outlines qui garantissent le schéma des données en sortie
- génération JSON: on génère du JSON et on vérifie qu'il correspond à un schéma