Weekly - Week 35 (2024年8月26日) - Aschen

Delete Set public Set private

Weekly Shaarli

Previous week

All links of one week in a single page.

Next week

Week 35 (2024年8月26日)

Diffusion Models Are Real-Time Game Engines

Des chercheurs de chez Google ont exploré l'utilisation de modèles de génération d'images comme moteur de jeu.

En gros ils génèrent 20 images par seconde qui représentent le gameplay du jeu Doom et ils guident la génération avec les input clavier.

Cela permet d'avancer, de tourner, de tirer etc

Impressionnant mais par contre je doute que ça remplace un jour les vrais engine au vu des problèmes d'hallucinations et des coûts faramineux associés à la génération de 20 images par seconde.

Aussi, les jeux modernes sont bien plus complexes que Doom et donc bien plus dur à simuler uniquement en générant des images. (Simuler un moteur physique par exemple)

c-ai image-ai

Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models

Une étude qui démontre que les performances de génération ("raisonnement") des LLMs peuvent être impactées lorsque l'on demande une sortie dans un format spécifique comme du JSON.

Les LLMs suivant ont été testés:

Gemini 1.5 flash: presque pas de différence
Claude 3 haiku: baisse significative en JSON, pas en XML ou YAML
GPT 3.5 Turbo: baisse significative en JSON, XML et meilleures perfs en Yaml
LlaMa 3 8B: baisse de performance dans les 3 formats

Comme à chaque fois que l'on cherche à contraindre la génération, par des formats ou des règles d'éthique, la qualité de cette dernière est moindre.

Pour les formats, je pense qu'une chaine de prompt pourrait améliorer les performances avec un premier prompt qui sortirait une génération en texte brute et un deuxième prompt qui prendrait le texte tel quel pour le formater en JSON par exemple.

c-ai text-ai