Weekly - Week 07 (2025年2月10日) - Aschen

Delete Set public Set private

Weekly Shaarli

Previous week

All links of one week in a single page.

Next week

Week 07 (2025年2月10日)

Mirascope/mirascope: LLM abstractions that aren't obstructions

La meilleure lib pour utiliser des LLMs en Python selon moi car ils supportent:

quasiment tous les providers
la génération structurée
les input multi-modaux
du streaming
le retry

Bref, tout ce qu'il faut pour faire sérieusement du LLM Engineering en python.

La documentation est ici

c-ai text-ai

LLM Leaderboard - Compare GPT-4o, Llama 3, Mistral, Gemini & other models

Ce site est pas mal lorsqu'il s'agit de comparer les modèles sur leurs différentes caractéristiques:

taille de la fenêtre de contexte
"intelligence"
prix du million de token
vitesse de génération de token

c-ai text-ai

s1: Simple test-time scaling

Une technique intéressante pour améliorer les capacités des modèles de raisonnement des modèles, même les petits modèles entrainés sur de petits dataset.

Ici le modèle s1 possède seulement 32 milliards de paramètres (32B) mais est capable de dépasser les performances du modèle o1-preview d'OpenAI.

Leur approche se base sur deux techniques;

limiter la "longueur" du raisonnement (les "reasoning tokens") en ajoutant à un moment de l'inférence un token indiquant au modèle qu'il doit fournir sa réponse définitive
forcer le modèle à réfléchir sur la solution qu'il a généré jusqu'à maintenant en insérant "Wait" à la fin de la séquence de raisonnement

Le simple fait d'insérer "Wait', force le modèle à réfléchir sur la solution qu'il a envisagé et leur permet d'atteindre des performances similaires à un énorme modèle comme o1-preview.

C'est assez impressionnant car cela veut dire que de simples techniques de Prompt Engineering peuvent permettre d'atteindre des performances qui rivalisent avec celles des gros modèles.

c-ai text-ai