Weekly Shaarli
Week 06 (2025年2月3日)
Set of Mark c'est la technique qui consiste à annoter une image avec des numéro avant de la passer à un LLM vision.
Ça permet au LLM d'identifier précisément les entités et de les citer dans le prompt.
C'est ce qui est utilisé dans beaucoup de systèmes de manipulation d'interface pour que le LLM puisse identifier les différentes parties de l'interface.
Bytedance (TikTok) ont sorti un modèle de génération de vidéo spécialisé dans la génération de personnes.
Depuis une image, un enregistrement audio, une vidéo sans audio ou une combinaison des deux, ils peuvent générer des vidéos entières quasiment sans artefacts (hallucinations).
Le modèle est privé pour le moment.
Un annuaire d'instructions à ajouter dans les règles custom de Cursor (.cursorrules).
Il y a des règles spécialisées pour les langages, frameworks, etc
Gemini 2.0 flash obtient les meilleurs résultats sur la reconnaissance et l'extraction de texte depuis un PDF que la plupart des autres solutions du marché.
L'auteur propose aussi d'utiliser le LLM pour découper le texte en chunk de taille convenable conservant la même thématique.
Le nombre de contenu généré par IA explose.
Certains de ces articles généré par IA et publié souvent sans être vérifiés sont ensuite utilisés comme source sur Wikipedia.
OpenAI et Github ont rendu le modèle o3-mini disponible dans l'extension Copilot.
Le modèle est configuré sur le niveau de raisonnement "moyen" ce qui en fait l'un des meilleurs modèles du marché (3e position sur Livebench)
Cependant, Claude 3.5 Sonnet a toujours les meilleurs résultats dans les benchmarks uniquement en code (67 contre 65 pour o3-mini-medium)