Monthly - December, 2024 - Aschen

Delete Set public Set private

Monthly Shaarli

Previous month

All links of one month in a single page.

Next month

December, 2024

Superlinked rag_hr_knowledgebase.ipynb

Un exemple de la manière dont Superlinked utilise un scoring pour rechercher des documents.

Ils ont 3 métadata:

relevance
recency
usefulness

c-ai retrieval-augmented-generation

Google introduces Gemini 2.0: A new AI model for the agentic era

Google annonce Gemini 2.0 Flash.

Niveau benchmark comme d'habitude il faut attendre que ça sorte sur Livebench pour avoir une meilleure comparaison mais quand même ils affichent de très bon résultats:

89.7% sur MATH (76.6 GPT-4o)
62.1% sur GPQA (59.4% Claude 3.5 Sonnet)
35.1% sur LiveCodeBench (42% Claude 3.5 Sonnet, 67% o1-mini)

La big new c'est surtout la multi-modalité en entrée et en sortie du modèle qui est capable de générer un mix de texte, son et image pour répondre si besoin.

Google a vraiment rattrapé son retard, c'est cool de voir toutes ces améliorations.

c-ai text-ai

We had Image Gen copying LLM... and now the REVERSE?? [DiffusionLM]

Une percée potentielle dans l'architecture des LLMs !

L'architecture actuelle (ARM) est une génération "de gauche à droite" ou l'on génère les tokens les un après les autres en concaténant les tokens générés pour faire le nouveau prompt.

En s'inspirant des modèles de diffusion d'image, les chercheurs ont mis au point une nouvelle architecture de modèle (MDM) qui génère les tokens avant et après le prompt.

Ces modèles sont plus cher à entrainer mais ils présentent plusieurs avantages:

meilleures performances de génération sur des problèmes standards
capable "d'apprendre" et d'inférer que si A = B alors B = A (les LLMs ont beaucoup de mal à ça)
jusqu'à 40% plus rapide

C'est un tout nouveau champ de recherche qui commence à prendre de l'ampleur !

Finalement on dirait qu'on a pas encore atteint ce fameux plafond de verre ;-)

c-ai text-ai

Bolt.new System Prompt

Le prompt système de Bolt est disponible sur Github et donne pas mal d'info sur la manière dont est organisé leur système:

création/édition de code avec des GNU diff
ça tourne dans des WebContainers
ils contournent la limite de 8K tokens en output avec leur CONTINUE_PROMPT

Surtout je vois que tout est au format XML (ils utilisent Claude 3.5 Sonnet) plutôt que JSON.

J'aimerais bien savoir pourquoi, sachant que j'avais remarqué que le format XML présentait de meilleures performances de génération que le JSON il y a un an. Je me demande si ils sont arrivés aux mêmes conclusions.

c-ai code-ai prompt-engineering

PDF support - Anthropic

L'API d'Anthropic propose aussi une fonction de conversion de PDF en markdown

c-ai

Elon Musk wanted an OpenAI for-profit | OpenAI

OpenAI tire à balles réelles sur Elon Musk en publiant des échanges de mails et même des SMS.

c-ai

unsloth: Finetune Llama 3.3, Mistral, Phi, Qwen 2.5 & Gemma LLMs 2-5x faster with 80% less memory

Unsloth est un framework de fine-tuning qui permet d'entrainer plus rapidement et avoir moins de mémoire des modèles Open Source.

Ils annoncent un gain jusqu'à x2 sur la vitesse d'entrainement !

Ça s'utilise en Python mais aussi directement dans un Notebook

c-ai fine-tuning

OpenAI réfléchit à sa stratégie pour ajouter la publicité à son modèle économique

Tout est dans le titre.

OpenAI recrute des spécialistes de la publicité en provenance de chez Google et Meta pour réfléchir à son offre publicitaire.

À priori, ça sera sûrement du placement de produit dans les résultats de génération de ChatGPT.

Un article proposait une méthode pour transposer le système d'enchères traditionnel de la pub en ligne aux LLM

c-ai text-ai

Does Prompt Formatting Have Any Impact on LLM Performance?

Encore une étude sur les impact du prompt et du format de réponse sur la qualité de la génération.

Ils ont notamment testé les performances de génération en plusieurs formats de sortie:

JSON (0.77)
YAML (0.7)
text (0.69)
Markdown (0.35)

Dommage qu'ils n'aient pas inclus XML. (et j'ai vérifié cette fois, les prompts sont les mêmes entre chaque format)

Une autre conclusion est que le modèle GPT 3.5 est plus sensible aux variations de prompt que GPT 4.

C'est quelque chose que je remarque aussi, plus un modèle est performant et moins il est sensible aux subtilités du Prompt Engineering.

c-ai prompt-engineering

microsoft/markitdown: Python tool for converting files and office documents to Markdown.

Microsoft sort aussi une lib pour convertir les documents PDF, Docx, Excel, etc au format markdown

c-ai

Use our prompt improver to optimize your prompts - Anthropic

Anthropic propose un optimisateur de prompt.

Pendant son entrainement, Claude a été optimisé sur certains patterns comme l'utilisation de balises XML pour organiser le contenu et ces patterns peuvent améliorer la performance des prompts.

c-ai text-ai

I spent 8 hours testing o1 Pro ($200) vs Claude Sonnet 3.5 ($20) - Here's what nobody tells you about the real-world performance difference : ChatGPT

Un retour d'expérience sur l'utilisation de o1 et Claude 3.5 Sonnet.

La conclusion c'est que dans la majorité des cas, Claude 3.5 Sonnet est suffisamment bon et que la différence prix + latence entre les deux modèles fait plutôt pencher la balance du côté de Claude 3.5 Sonnet

c-ai text-ai

Azure AI Agent Service: Revolutionizing AI Agent Development and Deployment

Microsoft sort son un écosystème d'exécution d'Agents.

Vu le catalogue de Microsoft, c'est assez énorme avec plus de 1400 "connecteurs" (comprendre "API") disponibles sur étagère pour interagir avec les services Microsoft mais aussi des services externes comme Gmail, Twilio, MongoDB.

Ils ont aussi pas mal de choses assez exclusives sur étagère:

un Code Interpreter Python
recherche web avec Bing
des jeux de données privés comme celui de Tripadvisor par exemple
un moteur de conversation intégré

Bref, dans l'environnement Azure/Microsoft il y a toute une toolbox pour développer

c-ai assistant-ai

Say What You Mean: A Response to 'Let Me Speak Freely'

Les gens de chez .txt (ce qui font Outlines) ont pris le temps de réfuter l'étude Let Me Speak Freely qui annonçait des performances moindre lorsque l'on utilisait un format contraint comme JSON.

Leurs résultats montrent que la génération structuré améliore un peu la performance de génération (ils ont utilisés les mêmes benchmark que l"étude)

Les erreurs faites dans l'étude:

certains de leurs résultats présentaient déjà de meilleures performances en génération structurée
les prompts n'étaient pas les mêmes entre génération structurée et non structurée
le parsing des outputs était réalisé avec un autre LLM ce qui faussait les résultats

An apt analogy would be to programming language benchmarking: it would be easy to write a paper showing that Rust performs worse than Python simply by writting terrible Rust code.

Finalement c'est plutôt rassurant car il est difficile de se passer de la génération structurée aujourd'hui.

A noter qu'il faut bien faire la différence entre

génération structurée: JSON-mode d'OpenAI ou lib Outlines qui garantissent le schéma des données en sortie
génération JSON: on génère du JSON et on vérifie qu'il correspond à un schéma

c-ai text-ai