Search: [c-ai] - Aschen | Sharing the webz

Au lieu de s'appuyer sur des tokens qui représente des "bouts" de mots de quelques lettres, ils proposent de s'appuyer directement sur des concepts de haut niveau.

Un exemple de token avec cette architecture serait "Tim n'était pas très athlétique".

Cela ressemble aux idéogrammes chinois vs les alphabets et d'ailleurs les compromis sont sensiblement les mêmes:

Par exemple, la vitesse d'inférence (= écriture) accrue pour les concepts mais au prix d'un nombre de concepts beaucoup plus importants et donc aussi un coût d'entrainement + inférence (FLOPS) plus élevé.

En tout cas c'est rassurant de voir qu'il y a des architectures radicalement différente des LLMs actuels qui émergent !

c-ai · text-ai

January 4, 2025 at 23:44:11 UTC * · permalink

·

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

LearnLM: Improving Gemini for Learning

Google a fine tuné Gemini 1.5 Pro pour améliorer le modèle dans un cadre d'enseignement en respectant les concepts de la pédagogie.

Les LLMs ont tendance à présenter l'information plutôt qu'à engager l'utilisateur dans un processus de réflexion et de compréhension. C'est justement l'un des axe qu'ils ont essayé d'améliorer.

Les résultats présentés ont été fait sur 2360 conversations pour un total de 58000 messages et chaque pair de message a été évalué par 3 experts en moyenne.

Ils affichent des résultats 13% meilleurs que le modèle Gemini 1.5 Pro de base.

C'est aussi intéressant de voir que dans l'étude, GPT-4o possède les moins bons résultats face à Claude 3.5 Sonnet et Gemini 1.5 Pro. Les meilleurs modèles "pédagogues" seraient donc Claude et Gemini.

Il est possible de le tester en mode chat ici: https://aistudio.google.com/

De nombreux exemples de prompt sont dans la documentation https://ai.google.dev/gemini-api/docs/learnlm

Le modèle est déjà disponible dans le SDK sous le nom learnlm-1.5-pro-experimental

c-ai · text-ai

January 4, 2025 at 23:31:40 UTC * · permalink

·

https://services.google.com/fh/files/misc/improving-gemini-for-education_v7.pdf

Absolutely nobody predicted this: AI Code is the new NoCode

Une liste assez exhaustive de tous les outils disponible pour générer du code

Ça va du niveau de l'outil qui génère une application entière à l'extension comme Copilot en passant par les IDE AI plus ou moins avancés

c-ai · code-ai

January 4, 2025 at 17:19:12 UTC * · permalink

·

https://readwise.io/reader/shared/01jgbnf7h65va87xrp8wxmfzkk/

browser-use/browser-use: Make websites accessible for AI agents

Un framework clé en main qui permet de faire de la manipulation de site web par un Agent LLM.

On peut bien sur donner la tâche, choisir le modèle mais aussi fournir des outils custom que l'Agent va pouvoir utiliser.

Très pratique pour le brancher avec nos propres outils internes via du code Python ou plus simplement une API

c-ai · interface-manipulation · assistant-ai

January 4, 2025 at 17:16:45 UTC * · permalink

·

https://github.com/browser-use/browser-use/tree/main

How to Create an llms.txt File for Any Website

llms.txt c'est le nouveau standard pour aider les LLM à comprendre les pages web.

Concrètement c'est un fichier qui comme le fameux robots.txt (ou security.txt ou humans.txt) donne des informations au format texte.

Ces fichiers ne se mettent pas forcément à la racine, exemple avec la doc de Cursor https://docs.cursor.com/llms-full.txt

c-ai · text-ai

January 4, 2025 at 17:12:13 UTC * · permalink

·

https://www.firecrawl.dev/blog/How-to-Create-an-llms-txt-File-for-Any-Website

E2B - Code Interpreting for AI apps

E2B propose un service d'exécution de code dans des sandboxs.

C'est ciblé précisément pour les Agents LLM capable d'exécuter directement du code pour accomplir leur tâche.

Les fonctionnalités sont très complètes avec:

lecture/écriture de fichiers
accès au réseau de la sandbox (e.g. accéder un serveur web)
streaming de la sortie standard
paquets custom (npm, pip, etc)
Javascript, Python, R, Java, Bash

c-ai · assistant-ai · ai-ops

January 4, 2025 at 16:04:00 UTC * · permalink

·

https://e2b.dev/docs

Superlinked rag_hr_knowledgebase.ipynb

Un exemple de la manière dont Superlinked utilise un scoring pour rechercher des documents.

Ils ont 3 métadata:

relevance
recency
usefulness

c-ai · retrieval-augmented-generation

December 19, 2024 at 19:34:22 UTC * · permalink

·

https://colab.research.google.com/github/superlinked/superlinked/blob/main/notebook/rag_hr_knowledgebase.ipynb#scrollTo=06713661-a095-4159-82cf-acf9763c313f

PDF support - Anthropic

L'API d'Anthropic propose aussi une fonction de conversion de PDF en markdown

c-ai

December 19, 2024 at 12:51:14 UTC * · permalink

·

https://docs.anthropic.com/en/docs/build-with-claude/pdf-support

microsoft/markitdown: Python tool for converting files and office documents to Markdown.

Microsoft sort aussi une lib pour convertir les documents PDF, Docx, Excel, etc au format markdown

c-ai

December 19, 2024 at 12:50:51 UTC * · permalink

·

https://github.com/microsoft/markitdown

Elon Musk wanted an OpenAI for-profit | OpenAI

OpenAI tire à balles réelles sur Elon Musk en publiant des échanges de mails et même des SMS.

c-ai

December 14, 2024 at 01:21:01 UTC * · permalink

·

https://openai.com/index/elon-musk-wanted-an-openai-for-profit/

Google introduces Gemini 2.0: A new AI model for the agentic era

Google annonce Gemini 2.0 Flash.

Niveau benchmark comme d'habitude il faut attendre que ça sorte sur Livebench pour avoir une meilleure comparaison mais quand même ils affichent de très bon résultats:

89.7% sur MATH (76.6 GPT-4o)
62.1% sur GPQA (59.4% Claude 3.5 Sonnet)
35.1% sur LiveCodeBench (42% Claude 3.5 Sonnet, 67% o1-mini)

La big new c'est surtout la multi-modalité en entrée et en sortie du modèle qui est capable de générer un mix de texte, son et image pour répondre si besoin.

Google a vraiment rattrapé son retard, c'est cool de voir toutes ces améliorations.

c-ai · text-ai

December 11, 2024 at 23:32:35 UTC * · permalink

·

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#gemini-2-0-flash

Use our prompt improver to optimize your prompts - Anthropic

Anthropic propose un optimisateur de prompt.

Pendant son entrainement, Claude a été optimisé sur certains patterns comme l'utilisation de balises XML pour organiser le contenu et ces patterns peuvent améliorer la performance des prompts.

c-ai · text-ai

December 11, 2024 at 16:56:46 UTC * · permalink

·

https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/prompt-improver

unsloth: Finetune Llama 3.3, Mistral, Phi, Qwen 2.5 & Gemma LLMs 2-5x faster with 80% less memory

Unsloth est un framework de fine-tuning qui permet d'entrainer plus rapidement et avoir moins de mémoire des modèles Open Source.

Ils annoncent un gain jusqu'à x2 sur la vitesse d'entrainement !

Ça s'utilise en Python mais aussi directement dans un Notebook

c-ai · fine-tuning

December 9, 2024 at 20:19:39 UTC * · permalink

·

https://github.com/unslothai/unsloth

I spent 8 hours testing o1 Pro ($200) vs Claude Sonnet 3.5 ($20) - Here's what nobody tells you about the real-world performance difference : ChatGPT

Un retour d'expérience sur l'utilisation de o1 et Claude 3.5 Sonnet.

La conclusion c'est que dans la majorité des cas, Claude 3.5 Sonnet est suffisamment bon et que la différence prix + latence entre les deux modèles fait plutôt pencher la balance du côté de Claude 3.5 Sonnet

c-ai · text-ai

December 8, 2024 at 17:10:09 UTC * · permalink

·

https://old.reddit.com/r/ChatGPT/comments/1h82qp5/i_spent_8_hours_testing_o1_pro_200_vs_claude/

OpenAI réfléchit à sa stratégie pour ajouter la publicité à son modèle économique

Tout est dans le titre.

OpenAI recrute des spécialistes de la publicité en provenance de chez Google et Meta pour réfléchir à son offre publicitaire.

À priori, ça sera sûrement du placement de produit dans les résultats de génération de ChatGPT.

Un article proposait une méthode pour transposer le système d'enchères traditionnel de la pub en ligne aux LLM

c-ai · text-ai

December 3, 2024 at 04:00:41 UTC * · permalink

·

https://next.ink/brief_article/openai-reflechit-a-sa-strategie-pour-ajouter-la-publicite-a-son-modele-economique/

We had Image Gen copying LLM... and now the REVERSE?? [DiffusionLM]

Une percée potentielle dans l'architecture des LLMs !

L'architecture actuelle (ARM) est une génération "de gauche à droite" ou l'on génère les tokens les un après les autres en concaténant les tokens générés pour faire le nouveau prompt.

En s'inspirant des modèles de diffusion d'image, les chercheurs ont mis au point une nouvelle architecture de modèle (MDM) qui génère les tokens avant et après le prompt.

Ces modèles sont plus cher à entrainer mais ils présentent plusieurs avantages:

meilleures performances de génération sur des problèmes standards
capable "d'apprendre" et d'inférer que si A = B alors B = A (les LLMs ont beaucoup de mal à ça)
jusqu'à 40% plus rapide

C'est un tout nouveau champ de recherche qui commence à prendre de l'ampleur !

Finalement on dirait qu'on a pas encore atteint ce fameux plafond de verre ;-)

c-ai · text-ai

December 2, 2024 at 03:31:16 UTC * · permalink

·

https://www.youtube.com/watch?v=yXHSPzHfe1s

Azure AI Agent Service: Revolutionizing AI Agent Development and Deployment

Microsoft sort son un écosystème d'exécution d'Agents.

Vu le catalogue de Microsoft, c'est assez énorme avec plus de 1400 "connecteurs" (comprendre "API") disponibles sur étagère pour interagir avec les services Microsoft mais aussi des services externes comme Gmail, Twilio, MongoDB.

Ils ont aussi pas mal de choses assez exclusives sur étagère:

un Code Interpreter Python
recherche web avec Bing
des jeux de données privés comme celui de Tripadvisor par exemple
un moteur de conversation intégré

Bref, dans l'environnement Azure/Microsoft il y a toute une toolbox pour développer

c-ai · assistant-ai

December 1, 2024 at 15:36:41 UTC * · permalink

·

https://techcommunity.microsoft.com/blog/azure-ai-services-blog/introducing-azure-ai-agent-service/4298357

Does Prompt Formatting Have Any Impact on LLM Performance?

Encore une étude sur les impact du prompt et du format de réponse sur la qualité de la génération.

Ils ont notamment testé les performances de génération en plusieurs formats de sortie:

JSON (0.77)
YAML (0.7)
text (0.69)
Markdown (0.35)

Dommage qu'ils n'aient pas inclus XML. (et j'ai vérifié cette fois, les prompts sont les mêmes entre chaque format)

Une autre conclusion est que le modèle GPT 3.5 est plus sensible aux variations de prompt que GPT 4.

C'est quelque chose que je remarque aussi, plus un modèle est performant et moins il est sensible aux subtilités du Prompt Engineering.

c-ai · prompt-engineering

December 1, 2024 at 15:29:38 UTC * · permalink

·

https://arxiv.org/pdf/2411.10541