Aschen | Sharing the webz

microsoft/SoM: Set-of-Mark Prompting for GPT-4V and LMMs

Set of Mark c'est la technique qui consiste à annoter une image avec des numéro avant de la passer à un LLM vision.

Ça permet au LLM d'identifier précisément les entités et de les citer dans le prompt.

C'est ce qui est utilisé dans beaucoup de systèmes de manipulation d'interface pour que le LLM puisse identifier les différentes parties de l'interface.

c-ai · image-ai

2025年2月9日 UTC 22:01:03 * · permalink

·

https://github.com/microsoft/SoM

.CursorRules

Un annuaire d'instructions à ajouter dans les règles custom de Cursor (.cursorrules).

Il y a des règles spécialisées pour les langages, frameworks, etc

c-ai · code-ai

2025年2月9日 UTC 18:03:24 * · permalink

·

https://dotcursorrules.com/

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

Le nombre de contenu généré par IA explose.

Certains de ces articles généré par IA et publié souvent sans être vérifiés sont ensuite utilisés comme source sur Wikipedia.

c-ai · text-ai

2025年2月8日 UTC 16:22:26 * · permalink

·

https://next.ink/153613/enquete-plus-de-1-000-medias-en-francais-generes-par-ia-polluent-le-web-et-google/

PDF extraction with Gemini 2.0 flash

Gemini 2.0 flash obtient les meilleurs résultats sur la reconnaissance et l'extraction de texte depuis un PDF que la plupart des autres solutions du marché.

L'auteur propose aussi d'utiliser le LLM pour découper le texte en chunk de taille convenable conservant la même thématique.

c-ai · text-ai

2025年2月7日 UTC 17:10:43 * · permalink

·

https://www.sergey.fyi/articles/gemini-flash-2

OpenAI o3-mini is now available in GitHub Copilot Free

OpenAI et Github ont rendu le modèle o3-mini disponible dans l'extension Copilot.

Le modèle est configuré sur le niveau de raisonnement "moyen" ce qui en fait l'un des meilleurs modèles du marché (3e position sur Livebench)

Cependant, Claude 3.5 Sonnet a toujours les meilleurs résultats dans les benchmarks uniquement en code (67 contre 65 pour o3-mini-medium)

c-ai · code-ai

2025年2月7日 UTC 12:36:53 * · permalink

·

https://github.blog/changelog/2025-02-06-openai-o3-mini-is-now-available-in-github-copilot-free/

Launch YC: Osmosis: Unlocking Real-Time Learning for AI Agents | Y Combinator

c-ai

2025年2月7日 UTC 11:07:45 * · permalink

·

https://www.ycombinator.com/launches/Mkt-osmosis-unlocking-real-time-learning-for-ai-agents

Jim & Jimmies : comment Partoo transforme sa plateforme SaaS en Multi-agent System ?

c-ai

2025年2月5日 UTC 15:09:25 * · permalink

·

https://www.followtribes.io/saas-multi-agent-system/

https://omnihuman-lab.github.io/

Bytedance (TikTok) ont sorti un modèle de génération de vidéo spécialisé dans la génération de personnes.

Depuis une image, un enregistrement audio, une vidéo sans audio ou une combinaison des deux, ils peuvent générer des vidéos entières quasiment sans artefacts (hallucinations).

Le modèle est privé pour le moment.

c-ai · video-ai

2025年2月5日 UTC 10:21:02 * · permalink

·

https://omnihuman-lab.github.io/

How DeepSeek Cracked the Cost Barrier with $5.6M

Le modèle chinois DeepSeek est impressionnant en terme d'optimisation de calcul.

Ce modèle de 671 milliards de paramètres aurait été entrainé avec seulement 2.78 millions de GPU hours sur des cartes graphiques Nvidia H800 bridées pour le marché chinois.

À titre de comparaison, Llama 3 a eu besoin de 11 fois plus de puissance de calcul et possède 405 milliards de paramètres.

Plusieurs optimisations ont été implémentées par l'équipe de DeepSeek avec notamment de la prédiction de token qui fait pensé à ce qu'il se fait dans les CPU mais aussi avec une activation de seulement 37 milliards des paramètres les plus pertinents pour générer chaque token.

C'est vraiment impressionnant car DeepSeek v3 est en 7e position de https://livebench.ai avec devant lui seulement les dernières versions des modèles Gemini de Google et les modèles à raisonnement o1 de OpenAI et DeepSeek r1.

Maintenant à voir si des équipes indépendantes arrivent à reproduire des résultats similaire.

Il faut quand même prendre des pincettes avec ce modèle qui pourrait être considéré par le gouvernement chinois comme une nouvelle source de propagande.

c-ai · text-ai

2025年1月27日 UTC 13:12:10 * · permalink

·

https://www.unite.ai/how-deepseek-cracked-the-cost-barrier-with-5-6m/

Fireworks - AI Inference

Fireworks est un acteur majeur dans l'infrastructure d'inférence pour modèles Open Source.

Ils proposent la plupart des modèles existant comme Mistral, LlaMa, Qwen mais aussi DeepSeek v3 et R1.

Les prix sont très compétitifs avec seulement 0.9$/MTok (million de tokens) pour DeepSeek v3 qui offre de meilleures performances que GPT-4o (3$/MTok).

De nombreuses entreprises utilisent Fireworks, je l'ai découvert pendant que j’étudiai le fonctionnement de Cursor.

Ils utilisent notamment une version custom de LlaMa pour la partie "apply" des suggestions générées par des modèles plus performants.

c-ai · text-ai · ai-ops

2025年1月24日 UTC 14:47:41 * · permalink

·

https://fireworks.ai/pricing

MiniCPM-o 2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming on Your Phone

Un modèle multi-modal (image, video, text, audio) 8B qui fonctionne sur iPad (entre autre)

Ils annoncent de meilleures performances que GPT-4V sur la reconnaissance d'image.

A vrai dire, ils annoncent que leur modèle surpasse GPT-4o et Claude 3.5 Sonnet dans beaucoup d'autres domaines (audio, realtime interaction) et sur beaucoup de benchmark classiques.

Je ne vois pas ces résultats sur https://livebench.ai/ en tout cas donc prudence dans ces allégations.

Ça reste néanmoins un modèle multi-modal suffisamment petit pour tourner sur du matériel client donc c'est intéressant.

c-ai · text-ai

2025年1月17日 UTC 12:07:58 * · permalink

·

https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file

Meta Secretly Trained Its AI on a Notorious Piracy Database, Newly Unredacted Court Docs Reveal | WIRED

Meta aurait utilisé des livres et articles scientifiques en provenance de Library Genesis, une plateforme de contenu pirate, pour entraîner ses modèles d'IA.

Les données auraient été téléchargé en torrent, comme au bon vieux de temps de The Pirate Bay.

Cela relance le débat sur la légitimité des LLMs vis-à-vis de leur entrainement sur du contenu sous droit d'auteur.

c-ai

2025年1月11日 UTC 21:56:26 * · permalink

·

https://www.wired.com/story/new-documents-unredacted-meta-copyright-ai-lawsuit/

IA Bot DDos the internet

Un administrateur s'est rendu compte que près de la moitié des requêtes servies par son serveurs étaient pour des crawlers IA !

24% du trafic pour GPTBot (OpenAI), 15% pour AmazonBot, 4% pour ClaudeBot, etc

Les bot IA crawlent comme des porcs et même des pages complètement inutiles comme la liste des mises à jour d'une page wiki.

Par comparaison, le Google bot représente 0.14% de son trafic.

En plus, ils ne respectent pas les robots.txt, changent constamment d'IP et parfois masquent même leur user agents.

Ce sont vraiment des pratiques intolérables.

Un autre exemple d'un gérant de site de e-commerce qui a subit l'équivalent d'une attaque DDoS avec le bot d'OpenAI ayant scrappé les milliers de produits et dizaine de milliers d'images de son site avec plus de 600 IP différentes (/!) alors que son robots.txt interdit au bot d'OpenAI d'opérer.

Non seulement ce genre de pratique peut avoir des répercussion au niveau du copyright mais aussi très concrètement au niveau du porte monnaie car les serveurs sont beaucoup plus sollicités !

c-ai · text-ai

2025年1月8日 UTC 04:19:56 * · permalink

·

https://pod.geraspora.de/posts/17342163

OpenAI's Latest AI Can Cost More Than $1,000 Per Query

Pour résoudre les tâches du benchmark ARC-AGI, les requêtes faites à o3 coutaient en moyenne 1000€ !

Ce genre de prix est vraiment prohibitif même pour des tâches compliquées car à ce prix, autant demandé à un humain.

La version "low-compute" du modèle o3 s'en tire avec avec 10 points de moins (76%) mais pour seulement 20$ par tâche.

Les résultats du modèle d'OpenAI o3 au benchmark ARC-AGI sont contestés, notamment parce qu'OpenAI a avoué avoir entrainé son modèle avec les données des exercices.

c-ai · text-ai

2025年1月8日 UTC 04:09:33 * · permalink

·

https://futurism.com/the-byte/openai-o3-cost-per-query

ChainForge: A visual programming environment for prompt engineering

Un outil no-code pour évaluer des prompts.

On retrouve tous les évaluateurs habituels: code, LLM as a judge, etc

L'outil est Open Source et tourne en local si besoin

c-ai · prompt-engineering

2025年1月5日 UTC 19:46:49 * · permalink

·

https://www.chainforge.ai/

Things we learned about LLMs in 2024

Le meilleur résumé de l'année 2024 en GenAI

les modèles du niveau de GPT-4 sont légions
le coût des tokens a été divisé par 10
les modèles multi-modaux sont monnaie courante
la génération de code fonctionne très très bien
les agents autonomes peinent à sortir
le début des modèles de "raisonnement" comme o1
les données synthétique pour l'entrainement se développent

Hâte de voir ce que 2025 nous réserve !

c-ai

2025年1月5日 UTC 19:44:58 * · permalink

·

https://simonwillison.net/2024/Dec/31/llms-in-2024/

Large Concept Models: Language Modeling in a Sentence Representation Space

Meta publie un article sur une nouvelle architecture de modèle de langue.

Au lieu de s'appuyer sur des tokens qui représente des "bouts" de mots de quelques lettres, ils proposent de s'appuyer directement sur des concepts de haut niveau.

Un exemple de token avec cette architecture serait "Tim n'était pas très athlétique".

Cela ressemble aux idéogrammes chinois vs les alphabets et d'ailleurs les compromis sont sensiblement les mêmes:

Par exemple, la vitesse d'inférence (= écriture) accrue pour les concepts mais au prix d'un nombre de concepts beaucoup plus importants et donc aussi un coût d'entrainement + inférence (FLOPS) plus élevé.

En tout cas c'est rassurant de voir qu'il y a des architectures radicalement différente des LLMs actuels qui émergent !

c-ai · text-ai

2025年1月4日 UTC 23:44:11 * · permalink

·

https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/

LearnLM: Improving Gemini for Learning

Google a fine tuné Gemini 1.5 Pro pour améliorer le modèle dans un cadre d'enseignement en respectant les concepts de la pédagogie.

Les LLMs ont tendance à présenter l'information plutôt qu'à engager l'utilisateur dans un processus de réflexion et de compréhension. C'est justement l'un des axe qu'ils ont essayé d'améliorer.

Les résultats présentés ont été fait sur 2360 conversations pour un total de 58000 messages et chaque pair de message a été évalué par 3 experts en moyenne.

Ils affichent des résultats 13% meilleurs que le modèle Gemini 1.5 Pro de base.

C'est aussi intéressant de voir que dans l'étude, GPT-4o possède les moins bons résultats face à Claude 3.5 Sonnet et Gemini 1.5 Pro. Les meilleurs modèles "pédagogues" seraient donc Claude et Gemini.

Il est possible de le tester en mode chat ici: https://aistudio.google.com/

De nombreux exemples de prompt sont dans la documentation https://ai.google.dev/gemini-api/docs/learnlm

Le modèle est déjà disponible dans le SDK sous le nom learnlm-1.5-pro-experimental

c-ai · text-ai

2025年1月4日 UTC 23:31:40 * · permalink

·

https://services.google.com/fh/files/misc/improving-gemini-for-education_v7.pdf

Absolutely nobody predicted this: AI Code is the new NoCode

Une liste assez exhaustive de tous les outils disponible pour générer du code

Ça va du niveau de l'outil qui génère une application entière à l'extension comme Copilot en passant par les IDE AI plus ou moins avancés

c-ai · code-ai

2025年1月4日 UTC 17:19:12 * · permalink

·

https://readwise.io/reader/shared/01jgbnf7h65va87xrp8wxmfzkk/

browser-use/browser-use: Make websites accessible for AI agents

Un framework clé en main qui permet de faire de la manipulation de site web par un Agent LLM.

On peut bien sur donner la tâche, choisir le modèle mais aussi fournir des outils custom que l'Agent va pouvoir utiliser.

Très pratique pour le brancher avec nos propres outils internes via du code Python ou plus simplement une API

c-ai · interface-manipulation · assistant-ai

2025年1月4日 UTC 17:16:45 * · permalink

·

https://github.com/browser-use/browser-use/tree/main