Aschen | Sharing the webz

L'histoire d'un développeur frustré du temps de chargement de GTA Online qui l'a examiné en détails pour se rendre compte que le parsing JSON était fait d'une très mauvaise manière.

Décompilation, inspection de la mémoire, hook DLL, du très beau hacking :D

c-programmation · performance

January 10, 2024 at 15:58:09 UTC * · permalink

·

https://nee.lv/2021/02/28/How-I-cut-GTA-Online-loading-times-by-70/

OpenAI: Impossible to train top-tier AI and avoid copyright

La bataille juridique continue pour la rétribution des créateurs de contenu (visuel ou textuel) qui est ensuite utilisé pour entrainer des IA.

En gros OpenAI demande une exception pour l'entrainement des modèles d'IA même si ceux-ci sont capables de reproduire des scènes ou textes sous droits d'auteurs.

c-ai · copyright

January 10, 2024 at 15:01:25 UTC * · permalink

·

https://www.theregister.com/2024/01/08/midjourney_openai_copyright/

PlugBear: Plug your AI to the world

Un outil qui permet de brancher des LLM (Assistant GPT, LLM custom, etc) à des interfaces comme Slack ou Discord.

C'est parfait pour essayer rapidement d'intégrer des Assistant dans des process d'entreprise par exemple.

c-ai · text-ai

January 9, 2024 at 14:44:57 UTC * · permalink

·

https://plugbear.io/

Getting started with Web Performance 🚀

Un article qui résume assez bien tout ce qu'on a autour des Web Performance, ces métriques utilisées (entre autre) par Google pour mesurer la performance des sites web.

A part Google, il existe plusieurs outils en SaaS ou open source pour mesurer ces métriques soit même en vu de les améliorer.

c-programmation · performance · frontend

January 9, 2024 at 07:31:20 UTC * · permalink

·

https://www.htmhell.dev/adventcalendar/2023/14/

GroqChat - Fastest inference Engine

Groq propose une technologie pour accélérer la vitesse d'inférence des LLMs.

Le résultat est impressionnant, ils arrivent à générer plus de 300 tokens/seconde avec Llama 2 70B.

Il faut 8 GPU A100 à 30$ de l'heure chez Amazon pour arriver au même résultat
la génération est de 35 tokens/seconde sur le GPU d'un particulier (Nvidia 4090)

Le moteur qu'il utilise s'appelle Groq LPU. Je suppose qu'ils utilisent la quantization et d'autres techniques comme PowerInfer

Ils développent aussi leur propre hardware, ce sont des puces spécialisés dans l'inférence.

Les opérations couteuses comme les multiplications de matrice sont gravés directement dans le silicium ce qui multiplie la vitesse par plusieurs ordres de grandeur.

Après les TPU de Google et les NPU de Microsoft, Groq propose une alternative hardware crédible sur un marché très dur à adresser.

c-ai · text-ai · performance · micro-processeur

January 6, 2024 at 11:09:44 UTC * · permalink

·

https://chat.groq.com/

Inflection - Pi

Un LLM qui met l'accent sur la qualité de la conversation de la même manière qu'un humain.

Notamment il va très souvent relancer l'utilisateur avec des questions pour explorer en profondeur les sujets proposés.

c-ai · text-ai

January 6, 2024 at 09:37:30 UTC * · permalink

·

https://inflection.ai/

AdNauseam

Une extension basée sur Ublock Origin qui clique automatiquement sur les pubs bloquées pour coûter de l'argent aux annonceurs et fausser les statistiques.

c-privacy · publicite · navigateur

January 5, 2024 at 23:51:43 UTC * · permalink

·

https://adnauseam.io/

Building RAG-based LLM Applications for Production

Un article très technique sur la création d'un RAG.

L'auteur explore notamment plusieurs techniques pour le chunking sur la taille des chunks, le nombre de chunks retrouvés avec des métriques de qualité.

c-ai · retrieval-augmented-generation

January 5, 2024 at 08:25:10 UTC * · permalink

·

https://www.anyscale.com/blog/a-comprehensive-guide-for-building-rag-based-llm-applications-part-1