Très intéressant!
En vrac:
- 10% des développeurs n'utilisent plus du tout Stackoverflow
- 66% des entreprises ont un usecase GenAI déployé
- 89% des employés utilisent la GenAI au boulot (15% secrètement)
- Copilot est l'outil GenAI le plus populaire après ChatGPT
Un outil open source pour mesurer la performance des applications frontend.
Ça s'intègre même à la CI !
Blake3 est plus sur que SHA256 et sûrement plus sur que Keccak qui a gagné le concours SHA3.
C'est aussi l'algorithme le plus performant dans les benchmarks
Une lib en Python pour charger des données depuis différentes sources dans des databases.
ça supporte notamment Slack, Notion, Github en source.
Par contre j'ai l'impression que c'est limité à de la synchronisation one shot et pas forcément à une mise à jour des documents retrouvés
Un article sur le Trunk Based Development. C'est une méthode de gestion du code source où tout est continuellement mergé sur master.
Ça boost le déploiement en continue car chaque PR est sensée être deployable directement après avoir été mergé.
Par contre il faut prévoir un CI solide avec suffisamment de tests ainsi que des features flag pour éviter d'exposer des features incomplètes aux utilisateurs
Une solution Open Source pour installer tout un tas d'application en self hosting sur un serveur.
Ils ont vraiment de tout:
- wordpress
- shaarli
- gitlab
- openvpn
- transmissions
- et tellement d'autres!
Une explication détaillée de l'algorithme HNSW pour la recherche vectorielle.
J'ai beaucoup l'analogie utilisée par Qdrant avec un voyage.
Quand vous voyagez d'un petit village à un autre:
- bus pour Lyon
- train pour Paris
- avion pour Berlin
- train Hambourg
- bus pour Lüneburg
Chaque étape utilise un moyen de transport ayant moins de hub et capable de faire de plus grandes distances
L'algorithme HNSW fonctionne selon ce principe, le plan vectoriel est découpé en couches. Plus on est dans une couche haute, moins il y a de vecteurs et plus les vecteurs sont éloignés les uns des autres.
Au fur et à mesure de la recherche, on va de plus en plus bas dans les couches jusqu'à arriver à la dernière et on peut donc récupérer tous les vecteurs les plus proches en un minimum d'opérations.
Une nouvelle technique à base d'IA générative pour faire bouger des parties d'une photo
Un nouveau type de batterie à base d'un couple soufre / sélénium qui serait 2 fois plus efficace que les batteries au Lithium
Des histoires d'ingénieurs à qui on demande de faire quelque chose d'illégal.
Moralité, si on vous demande de faire quelque chose d'illégale, documentez la demande et refusez.
Un super-calculateur de Nvidia avec 10000 carte graphiques H100 spécialisées pour les opérations sur les réseaux de neurones.
Ils ont pu entrainer un modèle GPT-3 en seulement 4 minutes alors qu'il a fallu plus de 30 jours pour l'entrainer il y a 3 ans (sur 1000 GPU)
Un article qui explique le fonctionnement de la signature asymétrique des tokens en OIDC
Un site très complet pour apprendre à mieux utiliser sa DB et comprendre les problèmes de performances pour les régler.
Le guide d'OpenAI sur le Prompt Engineering. Simple, clair et efficace.
Une exploitation de Google Calender pour envoyer des commandes à un malware.
Du coup ça passe pour du trafic totalement légitime
Un service d'hébergement Postgres moderne et à la demande
Un benchmark de requêtage sur des vecteurs d'embeddings dans Postgres avec l'addon pgvector et dans le pure player Pinecone.
Sur un setup équivalent en coût chez Supabase, Postgres est 10x plus rapide avec la même précision.
Donc si on héberge sa propre base Postgres c'est encore moins cher!
A noter que Postgres est beaucoup plus qu'une base vectorielle et qu'on va pouvoir filtrer les résultats avec des WHERE, faire des jointures, etc
Une vidéo très intéressante sur le déclin de l'hégémonie de Google.
Cela s'explique notamment par une part de plus en plus importante des recherches Instagram / TikTok qui proposent des résultats plus interactifs (images, vidéos)
Aussi le SEO à une grosse part de responsabilité dans la merdification des résultats avec des articles de plus en plus vides écrits par des IA dans le seul but de placer des mots-clés.
Finalement, on note la montée en puissance de Reddit pour du contenu certifié "User generated" et des réponses de qualité
Excellent article qui expliquer le fonctionnement des LLMs
Un fil d'actualité sur les derniers papiers à propos des LLM