Un outil de data visualisation qui peut se connecter à la plupart des bases de données afin de créer des dashboards.
C'est un aggrégateur de sources de données pour créer des dashboards assez facilement.
Le but de ce genre d'outil c'est que l'équipe data se charge de la stratégie de collecte mais ensuite chaque équipe est responsable de créer ses propres metriques un utilisant le système de dashboarding.
Aussi le produit est open source donc on peut commencer en SaaS et passer en OS quand ça coûte trop cher et inversement
Mistral annonce son premier modèle en Open Source (Apache 2.0) et ils annoncent des performances supérieures à LlaMa 2 7B!
C'est le premier LLM 100% européen
Un LLM open-source du niveau de Llama 2 qui obtient une vitesse d'inférence (génération de token) 15x supérieure!
La licence de Terraform va changer avec une licence BSL (Business Source License) similaire à la SSPL utilisée par Elasticsearch ou MongoDB.
C'est pour lutter contre les services qui proposent les produits Hashicorp en SaaS
Un LLM spécialisé dans la génération de code, c'est complètement Open Source.
Par contre la fenêtre de contexte n'est que de 2048 tokens ce qui est peu comparé à GPT3.5 et 4 (16K et 8K tokens)
Un assistant AI pour écrire du code, générer des tests, faire du refactoring etc
Llama 2 est sorti et Meta l'a rendu disponible en Open Source avec utilisation commerciale.
La licence n'est pas full open source comme pourrait l'être une Apache 2.0
- interdiction d'utiliser Llama pour améliorer d'autres modèles
- licence spécial à demander à Meta après 700 millions d'utilisateurs
Disponible chez Huggingface!
(L'article présente aussi un comparatif des modèles open source)
Un ecosystème autour de la plupart des projets de LLM (open source ou non).
On voit dans leur benchmark qu'il n'y a que le modèle GPT4All 13B snoozy
qui a un score comparable à GPT-3.
Dans la description des modèles on peut savoir si ils sont véritablement open source ou non.
Un fork de LLaMA qui peut utiliser des contextes de 256K tokens contre 2048 pour le modèle originel.
Le code et le modèle entrainé sont sous licence Apache 2.0
Un autre exemple d'accaparation d'un protocol standard et ouvert par les GAFAM.
Il est presque impossible d'envoyer des emails aujourd'hui sans passer par un des gros provider centralisés.
Voir aussi pour XMPP et peut-être un jour ActivityPub https://links.aschen.tech/shaare/U426-Q
Facebook cherche à rejoindre le Fediverse qui est construit autour du standard ActivityPub.
L'auteur revient en arrière et explique comment Google a tué XMPP en prétendant vouloir embrasser l'usage du protocol.
Cette tactique des gros industriels pour tuer la concurrence qu'ils ne peuvent pas acheter à un nom https://en.m.wikipedia.org/wiki/Embrace,_extend,_and_extinguish
HuggingFace lance son clone de ChatGPT en 100% open source
De bons conseils pour rentrer dans un projet ayant déjà une grosse codebase.
J'aime notamment l'idée de prendre de petits commits récents et d'essayer de les reimplementer soit même
Un article qui revient sur "l'Open Source washing" que l'on a pu voir avec la publication du code source de l'algorithme de Twitter.
Au final le code source seul ne suffit pas, les données sur lesquelles il est appliqué sont également nécessaire.
Un autre projet pour créer un LLM entièrement open source (code du modèle + jeux de données + poids entrainés).
Pour l'instant ils ont réalisé la première étape qui est de constitué un jeux de données open source en suivant les instructions données dans la publication scientifique de LLaMa.
Ils ont des données, principalement en anglais, qui proviennent de:
- Commoncrawl
- C4
- Github
- ArXiv
- Wikipédia
- StackExchange
- des livres
Plus d'info et les liens de DL chez HuggingFace
D'ici quelques semaines le modèle devrait être entrainé (avec LLaMa) et disponible en open source comme Cerebras et StableLLM
Un projet communautaire et collaboratif pour créer un modèle entraîné comme ChatGPT
L'entreprise Stability AI qui est déjà derrière le modèle Stable Diffusion pour la génération d'images a sorti un modèle pour la génération de texte.
Assez similaire à GPT de OpenAI avec un contexte de 4096 tokens.
Le modèle de base est véritablement Open Source et autorisé pour des applications commerciales:
- code en Apache 2
- poids en creative commons avec citation de StabilityAI
A noter qu'il existe une version des poids fine tuné pour la conversion mais la licence est non commerciale car ils ont utilisé les données de Alpaca (en autre)
Un style de licensing intéressant chez CockroachDB:
- licence Business Source License (type Server Side Public Licence) avec interdiction de faire un SaaS
- Apache 2 après 3 ans
Cela permet de rentabiliser leur business tout en offrant la totalité du produit en Apache 2 après une certaine période.
Auto-GPT utilise un LLM et est capable de:
- récupérer des informations sur internet
- conserver des informations en mémoire
- générer sa propre liste de tâche pour répondre à une question
Ça permet d'avoir des agents capable d'améliorer leurs réponses et de réfléchir à des tâches plus complexes.
Pleins d'exemples ici https://twitter.com/NathanLands/status/1646101184384573446?s=20
La grande épopée de l'informatique et du logiciel libre racontée par Ploum.