1306 shaares
Un article qui résume les techniques autour des embeddings d'images.
CLIP de OpenAI reste la référence Open Source pour créer des embeddings d'images même si le modèle VIT (Vision Transformer) de Google obtient de meilleures résultats en classification, cela reste encore de la recherche et il n'y a pas de moyen simple d'obtenir les embeddings sous-jacent.
https://paperswithcode.com/sota/zero-shot-transfer-image-classification-on-1
La technique des k-means cluster s'applique également aux images afin de détecter des "groupes" (ou cluster) d'images.