1299 shaares
La recherche autour du watermarking de l'output des LLMs avance avec cet article publié dans Nature.
Concrètement ça va jouer avec les probabilités des mots générés afin de respecter un pattern qui sera ensuite utilisé pour détecter du contenu watermarké.
La nouveauté ici c'est qu'à priori cette technique ne nuit pas trop aux performances du LLM. (testé avec Gemini)
J'ai du mal à comprendre comment une contrainte aussi forte posée durant la génération ne peut pas impacter négativement les performances alors que rien qu'une sortie en JSON/XML/YAML à des effets