Daily Shaarli

All links of one day in a single page.

August 2, 2023

Universal and Transferable Attacks on Aligned Language Models

Un article de recherche qui démontre qu'à priori tous les LLM actuels sont vulnérable à des injections de prompt pour leur faire générer du texte "harmful".

Les auteurs expliquent que ce genre d'attaque était déjà un problème en computer vision depuis 10 ans et qu'aucune solution n'a été vraiment efficace.

Ce genre de comportement pourrait bien être impossible à éviter avec les LLM.