Universal and Transferable Attacks on Aligned Language Models

1370 shaares

Filters

Links per page

20 50 100

Universal and Transferable Attacks on Aligned Language Models

Un article de recherche qui démontre qu'à priori tous les LLM actuels sont vulnérable à des injections de prompt pour leur faire générer du texte "harmful".

Les auteurs expliquent que ce genre d'attaque était déjà un problème en computer vision depuis 10 ans et qu'aucune solution n'a été vraiment efficace.

Ce genre de comportement pourrait bien être impossible à éviter avec les LLM.

c-ai · text-ai

August 2, 2023 at 08:29:55 UTC * · permalink

https://llm-attacks.org/

Filters

Links per page

20 50 100