Une technique intéressante de prompt injection qui passe tous les niveaux du CTF de Lakera (une entreprise spécialisée dans la sécurité des LLMs)
Ils donnent des instructions en pseudo code qui permettent de faire leak le code secret
Dee recherches menées sur l'exploitation des LLMs en tant que vecteur d'attaque.
Des techniques similaire à de l'obfuscation permettent d'apprendre au modèle à cacher ses intention malicieuse.
Par exemple durant les phases de validation, le code généré sera normal puis à partir d'une certaine date le code généré sera malicieux.
Cela peut aussi être déclenché par une instruction spéciale dans le prompt
Le mainteneur de CURL n'en peut plus des personnes qui postent des rapports de sécurité généré par IA ou le programme a complètement halluciné.
En plus ces personnes répondent aux commentaires avec une IA également ce qui donne des conversations lunaires.
Un guide entier pour apprendre les différentes techniques d'attaques possible sur les LLM via notamment l'injection de prompt.
Le guide présente aussi des techniques de défense
Une liste de faille des LLM et des exemples d'exploitation.
C'est principalement des prompt injection