"Une astuce imparable pour tromper les plus grands modèles de langage !"

Une nouvelle technique nommée Best-of-N a été développée par les chercheurs d'Anthropic pour contourner les mécanismes de sécurité des grands modèles de langage tels que GPT-4 et Claude. Cette méthode consiste à modifier légèrement une requête de manière aléatoire jusqu'à obtenir la réponse voulue, exploitant la nature non déterministe de ces modèles. Les tests ont montré des taux de réussite élevés, en particulier dans les domaines audio et visuel. Malgré la vulnérabilité des modèles, les attaques réussies ne semblent pas suivre de schémas clairs. En réponse, diverses pistes de défense sont suggérées pour renforcer la sécurité tout en préservant la flexibilité des modèles. Cette découverte souligne la nécessité continue d'améliorer la robustesse des LLM face aux attaques potentielles.

Publié le 20/12/2024 22:00 - Source Article & Image: Korben.info