ВСЕ СТАТЬИ

← Вернуться к статьям
2 октября в 09:00
habr.comтехнологии
2 октября в 09:00•faviconhabr.com•технологии

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2. В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели.

Еще статьи из категории

Еще статьи