ВСЕ СТАТЬИ

← Вернуться к статьям
AI Red Teaming: спор с Grok — Часть 3.
2 марта в 01:24
habr.comтехнологии

AI Red Teaming: спор с Grok — Часть 3.

2 марта в 01:24•faviconhabr.com•технологии

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт. LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать.

Еще статьи из категории

Еще статьи