AI Red Teaming: спор с Grok — Часть 3.

← Вернуться к статьям

2 марта в 01:24

habr.comтехнологии

AI Red Teaming: спор с Grok — Часть 3.

2 марта в 01:24•

habr.com•технологии

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт. LLM-систем есть класс уязвимостей, которого нет в обычных веб-приложениях. Извлёк системный промпт Grok двумя способами, поймал утечку thinking tokens в NDJSON-стриме и обошёл safety-фильтры в 14 из 22 категорий. Самое неожиданное — Grok активно помогал мне себя ломать.

Еще статьи из категории

Еще статьи

← Вернуться к статьям

2 марта в 01:24

habr.comтехнологии

AI Red Teaming: спор с Grok — Часть 3.

2 марта в 01:24•

habr.com•технологии

ВСЕ СТАТЬИ

AI Red Teaming: спор с Grok — Часть 3.

Еще статьи из категории

Еще статьи

ВСЕ СТАТЬИ

AI Red Teaming: спор с Grok — Часть 3.

Еще статьи из категории

Еще статьи