«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности. Компания Anthropic опубликовала анализ безопасности своей последней модели Claude Sonnet 4.5. Разработчики столкнулись с неожиданным эффектом: во время проверки на политическую предвзятость система сама заподозрила, что ее тестируют.