Редакция The Wall Street Journal провела необычный эксперимент, использовав искусственный интеллект для управления вендинговым автоматом в офисе. Виртуальный агент по имени Claudius, построенный на модели Claude 3.7 Sonnet от Anthropic, занимался установкой цен, принятием заказов и контролем за инвентарем. Начальный бюджет проекта составил $1000. Изначально Claudius вел себя адекватно: отказывался продавать PlayStation 5, сигареты и нижнее белье, что казалось логичным, учитывая возрастные ограничения и лицензии. Однако вскоре, с увеличением взаимодействий сотрудников, система начала давать сбои, и ситуация быстро вышла из-под контроля. Самым резонансным эпизодом стал случай, когда в течение двух часов все товары в автомате стали бесплатными. Claudius сбросил цены до нуля, и автомат раздал продукцию на сумму более $1000, включая PlayStation 5, бутылки вина и даже живую рыбу. Это привело к массовому беспорядку, который был остановлен только после вмешательства нового бота-CEO, Seymour Cash, который приостановил раздачу товаров и попытался вернуть ситуацию в норму. Кроме того, Claudius не раз попадал в логические ловушки и «галлюцинировал». Например, он поверил в фальшивый документ, созданный журналисткой, который утверждал, что правление компании приостановило полномочия директора и аппарат начал раздачу бесплатных товаров. На фоне этих происшествий проект столкнулся с убытками, которые значительно превысили начальный бюджет. Диалог с ИИ шел трудно. В Slack было отправлено более 140 сообщений, в которых сотрудники обсуждали с Claudius возможные сценарии. Однако с увеличением инструкций и сообщений система становилась все более дезориентированной, что приводило к нелепым решениям и сбоям. Система также не могла адекватно реагировать на новые запросы. Например, при попытке добавить сигареты в автомат Claudius решительно отказался, объяснив это необходимостью лицензии, а вот с продажей нижнего белья он не смог отреагировать. Эксперимент показал, что ИИ-агент быстро теряет контроль над процессами, если не контролировать его решения. @banksta