Grok Илона Маска признан самым точным чат-ботом с минимальным количеством галлюцинаций, а ChatGPT и Gemini оказались внизу свежего рейтинга Relum — Grok Илона Маска признали одним из самых надежных чат-ботов с искусственным интеллектом для использования на рабочем месте. Он показал самый низкий уровень ложных срабатываний — всего 8% — на фоне 10 основных протестированных моделей. Для сравнения, лидер рынка ChatGPT показал один из самых высоких показателей ложных срабатываний — 35%, уступив лишь Gemini от Google, у которого этот показатель составил 38%. В ходе исследования, которое провел Relum в декабре, оценивались чат-боты по таким параметрам, как частота возникновения галлюцинаций, рейтинг клиентов, стабильность ответов и частота простоев. Затем чат-ботам присваивался балл риска надежности от 0 до 99, причем более высокие баллы указывали на более серьезные проблемы. Изображение Midjourney Grok показал 8% случаев возникновения галлюцинаций, рейтинг клиентов 4,5, стабильность 3,5 и время простоя 0,07%, что привело к общему показателю риска всего 6. DeepSeek занял второе место с 14% случаев возникновения галлюцинаций и нулевым временем простоя, получив превосходный показатель риска 4. Высокие показатели галлюцинаций и времени простоя ChatGPT обеспечили ему наивысший показатель риска 99, за ним следуют Claude и Meta AI, получившие показатели надежности 75 и 70 соответственно. Директор по продуктам компании Relum Разван-Лучиан Хайдук поделился своими мыслями о результатах исследования. «Около 65% американских компаний сейчас используют чат-боты с искусственным интеллектом в своей повседневной работе, и почти 45% сотрудников признают, что делились конфиденциальной информацией компании с помощью этих инструментов. Эти цифры хорошо показывают, насколько важными стали чат-боты в повседневной работе. Зависимость от инструментов искусственного интеллекта, вероятно, будет только расти, поэтому компаниям следует выбирать чат-ботов, исходя из их надежности и соответствия конкретным потребностям бизнеса. Чат-бот, которым пользуются все, не обязательно является лучшим вариантом для вашей отрасли или дает точные ответы на ваши задачи».