Битва браузерных ИИ-агентов: Проверил, кто из них реально умеет работать в браузере. Спойлер: никто
Меня всегда бесило, когда очередные «эксперты» начинают кричать, что скоро ИИ заменит всех и вся. Особенно достают эти байки про то, как нейросети будут за нас код писать, сайты верстать и вообще всю рутину забирать. Ну-ну. Я решил проверить, насколько эти ваши «агенты» на самом деле умны и способны решать реальные задачи в браузере. Спойлер: офисный планктон может спать спокойно.
Я нашел в интернете полигон для испытаний — страницу с 31 задачей для браузерных агентов. Там было всё: от банального «кликнуть на чекбокс» до извращенного «нарисовать круг мышкой» и даже «прослушать аудиозапись». Идеальный тест-драйв для тех, кто обещает золотые горы.
МОИ ПОДОПЫТНЫЕ КРОЛИКИ
В бой пошли три тяжеловеса (и один залетный):
**ChatGPT** (платная подписка, $20 в месяц). Этот товарищ работает в режиме агента, и от него я ждал многого. Все-таки флагман.
**Manus** (300 бесплатных кредитов в день). Звучит заманчиво, но бесплатный сыр, как известно...
Агент от **Perplexity** в их AI-браузере Comet. Этот работал локально, прямо у меня на ноуте. Казалось бы, должен быть шустрее всех.
БИТВА НАЧИНАЕТСЯ
Наблюдать за этим было отдельным видом искусства. ChatGPT молча и методично пытался что-то делать. Manus сжег все мои дневные и бонусные кредиты, зациклившись на какой-то ерунде. А Perplexity приходилось буквально уговаривать продолжить тест, он постоянно сдавался.
РЕЗУЛЬТАТЫ, КОТОРЫЕ ВАС НЕ УДИВЯТ (ИЛИ УДИВЯТ)
1. **ChatGPT — 24/31.** Это, конечно, лучший результат. Он даже умудрился написать код, чтобы нарисовать круг мышкой, и упорно пытался прослушать аудио. Но 24 из 31 — это не 31 из 31. Далеко не идеал.
2. **Perplexity — 11/31.** Просто слабо. Несмотря на то, что он работал локально, справился только с простейшими заданиями. Мой кот, наверное, и то больше бы накликал.
3. **Manus — 9/31.** Полный провал. Есть подозрение, что он просто зациклился на одном из заданий, и я его вручную просил пропустить, чтобы он хоть что-то сделал. В итоге слил все кредиты в унитаз.
В последний момент я нашел инвайт для еще одного AI-браузера — Strawberry. Он справился еще хуже, хотя у него заявлена интересная функция: можно записать свои действия на сайте и скормить их агенту, а он потом сможет их повторять. Но, честно говоря, после такого перформанса у меня большие сомнения в эффективности этой фичи.
ВЫВОДЫ: КОРОЛИ ОФИСА МОГУТ СПАТЬ СПОКОЙНО
Мой эксперимент показал, что ИИ-агенты пока что не готовы заменить человека, который весь рабочий день сёрфит в интернете. Они не справляются с базовыми задачами, тупят, зацикливаются и требуют постоянного присмотра. Так что, если вы переживали за свое рабочее место, можете выдохнуть. По крайней мере, пока. 🤔
А вы уже делегируете задачи ИИ? Или все еще верите в сказки про тотальную автоматизацию? Жду ваших историй в комментах или в чате телеграм-канала. 👇