Битва браузерных ИИ-агентов: Проверил, кто из них реально умеет работать в браузере. Спойлер: никто⁠⁠

Меня всегда бесило, когда очередные «эксперты» начинают кричать, что скоро ИИ заменит всех и вся. Особенно достают эти байки про то, как нейросети будут за нас код писать, сайты верстать и вообще всю рутину забирать. Ну-ну. Я решил проверить, насколько эти ваши «агенты» на самом деле умны и способны решать реальные задачи в браузере. Спойлер: офисный планктон может спать спокойно.

Я нашел в интернете полигон для испытаний — страницу с 31 задачей для браузерных агентов. Там было всё: от банального «кликнуть на чекбокс» до извращенного «нарисовать круг мышкой» и даже «прослушать аудиозапись». Идеальный тест-драйв для тех, кто обещает золотые горы.

МОИ ПОДОПЫТНЫЕ КРОЛИКИ

В бой пошли три тяжеловеса (и один залетный):

**ChatGPT** (платная подписка, $20 в месяц). Этот товарищ работает в режиме агента, и от него я ждал многого. Все-таки флагман.
**Manus** (300 бесплатных кредитов в день). Звучит заманчиво, но бесплатный сыр, как известно...
Агент от **Perplexity** в их AI-браузере Comet. Этот работал локально, прямо у меня на ноуте. Казалось бы, должен быть шустрее всех.
БИТВА НАЧИНАЕТСЯ
Наблюдать за этим было отдельным видом искусства. ChatGPT молча и методично пытался что-то делать. Manus сжег все мои дневные и бонусные кредиты, зациклившись на какой-то ерунде. А Perplexity приходилось буквально уговаривать продолжить тест, он постоянно сдавался.
РЕЗУЛЬТАТЫ, КОТОРЫЕ ВАС НЕ УДИВЯТ (ИЛИ УДИВЯТ)
1. **ChatGPT — 24/31.** Это, конечно, лучший результат. Он даже умудрился написать код, чтобы нарисовать круг мышкой, и упорно пытался прослушать аудио. Но 24 из 31 — это не 31 из 31. Далеко не идеал.
2. **Perplexity — 11/31.** Просто слабо. Несмотря на то, что он работал локально, справился только с простейшими заданиями. Мой кот, наверное, и то больше бы накликал.
3. **Manus — 9/31.** Полный провал. Есть подозрение, что он просто зациклился на одном из заданий, и я его вручную просил пропустить, чтобы он хоть что-то сделал. В итоге слил все кредиты в унитаз.
В последний момент я нашел инвайт для еще одного AI-браузера — Strawberry. Он справился еще хуже, хотя у него заявлена интересная функция: можно записать свои действия на сайте и скормить их агенту, а он потом сможет их повторять. Но, честно говоря, после такого перформанса у меня большие сомнения в эффективности этой фичи.
ВЫВОДЫ: КОРОЛИ ОФИСА МОГУТ СПАТЬ СПОКОЙНО
Мой эксперимент показал, что ИИ-агенты пока что не готовы заменить человека, который весь рабочий день сёрфит в интернете. Они не справляются с базовыми задачами, тупят, зацикливаются и требуют постоянного присмотра. Так что, если вы переживали за свое рабочее место, можете выдохнуть. По крайней мере, пока. 🤔
А вы уже делегируете задачи ИИ? Или все еще верите в сказки про тотальную автоматизацию? Жду ваших историй в комментах или в чате телеграм-канала. 👇

5.8K постов11.9K подписчиков

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

Правила сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества