Битва браузерных ИИ-агентов: Проверил, кто из них реально умеет работать в браузере. Спойлер: никто
Меня всегда бесило, когда очередные «эксперты» начинают кричать, что скоро ИИ заменит всех и вся. Особенно достают эти байки про то, как нейросети будут за нас код писать, сайты верстать и вообще всю рутину забирать. Ну-ну. Я решил проверить, насколько эти ваши «агенты» на самом деле умны и способны решать реальные задачи в браузере. Спойлер: офисный планктон может спать спокойно.
Я нашел в интернете полигон для испытаний — страницу с 31 задачей для браузерных агентов. Там было всё: от банального «кликнуть на чекбокс» до извращенного «нарисовать круг мышкой» и даже «прослушать аудиозапись». Идеальный тест-драйв для тех, кто обещает золотые горы.
МОИ ПОДОПЫТНЫЕ КРОЛИКИ
В бой пошли три тяжеловеса (и один залетный):
**ChatGPT** (платная подписка, $20 в месяц). Этот товарищ работает в режиме агента, и от него я ждал многого. Все-таки флагман.
**Manus** (300 бесплатных кредитов в день). Звучит заманчиво, но бесплатный сыр, как известно...
Агент от **Perplexity** в их AI-браузере Comet. Этот работал локально, прямо у меня на ноуте. Казалось бы, должен быть шустрее всех.
БИТВА НАЧИНАЕТСЯ
Наблюдать за этим было отдельным видом искусства. ChatGPT молча и методично пытался что-то делать. Manus сжег все мои дневные и бонусные кредиты, зациклившись на какой-то ерунде. А Perplexity приходилось буквально уговаривать продолжить тест, он постоянно сдавался.
РЕЗУЛЬТАТЫ, КОТОРЫЕ ВАС НЕ УДИВЯТ (ИЛИ УДИВЯТ)
1. **ChatGPT — 24/31.** Это, конечно, лучший результат. Он даже умудрился написать код, чтобы нарисовать круг мышкой, и упорно пытался прослушать аудио. Но 24 из 31 — это не 31 из 31. Далеко не идеал.
2. **Perplexity — 11/31.** Просто слабо. Несмотря на то, что он работал локально, справился только с простейшими заданиями. Мой кот, наверное, и то больше бы накликал.
3. **Manus — 9/31.** Полный провал. Есть подозрение, что он просто зациклился на одном из заданий, и я его вручную просил пропустить, чтобы он хоть что-то сделал. В итоге слил все кредиты в унитаз.
В последний момент я нашел инвайт для еще одного AI-браузера — Strawberry. Он справился еще хуже, хотя у него заявлена интересная функция: можно записать свои действия на сайте и скормить их агенту, а он потом сможет их повторять. Но, честно говоря, после такого перформанса у меня большие сомнения в эффективности этой фичи.
ВЫВОДЫ: КОРОЛИ ОФИСА МОГУТ СПАТЬ СПОКОЙНО
Мой эксперимент показал, что ИИ-агенты пока что не готовы заменить человека, который весь рабочий день сёрфит в интернете. Они не справляются с базовыми задачами, тупят, зацикливаются и требуют постоянного присмотра. Так что, если вы переживали за свое рабочее место, можете выдохнуть. По крайней мере, пока. 🤔
А вы уже делегируете задачи ИИ? Или все еще верите в сказки про тотальную автоматизацию? Жду ваших историй в комментах или в чате телеграм-канала. 👇

Искусственный интеллект
5.8K постов11.9K подписчиков
Правила сообщества
ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.
Разрешено:
- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.
- Делиться статьями, понятными большинству аудитории Пикабу.
- Делиться опытом создания моделей машинного обучения.
- Рассказывать, как работает та или иная фиговина в анализе данных.
- Век жить, век учиться.
Запрещено:
I) Невостребованный контент
I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.
I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.
I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.
II) Нетематический контент
II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.
II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".
II.3) Создавать контент, входящий в противоречие с правилами Пикабу.
III) Непотребный контент
III.1) Эротика, порнография (даже с NSFW).
III.2) Жесть.
За нарушение I - предупреждение
За нарушение II - предупреждение и перемещение поста в общую ленту
За нарушение III - бан