Почему ваш «AI-агент» тупее калькулятора, и как собрать нормального без SMS и кредитов
Всем привет! 👋
Сейчас тема AI перегрета. Каждый второй стартап пилит «революционного AI-сотрудника», а маркетологи обещают, что нейронка заменит вам отдел продаж, личного ассистента и психолога.
На деле вы покупаете красивую обёртку для ChatGPT, которая ломается от любого нестандартного вопроса.
Я занимаюсь разработкой этих систем и немного устал от того, как индустрия продает воздух. Решил написать гайд без булшита: чем реальный агент отличается от бота, почему платить $2000 за софт — это кринж, и как собрать свой сетап, который реально работает, а не просто жжет токены.
Бот vs Агент: в чем разница?
Многие путают тёплое с мягким.
Чат-бот — это NPC в игре. У него есть скрипт. Ты спрашиваешь «Где купить?» — он кидает ссылку. Шаг влево, шаг вправо — «Я вас не понимаю».
AI-агент — это джун-стажёр (а иногда уже и не стажер). Ты ставишь задачу: «Найди мне билеты в Дубай не дороже 50к и забронируй отель». Он сам гуглит, сравнивает, проверяет карту, пишет в поддержку и приносит результат.
Или пример из работы: Допустим, ты бухгалтер. Вместо того чтобы руками перебивать данные из сотни кривых PDF-сканов в 1С, ты говоришь агенту: «Распознай эти акты, проверь реквизиты и создай платежки». Агент сам всё распарсит, сопоставит номенклатуру и придет только если найдет ошибку. Ты экономишь часы жизни на самой унылой рутине.
Звучит как магия? Да. Но дьявол в деталях (и в костах).
Как нас грабят на нейронках (с цифрами)
Главная статья расходов — это LLM (Language Model). Чтобы агент был умным, его подключают к топовым моделям типа GPT-4 или Claude Opus.
И тут начинается математика, от которой больно. Чтобы агент прочитал ваши документы, подумал и ответил, нужно платить за каждый чих (токен).
Ожидание: Агент оптимизирует бизнес. Реальность: Агент сжигает $50 в день просто потому, что перечитывает всю историю переписки за месяц при каждом ответе.
Мы провели тесты (бенчмарки RuMTEB и MIRACL) и выяснили забавную вещь.
Западные сервисы берут космос. Claude Opus 4.5 — это $5/$25 за миллион токенов (вход/выход). Звучит как копейки? Агент на 1000 запросов в день сожрёт $1500 в месяц. Это зарплата живого менеджера. За скрипт.
А теперь следите за руками. Китайские модели (Qwen3 235B, DeepSeek V3.1) делают то же самое за $0.07/$0.46.
Разница — в 62 раза. Не в 2, не в 10. В шестьдесят два.
И это ещё не всё. Месяц назад Anthropic снизила цены на Claude в 3 раза. До этого было $15/$75 — и агент стоил бы $4500/мес. Прогресс!
При этом китайская модель BGE-M3 понимает русский контекст лучше, чем западные аналоги. Но вам про это не расскажут, потому что продавать подписку на OpenAI выгоднее.
💡 Лайфхак для тех, кому "просто попробовать"
Если вам агент нужен не для сложного бизнеса, а для себя — что-то поискать, собрать инфу по отпуску или быстро пересказать статью — не спешите покупать подписки за $20/мес.
Есть простой хак: на маркетплейсах и профильных форумах можно найти доступ к Perplexity на год в районе 200 рублей. Да, за целый год. Я не буду давать конкретных ссылок (не реклама), просто вбейте в поиск этот запрос. Для 90% личных задач этого хватит за глаза, и не нужно тратить кучу денег на непонятные "инновационные" сервисы.
Л — Логика (и экономия 80% бюджета)
Если же вы строите что-то серьезное, то еще один ред флаг — когда агент тупо скармливает нейронке всё подряд. Типичный кейс: вы спросили про договор, бот нашел 100 документов и отправил их на платную проверку в GPT-4. Счетчик крутится, деньги мутятся.
Мы используем Hybrid Search (гибридный поиск). Это комбинация старого доброго поиска по ключам и векторого поиска. Он бесплатно отсеивает 80% мусора на старте. В платную модель летит только топ-20 релевантных кусков.
Результат: качество то же, чек за инфру падает в 5 раз. Profit.
PDF, таблицы и боль 🤯
Вы пробовали копировать текст из PDF? Тогда вы знаете эту боль. Для нейронки PDF — это вообще ночной кошмар, особенно если там верстка поехала.
Обычно за "OCR и парсинг" сервисы просят отдельный кэш. Но есть Docling от IBM. Это open-source инструмент, который идеально разбирает документы, видит таблицы, заголовки и структуру. Мы внедрили его, и теперь агент не галлюцинирует, глядя на прайс-лист, а четко понимает: вот колонка "Цена", а вот "Скидка". И это бесплатно.
Память как у слона, а не как у рыбки
Чтобы агент помнил, что вы обсуждали неделю назад, нужна векторная база данных (Vector DB). Популярные облачные решения любят брать деньги за простой.
Наш выбор — Qdrant. Ребята делают топовый продукт, он быстрый, написан на Rust (это модно) и его можно захостить у себя на сервере. Никаких ежемесячных платежей за "хранение воздуха". Плюс он из коробки умеет в тот самый Hybrid Search.
TL;DR: Как не быть хомячком
Если вы хотите внедрить AI (себе в проект или в компанию), не ведитесь на хайп.
Не переплачивайте за бренд. OpenAI — это iPhone в мире AI. Круто, дорого, но есть Android (китайские модели), который умеет то же самое, но в 60+ раз дешевле.
Смотрите в Open Source. BGE-M3, Docling, Qdrant — это база. На ней строятся серьезные системы.
Следите за Xiaomi. Да, тот самый. Они выпустили MiMo-V2-Flash — модель за $0.10/$0.30, которая рвёт бенчмарки по математике (94% AIME 2025). Xiaomi делает не только пылесосы.
Считайте токеномику. Если ваш агент тратит $1 на ответ — это не бизнес, это благотворительность в пользу дата-центров.
AI — это мощный тул, если уметь им пользоваться, а не просто кидать деньги в монитор.
Если интересно, как мы это собираем технически (какие промпты, как деплоим, как тестим галлюцинации) — дайте знать в комментах, распишу подробнее.
Всем добра и высокого аптайма! 🖖
Автор: Игорь Масленников Пишу про AI-агентов, LLM-бенчмарки и архитектуру софта без маркетинговой шелухи.
📢 Мой канал в Telegram: @maslennikovigor — там я публикую свежие бенчмарки, лайфхаки по настройке и всякую внутрянку, которая не влезает в статьи. 💬 Личный контакт: @maslennikovig — если есть вопросы или нужна помощь с настройкой.
