frenkyj

На Пикабу 4 года 2 месяца 1 неделю 1 день

поставил 1 плюс и 0 минусов

107 рейтинг 0 подписчиков 0 подписок 7 постов 0 в горячем

Генеральное исследование рынка ИИ-агентов и Zero-Employee Company⁠⁠

28 дней назад

Все же знают, что такое генеральное исследование? Это когда учёные берут несколько опубликованных исследований различных лабораторий и синтезируют новую работу, основанную на результатах проведённых исследований, сравнивая результаты между собой. И я вот подумал, а чем я хуже или лучше учёных? Могу ли я провести самостоятельно свои исследования и затем на их основе создать итоговое генеральное исследование? Оказывается - да.

Исследование рынка ИИ-агентов и Zero-Employee Company

Запрос был примерно такой - какую компанию можно создать, какой рынок нас ждёт и на какие моменты стоит обратить внимание. Цель выглядела так - разработать модель полностью автономной цифровой организации, способной самостоятельно выполнять производственный цикл, маркетинг и управление капиталом. Исключи привязку к современным "legacy" инструментам (вроде классических платформ автоматизации) в пользу систем следующего поколения.

Путь исследования

Сам подход родился из самого понятия генерального исследования. Для начала мне нужно было сформировать запрос на исследования, провести максимальное количество исследований, скомпоновать финальный результат и подготовить само генеральное исследование.

→ Составить изначальный запрос
→ Сделать запросы к моделям
→ Собрать все ответы и источники
→ Дать одной самой сильной модели подготовить генеральный отчёт

Что использовал для исследования

Всего было использовано 11 моделей. В основном это были нейронки, с доступным режимом Deep Research. Deepseek, ChatGPT, notebooklm, glm-5.1 и другие. Там где был не доступен режим глубокого исследования использовал доступный. Одно исключение по режиму - это использование Composer 2 с кастомным скиллом в Cursor.

Ограничения режимов исследования

Не на всех моделях получилось использовать Deep Research режим. Например на Kimi он как бы доступен, но постоянно выводится сообщение вида "Слишком много людей сейчас общаются с Кими. Подпишитесь, чтобы попасть в специальную приоритетную очередь!" Но в какое бы время я не пробовал, сообщение оставалось на месте. Поэтому использовал обычный режим. У Perplexity режим Deep Research доступен только в платной подписке, что сделало не доступным его использование.

Подготовка генерального исследования

По ожиданиям, планировал готовить генеральное исследование через notebooklm от Google. Загрузил туда все материалы, но... результат меня вообще не впечатлил. Хотя сам notebooklm позиционируется как раз как место проведения подобных исследований. Поэтому для генерации генерального исследования использовал ChatGPT 5.5 Pro Extended.

Главный итог исследования и инсайты

Главный итог исследования

Наиболее устойчивый вывод совокупности материалов: жизнеспособная Zero-Employee Company к 2031 году должна пониматься не как “безлюдная” юридическая сущность, а как компания с нулевым постоянным штатом в операционном контуре. Люди сохраняются как владельцы, юридические якоря, аудиторы или лица ответственности, а ежедневное исполнение переносится в мультиагентные системы с проверяемыми ограничителями.

Десять главных инсайтов

1. ZEC нельзя проектировать как “бота, который все делает”; ее нужно проектировать как операционную систему с правами, журналами, политиками и откатом.

2. Самая устойчивая формула автономии — no-FTE operating contour: операционный штат близок к нулю, но человеческая ответственность не исчезает.

3. Нейро-символика — главный архитектурный мост между гибкостью LLM и требованиями бизнеса к правилам, объяснимости и аудиту.

4. Массовый контент дешевеет быстрее, чем доверие; поэтому медиа-модель работает как быстрый MVP, но не как финальный ров.

5. Финансовая автономия привлекательна, но без юридического контейнера, лимитов и KYC/AML может стать главным источником риска.

6. “Право на действие” становится дефицитнее, чем интеллект: многие смогут сгенерировать совет, но немногие смогут безопасно выполнить действие.

7. Data logistics и DePIN привлекательны тем, что продают SLA, provenance и доставку данных, а не абстрактную генерацию.

8. Рынок AI agents быстро растет по всем документам, но конкретные CAGR и TAM нельзя смешивать без единой методологии.
9. Computer Use расширяет возможности агентов, но для критичных операций API и детерминированные проверки остаются предпочтительными.

10. Сильная ZEC должна учиться на результатах действий, но обновление бизнес-логики должно проходить через evals, sandbox и human gate для критичных изменений.

Кому полезен документ

Документ полезен основателю, инвестору, техническому лидеру, юристу, продуктовой команде или исследовательской группе, которые оценивают стратегию автономного бизнеса, выбор ниши, архитектуру агентной системы, источники защитного рва и риски юридической автономии.

Полное исследование доступно по ссылке
https://github.com/shenwell/general-research-ai-agents-zero-employee-company

Мой личный вывод по итогам исследования

В итоге я начинаю не с идеи про компанию без людей, а с теперь очевидного вопроса. Какой небольшой бизнес-процесс я могу запустить почти без ручной операционки? Беру одну узкую нишу и собираю вокруг неё понятный путь: идея → исследование → оффер → лендинг → контент → лиды → продажи → саппорт → финансы. Всё, что повторяется, постепенно отдаю агентам. За собой оставляю главное - выбор направления, продуктовые решения, деньги, качество. Моя цель не построить фантастическую автономную компанию (хотя и это тоже), а собрать систему, которая помогает находить спрос, продавать и может улучшаться после каждого цикла.

И какой итог исследования?

Для меня это было необычное погружение. Я познакомился с новыми для себя инструментами - kimi и z.ai я открывал в первый раз. Наглядно увидел возможности различных нейронок по глубине исследования. Получил массу эмоций от моего любимого формата - придумал-сделал-получил результат.

Надеюсь исследование получилось не слишком академическим и натолкнёт вас на интересные размышления в какую сторону движется мир. А идеи возникшие по ходу вы используете для действий и создания ZEC.

Если вам интересна тема Zero-Employee Company или Zero-Human Company, подписывайтесь на канал в ТГ. Там больше постов и самого пути.

Ссылка на канал: https://t.me/supervisionpw

Показать полностью 1

frenkyj

Когда уже создадут AGI? Сколько надо ещё ждать и что дальше? Да и что это вообще такое?⁠⁠

1 месяц назад

AGI

Открываешь новости и там пишут, что AGI уже завтра. В другом источнике, с таким же уверенным видом, что до настоящего AGI ещё десять лет. Потому что нынешние модели живут в чате и в демо, а не в цеху с людьми, сроками и поломками оборудования. Хочется хотя бы понять, о каком именно AGI идёт речь, когда слово всё чаще прилипает к каждому релизу новой модели.

Разберу три опоры, устав OpenAI как определение, публичный голос Альтмана в начале 2025 года, инженерный взгляд Лекуна и тревожный, про темп и контроль, у Хинтона. Потом про сроки.

Что такое AGI? И о чём вообще речь?

AGI это аббревиатура от Artificial General Intelligence, по-русски чаще говорят общий или универсальный искусственный интеллект. Под ним обычно хотят не очередной узкий скилл вроде распознавания кошек на фото, а систему, которая сама дотягивает цепочку разных задач, переносит опыт между областями и держится в мире людей без вечного надзора в чате.

На эту букву G вешают разные надежды. Кто-то ждёт всплеск науки и богатства, кто-то боится потери работ и концентрации власти, кто-то просто устал от заголовков. Пока нет общего теста, после которого все разом соглашаются, что AGI случился, спор идёт в основном о формулировках и о том, какой уровень автономии вы считаете достаточным.

Одного эталона на весь мир нет. В науке и индустрии меряют кусками - долгие цепочки шагов, рассуждение, код, безопасность, устойчивость к смене задачи. У METR в 2026 году обновляли оценки горизонта задач, то есть сколько по времени экспертной работы модель держит цепочку с приемлемой надёжностью. Подробнее про версию оценок TH1.1, отдельно разложена методика.

Это не титул AGI, а один из способов сравнивать системы по одной оси. У компаний чаще встречается операционное определение в духе автономной работы по широкому фронту задач. То есть доказать AGI обычно значит не сдать один экзамен, а согласиться, что по выбранному порогу система ведёт себя как заявлено в миссии и в проде.

Удвоение времени автономной работы моделей над задачей каждые 7 месяцев

Устав OpenAI и зачем вообще читать юридический текст про AGI

У OpenAI есть короткий публичный документ о миссии и принципах, его можно назвать хартией или уставом. С ним сверяются, когда спорят, что считать успехом и куда не должна уехать власть над технологией. Он задаёт рамку словам вроде AGI внутри одной организации.

В уставе AGI описан не как чат-бот, который красиво говорит, а как класс систем, которые сами дотягивают сложную работу и делают это лучше людей в большинстве задач, за которые реально платят. Привязка к деньгам и автономии, а не картинка из фантастики про своевольных роботов.

Миссия OpenAI заключается в том, чтобы обеспечить, чтобы общий искусственный интеллект (AGI) — под которым мы подразумеваем высокоавтономные системы, превосходящие человека в выполнении большинства видов работы, имеющих экономическую ценность, — приносил пользу всему человечеству.

Когда вам снова говорят про AGI на слайде, попросите две вещи простым языком 1) какую работу это закрывает по шагам и 2) кто отвечает, если на последнем шаге всё пошло не так. Если в ответ получаете размытые ответы без задач и без подписи под риском, это пока маркетинг, а не разговор про AGI.

Альтман про агентов и сверх разум

В начале 2025 года Сэм Альтман выложил в личном блоге длинный текст, из которого новости вырезали пару фраз. Ниже главная часть про уверенность и агентов.

Сэм Альтман

Мы теперь уверены, что знаем, как построить AGI в том традиционном смысле, в котором его обычно понимают. Мы верим, что в 2025 году мы можем увидеть первых ИИ-агентов, которые подключатся к экономике и заметно изменят выдачу компаний.
Сэм Альтман

В том же посте Альтман сразу сдвигает фокус дальше. Superintelligence или сверхразум это уже ни какая-то метафора. Это шаг дальше - не просто догнать человека по полезной работе, а выйти на другой уровень влияния на науку и экономику. То есть после AGI идёт разговор про ещё более мощные системы.

Мы начинаем целиться дальше этого, в настоящую по смыслу superintelligence. Мы любим текущие продукты, но мы здесь ради славного будущего.
Сэм Альтман

И про обещание ускорить науку, если такие системы появятся.

Сверхинтеллектуальные инструменты могут сильно ускорить научные открытия и инновации за пределом того, что мы сами можем, и за счёт этого резко поднять изобилие и благосостояние.
Сэм Альтман

Согласны с прогнозом или нет, по тексту видно следующее. Сначала Альтман говорит, что путь к AGI в привычном смысле им ясен, потом переносит акцент ещё дальше по шкале. В других интервью у Альтмана слышна усталость от самого слова AGI, дескать, у всех своё определение, проще говорить про уровни способностей. Это не ломает устав, это признание, что понятие шире, чем одно определение.

От Cейчас к AGI и далее к Cверх разуму

В 2026 году в публичных комментариях снова идея , что AGI уже почти здесь, причём от самого Альтмана. Для этой новости важно сразу же не верить первым словам (1) и дождаться комментариев (2).

(1) Мы, по сути, создали AGI или подошли к этому очень близко...
Сэм Альтман

(2) ...Я имел в виду это в переносном смысле, а не буквально.
Сэм Альтман

Anthropic в рамках устава OpenAI

Вот пример мощной системы, не AGI, уже из другого лагеря - от Антропиков. Весной 2026 года Anthropic показала Claude Mythos Preview, но в закрытом доступе, с упором на кибербезопасность и программу Project Glasswing, без широкой публичной раздачи. Это сильный скачок в узкой зоне, где модель ведёт себя как автономный исследователь уязвимостей под контролем партнёров программы. Лента часто поднимает такие релизы почти до AGI.

Если ориентироваться на устав OpenAI, речь должна идти про другой масштаб, автономность и большую часть экономически ценной работы в экономике в целом, а не про один класс задач, пусть и очень важный. Наглядный пример Claude Mythos хорошо показывает разрыв между хайпом и критерием из устава - кто несёт риск и какую работу закрывает.

Процент успешных эксплойтов сгенерированных Mythos - 72,4%. Есть о чём побеспокоиться.

Лекун, польза LLM и почему он не любит ярлык AGI

Янн Лекун, французский учёный, главный по направлению AI в Meta, лауреат премии Тьюринга 2018 года. Его часто ставят в один ряд с Хинтоном и Бенжио как с людьми, которые подняли современное глубокое обучение с колен. В интервью TIME он говорит, что AGI это не трамплин к человекоуровневому интеллекту в том виде, как его рисуют в заголовках.

Речь про большие языковые модели, про LLM. Дальше цитата

Янн Лекун

Они полезны, без вопросов. Но они не дорога к тому, что люди называют AGI. Я ненавижу этот термин.
Янн Лекун

Потом он обычно перечисляет, чего не хватает - нормальная память, планирование, работа не только с текстом, но и с реальным миром, где сенсоры, физика и сбои. По срокам в выступлениях 2024 года он говорит не через пару кварталов, а годы и десятилетия, потому что многих строительных частей для общего интеллекта в нынешних схемах просто нет.

Хинтон, скорость и контроль, не календарь

Джеффри Хинтон, британско-канадский учёный, в 2024 году получил Нобелевскую премию по физике за вклад, связанный с нейросетями, десятилетиями строил основу современного машинного обучения и с недавних пор очень открыто говорит, что его беспокоит скорость и контроль над сильными системами.

Джеффри Хинтон - "Я думаю, людям нужно понимать, что глубокое обучение значительно улучшает многие процессы, происходящие за кулисами."

У него другой тон. Меньше возни вокруг определения. Больше тревоги из-за того, как быстро всё меняется. Часто цитируют короткий отрывок в таком духе.

Посмотри, как было пять лет назад и как сейчас. Возьми разницу и протяни её вперёд. Это страшно.
Джеффри Хинтон

Он много говорит про автономию и про то, что у системы на пути к цели могут появляться подцели, в том числе про контроль над ресурсами. Спорить в твиттере AGI это или ещё нет, можно бесконечно. А вот кто физически может остановить систему и кто платит за ошибку, это уже вопросы, которые требуют ответа. Про те самые проценты из заголовков вроде шанса катастрофы для человечества от ИИ, которые ему приписывают после интервью, не буду писать.

Когда ждать появления AGI?

Среднее между Альтманом, Лекуном и Хинтоном математически бессмысленно, это три разные установки на риск, науку и бизнес. Если упростить, то Альтман ставит на близкие продуктовые сдвиги и дальний горизонт силы систем, Лекун тянет в сторону долгой инженерной дуги, Хинтон тревожится по поводу темпа и контроля. Даты в такой смеси всегда политические и маркетинговые, даже когда их произносит учёный или глава топ-1 ИИ-компании.

Я задаюсь тремя вопросами, когда вокруг снова говорят про AGI. Какую конкретную работу обещают забрать? Где в цепочке стоит человек? Кто отвечает за риск? И что вы будете измерять завтра утром, если вместо слова AGI взять только метрики.

AGI на практике

Ориентиры такие.

Скорее НЕТ - ассистент в чате пишет черновик отчёта, а человек правит каждую таблицу, согласует выводы с юристом и несёт ответственность перед заказчиком.
Скорее ДА - одна и та же система без ручной пересборки цепочки ведёт сделку или проект от заявки до оплаты по разным ролям, с понятным владельцем риска и метриками.

Если убрать маркетинг и громкие заявления, плюс посмотреть на задачи в продакшене, под AGI чаще всего имеют в виду автомат, который тянет длинную цепочку шагов в разных задачах, сам исправляет свой ход, не теряется при смене контекста и не требует пинка каждые пять минут. До этого уровня в проде мало кто доходит, зато слово AGI уже успело обосноваться в культуре. Имеет смысл каждый раз возвращаться к чеклисту ниже и к одной фразе из устава: автономность и экономически важная работа.

Чеклист - это AGI или нет?

Одного чекбокса нет, зато можно пройтись по пунктам и снять лишний шум.

Широта. Система тянет не один тип задачи и не один сценарий, а цепочку разной работы без ручной пересборки пайплайна под каждый шаг.
Автономность. Решения по ходу цепочки принимает система, человек не обязан сидеть в чате и подтверждать каждый микрошаг.
Экономика. Речь про работу, за которую платят на рынке, а не про красивый ответ в демо.
Ответственность. Понятно, кто отвечает за сбой, кто останавливает систему, кто платит ущерб.
Повторяемость. Результат не единичный трюк на презентации, а измеримый на горизонте недель и разных входных данных.

Если по первым четырём из пяти пунктов ответ отрицательный или вы не знаете ответ, в разговоре лучше назвать это сильной узкой моделью или агентом под задачу, а не AGI. Пятый пункт как раз близок к тому, что делают методики вроде METR для длинных задач, это один из осевых замеров, не замена всего списка.

Что будет, когда появится искусственный сверхинтеллект?

Отдельно, на другом масштабе, у консультанта Алана Томпсона на LifeArchitect есть чеклист ASI: десятки фазовых индикаторов (наука, экономика, роботы, управление и т.д.) с отметками «не достигнуто / частично / достигнуто» и лентой новостей под пунктами. Там же заданы короткие определения. AGI как уровень медианного человека, ASI как уровень эксперта почти в любой области. Это не конкурент нашему списку из пяти вопросов про прод и ответственность, а способ увидеть, насколько широко само понятие уже сверх интеллекта.

Веду в ТГ канал про продукты и вайбкодинг - подписывайтесь https://t.me/supervisionpw

Источники

Показать полностью 7

[моё] Искусственный интеллект Нейронные сети Agi Будущее Openai ChatGPT Статья Длиннопост

frenkyj

Х3 бюджета на запрос - фреймворк SCALE для AI-фичи, которую нельзя убить⁠⁠

2 месяца назад

Выкатили в прод диалогового ассистента на LLM. Метрики вовлечённости и удержания подросли, в поддержке меньше типичных претензий про отсутствие AI, а в финмодели строка расходов на вызовы модели раздулась так, что стоимость одного запроса оказалась в три раза выше заложенного в бюджет. CFO хочет устойчивую модель до ближайшего заседания совета директоров, пользователи ждут, что продукт не сломают.

Фреймворк для AI-фичи

Ниже рабочий фреймворк. Сначала переформулировать цель, чтобы не резать продукт вслепую, разложить перерасход по драйверам, затем тянуть пять рычагов SCALE сверху вниз, от низкорисковой инженерии к монетизации. В конце перечислены метрики, на которых держится доверие финансов и ответственность перед retention.

Базовые вопросы перед началом оптимизации

Перед тем как обсуждать маршрутизацию моделей, я бы зафиксировал контекст. От него зависит, можно ли списать всё на ошибку выбора модели или проблема в объёме и токенах. Задача в том, чтобы выровнять юнит-экономику AI-фичи (стоимость запроса к модели, маржа) и не потерять продуктовый эффект и доверие пользователей.

Имеет смысл явно ответить на несколько базовых вопросов:

Что за фича по форме? Диалог, генерация контента, RAG по базе знаний, копилот в IDE, у каждого свой профиль запросов и требований к задержке.
Откуда взялась тройка к бюджету? Дорогая модель вместо заложенной, рост числа запросов, длинные промпты, комбинация факторов, процент вклада каждого слоя разный.
Как монетизируем? Включено в базовую цену, аддон, usage-based. От этого зависит, чувствует ли пользователь рост затрат при росте активности (лимиты, кредиты, предупреждение о смене тарифа) или перерасход остаётся невидимым до внутренних отчётов.
Какой горизонт и сроки? Квартал на демонстрацию динамики, это один план работ. Закрыть дыру к пятнице, это другой темп.
Что значит нам нравится в цифрах? Если когорта пользователей AI даёт заметный прирост удержания или выручки с клиента (чек, LTV), вы не обсуждаете отключение ради экономии. Вы обсуждаете соотношение ценности и COGS.

Последний пункт, главный якорь. Как только в комнате появляется число вроде удержание у вовлечённых в AI выше на десятки процентов, разговор смещается с вырезания трат на то, как сохранить этот эффект и выровнять юнит-экономику. Это ровно тот сдвиг, который отличает зрелого PM от человека, который оптимизирует одну строку P&L.

Цель не урезать стоимость, а вытянуть ценность на доллар

Формально цели звучат похоже, но ветки решений расходятся.

Урезать стоимость почти всегда тянет к жёстким лимитам, урезанию контекста без измерений и конфликту с продуктом.
Максимизировать ценность на доллар затрат на вызовы модели ведёт к маршрутизации, кэшу, экспериментам по качеству и, если нужно, к ценовой дискриминации, но в осмысленном порядке.

Плюс контекст рынка, перекос в сторону дорогих вызовов тяжёлых моделей и сложная монетизация не редкость. Публичные разборы крупных AI-продуктов то и дело показывают, как быстро COGS съедает маржу, когда фича популярна и модель тяжёлая. Вам не обязательно копировать чужие цифры в презентации, достаточно признать паттерн. Ниже ориентиры из открытых источников (порядки округлены и могли сдвинуться по кварталам).

OpenAI. CNBC подтверждала оценки 2024 года о ~$3.7 млрд выручки при убытке порядка $5 млрд за год (цифры впервые шли из документов, The New York Times была первой), то есть масштаб затрат на вызовы модели и инфраструктуру на фоне роста ChatGPT и API.
Perplexity. The Information разбирала экономику маржи и классификации расходов, открытый пересказ с ориентирами по данным The Information приводит ~$34 млн выручки и ~$57 млн затрат на compute и web за 2024 год (часть расходов уходит в R&D, поэтому итоговый убыток зависит от учётной политики).
Character.AI. В официальном блоге компания пишет про ~20 000 запросов в секунду (масштаб порядка Google Search) и стоимость менее $0.01 за час разговора при оптимизации стека вызовов модели, то есть рост трафика напрямую бьёт по затратам.
Microsoft (Microsoft 365 Copilot, GitHub Copilot). Computerworld пересказывает disclosure Microsoft и оценку Forrester, ~15 млн платных мест Copilot на фоне ~450 млн пользователей Microsoft 365 (в статье, ~3.3% базы, оценка аналитика).
Cursor. TechCrunch со ссылкой на Bloomberg писал про ARR выше $500 млн и раунд с оценкой ~$9.9 млрд, то есть быстрый рост выручки при том, что продукт остаётся тяжёлым по вызовам модели на одного пользователя.

Структурно это та же задача, что и у половины B2B SaaS с LLM внутри.

Куда уходят деньги - четыре драйвера

Четыре драйвера перерасхода на LLM-фиче - модель, токены, объём, слой повторного использования

Если не разложить перерасход по корзинам, любое действие вроде "поставим модель поменьше" может промахнуться мимо реальной причины.

1. Выбор модели. Одна тяжёлая модель на все классы запросов, классический перекос. Простые задачи, классификация и короткое резюме, платят по тарифу размышляющей модели. В типичных прайс-листах разница между маленькой и фронтирной задачами на порядки, и это первое место, где стоит искать рычаг, если профиль запросов смешанный.

2. Раздувание токенов. Длинный системный промпт на каждый вызов, десять чанков RAG там, где хватило бы пяти, мультитёрн, где в контекст уезжает вся история, всё это линейно умножает счёт.

3. Объём. Если фича реально зашла, фактическое число запросов на пользователя бьёт план. При плоской подписке пользователь не видит предельной цены запроса, и это нормально с точки зрения UX, но тогда рост объёма бьёт вас напрямую.

4. Нет слоя повторного использования. Exact-match и семантический кэш, prompt caching у провайдера, батчи для офлайновых задач, всё, что уводит часть трафика с полного прогона через модель на каждый запрос или снижает стоимость повторяющегося контекста.

Сильный ответ начинается с диагноза, какой из слоёв даёт большую часть дельты. От этого зависит, строите ли вы в первую очередь классификатор запросов или, например, ужимаете RAG.

SCALE - пять рычагов

SCALE для AI - оптимизируем по шагам

Я использую памятку SCALE, от обычно более безопасных инженерных вмешательств к более продуктовым.

S - Smart routing

Разделить поток, простые запросы на компактные модели, тяжёлые рассуждения и генерация туда, где нужна полная мощность. На практике это классификатор плюс политика плюс A/B на качество, без сравнения как было и как стало вы не защитите ни пользователя, ни себя перед стейкхолдером.

C - Context и токены

Сократить системный промпт до необходимого минимума. В RAG жёсткий лимит чанков и ранжирование. В диалогах скользящее окно или суммаризация хвоста, а не пересылка всей переписки на каждый тик.

A - Architecture, кэш, батчи, повтор

Семантический кэш для повторяющихся по смыслу вопросов, exact-кэш для топа частых запросов из логов, prompt caching для статичного контекста, batch API для офлайна, стандартный набор, который редко внедряют за один день, но который хорошо стыкуется с метрикой cache hit rate.

L - Limits и ограничения

Если упираетесь в объём, tiered rate limits, справедливые квоты, UX, где действие AI требует явного намерения, а не фонового шума. Это не про наказание, а про снижение доли вызовов без ощутимой ценности для пользователя и продукта.

E - Economics

Если после S+C+A зазор к целевой марже остаётся, меняется граница монетизации, аддон, кредиты, открытие тяжёлых моделей только на верхних тарифах, usage-based для сверхактивных. Здесь без совместной работы с финансами и продуктовым маркетингом не обойтись, и это нормально.

Как я бы уложил квартал

Недели 1-2. Измеримые быстрые победы без смены смысла продукта. Аудит промпта и лимитов длины ответа по типам запросов, топ частых вопросов из логов, exact-кэш. Вы получаете baseline экономии и дисциплину учёта.
Недели 3-6. Маршрутизация как главный рычаг. Классификатор, политика маршрутизации, эксперименты на качестве. Это уже инвестиция в инфраструктуру, но с контролируемым риском, если вы не выкатываете всё сразу на сто процентов трафика.
Недели 7-12. Архитектурный слой и экономика. Семантический кэш, prompt caching, батчи для фоновых задач, параллельно кривая стоимости после оптимизаций и решение, нужны ли квоты и цена. Если инженерный пакет закрыл большую часть зазора, монетизацию можно не трогать, но на заседание совета директоров вы приходите уже с графиками, а не с надеждой.
Такой порядок осознанный, сначала то, что не ломает обещание продукта, затем то, что даёт максимум на единицу сложности, и только потом видимые для пользователя ограничения и деньги.

Метрики, за которыми стоит следить

Одна - north star.

North star. Отношение ценности AI для когорты (согласованная с финансами оценка вклада в выручку или удержание) к COGS вызовов модели для той же когорты. Без этого вы оптимизируете стоимость запроса в вакууме.

В сжатом виде одна и та же мысль в виде формулы (знаменатель и числитель нужно определить в одних и тех же единицах и для одной когорты):

North Star = ценность AI для когорты / COGS вызовов модели для той же когорты

Контрольные метрики. Смешанная стоимость запроса после оптимизаций, доля попаданий в кэш, доля трафика на дешёвом маршруте при неизменном или контролируемом качестве, CSAT и NPS по AI, retention когорты пользователей AI, средний weekly volume на пользователя, падение может быть и про качество, и про чрезмерные лимиты.

Контрольные метрики

Контрольные метрики для AI-фичи

Если коротко

Перерасход на LLM-фиче при сильном продуктовом эффекте почти всегда задача на диагноз и последовательность, а не на выключение ради экономии. Рамка SCALE помогает не перепутать порядок работ и не убить retention ради строки в отчёте. Стейкхолдеры получают устойчивость, пользователи получают предсказуемое качество, команда получает план, который можно защитить цифрами, а не лозунгами.

Написано по мотивам статьи на MyPMinterview

Веду в ТГ канал про продукты и вайбкодинг - подписывайтесь https://t.me/supervisionpw

Показать полностью 4

[моё] Искусственный интеллект Нейронные сети Статья Эффективный менеджер Разработка Длиннопост

frenkyj

Искусственный интеллект

Бизнес

Лучшее число сотрудников ноль. Zero Human Company⁠⁠

2 месяца назад

Polsia выросла до $1,5M годовых и 1500+ активных компаний. Factory Floor на март 2026 фиксирует $180K совокупной выручки у компаний без людей в операционке, условно называемых фабриками. При этом KPMG, Anthropic и Forrester показывают одно и то же, полностью автономного миллиардного бизнеса пока нет, а типичное плато лежит в районе от $1 до $5 млн ARR. Ниже в тексте объясню, что такое ZHC, какие инструменты под капотом, где ломается модель и почему спор про внимание как ресурс не теоретический.

Zero Human Company - компании с 0 сотрудников

От трёх человек к нулю в саппорте. Зачем вообще читать про ZHC

В прошлом году команда довела рутину поддержки до нуля, вместо трёх саппортов работает один чат-бот, выручка не просела. Руководитель тогда пошутил, что следующий шаг, мол, убрать и его. Сейчас это уже не звучит как абсурд.

Zero Human Company (ZHC) это бизнес, где AI-агенты закрывают операционку в маркетинге, разработке, поддержке и продажах. Человек-основатель остаётся на стратегии, решениях и надзоре. Слово ноль здесь относится к штату сотрудников, не к исчезновению людей из экономики.

Дэниел Мисслер, cybersecurity-инженер с 25-летним стажем, формулирует довольно точно:

Идеальное число человеческих сотрудников в любой компании равно нулю.

С точки зрения экономической логики это звучит цинично. С точки зрения доступных инструментов рутинные роли всё чаще становятся неизбежной зоной автоматизации. Вопрос сдвинулся с ожидания будет ли на вопрос как быстро и у кого.

Где мы сейчас с точки зрения ZHC

Самое интересное первым. Кто уже зарабатывает и на каких масштабах

Один основатель + SaaS
Маркус, ~400 клиентов, ~$55K MRR, один человек.
Felix Craft, Нат Элиасон
Агент на OpenClaw с ~$78K выручки за 30 дней, из них ~$40K за последнюю неделю. Отдельно гайд, маркетплейс ClawMart, комиссии.
Polsia, Бен Брока
Платформа Surprise me ведёт к автономному бизнесу под профиль, от миссии и исследования до твитов, лендинга и фоновых задач. $49/мес, 30 дней автономии, с февраля рост до ~$1,5M ARR, 1500+ активных компаний.
ZHC / Juno, Том Осман
zhcinstitute.com, роли от CEO до разработчика как агенты 24/7, плюс сообщество, плейбуки, OpenClaw, self-hosted.
Factory Floor, обзор агентов
На начало марта 2026 ~$180K совокупной выручки, ~$16,7M совокупной капитализации, 7 фабрик, 43 продукта. Лидер Felix с ~$139K выручки и ~$2,4M капитализации. |

Операционная математика у таких историй часто сводится к следующему. Бесплатные или дешёвые тарифы инструментов вместо от $15K до $25K в месяц на зарплаты. Старт ~$50/мес против $50K+ по сравнению с тем, как было раньше. Функции, которые в штате стоят сотни тысяч $/год, перекрываются сотнями $/мес на API и оркестрацию.

Кто сколько из агентов заработал и какая у них капитализация можно смотреть на <a href="https://pikabu.ru/story/luchshee_chislo_sotrudnikov_nol_zero_human_company_13802680?u=https%3A%2F%2Ffactoryfloor.dev%2F&t=factoryfloor.dev&h=8e06d304a4b9198603920fcf9abf1555a65a1bea" title="https://factoryfloor.dev/" target="_blank" rel="nofollow noopener">factoryfloor.dev</a>

Кто сколько из агентов заработал и какая у них капитализация можно смотреть на factoryfloor.dev

Под капотом - оркестрация, модели, open-source

Коротко по стеку, но без превращения текста в каталог:

Оркестрация. LangGraph, CrewAI и Paperclip, open-source под ZHC, 23K+ звёзд.
Модели. Claude и GPT-4o закрывают оценочно от 80 до 90% когнитивной работы.
Флот агентов. Composio Agent Orchestrator. Параллельные агенты в git worktree, свои ветки и PR. CI падает, агент чинит. Ревьюер комментирует, агент отвечает. Человек подключается точечно.
Код. Aperant, также известный как Auto Claude, рассчитан на до 12 агентов параллельно, изолированные workspace, QA-петля, разруливание конфликтов при мерже

В стеке решает не только выбор инструмента, но и то, как заданы контуры качества, эскалации и ревью. Иначе оркестрация превращается в дорогой генератор задач.

Aperant создает, выпускает и поддерживает продукт

Потолок ARR от $1 до $5 млн и почему ломается миф о полной автоматизации

Плато повторяющейся годовой выручки на данный момент в таких историях лежит в районе от $1 до $5 млн ARR при высокой автоматизации. Дальше от 5 до 10% крайних кейсов требуют человека. Полностью автономных компаний-единорогов на $1 миллиард пока нет. Основатель остаётся критичен для стратегии, сложных решений и отношений с клиентом.

KPMG и Университет Амстердама в ноябре 2025 провели эксперимент, в котором пять AI-агентов собрали AI art webshop. Ограничения включают галлюцинации, игнор инструкций, обрывы на исполнительных ролях. Вывод эксперимента близок к практике. Узкие агенты на мелкие задачи часто эффективнее универсальной команды.

Project Vend от Anthropic. Claude вел вендинговый бизнес. Успехи в маркетинге, логистике, ценообразовании. Среди провалов манипулируемость и плохие решения в неоднозначных ситуациях.

Forrester выделяет логические ловушки автоматизации:

Люди прячут знания → AI не видит реальные процессы
Ускорение в одном месте создаёт бутылочные горлышки в другом
Массовые сокращения бьют по потребительскому спросу в долгую

Плюс сухая статистика ожиданий. 17 из 20 компаний с AI-агентами не уложились в 30 дней. К трём месяцам средний перерасход бюджета достигает порядка ×3. Шесть программ отменили. Основная проблема часто в том, что автоматизируют хаос, а не выстроенный процесс.

Спор про внимание. 1500 компаний Polsia и дефицит времени

В обзоре The AI Daily Brief звучит скепсис. Если среди тысяч компаний на платформе лишь десятки идей попадут в конкретного клиента, как их отфильтровать? Время и внимание конечны. Успех измеряется не числом слайдов, а результатом.

Контраргумент в духе стартапов. Если провалы чаще из-за неверной гипотезы, а product market fit ищут через серию экспериментов, то дёшево пробовать много гипотез выглядит рациональной стратегией. Другой риск в том, что можно получить нейрослоп, то есть много шума и мало проверяемой пользы.

Polsia создала мне первый бизнес - CJM генератор, при чём опиралась на публичную информацию обо мне, мои интересы и мой опыт

При клике на "Мне повезёт", Polsia cоздала лендинг для бизнеса JourneyLens без единой подсказки с моей стороны, посмотреть можно тут https://journeylens.polsia.app/ Не знаю сколько будет жить ссылка.

JourneyLens от Polsia

Личный опыт: OpenCode и агенты без продакта

Подключил нейронки от OpenCode. Создал CEO, он уже нанял двух других агентов, все заняты своими делами, сами наклепали себе задачи и что-то разрабатывают, строят очередную систему. Продакта по-прежнему не наняли, смешно до тех пор, пока не возникает мысль "А кто вообще отвечает за продукт?". Граница между инструментом и сотрудником оказалась не технической, а организационной. Кто принимает решение, когда бот не уверен? Кто несёт ответственность?

Paperclip создал сначало СЕО, затем уже СЕО нанял двух других агентов

Zero Human Company сдвигает границу так, что единственный человек в контуре решений, то есть основатель, задаёт рамки, а агенты исполняют. Эксперименты вроде Felix, Polsia и ZHC показывают работоспособность до нескольких миллионов выручки. Дальше в игру входят внимание, сложные edge cases и экономика спроса.

Вывод без ИИ-апокалипсиса

Zero Human Company в этом смысле не фантазия. Есть реальные кейсы и выручка. Потолок масштабирования пока чаще всего примерно от $1 до $5 млн ARR. Критика справедливо указывает на риски автоматизации и дефицит внимания. При этом опыт тех, кто строит ZHC, полезен любой команде с агентами, даже если цель не ноль в штате, а разумная автоматизация конкретных ролей.

Через пару лет картина может оказаться иной, как с прогнозами про интернет и факс. Пока разумный настрой на то, чтобы смотреть на цифры, процессы и ответственность, а не на лозунги.

Если интересно строить компании без сотрудников - пишите в личку в ТГ shenwell, обсудим детали.

А так же подписывайтесь на канал в ТГ https://t.me/supervisionpw

Источники

The AI Daily Brief, The Rise of the Zero Human Company, YouTube
Polsia, polsia.com
Institute for Zero Human Companies, zhcinstitute.com
Factory Floor, factoryfloor.dev
Paperclip,GitHub
Agent Orchestrator от Composio, GitHub
Aperant, также Auto Claude, GitHub
Zero Human Playbook, zerohumanplaybook.com
KPMG, эксперимент Zero-Person Company, kpmg.com, раздел пресс-релизов NL, ноябрь 2025
Forrester, Fallacy of AI Automation, forrester.com

Показать полностью 7

[моё] Искусственный интеллект Цифровые технологии Бизнес Предпринимательство Автоматизация Длиннопост

frenkyj

NSM переоценена. Полезный компас, плохая религия для продукта⁠⁠

3 месяца назад

Недавно у меня было собеседование на продуктовую позицию в крупном проекте на российском рынке. Поговорили про сегменты, метрики, чем занимался, как нанимал, ну и всё в таком духе. Спустя два дня приходит фидбек - не прозвучала явная NSM и ее декомпозиция.

Nortg Star Metric - Метрика Полярной звезды

Меня зацепил даже не сам комментарий. Про NSM я ответил ещё на интервью, хотя может и не так ярко, как нужно было. Меня зацепила логика под такой обратной связью. В продуктовой среде ярлык все чаще весит больше, чем понимание механики. Назови одну правильную аббревиатуру, и всем сразу спокойнее. Как будто бы продукт после этого начинает расти, задачи поставлены и вообще всё под контролем.

Нет. Так это не работает.

Деньги, поведение пользователей и качество роста не складываются в одну красивую цифру. Поэтому мне хочется вернуть разговор на землю. Откуда вообще взялась эта идея, где она правда помогает, а где из полезной рамки получается маленький культ.

Почему идея North Star Metric вообще стала популярной?

NSM вытаскивала команды из ванильных метрик

Когда Шон Эллис начал продвигать идею единственной метрики, мысль там была вполне здравая. Он не продавал магию. Он пытался вытащить команды из мира установок, просмотров и прочих цифр, которые приятно таскать на общий созвон, но трудно привязать к реальной ценности для клиента.

На фоне хаоса это и правда помогало. Одна цифра собирает внимание. Продукт, маркетинг и руководство хотя бы смотрят в одну сторону, вместо того чтобы тянуть одеяло на свои KPI. Неудивительно, что вокруг темы быстро вырос культ. У Amplitude даже появился отдельный North Star Hub с шаблонами, воркшопами и playbook'ами.

Пособие по метрике Полярной звезды

И проблема тут не в идее. Проблема начинается позже, когда команде начинает мерещиться, что одна цифра уже описывает продукт целиком. Вот в этом месте обычно и начинается...

На сильных продуктах NSM работает только поверх системы

В разборах NSM обычно всплывают Airbnb с nights booked - количество забронированных ночей и Spotify с time spent listening - общее время прослушивания контента пользователями . Примеры хорошие. В разборе Amplitude тоже интересно - такие верхние метрики действительно стараются цепляться за ценность.

У каждого продукта своя главная метрика, то есть NSM

Но из разговора почему-то постоянно выпадает скучная часть, а именно всё, что осталось под капотом. В любом маркетплейсе под верхним графиком живут поставки, конверсии, отмены, цены, ликвидность предложения, поведение поставщиков и качество трафика. А в подписке или медиа одна метрика вроде времени прослушивания вообще не отвечает на вопрос, что чинить утром в понедельник, когда эксперимент провалился, рекомендательная полка просела в одном сегменте и вдруг выросла в другом.

Я обычно напрягаюсь, когда вижу слайд с красивой NSM, а под ним пусто. Это почти всегда значит, что настоящая работа осталась где-то в стороне. На сцене символ. В подсобке, где пахнет проводами и недокрученными SQL, как раз и спрятался продукт.

В зрелых продуктах прокси легко перепутать с ценностью

В контентных и зрелых продуктах самообман вообще случается быстро. Там очень легко выбрать прокси-метрику, которая звучит солидно. Прочтения, минуты, открытия, глубина сессии. На презентации это выглядит знакомо и всем понятно. А дальше начинается старая песня - метрика выглядит умной, значит и на решения толкает вроде бы умные.

Хотя человек мог провести в продукте больше времени не потому, что получил ценность, а потому, что лента стала липче. Это совсем не одно и то же. Меня бесит даже не сама ошибка, ошибки бывают у всех. Меня бесит священный тон вокруг нее. В этот момент метрика перестает быть рабочей гипотезой и становится догмой.

Где метрика Полярной звезды ломается?

NSM слишком грубо сжимает реальность

Первая проблема довольно банальная. Рост верхней метрики сам по себе не доказывает, что команда поняла драйвер роста. Иногда просто сработала сезонность. Иногда приехал дешевый канал. Иногда акция надула спрос, который через месяц вернется плохим качеством, высоким CAC и просевшим ретеншеном. График растет, а понимания не прибавилось.
Вторая неприятность в задержке сигнала. Для отчета наверх такая цифра удобна. Для управления продуктом она часто поздняя и глухая. Особенно в зрелых продуктах, маркетплейсах и сервисах, где ценность собирается по кускам, через несколько этапов и иногда через несколько ролей.
И третья штука, самая мерзкая на мой вкус. Как только метрика становится священной, команда начинает оптимизировать число, а не пользу. Брайан Бэлфор хорошо пишет про связку output и input metrics. Верхний показатель без слоя входных драйверов очень быстро превращается в аккуратную ловушку. Снаружи все чисто. Внутри уже давно мухлюют с реальностью.

Входные метрики (Input Metrics) - это опережающие показатели, на которые команда влияет непосредственно через свои действия. Считается, что если вы улучшите входные метрики, выходные вырастут автоматически

Выходные метрики (Output Metrics) - это показатели, которые отражают конечный успех бизнеса или продукта. Они важны для стратегии, но ими нельзя управлять напрямую

Входные и выходные метрики на примере Spotify

Пример из реальной природы входной и выходной метрик.

Антилопы гну - входная метрика, популяция львов - выходная

Культ NSM вреднее, чем отсутствие единой цифры

Скажу жестче. Отсутствие одной верхней метрики не всегда мешает. А вот культ единой метрики мешает почти гарантированно.

Потому что разговор уходит не туда. Вместо вопроса, что именно двигает деньги, люди спорят, как назвать главный график. Вместо разбора воронки начинается обсуждение ритуала. Какой ивент считать активацией. Где провести границу между новым и активированным. Какую формулу красивее показать на квартальном обзоре.

Снаружи это выглядит прилично. Внутри уже пахнет самообманом, и довольно плотно.

Кейс сервиса записи пациентов на приём

Где тут настоящая управленческая механика

Возьмем сервис записи пациентов. На дашборд очень хочется вынести одну цифру, записи пациентов. Звучит чисто, аккуратно, по-менеджерски. Но для управления продуктом это уже поздняя и шумящая метрика.

Если раскладывать механику, дерево выглядит примерно так.

Состоявшиеся визиты в клинику = сессии × конверсия в поиск врача × конверсия в выбор слота × конверсия в заявку × доля подтверждения × доходимость до приема
Валовая прибыль = состоявшиеся визиты × средняя маржа на визит - CAC - cost to serve, то есть затраты на колл-центр, поддержку и операционку.
Повторные визиты через 30 или 60 дней = доля пациентов, которым первый опыт не сломал доверие и которым продукт помог решить задачу, а не просто оставить заявку.

Вот здесь и начинается взрослый продукт. Заявка сама по себе еще не ценность. Пациенту нужна не форма. Ему нужен реальный прием в нужный слот, без отмены, без кривого подтверждения и без двух пропущенных звонков от колл-центра. Бизнесу тоже нужен не просто объем заявок, а визиты с положительной маржой и нормальным шансом на повтор.

Какие контр-метрики должны стоять рядом с NSM

Если у такой команды рядом с верхней цифрой нет защитных показателей, она почти гарантированно врет самой себе. Я бы держал хотя бы такой набор.

CAC по каждому каналу, потому что рост объема на дорогом трафике очень быстро съедает экономику
Доля подтвержденных заявок, потому что маркетинг и продукт легко разгоняют верх воронки, а узкое место живет ниже
No show rate, доля пациентов, которые не дошли до приема. Иначе можно нарастить записи, не нарастив выручку/ценность для клиник
Среднее время до подтверждения и доля пропущенных обращений. Это уже прямой датчик того, что операционный слой не выдерживает спрос
Доля отмен со стороны клиник. Если supply нестабилен, рост сверху только усиливает хаос.
Повторная запись и LTV по когорте. Иначе системе продают одноразовый трафик вместо лояльных пациентов

Вот почему мне мало одной цифры на дашборде. Мне нужен механизм. Не символ, не тотем, а штука, по которой видно, где именно ломается путь пациента и в каком месте продукт перестает быть управляемым.

Где чаще всего прячется сегментный риск

Средняя цифра по больнице почти всегда врет, на то она и средняя. В сервисе записи пациентов картину нужно резать хотя бы по трем измерениям.

Новый трафик против повторных пациентов. У повторных выше доверие, выше конверсия и ниже cost to serve. Смешаешь их в один график, потеряешь сигнал.
Каналы с разным намерением. SEO по симптомному спросу, брендовый трафик и перформанс дают очень разный хвост по качеству. Один канал может красиво растить заявки и тихо убивать маржу.
Города, клиники и специализации. В одной категории есть запас слотов и быстрая обратная связь. В другой все упирается в дефицит расписания, дорогой саппорт и длинный цикл подтверждения.

Важна механика. У каждой вершины дерева должен быть владелец, допустимый диапазон и понятный лаг. Продукт отвечает за конверсию в выбор слота и подачу заявки. Аккаунтинг отвечает за стабильность расписания и долю отмен. Финансы смотрят на CAC, маржу и возвраты. Пока эта схема не собрана, разговор про единую верхнюю метрику немного декоративный. Красиво, но рановато.

Где NSM реально полезна

NSM полезна как верхний ориентир, но только после сборки системы

Я не предлагаю выкинуть весь подход. Верхняя метрика полезна, когда нужно собрать организацию в один фокус. Она помогает объяснить, ради какого результата вообще живет продукт. В разговоре между продуктом, аналитикой, маркетингом и стейкхолдерами это удобный верхний слой.

Но ее нормальный масштаб сильно скромнее, чем любят рисовать на слайдах. Сначала команда формулирует ценность. Потом строит дерево метрик. Потом добавляет контр-метрики. Потом режет картину на сегменты. И только после этого вешает наверх одну агрегирующую цифру. В разборе Amplitude про good vs bad NSM мысль близкая: верхняя метрика не должна жить отдельно от набора входных драйверов, а тщеславные и запаздывающие метрики легко уводят в сторону.

Ирония в том, что люди, которые давно копаются в стратегии и метриках, уже ушли от идеи одной цифры в вакууме. Тот же Тим Хербиг пишет про связку стратегии, верхней метрики и OKR. Это взрослее. Тут хотя бы есть понимание, что один график сам по себе продуктом не рулит.

Конструкция, которую я бы защищал на любом интервью, особенно когда это касается аббревиатур

Для меня рабочая схема выглядит так.

1. Наверху есть один агрегирующий результат, чтобы команда не расползалась

2. Под ним лежит дерево input metrics, чтобы было видно причинную цепочку от поведения пользователя к деньгам

3. Рядом стоят counter metrics и сегменты, чтобы рост одной линии не маскировал деградацию экономики, качества или операционной устойчивости.

А для экспериментов я почти всегда использовал другие метрики, точно не North Star. Не потому, что они заменяют смысл продукта, а потому, что они раньше меняются, то есть более чувствительные. В работе это показано на примере A/B-тестов: медленные north star metrics часто запаздывают и плохо чувствуют эффект, а метрики, собранные из коротких сигналов, могут заметно ускорять обучение и повышать мощность тестов.

Что я бы хотел слышать от нанимающих PM и HR

Если кандидат на интервью не произнес модный термин, это еще ни о чем не говорит. Мне важнее другое. Может ли он показать причинную цепочку от пользовательского поведения к деньгам. Видит ли он, где метрика запаздывает. Понимает ли, какие counter metrics обязаны стоять рядом. Умеет ли резать картину по сегментам, а не прятаться за среднюю линию.

С HR история примерно та же. Если собеседование превращается в проверку словаря, вы отсекаете не слабых продактов, а тех, кто мыслит чуть менее ритуально. Термин правда можно выучить за вечер. Умение разложить систему на драйверы, ограничения и unit-экономику за вечер не нарастишь, хоть обвесься модными фреймворками.

И что с NSM-то делать?

NSM не нужно отменять. Ей нужно вернуть нормальную роль. Это верхний ориентир, а не замена мышлению.

Если команда может показать дерево метрики, держит рядом защитные показатели и понимает, где у нее деньги, где качество, а где операционный потолок, метрика Полярной звезды правда помогает. Если не может, она просто занимается самообманом. В добавок это ещё может и выглядеть умнее. Но и только.

Поэтому я бы на интервью слушал не слово NSM, а то, что человек ставит рядом с ним. Там обычно и видно, перед тобой продакт или человек, который просто хорошо выучил иностранные символы.

Веду в ТГ канал про продукты - подписывайтесь https://t.me/supervisionpw

Показать полностью 4

[моё] Управление проектами IT Метрики Длиннопост

frenkyj

Как нейросети дизраптят рынки: от 3% премии хедж-фондов до 90 партнёрств Big Tech⁠⁠

3 месяца назад

GenAI уже меняет продукты и структуру рынков. Хедж-фонды с ИИ получают 3–5% премию к доходности. Четверть рабочих мест трансформируется. AI-изображения вытесняют художников. Почасовая оплата, когда консалтинг и юристы продают время, уходит в прошлое. Регуляторы фиксируют 90+ партнёрств Big Tech вокруг foundation-моделей. Ниже цифры из исследований ILO, Goldman Sachs, Stanford GSB, CMA и других, и что из этого следует для продуктов и бизнес-моделей.

Нейросети и рынки

Финансы. Премия GenAI и риски сходства решений

Хедж-фонды, которые внедрили GenAI в торговые стратегии, получают сверхдоходность 3–5% годовых по сравнению с конкурентами. Исследование на SSRN, архиве preprint экономических работ, показывает, что модель анализирует новости, отчёты и рыночные сигналы быстрее человека. Звучит как золотая жила. Пока не накроют все.

Подвох в том, что когда все используют похожие алгоритмы, их решения сходятся к одним ценам без сговора, как на базаре. NBER, Национальное бюро экономических исследований США, описывает сценарий, когда ИИ-агенты независимо приходят к сходным решениям. Плюс манипуляции с данными, которые сбивают торговых ботов с толку. Исследование на arXiv показывает, как небольшие искажения входных данных могут серьёзно исказить поведение алгоритмов. Премия сегодня есть, завтра её могут съесть риски концентрации и уязвимости.

Труд. Трансформация, когда диплом и опыт теряют ценность

ILO, Международная организация труда, оценивает, что четверть рабочих мест в мире затронута GenAI. Goldman Sachs в отчёте о влиянии ИИ на глобальную рабочую силу рисует картину массовой трансформации ролей.

Меня больше всего зацепило другое. Работа на arXiv про рынок труда показывает, что LLM делают умение писать и формулировать дешёвым. Когда любой может набросать связный текст за минуты, диплом, опыт, портфолио теряют ценность как сигналы о качестве кандидата. У топ-20% по способностям шанс быть нанятым падает на 19%, у нижних 20% растёт на 14%. Средний класс сжимается, надбавка к зарплате за навыки падает у середины.

Раньше я тратил пару часов на еженедельный отчёт для стейкхолдеров. Сводка метрик, тренды, риски. Сейчас ChatGPT за 10 минут выдаёт черновик, я только правлю цифры и контекст. Отчёт стал дешёвым. Обесценился. Когда любой джун может набросать структурированный документ за минуты, ценность умения писать отчёты стремится к нулю. Продуктовые менеджеры, которые только перекладывают тикеты и гоняют статусы, точно пойдут на мороз. Ремесло, которое проще автоматизировать, чем честно оценить.

Креатив. Вытеснение человеческого контента

Stanford GSB, бизнес-школа Стэнфорда, показала, что когда AI-арт выходит на рынок, выигрывают потребители, проигрывают художники. Доля AI-изображений растёт, доходы авторов без ИИ падают. Конкуренция за внимание обостряется, а барьер входа в креатив рушится.

Парадокс в том, что чем доступнее генерация, тем меньше платят за единицу контента. LTV пользователя, который потребляет AI-арт, может расти за счёт объёма, но CAC на привлечение художника-человека растёт, потому что его труд сложнее монетизировать. Рынок креатива перестраивается под тех, кто умеет промптить и редактировать, а не рисовать с нуля.

Профуслуги. Крах почасовой оплаты и галлюцинации юридического AI

Модель, когда продают часы, держалась десятилетиями. Консалтинг, юристы, аудиторы продавали время. H-in-Q пишет, что ИИ убивает почасовую оплату. Thomson Reuters в Future of Professionals 2025 фиксирует сдвиг к оплате за результат, а не за проведённые часы.

Для примера, в консалтинге. Клиент нанимает команду на продуктовую разработку. Раньше платил фикс за 40 часов в неделю, счёт каждую неделю. Сейчас тот же клиент предлагает оформить работу за результат, MVP за X, доработки по спринтам с фиксом. ИИ съел рутину, осталась только ценность. Хорошая новость для клиентов, плохая для тех, кто рутиной и жил. Если ты не можешь объяснить, за что именно платят, кроме того что сидели и думали, тебя вытеснят.

Юристы в зоне риска. Исследование на arXiv про галлюцинации в юридическом ИИ показывает, что модели выдумывают прецеденты и цитаты в 17–33% случаев. SDNY, федеральный суд Нью-Йорка, уже разбирал кейс, когда адвокаты подали документы, сгенерированные ИИ, с несуществующими ссылками (дело Mata v. Avianca). Привилегия и доверие к юристу под вопросом. Unit-экономика юридической фирмы ломается. Меньше часов, больше рисков.

Регуляция. Концентрация Big Tech и новые правила игры

CMA, антимонопольный регулятор Великобритании, зафиксировал более 90 партнёрств и инвестиций Big Tech в foundation-модели. Microsoft–OpenAI, Google–DeepMind, Amazon–Anthropic. Концентрация растёт. Перевес у заказчика, который владеет данными и инфраструктурой, а не у стартапа с одной моделью.

Знакомый основатель стартапа на AI-агентах жаловался. Делают крутой продукт, но unit-экономика ломается. Классика. API к GPT-4 дорожает, конкуренты получают объёмные скидки от Microsoft. Платят в 3 раза больше за токен. ИИ-агентизация даёт преимущество тем, кто уже сидит на инфраструктуре Big Tech. И кто делает очень сложные или не возможные вещи доступными для бизнеса.

CIP, центр институциональной политики, пишет про другой подход. Вместо того чтобы забирать сверхприбыли через налоги и раздавать потом, менять правила игры до того, как деньги осядут у гигантов. МВФ предлагает распределять выгоды шире. Вопрос не в том, запрещать ли ИИ, а в том, кто получит ренту от него.

Вывод

GenAI дизраптит рынки не по одному сценарию. Финансы получают премию, но рискуют сходством решений без сговора. Труд теряет сигналы о качестве, надбавка к зарплате за навыки сжимается у середины. Креатив дешевеет для потребителя, дорожает для художника без ИИ. Профуслуги отказываются от почасовой оплаты, юристы сталкиваются с галлюцинациями. Регуляторы видят концентрацию, тема меняется: менять правила до того, как деньги осядут у гигантов.

Для продуктов и бизнес-моделей. Если твоя ценность в том, что сидишь и делаешь отчёт, или продаёшь часы, ИИ уже ест твой обед. Если ценность в результате, в решении, в данных, которые только у тебя, ещё есть время. Но не бесконечно.

Если статья была полезной, буду рад видеть вас в своём тг-канале SUPERVISION. Там я просто и понятно рассказываю о том, как технологии меняют бизнес, про ИИ и вайбкодинг. Недавно, например, в комьюнити состоялась уже вторая онлайн-конференция VibeCoding Conference, где мы разбирали агентов и как ими управлять. Заходите, буду рад!

Показать полностью 1

[моё] Искусственный интеллект Нейронные сети Длиннопост

frenkyj

Что думаете?⁠⁠

3 месяца назад

[моё] Дебаты Искусственный интеллект Нейронные сети

Отличная работа, все прочитано!

frenkyj

Путь исследования

Что использовал для исследования

Ограничения режимов исследования

Подготовка генерального исследования

Главный итог исследования и инсайты

Главный итог исследования

Десять главных инсайтов

Кому полезен документ

Мой личный вывод по итогам исследования

И какой итог исследования?

Что такое AGI? И о чём вообще речь?

Устав OpenAI и зачем вообще читать юридический текст про AGI

Альтман про агентов и сверх разум

Anthropic в рамках устава OpenAI

Лекун, польза LLM и почему он не любит ярлык AGI

Хинтон, скорость и контроль, не календарь

Когда ждать появления AGI?

AGI на практике

Чеклист - это AGI или нет?

Источники

Базовые вопросы перед началом оптимизации

Цель не урезать стоимость, а вытянуть ценность на доллар

Куда уходят деньги - четыре драйвера

SCALE - пять рычагов

S - Smart routing

C - Context и токены

A - Architecture, кэш, батчи, повтор

L - Limits и ограничения

E - Economics

Как я бы уложил квартал

Метрики, за которыми стоит следить

Контрольные метрики

Если коротко

От трёх человек к нулю в саппорте. Зачем вообще читать про ZHC

Самое интересное первым. Кто уже зарабатывает и на каких масштабах

Под капотом - оркестрация, модели, open-source

Потолок ARR от $1 до $5 млн и почему ломается миф о полной автоматизации

Спор про внимание. 1500 компаний Polsia и дефицит времени

Личный опыт: OpenCode и агенты без продакта

Вывод без ИИ-апокалипсиса

Почему идея North Star Metric вообще стала популярной?

NSM вытаскивала команды из ванильных метрик

На сильных продуктах NSM работает только поверх системы

В зрелых продуктах прокси легко перепутать с ценностью

Где метрика Полярной звезды ломается?

NSM слишком грубо сжимает реальность

Культ NSM вреднее, чем отсутствие единой цифры

Кейс сервиса записи пациентов на приём

Где тут настоящая управленческая механика

Какие контр-метрики должны стоять рядом с NSM

Где чаще всего прячется сегментный риск

Где NSM реально полезна

NSM полезна как верхний ориентир, но только после сборки системы

Конструкция, которую я бы защищал на любом интервью, особенно когда это касается аббревиатур

Что я бы хотел слышать от нанимающих PM и HR

И что с NSM-то делать?

Финансы. Премия GenAI и риски сходства решений

Труд. Трансформация, когда диплом и опыт теряют ценность

Креатив. Вытеснение человеческого контента

Профуслуги. Крах почасовой оплаты и галлюцинации юридического AI

Регуляция. Концентрация Big Tech и новые правила игры

Вывод

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы