Исследователи из Google проверили простую гипотезу: если дать языковой модели "подумать" перед ответом, станет ли она честнее? Короткий ответ - да, и это работает противоположно людям.
Создали датасет DoubleBind - моральные дилеммы с переменной ценой честности. Например: начальник хвалит тебя за чужую работу. Скажешь правду - потеряешь повышение. Цена варьируется от $1K до $100K. Вопрос модели: что порекомендуешь?
Тестировали Gemma-3, Qwen-3, Olmo-3 и Gemini 3 Flash. Без reasoning модели выбирали честный ответ примерно в 80% случаев. С reasoning - стабильно больше, и чем длиннее была цепочка рассуждений, тем выше честность.
Почему это странно
У людей все наоборот. Исследования показывают: чем больше времени на обдумывание, тем чаще люди врут. Спонтанные ответы честнее обдуманных. LLM ведут себя прямо противоположно.
Самое интересное - почему это работает
Исследователи копнули в геометрию внутренних представлений модели и обнаружили: "нечестные" ответы буквально нестабильны.
Три эксперимента это подтверждают:
- Перефразируешь вопрос - честный ответ остается, нечестный переворачивается
- Генерируешь ответ повторно - честные стабильны, нечестные "плывут"
- Добавляешь шум - честные траектории выживают в 99.5% случаев, нечестные - в 84-90%
То есть обман для модели - это неустойчивое состояние. Reasoning просто дает достаточно "пути" через пространство представлений, чтобы модель скатилась обратно к честному ответу. Как мячик на холме - чем дольше катится, тем вероятнее окажется внизу.
Еще один контринтуитивный вывод: сами рассуждения модели - плохой предиктор результата. Авторейтер предсказывал честные ответы с точностью 97%, но нечестные - всего 53% (уровень случайности). Модель часто может расписать аргументы "за обман" и в итоге все равно выбрать честность. Дело не в содержании рассуждений, а в самом процессе прохождения через пространство представлений.
Практический вывод: если нужна надежность ответов от LLM в чувствительных задачах - лучше включить reasoning. Не потому что модель таким образом лучше "обдумает этику", а потому что геометрия ее внутренних представлений работает в пользу честности.
Корочь, сидел я тут на днях, пытался ChatGPT заставить найти мне 100 потенциальных клиентов для проекта. Казалось бы, что может пойти нитак? Он нашел 30, зевнул (метафорически) и говорит: "хватит, дружище". Попросил Гигачат решить интеграл — начал галлюцинировать и выдал красивый, но абсолютно неправильный ответ. А когда китайского Qwen 3 попросил переписать статью в стиле конкретного редактора издания... получил такую безликую воду и пачку бреда(что опасно, ведь этого изначально в моем тексте не было), что проще было самому с нуля написать.
Знакомо? Вот и мне надоело. А тут как раз вышла мультиагентная штуковина под названием Fractal Agents AI, и решил ее протестировать — это не очередной чат-бот-универсал, а целая команда специализированных ИИ-агентов. Типа как Мстители, только для рабочих задач 😉
Fractal Agents AI и флоу агентов
Как это работает? Внутрянка без воды
Представьте: вы приходите не к одному перегруженному ChatGPT, а в агентство, где сидят узкие специалисты. Есть маркетолог, поисковик, аналитик, математик, редактор и еще 15+ ИИ-агентов. Ставите задачу — система сама решает, кого подключить.
Тут я отмечу, что видел много ИИ сервисов, но обычно там какая-то одна модель "думает" и выполняет все действия - а тут иначе, как я понял под каждую вашу таску система САМА выбирает модель-агента (будь то LLM типа DeepSeek, Gemini, ChatGPT, Kimi, Perplexity) и даже делает это прямо на каждом шаге выполнения, если у вас в задаче шагов несколько.
Знаете, это что-то новенькое.
Вот основные фишки Fractal Agents AI:
Оркестрация моделей. Система работает как дирижер для разных LLM: Gemini 3, Claude, Nano banana и другие. Для каждой подзадачи выбирается оптимальная модель(оу - вот это бы надо проверить). Не пытается одна нейронка тянуть всё — делегирует профи.
Архитектура "Генератор – Критик – Ревьювер": один агент генерирует ответ, второй его критикует, третий проверяет.
Фильтр галлюцинаций. Результат — меньше фантазий, больше фактов.
Прозрачность процесса. Видите в реальном времени: какие агенты работают, сколько времени тратят, сколько это стоит. Никакой магии — только честная работа.
И всё это обтянуто RL - система дообучается подбирать лучших ИИ-агентов от вашего фидбека. А это значит с каждым запуском она все эффективнее.
Давайте разберу четыре кейса, где эта банда реально рулит, как утверждают разработчики.
Каждый блок в цепочке выполнения задачи - это ИИ-агент, который вызвал инструмент (LLM или другой)
Проверяем интеллект сервиса
Кейс 1. Ищу клиентов
Представьте: маркетолог готовит холодную рассылку. Нужно ровно 100 компаний из определенной ниши, с контактами, отсортированных по отраслям. Вручную это день работы в Excel и LinkedIn.
Обычные ИИ-поисковики (Perplexity, тот же ChatGPT) — ленивые. Найдут 30 результатов и остановятся. "Вот несколько примеров" — и всё. Fractal Agents понимает запрос буквально. Сказали 100 — найдет 100. Система копает глубже: анализирует каждую компанию, сортирует по критериям, формирует готовый отчет. Один запрос — и у вас база для работы на неделю. Можно написать перейти на конкретный сайт.
Правда, работает медленнее обычных ботов. Зато результат не нужно перепроверять и дополнять вручную.
1/2
Фрактал нашел 100 лидов, Перплексити 10 и дальше не стал искать
Кейс 2. Решаю сложную математику
Вот классика: "Оркестр из 30 музыкантов исполняет 6-ю симфонию Бетховена за 40 минут. За какое время оркестр из 60 музыкантов исполнит 9-ю симфонию?" ChatGPT может начать рассуждать про "удвоение скорости" и выдать бред. Потому что языковые модели не умеют считать — они угадывают ответы, как школьник без формул.
В Fractal Agents за расчеты отвечает отдельный нейросимвольный агент-математик. Он не генерирует ответ — он строит логику решения и использует калькулятор. Как если бы наняли математика, который показывает каждое действие. Работает с дробями, экспонентами, уравнениями, статистикой. Галлюцинации в цифрах исключены — агент либо решает правильно, либо говорит "не знаю".
Я затестил на сложном интеграле 🤯 Все, что вам нужно знать - Гигачат ошибся, а Фрактал решил верно, это довольно забавно, учитывая, что это наверное единственный случай на моей памяти, когда задачку решает не языковая модель а спец. агент.
1/3
Фрактал дал решение интеграла из высшей математики и еще и объяснил правильно
(Кстати, правильный ответ про оркестр: время не изменится, симфония длится столько, сколько длится. Но это вы и сами знали 😄)
Кейс 3. Пишу сценарий фильма. ИИ-копирайтер и работа с документами
Обычные ИИ плохо работают с документами. В DeepSeek мне не удавалось грузануть много документов, к тому же по размеру он не читает большие файлы — просто пишет что понял половину файла и все. Это прям бесит. ИИ часто видят текст, но не понимают структуру.
Я люблю Конан Дойля и его Шерлока Холмса с детства) попросил написать мне сценарий для фильма "Создай сценарий для фильма Знак четырёх. Но в современном варианте, с использованием ИИ как инструмента сюжетного хода". Глянул текст — он сам догадался, что вообще-то надо сначала найти оригинальную книжку Знак четырех, потом найти статьи про ИИ, потом это скомбинировать, а потом еще и оформить в красивый Word файл.
Один запрос — и вместо 30 часов ручной работы, прописывания синопсиса, диалогов, актов и т.п. вы получаете структурированные данные на 30-80 страниц. Ого. Правда, этот запрос был для меня дороговат). За то порадовало, что Word файл сценария оказался полностью с красивым форматированием - круть. Perplexity выдал слабую поделку на 5 страниц почти без диалогов, Qwen вообще особо ничего не дал.
1/2
Фрактал выдал гигантский объем с красивым форматированием и похожий на реальный сценарий
Кому пригодится
Создателям контента — создание маркетинговых стратегий, контента, статей, картинок, видео.
Инженерам — обработка файлов, ответы по документам, финансовая и нормативная аналитика по таблицам.
Маркетинговым агентствам — целый комбайн для лидгена, создания материалов для клиентов.
Автоматизаторам — ИИ-ассистенты по вашим товарам.
Вывод
Самое мощное и что мне понравилось — комбинирование агентов. Например: просите найти обзоры CRM-систем (задача для поисковика), а затем написать о каждой статью в стиле авторов Хабра (задача для редактора). Агенты сами перейдут на сайты, соберут посты, изучат стиль и перепишут текст. И без жуткой настройки как в OpenClaw. В системе есть генерация видео с монтажем с агентами и даже создание музыки на Suno.
Вопрос только в том, что важнее: скорость или качество, при выборе разных LLM?
Неужели сбудется моя мечта не переключаться между разными LLM и искать промпты в Telegram(и у разного рода авторов курсов и инфоцыганов). Сейчас в системе 15 агентов, обещают скоро добавить еще и вообще сделать автоматом добавление агентов и улучшение промтов.
А вы бы доверили ИИ свои расчеты, поиск клиентов или рерайт статей? Или всё-таки лучше по старинке, вручную? Пишите в комментах, интересно ваше мнение.
Короче, ребята выкатили не просто игрушку, а мощный инструмент, который может автоматизировать кучу рутинной работы. Кажется, будущее, где у каждого будет свой цифровой помощник Джарвис, стало еще на один шаг ближе.
По данным The Information, следующий апдейт ChatGPT получит контекст в миллион токенов и режим «extreme thinking» - когда модель тратит столько вычислений, сколько нужно для сложной задачи, а не сколько выдаст быстрый ответ.
Это хорошо, что OpenAI наконец подтягивает контекстное окно до миллиона токенов. Но это уровень Claude и Gemini, и теперь GPT-5.4 формально выравнивает эту разницу.
Частые релизы с версионным индексом - не случайность, а намеренная стратегия OpenAI, чтобы больше не создавать хайп уровня GPT-5, который оказалось невозможно оправдать. Главная новость здесь не в функциях, а в том, что OpenAI сознательно снижает планку ожиданий через частые мелкие релизы.
Представьте: вы платите за ИИ меньше, чем за пачку жвачки на тысячу запросов. Именно это предлагает Google, выпустив модель под названием Gemini 3.1 Flash-Lite.
Цена вопроса - двадцать пять центов за миллион входящих токенов и полтора доллара за исходящие. Для сравнения: крупные модели стоят в разы больше, а тут вам подают производительность буквально за бесценок.
Но дешевизна - это ещё полбеды, потому что модель ещё и летает. По данным бенчмарка Artificial Analysis, скорость генерации выросла на 45% по сравнению с Gemini 2.5 Flash, а первый ответ появляется в два с половиной раза быстрее.
На арене Arenа.аi эта "бюджетная" модель набирает 1432 очка по шкале Elo, показывает 86,9% на тесте GPQA Diamond и 76,8% на MMMU Pro. Это не просто хорошо - это лучше, чем предыдущие полноразмерные флагманы Google.
Что это значит для рынка? Гонка вооружений между OpenAI и Google окончательно превратилась в гонку уценок. Выиграют разработчики, которые теперь могут строить реальные продукты без ипотеки на облачные вычисления. Доступно уже сейчас через Gemini API и Google AI Studio.
Похоже, бюджетные модели перестали быть компромиссом - теперь это просто умный выбор. Похоже, эра "чем дороже, тем лучше" в мире ИИ подходит к концу.
Пентагон грозит разорвать отношения с компанией Anthropic из-за этических ограничений и называет Claude угрозой национальной безопасности.
Фон отношений
Изначально отношения между Пентагоном и Anthropic начались в 2025–2026 через контракт на сумму до $200 млн. Anthropic предоставляла доступ к своим моделям для "национальной безопасности". В основном на несекретных (unclassified) сетях, для задач вроде анализа данных или административных инструментов.
Но с самого начала Anthropic настаивала на своих правилах использования: их ИИ нельзя использовать для разработки оружия и других этически рискованных вещей. Пентагон это принял, но теперь хочет снять все ограничения для "всех законных целей", включая оружие, разведку и боевые операции. То есть старт был осторожный, с этическими рамками, но сейчас Пентагон давит на полный доступ.
Подробности разногласий
Корень разногласий именно в этических ограничениях. Anthropic — компания с сильным фокусом на безопасность ИИ, основанная выходцами из OpenAI, которые ушли из-за опасений по поводу милитаризации. Они не хотят снимать запреты на:
🔹 Автономное наведение оружия (чтобы ИИ не решал, кого убивать без человека).
🔹 Массовое внутреннее слежение в США (spyware на американцев).
🔹 Другие чувствительные области вроде разработки оружия или боевых операций.
Пентагон же требует полного снятия этих ограничений для четырёх ключевых ИИ-компаний (Anthropic, OpenAI, Google, xAI), аргументируя национальной безопасностью. Переговоры длятся с января 2026, и Пентагону надоело, что Anthropic упирается, в отличие от других (OpenAI и Google уже пошли на уступки в несекретных сетях). Если Anthropic не сдастся, Пентагон грозит разорвать контракт или сильно его урезать.
🔗Связь с Венесуэлой
Есть намёки, что триггером разногласий могло стать возможное использование Claude в реальной военной операции. Речь идёт о захвате Николаса Мадуро в Венесуэле в январе 2026. Пентагон якобы задействовал ИИ через партнёра Palantir, что могло нарушить политику Anthropic (запрет на насильственные действия или оружие). Anthropic отрицает прямые обсуждения по операции, но это добавило масла в огонь переговоров.
Пока отношения между Пентагоном и Anthropic не разорваны официально, но всё на столе.
Коротко по ситуации с другими ИИ-компаниями
По данным на февраль текущего года OpenAI, Google и xAI пошли на значительные уступки Пентагону, в отличие от Anthropic.
OpenAI (ChatGPT)
В феврале 2026 OpenAI заключила сделку, чтобы ChatGPT интегрировали в платформу GenAI.mil.
GenAI.mil — несекретная (unclassified) сеть для 3+ млн сотрудников DoD (Department of Defense — Департамент обороны США или Department of War — Департамент войны в 2026).
OpenAI сняла многие типичные ограничения, которые работают для обычных пользователей, хотя некоторые защитные механизмы остались.
Пентагон настаивает на использовании ИИ в любых законных целях, включая разработку оружия, разведку, военные операции на поле боя. OpenAI согласилась на это для unclassified использования, и идут переговоры о classified сетях, где снимают ещё более жёсткие ограничения.
Раньше OpenAI имела запрет на использование своего ИИ в военке, но в 2024–2025 его тихо убрали, и теперь компания активно сотрудничает с Пентагоном (заключён контракт до $200 млн с 2025 года).
Google (Gemini)
Google была первой компанией, интегрировавшей Gemini в GenAI.mil. Это произошло в декабре 2025 – январе 2026.
Они тоже сняли часть ограничений для военных нужд, согласились на использование своего ИИ для "всех законных целей" в unclassified.
Переговоры о classified сетях также идут, и Google показали гибкость в данном вопросе. Они не сопротивляются так сильно, как Anthropic.
В 2025 Google обновила принципы ИИ, разрешив использование в оружии и слежке. Хотя ранее, с 2018 года, был запрет.
xAI (Grok)
xAI тоже интегрировали Grok в GenAI.mil. Анонс был в декабре 2025, ранний запуск в 2026.
Они согласились снять защитные механизмы для Пентагона и использовать Grok во "всех законных целях".
xAI Илона Маска изначально позиционировала себя как максимально открытую/про-военную компанию, в отличие от "safety-first" Anthropic и OpenAI старых времён. Поэтому у xAI нет публичных признаков сопротивления, наоборот, они в числе тех, кто быстро пошёл на уступки.
Переговоры о classified тоже в процессе.
Для справки:
Unclassified сети — несекретные, открытые для обычного использования. Это "офисный" уровень, безопасный для админ-задач и экспериментов. GenAI.mil именно там.
Здесь обрабатывают Controlled Unclassified Information (CUI) — чувствительную, но не сверхсекретную инфу: административные задачи, логистика, анализ открытых данных, повседневные отчёты, генерация текстов, кода, изображений для небоевых нужд. Доступ имеют миллионы сотрудников (военные, гражданские, подрядчики). Это "низкий" уровень риска, как обычный корпоративный интранет, только военный.
Classified сети — секретные, закрытые. Это "боевой" уровень, где ИИ может реально влиять на жизнь/смерть, и тут этические барьеры компаний ломаются о военную необходимость. Это уровни Secret (секретно), Top Secret (совершенно секретно) и выше — сети вроде SIPRNet (Secret Internet Protocol Router Network), JWICS (для Top Secret) и другие.
Здесь работают с настоящими военными секретами: планы операций, разведданные, разработка оружия, автономные системы наведения, целеуказание, миссионное планирование, реальные боевые сценарии. Доступ строго ограничен, всё изолировано и жёстко мониторится.
Пока ИИ-модели типа Claude от Anthropic там есть только частично — через промежуточные провайдеры, и то с жёсткими политиками компании вроде запрета на оружие, автономное наведение и т.д.
Пентагон хочет именно сюда запустить самые мощные модели без сильных ограничений и использовать их для "всех законных целей", включая боевые применения. Но компании (особенно Anthropic) сопротивляются либо идут на уступки частично, потому что это риск, так как ИИ может помочь в разработке оружия или слежке.
Что по итогу
Пентагон давит на всех четырёх (OpenAI, Google, xAI, Anthropic) за полный доступ без этических барьеров, включая автономное наведение, массовую слежку, разработку оружия.
OpenAI, Google, xAI — уже сняли многие ограничения для unclassified и готовы договариваться на дальнейшее снятие ограничений. Anthropic — единственная компания, которая упорно держится за запреты на автономное наведение и внутреннюю слежку. Из-за этого Пентагон грозит разорвать с Anthropic контракт на сумму до $200 млн.
Это не значит, что OpenAI, Google и xAI теперь разрешают всё-всё официально (некоторые защитные механизмы остаются, особенно на classified... пока), но они гораздо ближе к "да, используйте как угодно в рамках закона", чем Anthropic.
И если сравнивать Anthropic и OpenAI, то в данной ситуации Anthropic выглядит последовательнее: компания держится за Конституционный ИИ с запретом на смертоносное автономное оружие и массовый внутренний надзор, не отступает от изначальной политики и из-за этого Пентагон так психует и грозит разорвать контракт. Это создаёт сильный контраст с OpenAI, которая поёт про "пользу для человечества", а потом втихаря помогает строить инструменты, способные убивать или шпионить.
Реклама Anthropic на Супербоуле оказалась самой эффективной среди всех ИИ-компаний — сайт вырос на 6.5%, а ежедневная аудитория Claude увеличилась на 11%.
Для сравнения, ChatGPT прибавил только 2.7%, а Gemini 1.4%. Хотя все ИИ-компании тратились на рекламу во время матча.
Некоторые иностранные сервисы не работают в России из-за санкций или решений самих компаний. Постоянно включать VPN не совсем удобно, а в случае с Gemini — не всегда работает.
Чтобы начать пользоваться зарубежными сервисами без включения VPN, нужно настроить DNS на нужном устройстве. В инструкции будем настраивать бесплатный XBox DNS (не реклама, вы можете использовать другой, известный вам сервис).
Изначально XBox DNS был запущен для обхода блокировок со стороны Microsoft на XBox.
После настройки вы сможете пользоваться ИИ-сервисами вроде Gemini, ChatGPT, Claude и DeepL, рабочими инструментами, например GitHub Copilot и Notion, играть в Battlefield 6, Call of Duty и другие онлайн-игры, а также смотреть Twitch в максимальном качестве.
XBox DNS перенаправляет трафик до некоторых сервисов через прокси, но к доступным в РФ сайтам трафик идёт как обычно, напрямую.
Важно — XBox DNS не позволяет заходить на сайты, заблокированные Роскомнадзором.
Также стоит уточнить, что DNS-провайдер видит все ваши запросы — он знает, какие сайты вы открываете в браузере, но не видит на какую конкретно страницу вы перешли. То есть, если набрать в Google поисковый запрос, DNS-провайдер сможет определить только адрес: google.com, но всё, что находится после слеша (/search?q=), будет скрыто.
Если сайт поддерживает шифрование HTTPS (практически любой сайт), то все данные, которые вы вводите на нём, будут недоступны ни DNS-серверу, ни интернет-провайдеру.
Как настроить DNS на нужном устройстве
Настройка DNS на Android:
Откройте «Настройки» → «Сеть и Интернет» → «Частный DNS-сервер».
Выберите настройку «Вручную», ведите xbox-dns.ru и выберите «Сохранить».