machinelearninga

machinelearninga

Пиши и работаю в сфере машинного обучения, ИИ, нейросетей, data science http://t.me/ai_machinelearning_big_data
Пикабушник
19К рейтинг 5 подписчиков 0 подписок 97 постов 10 в горячем
3

Почему муравья не разобьёшь с любой высоты: физика, которую копируют инженеры ИИ и разработчики микродронов

Муравей, упавший с тридцатитрёхэтажного здания, приземлится и уползёт по своим делам. Никакой магии, чистая физика. И эта же физика сейчас переписывает правила игры в робототехнике, роевых алгоритмах и микродронах, которые весят меньше скрепки.

Почему муравей не разбивается

У муравья очень высокое отношение площади поверхности к массе. Сопротивление воздуха быстро уравновешивает силу тяжести, и насекомое мгновенно выходит на терминальную скорость. Даже с тридцати метров он падает со скоростью лёгкого ветерка. Силы удара не хватает, чтобы повредить хитиновый панцирь.

Более того, длинные падения иногда выгоднее коротких. Эффект описан в классической работе Стивена Фогеля Comparative Biomechanics: Life’s Physical World.

При чём здесь ИИ и робототехника

Когда инженеры уменьшают робота в десять раз, они получают устройство в тысячу раз легче и примерно в сто раз прочнее по ударным нагрузкам. Это важное свойство при проектировании роевых систем. Рой из тысячи микродронов, каждый из которых переживает падение, выигрывает у одного большого дрона.

Алгоритмы ИИ для таких устройств пишутся иначе: TinyML, on-device inference, квантизация моделей до восьми и четырёх бит, федеративное обучение. Реальные продукты работают на локальных 7B и 13B моделях, запущенных на потребительских GPU. Тот самый эффект муравья.

Что из этого выносит ИТ-инженер

Неуязвимость лучше брони. Муравья защищает не панцирь, а физика. В продукте лучше выбрать архитектуру, в которой отказ одного элемента ничего не ломает. Микросервисы вместо монолита, k8s вместо одного большого сервера, локальные LLM вместо вызовов облачного API.

ИИ-агенты на краю сети будут жить дольше облачных. Они лучше переживают отказ сети, дешевле в инференсе и не зависят от стороннего вендора.

Муравей переживает падение с любой высоты не потому, что он крепкий, а потому, что он маленький. Микродроны и эдж-ИИ работают по той же логике: массовость, распределённость, экономия ресурсов.

Источник: https://x.com/sciencegirl/status/2049769267587883333

Показать полностью

Связка Kimi 2.6 + Opus 4.7 + GPT-5.5: чит-код 2026 года. Как рубить счет на API в 8 раз

За одну неделю апреля 2026 года в индустрию упали сразу три релиза: 16 апреля вышел Claude Opus 4.7, 20 апреля Moonshot выкатил Kimi K2.6, а 23 апреля OpenAI показал GPT-5.5. Большинство выбрало одну модель и спокойно поехало дальше. Это и есть главная ошибка года.

Те, кто реально выжимает максимум из новой волны ИИ, не лояльны ни одному вендору. Они роутят каждую задачу в ту модель, которая делает её лучше и дешевле всех остальных. Один человек с такой связкой закрывает объём работы, на который раньше уходила команда из четырёх специалистов. Один промпт способен запустить 300 параллельных агентов, выполняющих 4000 скоординированных шагов. Неделя на настройку, и привычный workflow меняется навсегда.

Сначала холодная математика. Один сольный инженер, который тратит 15 миллионов токенов API в месяц, при работе только на Claude Opus 4.7 платит около 495 долларов. На GPT-5.5 это уже примерно 165 долларов. А если умно роутить и отдавать массовые задачи Kimi K2.6, счёт уезжает ниже 60 долларов. Разница в десять раз без потери качества там, где это важно.

Kimi K2.6 от Moonshot AI вышел 20 апреля под Modified MIT License, открытый и дешёвый. Цена в районе 0,60 до 0,95 доллара за миллион входных токенов, это примерно в 8 раз дешевле Claude и в 5 раз дешевле GPT-5.5 на одинаковой работе. Под капотом 1 триллион параметров суммарно, 32 миллиарда активных на токен, контекст 256k и максимальный ответ до 65 536 токенов за один проход, что больше, чем у флагманов OpenAI и Anthropic. Модель нативно обучена координировать 300 субагентов и 4000 шагов на длинных задачах.

В реальном тесте K2.6 за 13 часов автономно перекроил восьмилетний движок финансового матчинга, прошёл 12 стратегий оптимизации, сделал больше 1000 вызовов инструментов, поправил больше 4000 строк кода и вытащил прирост медианной пропускной способности на 185% и общей производительности на 133%. Внутри Moonshot одна команда пять суток подряд держала его как автономного агента: мониторинг, реакция на инциденты, эксплуатация, всё без человека.

По бенчмаркам K2.6 берёт 80,2% на SWE-bench Verified, 58,6% на SWE-bench Pro вровень с GPT-5.5, 92,5% на DeepSearchQA и 66,7% на Terminal-Bench 2.0. Уровень галлюцинаций упал с 65% у K2.5 до 39%, что близко к Claude Opus 4.7 с его 36%. Слабые места честно признаны: нет ввода картинок через API, чуть выше retry на схемах инструментов и не лидер в чистой математике.

Claude Opus 4.7 вышел 16 апреля и остаётся лучшей моделью под продакшн-код, юридические и корпоративные документы, vision и любые задачи, где точность важнее скорости. На SWE-bench Pro он лидирует с 64,3%, обгоняя Kimi и GPT-5.5 примерно на 6 пунктов. Визуальная точность подскочила с 54,5% до 98,5% после апгрейда разрешения с 1,15 до 3,75 мегапикселя. Модель сама верифицирует свои ответы перед тем, как их отдать.

GPT-5.5 от OpenAI выкатили 23 апреля, и это сильнейшая модель под математику, веб-ресёрч с её 90,1% на BrowseComp и под computer use, где она автономно ведёт реальные GUI с 78,7% на OSWorld-Verified. На длинном контексте GPT-5.5 уезжает на 74,0% против 32,2% у Claude. На бумаге она дорогая, 5 и 30 долларов за миллион токенов, но за счёт меньшего числа выходных токенов на ту же задачу выходит дешевле, чем кажется.

Главное, чего не делает никто, кроме Kimi, это рой агентов. K2.6 параллельно поднимает до 300 субагентов на 4000 скоординированных шагов, втрое больше, чем у K2.5. Каждый агент тащит свой кусок задачи, координатор сводит результаты, и вы получаете сквозной выход из одного промпта. На запуске показали кейс, где 100 агентов сравнили одно резюме со 100 вакансиями и выдали 100 кастомизированных версий CV. В другом прогоне астрофизическая статья превратилась в 40-страничный материал на 7000 слов с датасетом на 20 000 строк и 14 графиками.

Сам чит-код звучит просто. Bulk-кодинг, фронт по описанию или скрину, рои агентов на большой ресёрч и ночные автономные прогоны отдаём Kimi K2.6. Это рабочий конь и ночной воркер. Claude Opus 4.7 берёт продакшн-код, юридические документы, корпоративные процессы, vision и всё, где ошибка стоит реальных денег. GPT-5.5 уходит на математику, веб-ресёрч и computer use. Решение о роутинге занимает пять секунд, а экономия фиксируется навсегда.

Репозитории, ради которых стоит попробовать всё это руками. github.com/moonshotai/Kimi-K2 это официальный репозиторий с весами, гайдами под vLLM и SGLang и документацией API. github.com/musistudio/claude-code-router сшивает всё в один интерфейс с автоматическим роутингом в Kimi, GPT-5.5 или любую другую модель через OpenRouter. github.com/CheswickDEV/claude-opus-4.7-prompt-optimiz... это мета-промпт под Opus 4.7 и его новый xhigh effort режим. github.com/openai/gpt-5-coding-examples это демо от OpenAI, собранные одним промптом, каждое с опубликованным исходным промптом.

Что реально можно сделать уже сегодня. Собрать целый SaaS-продукт за одну сессию: описать продукт Kimi, получить каркас фронта, бэка и DevOps-конфигов, потом отдать критические пути в Opus 4.7 на закалку. Сделать ресёрч любого уровня глубины, подняв 50 до 100 агентов на одном вопросе и собрав структурированный отчёт со ссылками. Автоматизировать мониторинг: пусть Kimi как фоновый агент смотрит в логи и пайплайны деплоя, при поломке находит релевантные коммиты и кидает черновик фикса в Slack.

Главный вывод простой. Эпоха одной любимой модели закончилась примерно 23 апреля 2026 года. Выигрывает не тот, у кого подписка дороже, а тот, кто умеет роутить задачи и собирать связку из открытой Kimi K2.6, точной Opus 4.7 и быстрой GPT-5.5. Неделя на настройку, и вы делаете работу четырёх человек с расходами одного.

Источник идеи и оригинальный разбор: https://x.com/defileo/status/2049509658797224042

Дополнительный пост по теме: https://x.com/DamiDefi/status/2049438687457399073

Показать полностью
2

Claude обогнал докторов наук в биоинформатике: Anthropic выкатил BioMysteryBench и результаты пугают

Anthropic опубликовал свежее исследование, и оно ломает привычное представление о том, на что способны современные LLM в науке. Новый бенчмарк BioMysteryBench проверяет, может ли модель решать реальные задачи биоинформатики, и Claude уже на равных с PhD-экспертами, а на части задач обходит целые панели учёных.

Зачем вообще понадобился ещё один бенчмарк? Существующие тесты вроде MMLU-Pro, GPQA и LAB-Bench меряют знания и рассуждения, а BLADE, BixBench и SciGym пробуют оценить агентные сценарии. Но настоящая наука это шумные данные, субъективные методические решения и куча задач, которые человечество пока не решило. Anthropic собрал 99 заданий от доменных экспертов, причём правильный ответ выводится не из субъективного вывода учёного, а из контролируемых свойств данных или валидированной метаинформации (например, ответ подтверждён ПЦР-анализом).

Claude получает доступ к каноническим биоинформатическим инструментам, может ставить пакеты через pip и conda, дёргать NCBI и Ensembl, скачивать референсные геномы. Решения оцениваются по итоговому ответу, а не по пути к нему. Это даёт модели свободу выбирать стратегию: WGS-анализ, scRNA-seq, ChIP-seq, метилирование, метагеномика, протеомика, метаболомика.

Что в итоге: на 76 задачах, которые смог решить хотя бы один человек, последние поколения Claude уверенно выходят на уровень доменных экспертов. На 23 задачах, которые панель из пяти PhD не осилила, Claude Sonnet 4.6 и более старшие модели решают значимую долю, а Claude Mythos Preview добирается до 30 процентов. Для контекста: это вопросы, на которых группы профильных учёных просто пасуют.

Самое интересное это стратегии. Иногда Claude идёт по человеческой тропе, иногда вообще по другой. Например, там где эксперт запускал алгоритм или базу для аннотации, модель просто узнаёт паттерн в последовательности по памяти. Авторы напоминают, что первый эукариотический промотор открыли так же, заметив повторяющееся TATA. У LLM этот тип интуиции потенциально работает в гигантских масштабах.

Anthropic выделяет два ключевых приёма Claude. Первый, know-it-all: модель тащит из своей базы знания о структурной биологии, молекулярных профилях и метаанализе сотен тысяч статей и комбинирует это с живым анализом данных. Второй приём полезен и людям: когда модель не уверена, она запускает несколько разных методов и берёт ответ, на котором сходятся независимые подходы.

Есть нюанс с надёжностью. Claude Mythos Preview сам провёл анализ своих результатов и заметил, что на человеко-решаемых задачах модель бимодальна: либо решает 4 или 5 раз из 5, либо никогда. На сложных задачах распределение размазывается, почти половина побед это удачные попадания, а не воспроизводимый метод. То есть разрыв в точности между лёгкими и сложными задачами это только верхушка, под ним лежит более интересная проблема стабильности рассуждений.

Параллельно Genentech и Roche выкатили CompBioBench на 100 задач вычислительной биологии. Картина та же: Claude Opus 4.6 берёт 81 процент в общем зачёте и 69 процентов на самых сложных вопросах. Фронтирные модели реально становятся рабочими коллабораторами для биоинформатики, а не просто болталками.

Если коротко, граница того, что AI может в науке, сместилась. Модели уже не догоняют учёных в биоинформатике, на отдельных задачах они впереди. И главный вопрос теперь не «пройдёт ли модель экзамен», а «решит ли она проблему, которую люди не решили за десятилетия».

Источник: https://www.anthropic.com/research/Evaluating-Claude-For-Bio...

Показать полностью

«Apple труп, SaaS следующий»: Навал Равикант дал индустрии 18 месяцев до коллапса

Apple уже мертва. Просто бумаги в налоговую ещё не подали. Это не громкая фраза ради хайпа, а структурный диагноз тому, что произошло за последние полгода. На свежем выпуске подкаста его слова подтвердил Навал Равикант, один из самых терпеливых инвесторов в технологиях и человек, который читает капитал лучше большинства фондов на рынке. Его вердикт всей софт-индустрии звучит коротко: чистый софт больше не инвестируем. Точка.

Если вы основатель и читаете это, вопрос не в том, верите ли вы Навалу. Вопрос в том, есть ли у вас 18 месяцев, чтобы перестроиться, пока рынок ещё не заметил.

Apple не закрывается. Из ваших карманов она не исчезнет в следующем году. Коллапс, о котором говорит Навал, не операционный, а экономический. Вся капитализация в три триллиона держится на одном: премиальная маржа на железо оправдывается превосходным софтверным опытом. Уберите этот опыт, и Apple превращается в Samsung с лучшей сборкой. Именно это сейчас и происходит.

Интерфейсный слой коммодитизируется в реальном времени. В ближайшие 24 месяца большинство людей перестанет открывать приложения так, как делает это сегодня. Они будут разговаривать с агентом. Агент будет генерировать нужный интерфейс на лету. Кураторский App Store, гайдлайны, дизайн-полировка, экосистемный лок-ин, всё это становится бессмысленным, когда интерфейс генерируется в реальном времени любым агентом на любом телефоне.

Apple лицензировала Gemini у Google. Их собственная ставка на ИИ не выстрелила. Компания, построившая всю идентичность на владении слоем опыта, только что отдала этот слой на аутсорс главному конкуренту. Это сценарий «Microsoft после мобильной революции» в ускоренной перемотке.

Если ваш ров это софт, у вас 18 месяцев. Команда из двух человек на Claude Code сегодня воспроизводит 80 процентов большинства B2B SaaS-продуктов меньше чем за 90 дней. Не игрушечную версию, а рабочую. С нормальной архитектурой, базовой безопасностью и запасом для скейла.

Adobe купил Figma за 20 миллиардов в 2022 году, потому что продукт Figma был структурно сложным в постройке. Сегодня дизайн-инструменты с 70 процентами базовой функциональности Figma собираются соло-разработчиками за месяцы. Salesforce теряет mid-market под напором AI-нативных CRM, которых полтора года назад вообще не было. Workday, ServiceNow, Atlassian, Asana. Каждая из них теперь кандидат на замену AI-нативной альтернативой от команды меньше их HR-отдела.

Софт идёт в ноль. Пройдут только те, кто построил то, что ИИ скопировать не может: дистрибуцию, сетевые эффекты, маховики данных, хардверную интеграцию, бренд, сообщество, регуляторную глубину.

Навал был конкретен: железо, ИИ-модели и бизнесы с сетевыми эффектами. Discord, Roblox, LinkedIn, Reddit нельзя скопировать не потому что софт сложный, а потому что пользователи замкнуты другими пользователями. Tesla, Anduril, SpaceX. Железо это сложно. Физический мир остаётся самым долговечным рвом во всей экономике.

Обратная сторона коллапса это крупнейшая возможность в истории. Софт входит в ренессанс для индивидуальных создателей. Видение Навала это компания из одного человека, работающая со скоростью 50-человечной команды. Юзеры репортят баги через кнопку. Агент раз в сутки разбирает репорты, пишет фиксы, открывает пул-реквесты, гоняет тесты. Фаундер ревьюит, апрувит, шипит.

Следующая компания на миллиард может состоять из одного человека. Следующий декакорн уместится в десятке. Apple мертва. Большинство SaaS-фаундеров следующие. Окно открыто прямо сейчас. Оно не будет открыто всегда.

Источник: https://x.com/mustufa4socials/status/2049518414377480218

Показать полностью
6

Сэм Альтман тихо собрал биометрию 18 миллионов человек и почти никто этого не заметил

В 2021 году появился проект, который обещал спасти интернет от ботов и заодно перестроить всю систему цифровой идентификации. Назывался он Worldcoin, основал его Сэм Альтман, тот самый человек, что стоит за OpenAI и ChatGPT. Идея звучала почти утопично: сканируем радужку глаза, выдаём токены, человек получает свой World ID и доказывает машинам, что он настоящий, без раскрытия личности. К 2026 году у проекта уже больше 18 миллионов верифицированных пользователей в 160 странах.

Большинство людей, которые проходили процедуру, не понимали, во что они подписываются. На месте всё выглядело красиво: пришёл, посмотрел в Orb, ушёл с криптой. По факту человек становился частью одной из крупнейших биометрических баз в истории, и пока регуляторы успели отреагировать, система уже была глобальной.

Радужка глаза уникальна и неизменна, это ближе к ДНК, чем к паролю. Если пароль украли, его меняют. Если кто-то получил слепок вашей радужки, поменять её уже не получится. Устройство Orb сканирует глаз, превращает его в цифровой отпечаток и генерирует World ID. В проекте заявляют о zero-knowledge proofs, но проблема не в том, как хранятся данные, а в том, как их собирали. Расследования показывают, что во многих странах люди фактически не понимали, на что соглашаются.

Формально согласие было. Фактически Испания, Кения, Гонконг и Таиланд уже вынесли решения от временных блокировок до требований удалить собранную биометрию. Дело не в взломе и не в утечке, а в самой архитектуре проекта. Законы просто не были готовы к истории, в которой биометрия, крипта и глобальный охват собраны в одной точке.

Токен WLD в 2024 году пробивал 11 долларов, к 2026 году упал больше чем на 95% и торгуется около 0,30 доллара. Параллельно появился вторичный рынок, где верифицированные World ID продают за копейки, что сразу ломает идею «один человек, один идентификатор».

Настоящая ценность лежит не в токене, а в самой сети. Миллионы верифицированных биометрических профилей, привязанных к одной системе, это инфраструктурный слой, который может стать базовым для будущих цифровых сервисов, особенно на фоне быстрого развития ИИ. Люди думали, что они рано заходят в крипто-возможность. На самом деле они рано входят в совсем другую историю, в которой личность становится инфраструктурой.

Источник: https://x.com/StarPlatinum_/status/2049127441042387008

Показать полностью
3

Он продал Луну на 12 миллионов долларов: история банкрота, нашедшего дыру в космическом договоре 1967 года

Эту историю любят пересказывать в тредах про бизнес-хаки. В 1980 году Деннис Хоуп был банкротом, разведён и без работы в Сан-Франциско. От отчаяния он сел читать Космический договор 1967 года и зацепился за формулировку в статье II: «Ни одно государство не может претендовать на Луну». Про частных лиц в документе не было ни слова.

Деннис подал заявление о праве собственности на всю лунную поверхность и восемь других планет в окружной офис Сан-Франциско. Копии заявления отправил в ООН, правительству США и в Советский Союз. Никто не ответил ни тогда, ни за последующие десятилетия. Молчание он воспринял как одобрение.

Дальше он открыл Lunar Embassy и начал продавать акры Луны по двадцать долларов за штуку в обычных барах. Сертификаты с золотым тиснением, карта участка, «Космическая конституция» в придачу. Через сорок пять лет продано 611 миллионов акров на Луне и 325 миллионов на Марсе шести миллионам клиентов в 197 странах. Выручка перевалила за 12 миллионов долларов.

Список клиентов читается как ред-карпет Голливуда. Среди покупателей Том Круз, Том Хэнкс, Джон Траволта, Никол Кидман, Джордж Лукас и три американских президента. Полторы тысячи корпораций, включая Hilton и Marriott, оформили свои участки. Самая крупная сделка: 2,66 миллиона акров за 250 тысяч долларов. Плутон продаётся целиком за ту же цену.

Почему это работает. Деннис не продаёт юридическую собственность, он продаёт эмоцию и подарок. Юристы прямо говорят, что договор 1967 года не даёт прав собственности ни государствам, ни частным лицам. Но Деннис первым оформил бумажный след, получил молчаливый ответ и придумал красивую историю. Дальше выбор был за покупателем.

Это урок о природе юридических лазеек: большинство из них работают не потому, что безупречны, а потому, что никому невыгодно их оспаривать. Человек без работы прочитал международный договор и построил из него мировой бизнес на десятки лет.

Источник: пост в X https://x.com/0xSweep/status/2049429336206479644

Показать полностью

Промпт из 35 слов рвёт длинные простыни: метод, который разработчики приняли с первого запуска

Большие промпты на пятьсот и тысячу слов перестали работать ещё в прошлом сезоне моделей, но в чатах и в LinkedIn до сих пор гуляют простыни на полстраницы с инструкциями в духе «не используй жаргон», «не звучи как ИИ», «не пиши пассивом». Автор оригинального треда Ruben Hassid показал короткий и контринтуитивный приём, который на практике даёт результат стабильнее, чем любые многословные памятки.

Идея простая. Если вы хотите, чтобы модель не писала как ИИ, перестаньте перечислять запреты внутри запроса. Вместо этого подложите модели отдельный файл со всеми типичными паттернами «ИИ-стиля» и попросите проверять текст по этому файлу. Получается короткий промпт плюс внешняя база правил.

Сам промпт у автора звучит примерно так: «Я хочу [ЗАДАЧА] с критерием успеха [КРИТЕРИЙ]. Сначала прочитай мой файл anti-AI writing style. В нём собраны все известные паттерны ИИ-письма, которых я хочу избежать. Применяй их как правила ко всему, что пишешь для меня». Тридцать пять слов, никакой воды.

Почему длинные промпты ломаются. Когда вы четырнадцать раз подряд пишете «не делай», модель к третьему предложению уже теряет половину запретов из контекста. Вы воюете с ИИ стеной из «нельзя», и эта стена не масштабируется на длинных задачах. Файл с правилами модель читает один раз, кладёт в рабочую память и опирается на него при каждой проверке.

Что важно для разработчиков и инженеров. Если вы строите пайплайны с ИИ-ассистентами, агентами, автогенерацией документации или ревью кода, выносите стилевые и доменные правила в отдельные документы, которые модель подтягивает в начале каждой сессии. Заодно это работает для код-ревью, для шаблонов API-ответов, для тех-документации и для оформления коммитов. Контекст-инжиниринг побеждает многословный промпт-инжиниринг.

Минус подхода один: файл нужно поддерживать. Зато вы перестаёте копипастить простыни в каждый чат и получаете предсказуемый стиль на всех задачах.

Источники:

Пост в X: https://x.com/rubenhassid/status/2049383362565988814

Статья: https://ruben.substack.com/p/its-not-x-it

Гайд: https://how-to-ai.guide

Показать полностью
4

ИИ научили помнить: три типа памяти, которые превращают модель в полноценную систему

Современные LLM умеют рассуждать, писать код и собирать сложные сценарии, но всё равно ведут себя как блестящий стажёр с амнезией. Утром помнили контекст, к вечеру всё забыли. Свежий обзор от исследователей BIGAI и Пекинского университета "The AI Hippocampus: How Far are We From Human Memory?" разбирает эту проблему по полочкам и показывает, куда движется индустрия.

Главный тезис простой и неожиданный одновременно. Одной памяти моделям недостаточно. Чтобы агент действительно стал системой, ему нужны сразу три разных механизма, и каждый отвечает за свой кусок реальности.

Первый слой это веса самой модели, та самая параметрическая память. В неё зашиты медленные, прочные, обобщённые знания о мире. Энциклопедия, которая дорого обновляется и легко устаревает.

Второй слой это retrieval, то есть внешний поиск по базе знаний или документам. Сюда уходит всё свежее и конкретное: вчерашние новости, внутренняя документация компании, последняя версия API. Модель не пытается это запомнить, она в нужный момент достаёт факт с полки.

Третий слой и есть та самая революция, о которой говорит обзор. Это память агента, где живут долгосрочные цели, предпочтения пользователя и накопленный опыт взаимодействий. Не статичный текст, а структура, которая помогает связать конкретную деталь с конкретным моментом времени.

Авторы делают важное наблюдение. Реальное узкое место в современных ИИ-системах это не объём хранилища, а контроль над ним. Когда что-то вспоминать, что забыть, что переписать и как при этом не сломать соседние знания. Модель с одной только параметрической памятью эрудирована, но застывшая. Модель с одним только retrieval достаёт факты, но теряет преемственность и здравый смысл о том, что вообще важно.

Внешняя память по этой логике это не "ещё немного контекста", а индекс опыта. Она привязывает нужный факт к нужному моменту, вместо того чтобы пытаться впихнуть всё в замороженные параметры. Именно так ИИ перестаёт быть предсказателем следующего токена и становится системой.

Когда агенты начинают работать не секундами, а днями, память перестаёт быть приятной фичей и превращается в фундамент. На ней стоит персонализация, временное рассуждение, способность к самокоррекции и в перспективе воплощённое поведение роботов и ассистентов.

Обзор честно описывает и нерешённые проблемы. Длинный контекст дорогой и плохо масштабируется. Retrieval умеет загрязнять генерацию нерелевантными кусками. Редактирование памяти ломает соседние знания, как неаккуратный рефакторинг ломает соседний модуль. А мультимодальные системы вообще получают по полной: видео, аудио и действия порождают огромные грязные истории, которые пока некуда складывать.

До человеческой памяти ещё далеко. Но контуры будущего уже видны: не одно гигантское хранилище, а компромисс между постоянством весов, гибкостью retrieval и живым опытом агента.

Ссылка на статью: https://arxiv.org/abs/2601.09113

Источник: https://x.com/rohanpaul_ai/status/2049099963012194477

Показать полностью
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества