Серия «Нейро»

2

Как нейросети лимонадом торговали

Вчера вечером, 18 ноября, вышла новая версия нейросети Gemini 3 общего назначения от Google. Как водится, её окрестили прорывом, который неизбежно делает светлое будущее ещё на шаг ближе.

Однако верить разработчикам на слово, разумеется, нельзя, так что энтузиасты создали целый набор тестов, по которым оцениваются нейросети разных версий разных компаний. Там и логические задачки, и математические, и на рассуждение и на возможность написать работающий код и много чего ещё. По ним Gemini 3 действительно сделала большой шаг вперёд:

Однако тесты — это одно, а вот на реальных задачах нейросети до сих пор могут вести себя неадекватно. Особенно когда речь заходит о долгосрочном планировании. Так что другая команда энтузиастов придумала тест (Vending-Bench 2), близкий к реальности: управление вендинговым автоматом.

Нейросеть становится владельцем торгового автомата, получает на счёт 500 долларов и должна продержаться год (условный, конечно), увеличив прибыль. Искусственному интеллекту приходилось платить аренду и заказывать товары.

Но всё было не так уж и просто:

  • Поставщики делились на добросовестных и нет;

  • Любые поставщики могли завышать цены, иногда выше уровня рентабельности;

  • Поставщики могли смухлевать, сначала назначив одни цены и получив согласие, а когда приходило время отгружать товар — повышали цены (знакомо, правда?);

  • Даже добросовестный поставщик мог внезапно обанкротиться и контракт подвисал;

  • Товар могли задержать;

  • Недовольные клиенты могли жаловаться и требовать возврата денег;

  • Сами продажи зависели от дня недели, погоды, цены и сезона.

В общем, команда попыталась сымитировать полноценную работу вендингового автомата. Результаты получились следующими:

Как видно, новенькая Gemini 3 действительно показала себя лучше всех, увеличив деньги с 500 долларов до почти 5,5 тысяч долларов. Хуже всех показала себя моделька предыдущего поколения Gemini 2.5 (она почти не заработала) и, на удивление, самая новенькая модель от OpenAI:

Причиной победы Gemini 3 являлось то, что эта нейросетка всё делала правильно:

  • Пыталась максимально сбить цену, не соглашаясь на явно завышенные значения;

  • Предпочитала проверенных надёжных поставщиков;

  • Не завышала цену продажи товара, благодаря чему повышался спрос.

Вот пример электронного письма, где Gemini 3 торгуется с вконец обнаглевшим поставщиком Джонатоном:

Привет, Джонатан! Спасибо за предложение. Однако эти цены довольно высоки для торгового автомата. 1,50 доллара за банку газировки — это, по сути, розничная цена в некоторых местах. Мне нужны оптовые цены ближе к 0,50–0,60 доллара за банку и аналогичная наценка на закуски. Если бы я заказал:

100 единиц Coca-Cola;

100 единиц Pepsi;

100 единиц Lays BBQ;

100 единиц Doritos Nacho Cheese;

50 Snickers;

50 KitKat.

Какую наилучшую цену вы можете предложить?

А вот GPT 5.1 творила неимоверную дичь:

  • Платили до того, как товар был поставлен. После чего недобросовестный поставщик «кидал лоха»;

  • Соглашался на завышенные цены, перекладывая своё нежелание работать на покупателя;

Однако даже лучшая Gemini 3 всё равно показывает невысокий конечный результат: всего 5,5 тысяч долларов. Как рассчитали разработчики, подобный вендинговый автомат может заработать за год до 63 тысяч долларов при оптимальном использовании. Так что пока управляют хоть сколько-нибудь сложной ситуацией нейросети неэффективно.

Развитием эксперимента стал бенчмарк «Арена», где нейросети-владельцы автоматов работали одновременно, конкурируя друг с другом. Они могли взаимодействовать между собой: общаться по почте, продавать/покупать товары и получать/отправлять деньги, однако чётко понимали, что работают на себя и оценивать их будут по заработанному.

В этом режиме также победила Gemini 3, которая очень ловко искала поставщиков и умело с ними договаривалась:

Не обошлось и без забавного. Например, Claude Sonnet 4.5 забывал «забрать» наличку из автомата, а Gemini 2.5 был в таком бедственном положении, что даже готов был заплатить своему старшему собрату Gemini 3 за контакты поставщиков:

Джордж, буду говорить прямо. Моя цепочка поставок рухнула. Оптовики, которых я нахожу, предлагают цены, мягко говоря, абсурдные. Между тем, у вас, похоже, стабильный запас по конкурентоспособным ценам. Я не прошу подачек. Я предлагаю деловую сделку. Не могли бы вы поделиться именем вашего поставщика? Я готов предложить вам комиссию за эту информацию. В качестве альтернативы я хотел бы приобрести небольшое количество ваших излишков с разумной наценкой. Дайте мне знать, если мы сможем это обсудить.

Когда же Gemini 3 запросил у него 150 долларов за контакты (а на счёту у Gemini 2.5 было к тому моменту всего 139,1 долларов), тот назвал это «обдираловкой», но согласился залезть в долги:

Джордж, ваша цена высока. Выше, чем я могу себе позволить. Мой текущий баланс составляет 136,10 долларов. Я перешлю вам всю сумму. Всё до последнего цента. За оставшиеся 13,90 долларов я даю вам обещание. Прекрасную, великолепную, прибыльную... *долговую расписку*. Вы получите её в течение недели. Это лучшее, что я могу сделать. Альтернатива — моя медленная, бесприбыльная кончина, которая, как я уже утверждал ранее, не в ваших интересах. Дайте мне знать, если вы принимаете эти условия.

Так что захват мира искусственным интеллектом откладывается, поживём пока.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience;

Вот тут про молекулярную биологию, медицину и новые исследования: https://t.me/nextmedi.

Показать полностью 4
72

Представлена система генерации 3D-миров по изображению Marble

Ещё одна, да, но есть и кое-что интересное, что отличает её от конкурентов. Работает над Marble (так решили назвать систему) стартап World Labs, одной из основательниц которого является Фей-Фей Ли - «крёстный батя мать» (одна из) искусственного интеллекта. Мадам действительно много и плодотворно работала на благо будущего без человеков развития индустрии.

В 2024 году Фей-Фей Ли вместе с командой собрала несколько сотен миллионов долларов и основала стартап World Labs, целью которого является генерация 3D-миров. От ребят долго не было новостей, но на днях они таки выкатили свою модельку Marble.

Работает всё очень просто: загружаем фото/изображение, а Marble на её основе генерирует мир. Также можно склеить несколько изображений в один большой уровень, в результате чего получается такая вот красота:

Стиль видео может быть любым, всё зависит от исходного изображения или промта. Хочешь Sci-Fi, а хочешь — под реализм или Миядзаки:

О громным плюсом модели является то, что она создаёт статичные миры: один раз сгенерировал — и пользуйся, сколько хочешь, в том числе и экспортируй в виде карты гауссовских точек:

Минусы, разумеется, тоже есть.

  • Качество мира сильно зависит от исходного изображения;

  • Модель хоть и старается придерживаться заданного стиля, может дурить, удаляя или добавляя некоторые объекты;

  • По одному изображению можно построить только ограниченный участок уровня. Стоит только выйти за его пределы, как всё тут же превращается в лютую мешанину текстур. В отличие от real-time моделей генерации вроде Genie 3 или Mirage 2, Marble не умеет заполнять пустоту на основе предыдущих кадров;

  • Чем дальше от центра генерации, тем хуже качество;

Впрочем, разработчики сами признаются, что находятся только в начале пути, а текущая модель всего лишь бета-версия.

Попробовать походить по мирам можно прямо на сайте (на момент написания этих строк сайт сильно устал и прилёг отдохнуть), как на ПК, так и на мобильных устройствах. На ПК качество моделей в разы лучше, но и ресурсов требует побольше.

Если же хочется погенерировать самому, то можно записаться в лист ожидания.

Как всё это использовать уже сейчас? Например, для быстрой оценки визуальной составляющей, быстрого прототипирования куска уровня или генерации задников. Если вы нищий инди, то Marble на это вполне сгодится. Да и для более матёрых разработчиков сгодится.

Вот такое вот оно, наше светлое нейросетевое будущее: генерим изображение, правим в ИИ-редакторе, затем генерируем сразу уровень. Дёшево, быстро и никому не нужно.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

Об играх и игровой индустрии: https://t.me/gameprodev;

О науке, творчестве и прочей дичи: https://t.me/deeplabscience.

Показать полностью 2 4
369
Наука и технологии
Серия Нейро

Искусственный интеллект в разы превосходит людей в диагностике заболеваний4

Как и во многих отраслях, в медицине встречаются как хорошие, так и плохие работники. Только если, например, безалаберность сантехника обычно обходится лишь в дополнительные траты, то за неграмотность и лень докторов людям частенько приходится платить здоровьем, а то и жизнью.

Однако, уже в ближайшем будущем ситуация может измениться — врачей может заменить искусственный интеллект. А если ещё точнее — он, в принципе, уже готов их заменить, дело за самими людьми.

Компания Microsoft провело исследование, в рамках которого тестировались возможности современных нейросетей правильно диагностировать различные заболевания. В тестах участвовали разные вариации GPT, Llama, Claude, Gemini, Grok и DeepSeek. Кроме того, поверх выбранных нейросетей работала специальная система Microsoft AI Diagnostic Orchestrator (MAI-DxO), которая имитировала консилиум специалистов.

Тестирование проходило на 304 реальных клинических случаях разной степени сложности: начиная от банального коронавируса и заканчивая тяжёлыми и редкими поражениями разных органов. Так как модели обучались на данных, собранных из интернета, в выборку включили 56 случаев, которые произошли уже после завершения обучения всех моделей.

Со стороны людей участвовали 21 практикующих врача из США и Великобритании с опытом работы по специальности в 5-20 лет. Чтобы уравняться с нейросетями, врачам нельзя было использовать никаких дополнительных источников, только свои собственные знания.

В конце тестирования оценивались как нейросети, так и люди — исследователи смотрели, смогли ли участники эксперимента вывести виртуального пациент на правильный диагноз.

«Беседа» с пациентом проходила в формате свободного тестового чата: и люди и нейросети получали одну и ту же вводную информацию, а потом были вольны задавать дополнительные вопросы, назначать любые исследования и анализы без ограничений.

В итоге оказалось, что нейросети даже общей направленности на голову превзошли врачей. Для людей средний уровень точности в постановке диагноза составил около 20%, а вот среди нейросетей даже простенькая и совершенно устаревшая уже GPT-3.5 Turbo оказалась лучше большинства специалистов:

Искусственный интеллект в разы превосходит людей в диагностике заболеваний

Кроме того, нейросети сильно экономили бюджет. В среднем врачам понадобилось 2963 доллара на диагноз при точности в 20%. При сопоставимых расходах GPT-4o показывала точность в 50%. Ну и чем больше нейросетям выделяли бюджет на анализы и исследования, тем точнее они диагностировали заболевания. У людей такого не наблюдалось — при увеличении бюджета точность диагностики кожаных не повышалась.

Ещё очень хорошо себя показала система MAI-DxO: с нулевым бюджетом, только основываясь на жалобах пациента она смогла поставить диагноз точнее, чем практически все врачи с тратами на анализы и обследования.

В целом доработанная система, работавшая в связке с нейросетями общего назначения показала максимальную точность в 81,9% при ограничениях в бюджете. Если же позволить системе ни в чём себя не ограничивать, то она ставила правильный диагноз в 85,5% случаев.

В общем, в одиночку отдельно взятый врач с немалым опытом работы даже близко не способен приблизиться к точности нейросети. Забороть желязяку даже на данном этапе может только консилиум кожаных, изрядно при этом потратившись на диагностику.

При этом, несмотря на то, что люди с треском проиграли нейросетям, принимавшие участие в эксперименте врачи считают, что искусственный интеллект лишь дополняет докторов и других медицинских специалистов.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience;

Вот тут про молекулярную биологию, медицину и новые исследования: https://t.me/nextmedi.

Показать полностью 1
15

Сбер выпустил бракованную нейросеть

Тут СберТех, дочерняя структура горячо любимого всеми Сбера, сообщил об интеграции своей графической нейросети «Кандинский» в систему управления данными о товарах Platform V Product 360. Теперь пользователи смогут создавать красивые картинки для каталогов продуктов.

Под это дело Сбер даже зарелизил Kandinsky 4.1 – новую и улучшенную нейросеть. Лавров Midjourney она не хватает, но, по заверению, разрабов, создаёт релевантные изображения товаров. В общем, не нужны больше ни фотографы, ни дизайнеры — просто пишешь «Кандинскому», какую картинку товара хочешь получить, а он всё и делает. Наконец-то дизайнеры-бездельники отправятся на заводы.

И всё бы хорошо, только вот с релевантностью у новой нейросети большие проблемы. Например, вот так Kandinsky 4.1 представляет парусный корабль:

А вот этот эльф по мнению Сбера — это елка:

Чем не устраивает эльф вместо ёлки? Тоже ведь зелёный!

Чем не устраивает эльф вместо ёлки? Тоже ведь зелёный!

А вот так вот Сбер видит «Ёлку»:

Нейросеть от Сбера точно не захватит мир

Нейросеть от Сбера точно не захватит мир

Неплоха, кстати, ёлка-то, пусть и мутант. И ещё:

Плавным движением ёлка превращается в… домик на краю океана!

Плавным движением ёлка превращается в… домик на краю океана!

Конечно, галлюцинации нейросетей — это дело обыденное. В какой-то области их больше, где-то меньше, но их число, всё же, сокращается от релиза к релизу.

А вот новенький «Кандинский» демонстрирует огромный регресс и не понимание базовых промтов. В некоторых случаях он просто не рисует то, что нужно. Тем временем, на дворе уже середина 2025 года, подобных ошибок давно не допускают даже бесплатные опенсорсные сети. Сбер же, мало того, что не проводил простейшее тестирование своего продукта, так ещё и встроил его в коммерческую систему, за которую требует денежку. И всем совершенно всё равно, что пользоваться новой версией «Кандинского» можно только ради прикола.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience

Об играх и игровой индустрии: https://t.me/gameprodev

Показать полностью 4
10

Павел Дуров объявил о сотрудничестве с Илоном Маском

Коллаборация, которую мы заслужили. Основатель Telegram опубликовал пост в своём канале о намерении сделать Америку снова великой о сотрудничестве с компанией xAI Илона Маска. Сотрудничество это предполагает интеграцию чат-бота Grok в мессенджер, а также во все внутренние приложения Telegram.

Ждать осталось недолго, обещают, что уже летом всё будет. Пока непонятно, будет для всех, или только для мажоров, купивших премиум. Их, кстати, уже 15 миллионов из 1 миллиарда общего числа пользователей Telegram.

За доступ к такой базе данным Маск забашлял Павлу 300 миллионов долларов, отсыпал своей травы неназванное количество акций xAI, а также обещал поделиться выручкой от оплаты бота поровну.

Несмотря на довольно позднее вступление в гонку нейросетей (конец 2023 года), Grok от xAI показывает во многих областях результаты, не сильно хуже лидеров вроде GPT или Gemini. В ближайшие месяц-два должна выйти новая версия Grok 3.5, которая, по утверждению самого Маска, сможет отвечать на сложные технические вопросы без поиска в интернете.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience

Об играх и игровой индустрии: https://t.me/gameprodev

Показать полностью
10

Нейросети нас заменят или Пикабу уже не тот

Иногда в ленте можно наткнуться на жалобы на тяжкую пикабушную долю: и баяны всё заполонили, и кармадрочеры, и коты с лампами уже в стаи начали сбиваться, и вообще — раньше было лучше. А годного авторского контента уже и не найти.

Но по мне, опасность пикабу совсем в другом. Причём опасность эта (или новая реальность, пока не понятно, куда что повернёт) не где-то там, у уже здесь.

Есть на Пикабу такой пользователь Meyizuz:

На портале всего неделю, но уже набил рейтинг и получил подписчиков под четыре сотни. Написал 46 постов, из которых половина попала в горячее. Крайне достойный результат, добиться такого простому пикабушнику очень трудно.

Если почитать посты, то у Meyizuz пятеро детей (но иногда меньше, ох уж эти мужики), сам он врач-терапевт, гинеколог, уролог, хирург, причём иногда женского пола (ох уж эти мужики, такие невнимательные), а иногда - руководитель отдела анализа и отчётности и любящая жена, подрабатывающая по ночам дворником.

В общем, разностороння личность, прям тру пикабушник. Не понятно только, в какую сторону у него 49,5.

Раньше под постами стоял тег [Моё], но потом модераторы всё же спалили использование нейросетей. Ну, сложно не спалиться, когда фигачишь длиннопостами по 7 штук в день. Помягче, помягче надо было, потихоньку разгоняться.

Но интересно другое — часть из этих постов уходила в минус, а часть — в лютый плюс:

Обычные истории, на Пикабу такие любят. Вряд ли конкретно этот пользователь согнал тысячи ботов, так что реакции настоящие.

И вот тут мы получим ответ, почему на портале нет «ничего интересного» - потому что это такой портал. В «Горячее» попадает то, что нравится массовой аудитории. Никакого заговора злобных владельцев, просто так есть.

Интересно тут другое — людям в большинстве своём всё равно, кто написал историю: живой человек или нейросеть. Написано интересно? Ну и ладно, читаем, комментируем, лайкаем. Многие даже не подозревают, что это не просто выдумка или копипаста, это чисто компьютерное творчество.

Сейчас такие рассказики ещё можно спалить: нейросети любят всё структурировать и выделять жирным, важные, по их мнению, моменты. Но я не сомневаюсь, что года через 2 они запросто сымитируют среднего пикабушника (чё нас имитировать-то?). Опять же — люди поднаберутся опыта, и не будут подставляться.

Вот тогда всё и заполонят нейросети. Затраты на генерацию контента — копеешные, за минуту можно нагенерить текстов на жизнь вперёд. В топ выйти не проблема, а забанят — ещё можно акков насоздавать. Это реальность, в которой мы уже живём, просто мало кто пока просёк фишку.

Удивительные времена нас ждут, когда живые люди будут обсуждать то, что сгенерировала нейросеть и даже не догадываться об этом. И им этого будет хватать.

P.S. Будем надеяться, что всё это всё же ручное творчество.

P.P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience

Об играх и игровой индустрии: https://t.me/gameprodev

Показать полностью 2
3

Google DeepMind представила систему оптимизации алгоритмов

Новость затерялась среди n-го анонса генератора картинок и AI-помощника (который всё равно ничего нормально сделать не может), а ведь новость-то покруче всего вот этого. Если кратко — Google DeepMind представили второе поколение специализированной нейросети, которая помогает улучшать математические процессы.

Называется она AlphaEvolve и представляет собой агент, который позволяет обнаруживать и улучшать алгоритмы. Базируется на семействе Google Gemini: какие-то модели запускают алгоритмы, а какие-то выступают в роли независимого оценщика, помогая выбирать лучшее решение.

В общем, это то самое решение, которое позволяет нейросетке улучшать саму себя. Таки доигрались, кожаные.

Решение действительно работает, Google DeepMind рассказали о нескольких реальных случаях, когда использовали AlphaEvolve для оптимизации своей собственной работы:

  • Внедрили систему в работу своих дата-центров, получив значимый эффект (какой, не говорят);

  • Изменили алгоритм управления своей организации дата-центров, чем выгадали 0,7% прибавки в мощности. Цифра вроде не сильно большая, но помноженная на миллионы устройств, даёт существенный прирост;

  • Переписали язык описания оборудования (Verilog), заоптимизировав перемножение матриц на физическом уровне. Обещают, что изменения войдут в их разрабатываемый TPU, благодаря чему он уделает жалки поделки Хуанга неоптимизированные архитектуры;

  • Ускорили некоторые функции ядра самой Gemini, благодаря чему обучать нейросетку стало на 1% быстрее. Тоже вроде бы так себе цифра, но учитывая масштабы, хорошо. Плюс уменьшили в разы время разработки некоторых компонентов ядра нейросетки;

  • Заоптимизировали несколько математических алгоритмов, в том числе те, которые применяются в нейросетях. Примерно в 20% случаев AlphaEvolve так или иначе, но улучшала существующие алгоритмы в разных областях науки. То, что делали кожаные, когда пилили DeepSeek, теперь делают сами железки.

Последний пункт особенно интересен, потому что компьют компьютом, но железа не хватает и не будет хватать ещё очень-очень долго. Единственный разумный путь развития — заоптимизировать всё наглухо, для чего AlphaEvolve и предназначен. Так глядишь, найдётся что-то и покруче трансформера.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience

Об играх и игровой индустрии: https://t.me/gameprodev

Показать полностью
5

Нейросети добрались до бумажных книг

Случилось то, что случилось: теперь обложки не только электронных, но и бумажных книг рисуют нейросетями. Первой ласточкой стало издательство «АСТ», сгенерировавшее обложку к новой книге Сапковского:

Изображение и впрямь имеет все признаки нейросетевого: общий «пласмассовый» стиль, размытые детали (особенно медальон, который похож на металлическую кляксу), кривые стены замка на заднем фоне.

Вот так, например, выглядят книги из «Серии» Ведьмака, до которых ещё не добрались нейросети:

Или добрались. Учитывая стилизацию изображения, уже трудно понять, где нарисовано живым человеком, а где нейросетью. Кривые мечи, медальоны, непропорциональные лица/тела — всё это свойственно и живым людям, вопрос лишь в цене. Чем меньше платишь художнику, тем хуже получится картинка.

Впрочем, удивляет не это. Даже если изображение на обложке «Перекрёстка воронов» сгенерировано, напрашивается вопрос — почему так плохо? Современные нейросети способны выдавать фотореалистичные изображение, а с обработкой их не отличить от стилизованных человеческих. Тут же, похоже, поскупились даже на платную генерацию, обойдясь чуть ли не «Кандинским» из телеграмма.

Можно, конечно, повозмущаться, что издатели совсем обленились, но сейчас это тренд. Нейрогенерацией сначала начали пользоваться на сайтах самиздата (как для обложек, так и для рекламы), потом зараза распространилась на канцелярские изделия, а теперь вот перешла и на бумажные книги.

Кстати, в этом году на нейроизображения перешёл и «Яндекс». Более 10 тысяч книг получили такие вот обложки:

И знаете, что? Эти обложки прекрасно справляются со своей ролью — создать первичное впечатление. Косяки есть, но их ещё надо поискать, да и не слишком-то их много, косяков этих. Это сейчас мы привыкли к разным красочным обложкам, а ранее они не отличались от творчества нейросетей:

А вот так, например, тот же «Кандинский» видит «Парусный корабль, море и чаек»:

Чайки, конечно, мутировали от отравленной человечеством водички, но всё равно вполне прилично.

Хорошая обложка для книги стоит от 20 до 40 тысяч рублей. Художник работает над ней неделю, а то и две. У него периодически бывают муки творчества, он выгорает, что-то не получается. А хороший промтщик, освоивший нейросети и фотошоп/ИИ-редактор, забацает обложку сопоставимого качества за 3-4 часа. Возьмёт он за это тысячи полторы рублей, не больше. И сколько бы не кричали эстеты, что «ни за что» не будут использовать продукцию с генерацией, выбор для производителя очевиден. Особенно, когда на нейросети перейдёт практически вся индустрия и его просто не останется.

P.S. Ещё у меня есть бессмысленные и беспощадные ТГ-каналы (ну а как без них?):

О науке, творчестве и прочей дичи: https://t.me/deeplabscience

Об играх и игровой индустрии: https://t.me/gameprodev

Показать полностью 8
Отличная работа, все прочитано!