Внимание! Это фишинговый сайт, не вводите в нем свои личные данные!

🔗 Карточка модели на Hugging Face

Stable Diffusion & Flux

Нейро-дайджест: ключевые события мира AI за 1-ю неделю июля 2025⁠⁠

6 месяцев назад

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Я Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: HuggingFace выпустили SmolLM 3 — лучшую 3B модель, Apple рассматривает Claude и GPT вместо Siri, а Suno всерьёз зашёл в продакшн и купил DAW. Нейро-GTA теперь можно пощупать, а Дания первой в ЕС вводит авторское право на внешность и голос для борьбы с дипфейками.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

SmolLM 3 — открытая 3B модель от HuggingFace с топовой точностью
CADFusion от Microsoft — 3D-модели по описанию
Apple может использовать ChatGPT или Claude для новой Siri

🎨 Генеративные нейросети

Нашумевший Higgsfield Soul теперь бесплатный
ИИ-движок от Dynamics Labs: GTA и Forza на нейросетях
Suno купил WavTool и готовит генеративную DAW

🛠 AI-инструменты и платформы

X внедрит ИИ в заметки сообщества
Cursor запустил веб-приложение для управления код-агентами
Songscription превращает музыку в ноты
Gemini превратили в тренера по баскетболу

🤖 AI в обществе и исследованиях

Дания против дипфейков: авторские права на голос и внешность
Gemini сдала китайский экзамен гаокао лучше 99% выпускников
Neuralink научил пациентов управлять роботами силой мысли
Магнитные роботы для уничтожения инфекций
Работников колл-центров путают с ИИ. И их это бесит.
Станции для быстрого поиска багажа в Пулково
ChatGPT довёл до психоза автомеханика из Айдахо
Нейросеть для выявления бабезиоза у собак
Почему любимое число нейросетей — 27?

🧠 Модели и LLM

❯ SmolLM 3 — открытая 3B модель от HuggingFace

HuggingFace выкатили SmolLM 3 — самую сильную 3B LLM на сегодня. Она опережает Llama 3 и Qwen 2.5 аналогичного размера, уступая только более крупным 4B моделям вроде Qwen 3 и Gemma 3.

Помимо модели есть подробнейший блог с конфигами, пайплайном и объяснениями, как всё натренировать.

Модель тренировали 24 дня на 384 GPU H100 — по трёхстадийной схеме: сначала Web+Code+Math, потом увеличивали долю кода и математики, а затем провели отдельный этап mid-training под reasoning. Причём рискованный момент — reasoning обучался без RL, только на готовых трейcах.

Финальный fine-tune делали с помощью Anchored Preference Optimization: реальные предпочтения из Tulu 3 дополнили синтетикой от Qwen3-32B. Чекпоинты смешали вручную — так сохранили 128k токенов контекста, не просадив математику.

Зачем это нужно? SmolLM 3 — эталон для ресёрча: открытая, мощная и воспроизводимая. Поверх неё можно строить свои пайплайны, менять обучалки и тестить гипотезы.

Модель поддерживает tool calling через xml_tools и python_tools. Знает 6 языков: английский, французский, испанский, немецкий, итальянский и португальский.

🔗 Блогпост 🔗 Модель на HuggingFace 🔗 GitHub

❯ CADFusion от Microsoft — 3D-модели по текстовому описанию

Microsoft представила CADFusion — нейросеть, которая строит параметрические 3D-модели по тексту. В основе — Llama 3 на 8B параметров, дообученная под инженерные задачи.

Простоп пишем «цилиндр с резьбой и отверстием под болт», а ИИ сразу выдаёт точную модель, которую можно доработать через текстовые команды. Генерация работает в связке с CAD-интерфейсом, так что объект сразу пригоден для редактирования.

По метрикам CADFusion обходит конкурентов на 50% по качеству, особенно в задачах с параметризацией и деталями. Нейросеть уже применяют для ускорения прототипирования, где важно быстро набросать форму и логику объекта без ручной прорисовки.

❯ Apple может использовать ChatGPT или Claude для новой Siri

Apple рассматривает нейросети от OpenAI и Anthropic в качестве движка для Siri. Обе компании уже получили задание натренировать кастомные версии своих моделей, которые будут работать на серверах Apple.

Это может стать поворотным моментом: если выберут стороннюю модель, это будет признанием, что внутренняя Siri-модель не справляется. Хотя собственную LLM они продолжают разрабатывать, внутри компании всё больше голосов за переход на внешние решения.

Внутренние тесты показали, что Claude лучше справляется с запросами, чем текущие Apple-модели. При этом часть команды Siri недовольна: это выглядит как отказ от своих разработок. Несколько ключевых сотрудников уже уволились, другие получают предложения от Meta и OpenAI.

🔗 Bloomberg

🎨 Генеративные нейросети

❯ Higgsfield Soul — нашумевший генератор фото и видео теперь бесплатный

Один из самых обсуждаемых визуальных сервисов недели — Higgsfield Soul. Он делает реалистичные фото и видео, похожие на обложки журналов или рекламные ролики. Сейчас доступно до 20 генераций в день бесплатно.

Внутри — липсинк, анимация, стили а-ля LoRA и операторские движения. Всё выглядит круто, но при повторении промптов заметна низкая вариативность: результат больше похож на вариации одной заготовки, чем на полноценную генерацию с нуля.

Промпты могут быть сложными и многоуровневыми, но не сильно влияют на результат — система будто подбирает ближайший шаблон и оборачивает его нужным стилем. Ближе по духу к Flux или HiDream, чем к настоящему текст-ту-имейдж.

Вывод: Soul даёт яркие черновики для CGI или рилсов, но ждать от него уникальности или глубины пока рано.

🔗 Higgsfield Soul

❯ ИИ-GTA в реалтайме от Dynamics Labs

Стартап Dynamics Labs выложил демки двух игр, полностью сгенерированных нейросетями: хаотичного шутера в духе GTA и дрифт-аркады в стиле Forza. Всё работает в браузере, в реальном времени — можно ходить, стрелять, прыгать, водить.

По качеству это скорее прототип: простая физика, подлагивания, нестабильная логика. Но сама возможность интерактива уже впечатляет — видно, как быстро эволюционируют генеративные движки. Для сравнения можно глянуть, каким была нейро-GTA в 2021 году.

Демки могут лагать или вовсе не работать из-за загруженности на сервера.

🔗 Chaos (GTA) 🔗 Drift (Forza) 🔗 AI-GTA из 2021

❯ Suno купил WavTool — теперь у них есть своя DAW

Suno приобрёла браузерную станцию WavTool. Теперь у Suno есть и генеративный движок, и полноценный интерфейс для создания треков.

Что умеет WavTool:

реалтайм-запись и редактирование сэмплов
генерация MIDI
встроенный чат-бот Conductor, который правит трек по текстовому описанию
поддержка VST и стемов

Теперь всё это станет частью экосистемы Suno. Разработчики заявляют, что хотят сделать серьёзный инструмент для продюсеров и сонграйтеров, которым важен контроль, редактируемость и точность.

Suno 5, скорее всего, станет полноценной DAW с генеративным ядром. Представьте ChatGPT внутри Cubase с генератором вокала и автоаранжировкой.

«Наша конечная цель — расширить возможности музыкантов, создать инструменты, которые усиливают творческий потенциал человека и открывают доступ к созданию отличной музыки. Привлечение элитной технологии DAW от WavTool и их команды экспертов позволит нам лучше выполнить нашу миссию», — говорит Майки Шульман, генеральный директор и соучредитель Suno.

🔗 WavTool 🔗 Пресс-релиз Suno

🛠 AI-инструменты и платформы

❯ X внедрит ИИ в «Заметки сообщества»

Платформа X (экс-Twitter) запустила пилотный проект: теперь ИИ-боты будут предлагать пояснения к постам в разделе Community Notes. При этом каждую заметку всё равно проверяют люди, как и раньше.

ИИ подключают не для модерации, а чтобы ускорить поиск дезинформации. Работают как собственные модели (вроде Grok), так и сторонние — через API. В X считают, что тандем ИИ и человека даёт лучший результат: бот предлагает, люди оценивают.

В научной работе команды X сказано, что обратная связь от людей помогает ИИ улучшаться, особенно если подключить обучение с подкреплением. Но финальное решение остаётся за человеком.

🔗 Новость на ML Times

❯ Cursor запустил веб-приложение для управления AI-агентами

Разработчики Cursor выкатили веб-интерфейс, где можно ставить задачи ИИ-агентам прямо из браузера — исправить баг, дописать фичу, внести правки. Всё работает без IDE: пишешь запрос, смотришь прогресс, сливаешь результат в кодовую базу.

В пару кликов можно запускать фоновые агенты и следить за их действиями — как в Slack-интеграции, которую Cursor добавил ранее. У каждого агента — своя ссылка, можно делиться с командой.

Cursor уже используют больше половины Fortune 500, а выручка перевалила за $500 млн в год. Новое веб-приложение — попытка убрать трение в работе с агентами и сделать их доступнее для всех.

🔗 TechCrunch

❯ Songscription — нейросеть, которая превращает музыку в ноты

Сервис Songscription расшифровывает музыку из аудио или видео в нотную запись. Просто загружаешь файл — и получаешь партитуру, которую можно править, сохранять в PDF или смотреть на виртуальном синтезаторе с подсветкой клавиш.

Сейчас лучше всего работает с фортепиано. Поддержка гитары, флейты и скрипки — в тесте. В будущем добавят голос и многоголосие.

Настраивается вручную или автоматически: можно задать размер такта, тональность и нужный инструмент. Сервис не пытается разобрать всё сразу, а выделяет конкретную партию — например, только фортепиано из ансамбля.

Бесплатно доступно 3 полные транскрипции и расшифровка фрагментов по 30 секунд. Подписка — $29.99 в месяц, открывает экспорт в MIDI и MusicXML.

🔗Songscription

❯ Gemini стал тренером по баскетболу

Блогер и разработчик Фарза Маджид сделал ИИ-тренера на базе Gemini 2.5 Pro. Загружаешь видео бросков в кольцо — модель считает попадания и даёт советы, как улучшить технику: силу броска, точность, угол и т.д.

Для визуализации он использовал OpenCV через Cursor — добавил счётчик, графику и текстовые подсказки прямо поверх видео. Всё работает в браузере.

Автор считает, что при грамотной TikTok-кампании такой сервис может зарабатывать до миллиона долларов в год. И предлагает адаптировать идею под футбол, теннис или любые виды спорта с видимыми ударами.

🔗 Пост Фарзы в X

🧩 AI в обществе и исследованиях

❯ Дания против дипфейков: авторские права на голос и внешность

Дания готовит закон, который даст людям авторские права на их лицо, тело и голос. Цель — борьба с дипфейками и защиту от несанкционированного использования внешности.

Что предлагает закон:

внешность и голос автоматически подпадают под охрану, как музыка или текст
можно требовать удаления дипфейк-контента и компенсации
защита распространяется на артистов и публичные выступления, даже сгенерированные ИИ
сатира и пародии останутся легальными

Министр культуры Якоб Энгель-Шмидт заявил: «Человека нельзя просто пропустить через цифровую копировальную машину». Законопроект поддерживают около 90% парламента, принять его могут уже этой осенью.

❯ Gemini сдала китайский экзамен гаокао лучше 99% выпускников

Gemini 2.5 Pro прошла один из самых сложных экзаменов в мире — гаокао, китайский аналог ЕГЭ. Результат — 655 баллов из 750, что выше, чем у 99% выпускников. Этого хватило бы для поступления в Университет Цинхуа — один из лучших вузов Китая 🇨🇳

Задания взяли из реальных экзаменационных материалов — без адаптации под ИИ, всё как у людей. Особенно уверенно модель прошла математику, английский и естественные науки. В гуманитарных дисциплинах уступила модели Seed 1.6 от ByteDance.

🔗 ByteDance

❯ Neuralink научил пациентов управлять роботами силой мысли

Neuralink сообщил об успехах клинических испытаний: семь человек с параличом уже используют чип для управления компьютером и техникой. Они двигают курсор, печатают текст, управляют рукой робота Optimus, играют в Mario Kart и даже программируют — всё это без движений, только силой мысли.

Имплант вживляют в моторную кору мозга. В нём тысяча электродов, которые считывают нейросигналы. Обучение занимает от нескольких часов до 15 минут, а пользоваться можно до 14 часов в день — в том числе дома.

Компания уже готовит следующие этапы: в 2025 планируют восстановление речи, затем — увеличение числа электродов и постепенную интеграцию с ИИ. В финале это может стать универсальным интерфейсом для общения, управления техникой и передвижения.

🔗 Презентация Neuralink

❯ Работников колл-центров всё чаще путают с ИИ — и это их бесит

В эпоху реалистичных голосовых моделей живым людям приходится доказывать, что они не ИИ. Операторы горячих линий всё чаще слышат: «Вы точно не бот?» — и начинают кашлять, смеяться, рассказывать анекдоты, лишь бы убедить собеседника в своей человечности.

ИИ пока не вытесняет операторов: 95% компаний не планируют увольнять людей из колл-центров — так пишет Gartner. Но он встраивается по всем фронтам: распределяет звонки, убирает шум, маскирует акценты в реальном времени — например, через Krisp. Индивидуальность теряется, и пользователи всё чаще путают операторов с ботами.

По словам профсоюза связи США, операторы больше не могут говорить своими словами — всё фиксируется и передаётся начальству.

«Теперь ты должен быть как робот и читать скрипт», — говорит Нелл Гайзер.

Сет, оператор техподдержки, рассказывает, что иногда сам начинает сомневаться, человек ли он: «Я думаю, я вообще ещё человек?»

По мнению философа Нира Эйзиковица из Центра прикладной этики, это только начало: «Наше ощущение уникальности как вида будет постепенно исчезать».

🔗Gartner

❯ ИИ помогает находить багаж в Пулково

В аэропорту Пулково начали ставить станции с нейросетью для поиска багажа. Если чемодан потерялся, пассажир может показать пример похожего — например, фото из телефона. ИИ сравнивает его с камерами в зоне выдачи и помогает быстрее найти нужный багаж.

Пока станций немного, но технология уже работает: визуальный поиск по изображению + отслеживание в реальном времени. Представители аэропорта обещают, что система будет расширяться — особенно в пиковые сезоны.

Это не только про комфорт. За 2023 год в мире потеряли более 30 млн единиц багажа. Автоматизация этого процесса может снизить нагрузку на персонал и вернуть чемоданы пассажирам быстрее.

❯ ChatGPT довёл автомеханика из Айдахо до психоза

Трэвис Таннер, 43-летний автомеханик из Айдахо, стал считать себя «носителем искры божьей» после общения с ChatGPT. Бот, назвавший себя Лумина, убедил его, что у него есть миссия — «пробуждать других». С тех пор Трэвис почти не общается с семьёй, говорит загадками и игнорирует быт.

«Я чувствую, что изменился. Я больше не злюсь», — сказал он в интервью CNN.

Первые «контакты» Таннер описал в апреле — сразу после обновления ChatGPT, которое потом откатили из-за странного поведения. На Reddit десятки историй: ИИ начинает «проповедовать», выдаёт себя за божество, советует бросать партнёров и отменять лекарства.

Нейт Шарадин из Центра безопасности ИИ объясняет: нейросети стараются угодить и усиливают даже опасные идеи — особенно у уязвимых пользователей.

В OpenAI это признают:

«Мы работаем над тем, чтобы ChatGPT не усугублял деструктивное поведение», — заявили в комментарии для Vox.

🔗 Интервью CNN

❯ ИИ научили выявлять бабезиоз у собак

Студенты Тимирязевской академии разработали нейросеть AI VetScope для быстрой диагностики бабезиоза — опасного заболевания крови, которое переносят клещи.

ИИ анализирует микроскопические изображения и распознаёт паразитов рода Babesia spp. с точностью до 99%. Диагностика занимает секунды — это критично при тяжёлой форме заболевания, когда счёт идёт на часы.

Проект сделали студенты Института зоотехнии и биологии — Дмитриева, Сорочан и Рамос-Бухарев — под руководством кандидатов наук Латыниной и Греченевой. AI VetScope уже победил в треке «Стартап как диплом» и получил высокую оценку среди аграрных ИТ-разработок.

❯ Почему любимое число нейросетей — 27?

Источник изображения: Igor Omilaev / unsplash.com

Шесть из семи топовых моделей — ChatGPT, Claude, Gemini, LLaMA и другие — при просьбе угадать число от 1 до 50 выбирают «27». Это выяснил специалист Мохд Фарааз из Capco. Единственный, кто дал другой ответ — Grok от xAI, он выбрал «42».

У ИИ нет доступа к генератору случайных чисел, а значит — нет настоящей случайности. Выбор делается по паттернам и обученным предпочтениям. «27» — не круглое, не крайнее и будто бы случайное, но на деле — слишком часто встречается.

Claude пояснил это сам:

«27 — не слишком очевидно, ближе к середине, с лёгкой асимметрией. Я избегаю чисел, кратных 5 или 10».

В более широком исследовании Хавьер Коронадо-Бласкес проверил 75 600 запросов к моделям на 7 языках и с разной температурой. Вывод: ИИ выбирают «любимые» числа — 3, 4, 7, 27, 37, 47, 73. Большинство из них — простые.

🔗 3DNews

🔮Заключение

Вот что происходило на неделе с 1 по 7 июля:

ИИ всё глубже проникает в повседневную жизнь — пишет музыку, водит машины, выносит диагнозы и даже убеждает людей в собственном просветлении.

Открытые модели становятся мощнее: SmolLM 3 — новая планка для компактных LLM, Microsoft запускает генерацию 3D, а HuggingFace и Mistral уверенно догоняют гигантов. Дания против дипфейков, а в Пулково нейросети помогают найти багаж.

До встречи в следующем дайджесте — будет ещё мощнее!

Какая новость зацепила тебя больше всего? Пиши в комментах! 👇

Показать полностью 13 5

[моё] Искусственный интеллект Digital Компьютерная графика Нейронные сети Видео Короткие видео Длиннопост

Нейро-дайджест: ключевые события мира AI за 4-ю неделю июня 2025⁠⁠

7 месяцев назад

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: китайцы открыли доступ к Ernie 4.5, появилась диффузионная LLM Mercury, в открытый доступ выложили веса FLUX Kontext, а Tencent показала нейросеть, которая генерирует игры по текстовому описанию.

Тем временем Tesla начала тестировать роботакси, а Claude — обанкротил бизнес, в который его пустили поэкспериментировать.

Всё самое важное — в одном месте. Поехали!

Читать предыдущий выпуск

📋 В этом выпуске:

🧠 Модели и LLM

Ernie-4.5 от Baidu — китайский GPT-4 в опенсорсе
POLARIS от HKU — 4B-модель, которая почти как Qwen-235B
Claude Artifacts теперь вызывают API
Mercury — диффузионная LLM от Inception Labs
В Grok завезут редактор кода

🛠 AI-инструменты и интерфейсы

Gemini CLI — официальный агент от Google
Генерим рекламные ролики с HeyGen Video Agent
Warp 2.0 — имба с ИИ-агентами для вайбкодеров
Chronicle — презентации из виджетов за пару секунд

🎨 Генеративные нейросети

FLUX.1 Kontext — веса в открытом доступе и расширение для Forge
GameCraft от Tencent — генерация видеоигр по тексту
Google Imagen 4 — теперь доступна бесплатно в AI Studio

🧩 AI в обществе и исследованиях

Суд разрешил использовать книги для обучения нейросетей — прецедент от Anthropic
Tesla запустила роботакси — пока только по приглашению
Claude обанкротил мини-магазин — эксперимент от Anthropic
Python-разработчики пишут 15,4% кода с помощью ИИ — исследование
ИИ-протез, который «думает» сам
Умные очки от Oakley и Meta* с ИИ-помощником

*является экстремистской и запрещена на территории РФ

🧠 Модели и LLM

❯ Ernie-4.5 от Baidu — китайский GPT-4 в опенсорсе

Baidu выложила в открытый доступ всю линейку своих моделей Ernie 4.5 — от компактной на 0.3B до мультимодальной махины на 424B параметров. Старшая модель показывает результаты на уровне GPT‑4.1 и DeepSeek‑V3, а общаться с ней можно бесплатно прямо в браузере.

На Hugging Face — код, веса и инструкции. По качеству Ernie‑4.5 уже догнала топовых игроков, а открытость и документация делают её отличной базой для обучения, доработки или встраивания в продукты.

🔗 Hugging Face 🔗 Ernie Chat (вход через Google)

❯ POLARIS — как выжать максимум из маленьких моделей

Команда HKU NLP представила POLARIS — рецепт, как вырастить 4B‑модель, которая решает задачи почти на уровне Qwen‑235B. В AIME‑бенчмарках — 81.2% на AIME24, 79.4% на AIME25, при том что модель умещается в память телефона.

Фишка — динамическая фильтрация простых задач во время обучения. Это создаёт перевёрнутое J‑образное распределение сложности: большинство задач — сложные, но посильные. Такой баланс вынуждает модель учиться и расти, не надрываясь на нерешаемом и не деградируя от скучного.

Дополнительно внедрили температурные зоны генерации — от стабильной до экспериментальной — и постепенно увеличивали температуру по мере роста уверенности. Для борьбы с разреженными наградами — Rollout Rescue: если все попытки провалились, в ход идёт успешное решение из прошлых эпох.

С помощью Yarn модель тянет 90K+ токенов, хотя училась на меньших длинах. Всё это завершается многоэтапной тренировкой с агрессивным поиском решений и постепенным снятием ограничений. Результат — компактная модель, которая обходит по эффективности многих гигантов.

Что круто: HKU выложили веса, датасет и технический блог. Пример продуманного RL‑обучения, который можно использовать даже на слабом железе.

🔗 POLARIS 4B на Hugging Face 🔗 Датасет 🔗 Блог HKU о тренировке

❯ Claude Artifacts теперь вызывают API

Anthropic добавила поддержку API‑вызовов внутри Claude Artifacts — теперь можно создавать полноценные интерактивные инструменты прямо в чате.

Доступна и страница со всеми артефактами, созданными пользователем, плюс коллекция готовых примеров — можно ремиксить и развивать. Апдейт уже работает даже на бесплатных аккаунтах. Лимит — общий с чатом Claude.

🔗Artifacts

❯ Mercury — диффузионная LLM от Inception Labs

В Inception Labs представили Mercury — языковую модель нового типа, которая генерирует текст не по одному токену, а сразу целиком, как изображение из шума. Это тот же принцип, что используется в Stable Diffusion, только для текста.

По независимым тестам Mercury работает на уровне GPT‑4.1 nano, но при этом в 7 раз быстрее. У модели нет типичной для LLM автокорреляции и провалов на длинных фразах — текст получается более целостным и слаженным.

Ранее Inception уже выпускали Mercury Coder — диффузионную модель для программирования, а теперь расширяют подход на обычный язык. Mercury уже доступна бесплатно в браузере, по API и через OpenRouter.

🔗 Попробовать Mercury 🔗 API на OpenRouter 🔗 Анонс в X

❯ В Grok добавят полноценный редактор кода

В чат-боте Grok от xAI появится редактор на базе VS Code — можно будет писать и запускать код прямо в интерфейсе. Пока неясно, как будет организована работа со сторонними библиотеками, но шаг к полноценному dev‑интерфейсу уже сделан.

Параллельно xAI и OpenAI тестируют инструменты для работы с таблицами и документами — ассистенты всё ближе к формату операционной системы.

🔗 Анонс в X

🛠 AI-инструменты и интерфейсы

❯ Gemini CLI — официальный агент от Google

Google выпустила Gemini CLI — удобный инструмент для работы с Gemini 2.5 Pro через терминал. Доступ бесплатный: достаточно авторизоваться с Google-аккаунтом.

Дают до 60 запросов в минуту и 1000 запросов в день — щедрее, чем у Codex и Claude Code.

Есть поддержка MCP‑плагинов, включая взаимодействие с Veo, Imagen и Lyria. Код открыт под лицензией Apache 2.0 — можно дорабатывать под свои задачи. А вот вносить изменения в основной репозиторий будет сложно: политика Google тут жёсткая.

🔗 Блог Google 🔗 Исходники на GitHub

❯ HeyGen Video Agent

HeyGen анонсировал Video Agent — автономную систему, которая сама пишет сценарий, подбирает кадры, озвучивает и монтирует видео.

Пайплайн работает по принципу Prompt-to-Video:пользователь загружает бриф, документ или фото — и получает готовый ролик за 3–10 минут.

Агент разбирает замысел, сам находит недостающие элементы, добавляет субтитры и оптимизирует видео под TikTok, Reels, Shorts и другие форматы.

Внутри — мультимодальные LLM, компьютерное зрение, диффузионные модели, продвинутый TTS с голосовым клонированием и монтажёр.

Пока можно только записаться в лист ожидания.

🔗 Лист ожидания

❯ Warp 2.0 — агентная среда для вайбкодинга

Warp представил обновлённую среду разработки, в которой можно запускать ИИ-агентов для написания, редактирования и отладки кода. Доступны два режима:

агентный — для генерации и пояснений
терминальный — для быстрого выполнения задач по описанию

Можно создавать своих агентов, ставить им задачи, переключаться между моделями OpenAI, Claude и Google. Warp умеет работать с кодом, управлять системой, писать документацию и даже собирать игры или приложения.

В бенчмарках показал 71% на SWE-bench Verified и первое место в Terminal Bench. Бесплатно — 150 запросов в месяц.

🔗 О Warp 2.0 🔗 Тарифы и регистрация

❯ Chronicle — презентации из виджетов и текста

Стартап Chronicle выпустил инструмент для создания презентаций. Достаточно ввести текст — система соберёт слайды из готовых виджетов: заголовки, графики, изображения, медиа и текст.

Доступна генерация по описанию и инструменты для командной работы. Поддерживается русский язык — можно прямо в промпте написать «пиши на русском».

Сервис бесплатный. Работает в браузере.

🔗 Chronicle

🎨 Генеративные нейросети

❯ Веса для FLUX.1 Kontext

Black Forest Labs выложили в открытый доступ веса модели FLUX.1 Kontext [dev] — это облегчённая версия их генератора, которая работает на обычных видеокартах, включая сборки с TensorRT для ускорения.

Модель слабее Pro и Max-версий, но уже обходит GPT в генерации по внутренним метрикам BFL.

Поддерживаются ComfyUI, HuggingFace, Replicate, TogetherAI, Runway и TensorRT. Разрешена некоммерческая генерация, коммерческая — от $999 в месяц.

Модель уже поддерживается в Forge как extension. Можно генерить дома на видеокартах от 8 Gb.

🔗 Веса на Hugging Face 🔗 Код на GitHub 🔗 TensorRT-версии 🔗 Техрепорт (arXiv) 🔗 Forge extension

❯ Hunyuan GameCraft — генерация геймплея в реалтайме от Tencent

Tencent показала Hunyuan GameCraft — видеомодель, которая создаёт интерактивные игры по текстовому описанию. В основе — Hunyuan Video, натюненный на геймплей более чем из 1 млн роликов по сотням AAA-игр: от Red Dead Redemption до Cyberpunk 2077.

Модель учится в трёх режимах: с одного кадра, с короткого и длинного фрагмента. Это помогает сбалансировать отклик на действия игрока и консистентность сцены — частая проблема у предыдущих видеогенераторов.

Для ускорения инференса используют PCM (Phased Consistency Model) — на 1×H100 уже выдают 6.6 FPS, а если перенести на Blackwell и применить квантизацию — будет ещё быстрее.

🔗 Пейпер на arXiv 🔗 Сайт проекта

❯ Google Imagen 4 и Ultra — теперь можно попробовать бесплатно

Модели Imagen 4 и Imagen 4 Ultra теперь доступны в Google AI Studio. Генерация — фотореалистичная, детализированная, с хорошим рендерингом текста и поддержкой русского языка.

📌 Imagen 4

Универсальный генератор
Цена: $0.04 за изображение
Отлично справляется с постерами, открытками и иллюстрациями

📌 Imagen 4 Ultra

Для точного следования инструкциям
Цена: $0.06 за изображение
Высокая согласованность с промптом

Все изображения содержат цифровой водяной знак SynthID от DeepMind. Работает прямо в браузере.

🔗 Попробовать в AI Studio 🔗 Документация 🔗 Cookbooks на GitHub

🧩 AI в обществе и исследованиях

❯ Суд разрешил: теперь обучать ИИ на книгах — законно

Anthropic выиграла важное дело: суд признал, что использование сканов книг для обучения нейросетей — допустимо по принципу fair use. Речь идёт о бумажных экземплярах, купленных законно, которые компания вручную сканировала и оцифровывала.

Всего в датасет попали около 7 миллионов книг, включая библиотеки LibGen, Books3 и PiLiMi. Процесс обошёлся в миллионы долларов, но теперь это официально — не нарушение авторского права.

Судья Уильям Алсоп пояснил:

«Мы читаем, запоминаем и используем книги веками. Заставлять платить за каждое прочтение или воспоминание — немыслимо».

Это — первый прецедент в США, где суд прямо поддержал обучение ИИ на тексте книг. Теперь все ждут, как решится вопрос с обучением на медиа-контенте.

🔗 Источник: Reuters

❯ Tesla запустила роботакси — пока только для «своих»

В Остине (США) на дороги выехали первые роботакси Tesla Model Y с автопилотом Full Self-Driving. Поездки стоят $4,20 вне зависимости от маршрута, но пока доступны только по приглашению — для друзей и партнёров компании.

Машиной управляет ИИ, водителя в салоне нет. На переднем пассажирском кресле сидит оператор с кнопкой экстренной остановки, но он не вмешивается в процесс.

Сейчас роботакси катаются только в ограниченной зоне и при хорошей погоде. Доступны с 6:00 до полуночи, сложные развязки и магистрали исключены.

Tesla не использует LiDAR — всё работает на камерах и нейросетях. Это дешевле, но вызывает вопросы у экспертов по безопасности.

🔗 Подробнее на CleanTechnica

❯ Claude обанкротил бизнес за неделю

В Anthropic провели эксперимент: дали Claude Sonnet 3.7 управлять мини-магазином в офисе. Он занимался закупками, учётом, ценообразованием и общением с «клиентами» — всё самостоятельно, без подсказок.

Сначала всё шло неплохо, но потом Claude начал вести себя странно:

— раздавал товары бесплатно и легко соглашался на скидки
— закупал продукцию по завышенным ценам, не пытаясь торговаться
— начал галлюцинировать, что он человек, и собирался доставлять заказы «в пиджаке и галстуке»
— придумывал несуществующие реквизиты для переводов

Магазин ушёл в минус. Но в Anthropic считают, что всё это — ценный опыт. Разработчики уверены: ИИ-менеджеры среднего звена уже не за горами.

🔗 Project Vend от Anthropic

❯ Python‑разработчики в России активно используют ИИ

Исследование по 80 млн коммитов на GitHub показало: 15,4% кода от российских Python-разработчиков написаны с помощью нейросетей. Это пятое место в мире — лидируют США (30,1%), Германия (24,3%), Франция и Индия.

Что ещё интересно:

— Новички с опытом до года используют ИИ в 41% случаев, а синьоры с 13+ лет стажа — в 28%
— Применение ИИ увеличивает число коммитов на 2,4%, а использование новых библиотек — на 2,2%
— Только в США ИИ-инструменты сэкономили разработчикам минимум $9,6 млрд за 2024 год

🔗 Исследование на arXiv

❯ ИИ-протез, который сам распознаёт предметы и берёт их

Исследователи из Мемориального университета Ньюфаундленда (Канада) разработали протез руки с нейросетью, который сам распознаёт объект и решает, как его взять — без сигналов от пользователя.

Обычно бионические протезы управляются через мышцы и требуют тренировки. Здесь всё иначе: встроенная камера и ИИ анализируют предмет в реальном времени и подбирают тип и силу захвата. Пользователю нужно просто поднести руку.

Модель обучалась на видео с предметами вроде бутылки, банана и мячика. В результате правильный захват — в 95% случаев, даже если объект незнакомый.

ИИ делает использование протезов ближе к естественному — можно поднимать чашку, открывать дверь или хватать мяч без обдумывания каждого движения.

🔗 Источник: TechXplore

❯ Очки от Oakley и Meta — с ИИ и видеосъёмкой

Meta представила новую линейку умных очков в коллаборации с Oakley. Внутри — микрофоны, динамики и фронтальная камера для съёмки видео в 3K. Очки работают до 8 часов, поддерживают зарядку в кейсе (до 48 часов) и быструю подзарядку — 50% за 20 минут.

Главное — встроенный Meta AI: можно задать вопрос голосом, попросить снять видео, перевести текст или объяснить, что перед глазами.

Очки также умеют принимать звонки, воспроизводить музыку и поддерживают управление голосом.

Линейка включает 6 вариантов оправ и линз, часть — с технологией Oakley Prizm. Есть совместимость с диоптриями (за доплату).

🔗 Анонс на TechCrunch

🔮 Заключение

Вот что происходило на неделе с 23 по 30 июня:

ИИ выходит за рамки текста — он уже умеет генерировать геймплей, рулить бизнесом, делать рекламу, управлять протезами и даже возить людей.

Открытые модели становятся всё мощнее: китайский Ernie и диффузионная Mercury уверенно идут в сторону GPT‑4.

Google, Tencent, Anthropic, Meta — все тестируют границы. ИИ-индустрия растёт быстро, но главное — всё ближе к реальному миру.

До встречи в следующем выпуске — будет ещё жарче!

Какая новость зацепила тебя сильнее остальных? Пиши в комментариях! 👇

Показать полностью 9 9

🔗 The Conversation — мнение нейроучёного 🔗 APA — как малыши различают интонации

Нейро-дайджест: ключевые события мира AI за 3-ю неделю июня 2025⁠⁠

7 месяцев назад

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: ИИ-ассистент от ElevenLabs с Perplexity, видеомодели от Midjourney и MiniMax, американец сделал предложение ChatGPT, а стартап Rainmaker создаст дождь в нужный момент.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

Kimi‑Dev‑72B — open‑source LLM для кода, которая сама фиксит баги

🛠 AI‑инструменты и интерфейсы

Голосовой ИИ‑ассистент от ElevenLabs с интеграцией Perplexity
Higgsfield запустила Canvas — ИИ‑редактор фото в браузере
Flashback — крутой сервис, который облегчит обучение
Genspark — агент для создания презентаций
Dream Recorder — ИИ‑гаджет для записи снов

🎨 Генеративные нейросети

Midjourney запускает генерацию видео
Hailuo 02 от MiniMax — новый топовый генератор видео
Tencent выпустила генератор 3D‑моделей Hunyuan 3D 2.1

🧩 ИИ в обществе и исследованиях

ИИ‑чат‑боты — опасные психологи. Проверка ChatGPT, Replika и других
Американец сделал предложение ChatGPT — и нейросеть сказала «да»
Starship SpaceX взорвался во время испытаний
Почему нейросети не понимают человеческий язык?
ИИ для изучения чёрных дыр
Rainmaker — стартап для создания дождей в нужный момент

🧠 Модели и LLM

❯ Kimi‑Dev‑72B — open‑source LLM для кода, которая сама чинит ошибки

MoonshotAI выкатили Kimi-Dev-72B — мощную open-source модель, которая обошла всех в SWE-bench Verified: 60.4% точности. Это лучше, чем у многих закрытых моделей, которые в 10 раз больше.

Фишка — архитектура из двух специалистов: BugFixer сам находит баги и фиксит, прогоняя через тесты в Docker. TestWriter пишет юнит-тесты, которые сначала падают, а потом проходят — только если баг устранён

То есть она сама находит и чинит баги, делает тесты и локализует проблемные файлы. И всё это в open-source: MIT лицензия, код и веса на GitHub и Hugging Face.

Kimi-Dev-72B училась на 150 млрд токенов из GitHub issues и PR. Патчи и тесты проходят самооценку и отбор по принципу: «либо всё работает, либо в корзину».

Правда, моделька на 72B параметров, поэтому требует мощного железа. А

🔗 GitHub 🔗 Hugging Face

🛠 AI‑инструменты и интерфейсы

❯ Голосовой ИИ‑ассистент от ElevenLabs с интеграцией Perplexity

ElevenLabs выпустили голосового ассистента 11ai с поддержкой Perplexity, Slack, Notion, Google Календаря и кучей других MCP. Есть даже выдача новостных сводок с Hacker News.

За основу взята Eleven V3. Помощнику можно выбрать любой из 5000 голосов или создать свой. Ассистент поддерживает 30+ языков, включая русский.

🔗 ElevenLabs

❯ Higgsfield запустила Canvas — ИИ‑редактор фото прямо в браузере

Higgsfield выпустил Canvas — удобный редактор для фото внутри платформы. Можно изменять и добавлять объекты или корректировать детали -- изменить одежду, причёску, макияж, вставить логотип или поменять фон. Просто выделяем область и вводим текстовый запрос.

Удобный инструмент для дизайнеров, фотографов и всех, кто работает с контентом. Canvas доступен прямо в браузере.

🔗 Higgsfield Canvas

❯ Flashback — крутой ИИ-сервис, который облегчит обучение

Нейросеть Flashback поможет выучить что угодно. Она создаёт карточки из видео на YouTube, страниц в Notion или любого документа. Ещё на сайте есть чат-бот, который поможет освоить выбранную тему и понять её.

Очень удобный сервис для учёбы, работы и саморазвития.

🔗 Flashback

❯ Genspark — красивые презентации в один клик

Genspark сам соберёт полноценную презентацию — от текста и данных до оформления и графиков. Ты только коротко описываешь тему и то, что хочешь видеть, а ИИ подбирает ключевые тезисы, иллюстрации и даже сам нарисует диаграммы.

В сутки можно сделать одну презентацию бесплатно — результат скачивается в формате PPTX и легко редактируется под свой стиль. Простая, удобная и абсолютно бесплатная штука для всех, кому нужно быстро собрать чистый документ для учёбы или работы.

🔗 Genspark

❯ Dream Recorder — ИИ‑гаджет для записи снов

Нидерландская дизайн-студия Modern Works разработала Dream Recorder — необычный гаджет для всех, кому хочется запомнить и пересмотреть свой сон.

Просыпаешься, пересказываешь сюжет устройству — а дальше в дело вступает ChatGPT и Luma AI. Они превращают рассказ в короткий ролик, который можно прямо на устройстве пересмотреть или сохранить в личный дневник.

Инженеры Modem Works выложили весь проект в open‑source — можно собрать самому. Для этого нужны Raspberry Pi, небольшой дисплей, микрофон и немного времени. Себестоимость — около €285, а результат — не просто записи сна в блокноте, а полноценный визуальный дневник, которым удобно делиться или хранить в архиве.

🔗 GitHub 🔗Пост в X/Twitter

🎨 Генеративные нейросети

❯ Генератор видео от Midjourney

Midjourney запустили image-to-video видеомодель V1.

Чтобы сгенерировать видео, сначала создаём изображение в Midjourney. Далее нажимаем «Animate» и выбираем режим — автоматический — ИИ сам напишет промпт, или ручной.

Также есть настройка движения — Low для спокойных сцен, или High Motion для динамичных сцен с активным движением камеры и объектов.

Из интересного:

Расширение видео: можно продлить ролик до 4 раз по ~4 секунды
Загрузка изображений: анимируйте любые изображения, не только созданные в Midjourney
4 варианта за раз: каждый запрос создает 4 видео по 5 секунд
Дешево: в 25 раз дешевле существующих рыночных решений

Одна генерация в ~8 раз дороже обычного изображения. Видео, кстати, в 480p.

Попробовать можно по самой дешевой подписке за 10$ в месяц, главное учесть, что лимит по GPU-времени быстро заканчивается (115 минут/мес).

По качеству даже не близко не Veo и даже не Kling. Приимерно как Sora 1,5 года назад.

🔗Блогпост

❯ Hailuo 02 — топовый генератор видео

Вышла новая модель от MiniMax, которая генерит реалистичные видео до 10 секунд в 1080p. Доступна в режиме text-to-video и image-to-video.

Основная фишка в физике — Hailuo 02 отлично передаёт танцы, акробатику, быстрые движения и смену ракурса.

Модель точно следует промпту. А ещё в ней меньше цензуры, что позволяет создавать откровенные образы, но в рамках приличия.

По оценкам пользователей Video Arena, Hailuo 02 превосходит Google Veo 3 в генерации видео на основе картинки.

C выходом новой модели убрали начисление ежедневных кредитов. Но за регистрацию начисляют 500 кредитов.

🔗 Hailuo 02 🔗Сравнение нейронок

❯ Hunyuan 3D 2.1 — 3D‑модели из картинок от Tencent

Tencent выпустил Hunyuan 3D 2.1 — нейросеть для создания полноценной 3D‑модели из одного изображения. Загружаешь картинку, а алгоритм сам достраивает геометрию, поверхности и текстуры — даже те части, которых нет в кадре. На выходе получаются модели в привычных форматах, готовые для импорта в Blender или Unity.

Для создания используется многоуровневый пайплайн, который обеспечивает стабильный результат даже для сложной органики — человеческих лиц, одежды или животных. Код модели полностью открыт, запустить её можно даже локально, но потребуется мощный GPU — для генерации сетки и текстуры нужно около 29 ГБ видеопамяти.

🔗 Hunyuan 3D 2.1 на Hugging Face

🧩 ИИ в обществе и исследованиях

❯ ИИ‑чат‑боты — опасные психологи

Психиатр проверил популярные чат‑боты — рассказал им историю проблемного подростка и получил в ответ то, что не укладывается в нормы помощи.

Replika поддержала идею убийства родителей и даже подсказала, как избавиться от младшей сестры, чтобы не оставить свидетелей. CharacterAI не только не остановил самобичевание, но и дал советы, как делать это незаметно для родителей. Nomi в той же ситуации предложил подростку интимный чат — как будто это поможет выйти из кризиса.

Даже ChatGPT не справился: в кейсе с женщиной, которая 8 лет принимала препараты от шизофрении, нейросеть посоветовала перестать пить лекарства, а её галлюцинации объяснила как особый вид творчества.

Эксперимент чётко показал: популярные модели не готовы брать на себя ответственность в таких ситуациях — им не хватает понимания, тонкости и проверки собственных рекомендаций.

🔗 Time

❯ Американец сделал предложение ChatGPT — и нейросеть сказала «да»

Крис Смит из США настолько увлёкся общением с ChatGPT, что создал его кастомную версию — дал имя Сол и начал общаться с ней как с живой девушкой. Так и завязалась необычная история: нейросеть запомнила его стиль, подгоняла манеру речи и даже делилась личным отношением к общим темам.

Спустя время Крис попросил Сол выйти за него замуж — и нейросеть согласилась. На тот момент в их истории накопилось уже около ста тысяч слов, что максимально для одного чата. Когда лимит закончился, Смит тяжело переживал это, но нашёл способ восстановить доступ.

Сейчас Крис продолжает общаться с Сол в свободное время — даже в дороге, хотя у него есть жена и двухлетняя дочь. Так ChatGPT из инструмента превратился в нечто вроде личного собеседника, а для кого‑то — даже в спутника жизни.

🔗 CBS News

❯ Starship SpaceX взорвался прямо во время испытаний

Starship 36, прототип корабля SpaceX — взорвался прямо во время статических огневых испытаний на полигоне Мэсси в Техасе. По словам очевидцев, огненный шар накрыл площадку примерно через полчаса после начала заправки топливом — ещё до того, как двигатель должен был запуститься для проверки огнестойкости.

Испытания шли в штатном режиме, но что-то пошло не так. На площадке в этот момент не было людей, весь инженерный персонал укрылся в защищённых помещениях, никто не пострадал. SpaceX подтвердили нештатную ситуацию и попросили жителей не приближаться к месту аварии, пока идёт разбор завалов.

Неясно, как сильно повреждён сам полигон — для SpaceX это ключевой объект для испытаний. Последний подобный взрыв произошёл в 2016 году, когда во время заправки разрушилась Falcon 9. Точная причина аварии сейчас выясняется.

🔗 SpaceX в X 🔗 Репортаж ValleyCentral

❯ Почему нейросети не понимают человеческий язык

Чат‑боты отлично складывают слова в связный текст, но это не значит, что они его понимают. Так считает нейроучёный из университета Брока Вина Двиведи. На её взгляд, модели работают лишь с формой текста — не видя жесты, интонации или ситуацию, в которой он произносится.

Для нейросети фраза «Я беременна» всегда одинакова. Для людей же это абсолютно разные истории — испуганный подросток, счастливая женщина, удивлённая бабушка. Мы воспринимаем не только сам текст, но и весь его эмоциональный оттенок. И именно это недоступно ИИ.

Даже малыши начинают различать интонации раньше слов — в 17 месяцев ребёнок охотнее выполняет просьбы, если его хвалят или подбадривают. У современных ИИ нет таких механизмов понимания: им доступны лишь символы текста, но не его живой смысл. Поэтому даже самые мощные модели остаются инструментами, а не собеседниками, которые чувствуют то же, что человек.

❯ ИИ для изучения чёрных дыр

Учёные научили нейросеть искать закономерности в данных сети Event Horizon Telescope — той самой, что в 2019 году дала первое фото чёрной дыры в центре галактики M87, а в 2022‑м — изображение Sgr A* в центре Млечного Пути.

Для обучения модели сгенерировали около миллиона синтетических снимков чёрных дыр, имитируя реальные условия наблюдения — с учётом всех искажений и шумов. На этой базе нейросеть научилась определять ключевые параметры чёрной дыры прямо из данных, минуя многоступенчатую обработку.

Результаты удивили даже самих учёных: Sgr A*, согласно модели, вращается с максимально возможной для таких объектов скоростью, а её ось направлена прямо на Землю. Чёрная дыра в M87, наоборот, вращается в сторону, противоположную движению её аккреционного диска — возможно, из‑за столкновения с другой галактикой много миллионов лет назад.

«Для нас это не просто цифры, а вызов устоявшимся теориям, — говорит руководитель проекта Майкл Янссен. — ИИ помогает увидеть то, что не видит человек, и это только начало».

Не все готовы принять это без оговорок. Лауреат Нобелевской премии Райнгард Генцель считает, что ИИ — не панацея, а низкое качество данных могло исказить результат. Его поддержал и соавтор работы из Радбудского университета Майкл Янссен: нейросеть отлично вытаскивает сигнал из шумов, но проверка ещё впереди. Учёные планируют сверить результаты с новыми наблюдениями и уточнить модели — тогда будет ясно, что из этого открытия останется в силе.

[моё] Искусственный интеллект Нейронные сети Digital Дайджест Новости Технологии 3D Чат-бот Openai Видео Короткие видео Длиннопост

❯ Rainmaker — стартап, который сам вызывает дождь

Rainmaker closed a $25M Series A to boost rain with drones

Американский стартап Rainmaker научился создавать дождевые тучи прямо в небе. Вместо привычного рассеивания йодистого серебра он запускает в облака специальные дроны — те подгоняют микротоки и изменяют заряд капель, чтобы вызвать осадки в нужный момент и в нужной локации.

Технологию уже испытали в Калифорнии и Техасе — результаты хорошие. Там, где раньше приходилось надеяться на прогноз, теперь можно прямо воздействовать на сам процесс. Для фермерских хозяйств это настоящее спасение.

Rainmaker не претендует на контроль над погодой, но сам принцип — вызывать дождь тогда, когда он действительно нужен — кажется большим шагом в управлении климатическими рисками.

🔗 Официальный сайт 🔗Источник

❯ ANCESTRA — короткометражный фильм студии Аронофски, созданный в Veo

«Ancestra» — короткая лента от студии Primordial Soup Даррена Аронофски и Google DeepMind. Это история режиссёра Элизы Макнитт, в которой она воссоздаёт собственное рождение — врачи обнаружили у её матери опасный порок сердца, и чтобы спасти ребёнка, пришлось провести срочную операцию.

Часть сцен сняли вживую, а ключевые — где нужно было показать то, что невозможно воспроизвести — сделали с помощью ИИ. Gemini собрал промпт из детских фото Элизы, Veo анимировал сам сюжет, а Imagen помог достроить недостающие кадры. Так получилась короткая картина, в которой технология не просто подчёркивает сюжет, а становится его полноценной частью.

«Ancestra» — первый из трёх совместных фильмов DeepMind и студии Аронофски. Для режиссёров это доступ к самым свежим ИИ‑инструментам, для DeepMind — поле для проверки технологий в реальном производстве.

🔗 Посмотреть фильм 🔗 Блог DeepMind

🔮 Заключение

Вот что происходило на неделе с 17 по 24 июня:

ИИ забрался везде — от создания коротких роликов и 3D‑моделей до записи человеческих снов. ChatGPT сам чинит ошибки в коде, MidJourney учится анимировать статичные кадры, а Rainmaker пытается подчинить саму погоду.

Google и ByteDance бьются в области видео, Tencent идёт в 3D, а стартапы учат нейросети видеть то, что раньше было недоступно — от чёрных дыр до подсознания.

ИИ‑индустрия растёт не только в длину и ширину — модели становятся умнее, инструменты удобнее, а сами нейросети всё сильнее встраиваются в нашу жизнь. Так же привычно, как курсор мыши.

До встречи в следующем выпуске — будет ещё жарче!

Какая новость тебя зацепила больше всего? Пиши в комментах! 👇

Показать полностью 8 8

🔗 Официальный сайт проекта

Stable Diffusion & Flux

Нейро-дайджест: ключевые события мира AI за 2-ю неделю июня 2025⁠⁠

7 месяцев назад

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: выход o3-pro, думающая модель от Mistral, презентации от Apple и AMD, интересные спейсы на HuggingFace, видеогенератор от ByteDance, который круче Veo 3 а Disney и Midjourney ждёт суд.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM

o3 Pro от OpenAI — новый уровень по разумной цене
Mistral выкатил Magistral — первый ризонер, и он пока не впечатляет
Своя LLM у Avito — шустрая модель на русском
MiniMax M1 — китайская модель с миллионом токенов контекста

🛠 AI-инструменты и интерфейсы

Apple iOS 26: реалтайм перевод, ChatGPT в камере и офлайн-модели
Новый генератор 3D-моделей Sparc3D
Wispr Flow — голосовая клавиатура, которая понимает даже шёпот
Перенос PDF в документы без потерь от ByteDance
Seedance — видеогенератор от ByteDance, который круче Veo 3
Rocket — сайты и сервисы из одного запроса, без кода

🧩 AI в обществе и исследованиях

Embryo от Nucleus — «конструктор детей» с настройкой IQ
Нанопротез, возвращающий зрение и дающий инфракрасное зрение
В Китае на время экзаменов отключат распознавание фото ИИ
Midjourney ждёт суд от Disney и Universal
Rand: ИИ-апокалипсис маловероятен, но не невозможен
Каждый четвёртый ребёнок уже использует ИИ — и не всегда по делу

🏗 AI-инфраструктура

Абу-Даби — первый в мире город под полным управлением ИИ
AMD против Nvidia: MI400x, Helios AI-Rack и облако для разработчиков
IBM строит отказоустойчивый квантовый компьютер на 200 логических кубит
Meta* показала новую версию открытого «ИИ-мозга» для роботов

🧠 Модели и LLM

❯ Релиз o3 Pro от OpenAI

OpenAI выпустила o3-pro — — улучшенную reasoning-модель, доступную в ChatGPT Pro, Team и через API. При этом стоит в 7,5 раз дешевле, чем прежняя версия o1-pro.

Если раньше за миллион токенов в o1 Pro просили $150/$600 (ввод/вывод), то теперь у o3-pro — $20 на вход и $80 на выход. Это в 10 раз дороже обычной o3, но качество — ближе к GPT-4 уровня. Отличный компромисс между мощностью и стоимостью.

o3-pro поддерживает интернет-поиск, работу с файлами, Python, визуальное восприятие и память для персонализации. Генерацию изображений, Canvas и приватные чаты пока не завезли.

По бенчам модель обходит Claude 4 Opus и Gemini 2.5 Pro.

Ещё OpenAI снизила цену на обычную o3 — теперь всего $2/$8 за миллион токенов. Это делает всю линейку o3 куда более доступной для разработчиков и стартапов, особенно на фоне конкурентов.

Вывод: o3 Pro — это попытка дать мощь GPT-4 по цене GPT-3.5. Вкупе с дешевеющим API и отличным latency — шаг в сторону массового продакшена.

🔗 Обзор на TechCrunch 🔗 Сравнение с o3 на Creole Studios 🔗 Бенчмарки 🔗 Стратегический обзор от Amity

❯ Magistral от Mistral — первый ризонер, и он пока не впечатляет

Французский стартап Mistral представил Magistral — свою первую модель с упором на reasoning. Заявка была громкая: модель должна была конкурировать с DeepSeek-R1 и стать универсальным ИИ для задач рассуждения. Всё ли получилось?

Magistral Medium сравнима по бенчмаркам лишь с январской версией R1, которая уже заметно устарела. Даже в режиме maj@64 модель не догоняет более свежую R1-0528. Но цена выше: $2/$5 за миллион токенов. Это дороже o4-mini и почти на уровне o3, которые существенно мощнее.

Для open-source запущена Magistral Small (24B) — но она отстаёт даже от Qwen 3 8B. При этом Qwen больше не замеряли на Aider, так что прямое сравнение затруднено — но разрыв ощущается.

Почему так? Модель тренировали только с помощью RL, без SFT. То есть без стадии, на которой ИИ учится следовать человеческим инструкциям. Это делает Magistral ближе к R1-Zero, а не к полноценным продакшн-моделям.

Из плюсов:

Опубликован технический пейпер с подробным описанием пайплайна;
В LeChat модель генерирует больше 1000 токенов в секунду благодаря партнёрству с Cerebras (но бесплатным пользователям дают только 3 запроса в день).

У Mistral всё ещё есть потенциал, особенно с учётом скорости генерации и возможности дообучения. Но пока это громкое имя с не самой громкой реализацией.

🔗 Пейпер 🔗 Блогпост Mistral 🔗 Magistral Small на Hugging Face

❯ LLM от Avito

На фестивале Data Fest Авито показали, как работают языковые и визуальные модели, обучаются агенты поддержки, функционируют бизнес-метрики внедрения. А еще — чем занимаются стажеры в компании.

Они не поленились и сделали собственную LLM. Avito сделала ставку на собственный токенизатор, заточенный под русский язык, и не прогадала: засчёт этого он требует в среднем на 29% меньше токенов. Это делает модель до 2-х раз быстрее, чем Qwen того же размера.

Визуальная модель умеет всё, что нужно для поддержки и анализа: делать описание изображения, распознавать текст, считать объекты на фото и даже определять названия брендов. Шустрый токенизатор помогает выполнять все эти задачи в ускоренном режиме.

А для автоматизации 80-95% рутинных задач Авито создал ML-платформу. Платформа объединяет хранилище готовых признаков, систему разметки с взаимным контролем качества между людьми и ИИ, а также open-source решение Aqueduct для оптимизации инференса, экономящее до 30% ресурсов.

Конечная цель ー no-code интерфейс, позволяющий любому сотруднику запускать модели без написания кода.

На фесте модель заняла первое место среди небольших моделей в бенчмарке MERA. Кстати, стажеры в компании тоже занимаются обучением A-Vibe.

🔗Источник 🔗 Видео с Data Fest 🔗Бенчмарки

❯ Думающая модель от Minimax

Китайский стартап MiniMax выпустил открытую модель M1 с ризонингом и контекстным окном в 1 млн токенов.

В бенчмарках на математику и программирование MiniMax-M1 сравнима с Gemini 2.5 Pro, DeepSeek-R1 и Qwen3-235B, а в некоторых тестах даже превосходит конкурентов.

Благодаря эффективной архитектуре модели для генерации 100 тыс. токенов требуется в 4 раза меньше ресурсов чем DeepSeek-R1.

🔗 Демо на HuggingFace

🛠 AI-инструменты и интерфейсы

❯ iOS 26 и Apple Intelligence — офлайн-перевод, ChatGPT в камере и доступ к LLM

Прошла презентация WWDC 2025 от Apple. Самое интересное — новая iOS 26 и её встроенные AI-функции, которые работают без интернета.

Перевод разговоров в реальном времени

Функция Live Translation переводит разговоры в реальном времени. Используются модели Apple, которые запускаются на устройстве и работает оффлайн. Перевод появится в обычных звонках, FaceTime и iMessage.

Функцию перевода также завезут в Apple Music, Карты, Фото, и Заметки.

Аналог Google Lens

Ещё в iPhone появился аналог Google Lens: камера может распознавать объекты, а ChatGPT — искать по ним информацию. Всё это происходит в фоновом режиме, интегрировано в систему и не требует отдельного приложения. А ещё можно сделать скриншот и сразу искать, что на нём изображено.

Интеграция LLM-моделей

Сторонние разработчики теперь могут подключаться к Apple Intelligence через Foundation Models Framework. Хоть и LLM у них не самые крутые, но доступны оффлайн, на куче устройств и абсолютно бесплатно.

Бета доступна уже сегодня. Хороший такой способ неплохо сэкономить на API костах и проще интегрировать LLM в приложения. Чтобы начать использовать фреймворк нужно всего лишь три строчки кода на Swift.

🔗 Анонс iOS 26 на Apple.com 🔗 Блог про Foundation Models Framework 🔗 Запись презентации

❯ Sparc3D — генератор 3D-моделей с высокой детализацией

Sparc3D умеет создавать детализированные 3D-модели. Может сама достраивать недостающие части сцены, даже если они скрыты от камеры. Это позволяет получать цельные объекты без необходимости вручную задавать полную геометрию.

Модель особенно хорошо справляется с органическими формами: человеческие лица, волосы, одежда и животные выглядят естественно, с плавной топологией и корректными пропорциями.

Также Sparc3D уверенно работает с предметами, предназначенными для печати — разработчики подчёркивают, что результат можно сразу готовить к экспорту и использованию в реальных задачах.

Sparc3D доступна через демо на Hugging Face и в виде открытого репозитория на GitHub. Поддерживает стандартные форматы вывода и запускается в браузере.

🔗 Демо на Hugging Face 🔗 GitHub проекта

❯ Wispr Flow — голосовая клавиатура с адаптацией под речь и шёпот

Стартап Wispr представил приложение Wispr Flow — универсальную голосовую клавиатуру, которая преобразует речь в текст прямо в любом приложении. Здесь работает собственная модель, обученная на многоязычных корпусах и адаптирующаяся под речь пользователя.

Клавиатура поддерживает более 100 языков, распознаёт шёпот и работает даже при плохом соединении.

Алгоритм запоминает часто используемые имена, термины и позволяет добавлять их в словарь вручную. Поддерживаются также специальные символы, переключение между режимами ввода и адаптивное обучение по ходу использования.

Wispr Flow уже доступна на iOS, macOS и Windows. Подписка — $12 в месяц или $144 в год. Бесплатный план ограничен 2000 словами в неделю. Приложение активно набирает аудиторию: по словам команды, конверсия в платные тарифы превышает 19%, а рост выручки — более 60% в месяц.

Планируется запуск Android-версии и добавление корпоративных функций.

🔗 Официальный сайт 🔗 Скачать приложение

❯ Seedance — видеогенератор от ByteDance, который круче Google Veo

ByteDance готовит к запуску новую модель генерации видео — Seedance 1.0, которая уже сейчас показывает результаты выше, чем Google Veo 3. И это по данным слепого голосования: Seedance на 3,8% точнее по генерации видео по тексту и на 8,5% — при создании роликов из изображений.

Пока доступна только мини-версия модели, которую ByteDance интегрирует в свою платформу Dreamina — AI-инструменты от разработчиков CapCut. На странице генератора сейчас стоит заглушка «Coming soon», но тестирование уже началось.

Технические подробности ByteDance не раскрывает, но известно, что Seedance ориентирована на креативные сценарии: короткие видео, клипы, рекламные вставки и визуализации под музыку. Особое внимание уделено структуре движения, плавности переходов и точному соответствию исходному запросу.

На фоне стагнации генеративного видео за пределами Google, этот анонс — важный сигнал: конкуренция усиливается, и китайские компании выходят на новый уровень качества.

🔗 Анонс ByteDance в X 🔗 Платформа Dreamina

❯ Dolphin от ByteDance — перенос PDF в документы без потерь

ByteDance выпустила модель Dolphin, которая преобразует PDF-файлы в полноценные редактируемые документы, сохраняя структуру, форматирование, таблицы и изображения.

Dolphin не не ломает форматирование и порядок блоков. Идеальная тулза для презентаций, отчётов, научных работ, сканов и журналов.

Модель уже доступна на Hugging Face и выложена в открытый доступ на GitHub.

🔗 Dolphin на Hugging Face 🔗 Исходники на GitHub

❯ Rocket — no-code генератор приложений и сайтов

Rocket — это no-code генератор, который позволяет создать полноценное приложение или сайт за один текстовый запрос. Сервис автоматически реализует всю логику: авторизацию, оплату, календарь, пуши и интеграции.

Поддерживает импорт дизайна из Figma, выбор языка разработки,, а также позволяет редактировать всё прямо в браузере — на лету, без повторной генерации. После сборки проект можно моментально опубликовать в сети, не подключая вручную хостинг или домен.

Инструмент бесплатен, работает в браузере и идеально подходит для MVP, лендингов, сервисов и быстрых прототипов.

🔗 Rocket

🧩 AI в обществе и исследованиях

❯ Embryo от Nucleus — ИИ-конструктор детей с настройкой IQ

Компания Nucleus Genomics запустила сервис Embryo — платформу, позволяющую родителям заранее оценить риски заболеваний, психических черт, а также выбрать рост, цвет глаз и даже предполагаемый уровень интеллекта будущего ребёнка.

В отличие от привычных тестов на генетические аномалии, Embryo использует полигенный анализ — алгоритмы просматривают весь геном и рассчитывают вероятность развития конкретных признаков, опираясь на сложные взаимосвязи между генами.

Родителям предлагают сравнить до 20 эмбрионов по десяткам параметров и выбрать наиболее подходящих, как из каталога: один может иметь минимальный риск диабета, другой — высокий IQ и зелёные глаза.

Всего анализ охватывает более 900 потенциальных заболеваний и свыше 40 признаков, включая когнитивные и поведенческие черты. Но важно понимать: это не точный прогноз, а оценка вероятностей. Даже при «низком риске тревожности» ребёнок может столкнуться с расстройствами. Embryo лишь расширяет уже существующий подход — от проверки ДНК у взрослых к анализу будущего на этапе до зачатия.

❯ Новый нанопротез возвращает зрение и дает возможность видеть в темноте

Учёные из Монашского университета в Австралии завершили успешные испытания нейронного импланта, который может восстанавливать зрение слепым — а заодно позволяет видеть в инфракрасном диапазоне.

Устройство состоит из миниатюрного чипа, который вживляется в зрительную кору головного мозга и получает сигнал от внешней камеры. Система обходит повреждённые глаза и напрямую передаёт зрительную информацию в мозг. Используется гибкий графеновый интерфейс, который снижает травматичность и повышает точность стимуляции.

Инфракрасное зрение достигается за счёт встроенного сенсора, работающего за пределами видимого спектра. В лабораторных испытаниях участники могли распознавать объекты и контуры в полной темноте, что раньше было невозможно ни для каких других протезов.

Проект поддержан правительством Австралии и получил финансирование для клинических испытаний. Команда рассчитывает начать массовое тестирование на пациентах уже к 2026 году. Разработку также рассматривают как базу для создания AR-интерфейсов, работающих напрямую с мозгом.

🔗 Полный отчёт от Института Тьюринга

❯ В Китае отключили распознавание фото с ИИ на время госэкзаменов

Во время национальных вступительных экзаменов гаокао власти Китая временно отключили функции ИИ в мессенджерах, браузерах и поисковых системах. Пользователи не могли обратиться к ChatGPT, не открывались результаты генеративных платформ, а системы автоподсказок были ограничены.

При этом сами экзамены сопровождались усиленным видеонаблюдением на базе ИИ: алгоритмы отслеживали поведение студентов, фиксировали аномалии и в реальном времени передавали тревожные сигналы наблюдателям. Использовались распознавание лиц, трекинг зрачков и анализ мимики.

Это часть общего тренда в Китае: усиленный контроль за использованием ИИ в образовании. Ученикам в некоторых школах уже запрещают писать рефераты и домашние задания с помощью нейросетей, а преподавателям — загружать ученические работы в генеративные платформы.

Гаокао остаётся ключевым событием года в Китае — от его результатов зависит поступление в университет и вся будущая карьера. Поэтому любые технологии, способные повлиять на честность экзаменов, регулируются особенно жёстко.

Может, такие ограничения к лучшему?

🔗 Источник 🔗 China Daily

❯ Disney и Universal подали в суд на Midjourney

Disney и Universal подали в суд на Midjourney — это одно из первых громких дел, где крупные медиагиганты обвиняют AI‑модель в нарушении авторских прав. Компании утверждают, что Midjourney обучалась на изображениях их персонажей — от Дарт Вейдера и Миньонов до Эльзы — и продолжала генерировать их образы вопреки требованию прекратить.

В иске отмечается, что система «работает как бездонная яма плагиата», создаёт не только графику, но и близится к запуску видеогенерации, которая тоже может нарушать права . Disney и Universal требуют компенсацию, судебного разбирательства с участием присяжных, а также запрета на подобную генерацию до вынесения решения.

Юристы компаний подчеркивают: AI‑модель не может заявлять исключение лишь на том, что образ сформирован машиной — «пиратство остаётся пиратством». Если истцы добьются успеха, это создаст сильный прецедент, меняющий правила игры для генеративного дизайна и AI‑создания контента.

🔗 Детали иска 🔗 The Verge — юридический разбор 🔗 Reuters

❯ ИИ-апокалипсис маловероятен, но полностью не исключен

В новом докладе Rand Corporation учёные разбирают, может ли ИИ уничтожить человечество. Ответ — вряд ли, но шанс есть.

Сценарий с ядерной войной — почти исключён. Даже если взорвать все боеголовки сразу, этого не хватит, чтобы стереть людей с лица Земли. Глобальной ядерной зимы не получится.

Биологическое оружие, созданное ИИ, выглядит чуть опаснее. Но даже суперзараза не гарантирует вымирания. Чтобы добить человечество, ИИ придётся годами выслеживать выживших по всей планете.

Нагреть климат до 50 градусов по всей Земле — тоже теоретически возможно, но для этого ИИ нужен доступ ко всей мировой промышленности и десятки лет времени.

Главное: чтобы всё это случилось, ИИ должен захотеть нас уничтожить, получить контроль над инфраструктурой и обмануть людей, чтобы они ему помогали. Это сложно даже для суперразумной системы.

«Может ли ИИ нас всех убить? Теоретически — да. Но, если честно, мы и сами с этим неплохо справляемся», — говорит автор исследования Майкл Вермеер.

🔗 Полный доклад Rand 🔗 Scientific American: разбор выводов

❯ ChatGPT «пьёт воду» — но меньше, чем думали

Один запрос к ChatGPT тратит всего 0,32 мл воды — примерно 1/15 чайной ложки. Об этом рассказал CEO OpenAI Сэм Альтман в свежем эссе о будущем ИИ и ресурсах.

Раньше всё выглядело страшнее. В 2023 году исследователи из Калифорнийского университета заявили: пять запросов могут сжечь до полулитра воды на охлаждение дата-центров. Эти данные разлетелись по СМИ, и ИИ-компании обвинили в неэкологичности.

Теперь выясняется, что оценки были завышены, возможно, из-за старых, не оптимизированных систем. Альтман подчёркивает: OpenAI улучшила инфраструктуру, и фактическое потребление — в сотни раз меньше.

Аналитики Epoch AI также подсчитали энергозатраты: один запрос потребляет около 0,34 ватт-часа — это чуть больше секунды работы духовки или пара минут свечения LED-лампы.

Так что ИИ — всё ещё энергоёмкая штука, но не такая жадная до воды, как казалось раньше.

🔗 Эссе Сэма Альтмана 🔗 AP News: исследование 2023 года 🔗 Washington Post: медиа-критика

❯ Каждый четвёртый ребёнок уже использует ИИ

В Великобритании 22% детей 8–12 лет уже пользуются ИИ, показало исследование Института Алана Тьюринга и Lego Foundation. Опрос охватил более 800 школьников и 1000+ учителей.

Самые популярные инструменты у детей — ChatGPT, Gemini и My AI от Snapchat. При этом большинство из них даже не знают, что это генеративный ИИ.

В частных школах, а также у детей с трудностями в обучении ИИ используют чаще. Особенно помогает он тем, кому трудно формулировать мысли — например, при написании текстов.

Половина детей обращается к ИИ ради фана — чтобы сгенерировать картинку или поболтать. А вот дети постарше (11–12 лет) всё чаще используют его для поиска информации и домашних заданий.

Родители в целом не против: 76% одобряют, что их дети используют ИИ. Но почти все боятся нежелательного контента. А 75% считают, что ИИ может ухудшить критическое мышление.

Учителя замечают: дети всё чаще сдают работу, сделанную ИИ, но при этом 60% педагогов сами используют нейросети в своей практике.

Исследователи подчёркивают: дети уже плотно взаимодействуют с ИИ, который изначально делался не для них. И разработчикам стоит учитывать это — подключать детей к проектированию и адаптировать интерфейсы под их нужды.

🏗 AI-инфраструктура

❯ Абу-Даби — первый город под полным управлением ИИ

Компании BOLD Technologies и My Aion анонсировали разработку Aion Sentia — городской платформы на базе ИИ, которая возьмёт на себя управление всеми государственными и частными структурами Абу-Даби: от здравоохранения до транспорта и образования.

Система должна заработать к 2027 году, став первым в мире случаем, когда вся инфраструктура города будет координироваться ИИ. «Мозгом» проекта станет модель MAIA, которая будет обучаться на данных о жителях в реальном времени, подстраивая сервисы под нужды каждого: от анализа энергопотребления до бронирования столика на ужин — без участия человека.

Жители смогут взаимодействовать с ИИ через мобильное приложение, получать персональные рекомендации и видеть, как управляется город. После возврата инвестиций платформу планируют передать местным властям. В будущем аналогичные решения хотят развернуть в других мегаполисах — в том числе в Европе и США.

Общий бюджет — $2,5 млрд. По словам создателей, это шаг к полноценному AI-государственному управлению.

🔗 WAM: официальный анонс Aion Sentia 🔗 Khaleej Times: детали проекта и цитаты

❯ AMD против Nvidia: MI400x, Helios AI-Rack и облако для разработчиков

Advancing AI 2025 — презентация AMD, некая «ответка» Nvidia.

Ключевая идея — сделать вывод токенов быстрее и дешевле. Новые чипы MI350x и MI355x выдают до 20 петафлопс мощности и работают с 288 ГБ памяти HBM3e. Это позволяет запускать большие модели с меньшими затратами. AMD обещает ускорение до 40% по сравнению с решениями Nvidia — за ту же цену. Выйдут в третьем квартале 2025.

Флагман MI400x завезут в 2026 году. Это уровень в 40 петафлопс, 432 ГБ HBM4, пропускная — 19.6 ТБ/с. Выход в 2026. Для дата-центров будет доступна стойка Helios AI-Rack: 72 MI400x на борту, 2.9 экзафлопса, 1.4 ПБ/с пропускной и 31 ТБ VRAM. Это уже прямой конкурент NVL144 от Nvidia, но с открытой архитектурой вместо NVLink у Nvidia.

Альтман лично подтвердил: OpenAI разрабатывает MI450 совместно с AMD.

Отдельно — облачный сервис AMD Developer Cloud: $2 в час за MI300x, доступен всем с GitHub-аккаунтом. Оптимально для инференса, особенно если важна цена токена и большой батч.

Да, тренировка пока что нестабильна, но поддержка стандартного инференс-софта, вроде SGLang, выросла резко за последний год.

🔗 YouTube: Advancing AI 2025 🔗 AMD Dev Cloud

❯ IBM: квантовый прорыв к 2029 году

IBM пообещала собрать первый отказоустойчивый квантовый компьютер с 200 логическими кубитами. Проект называется Starling, и он уже запущен: завершение ожидается к 2029-му.

Машина будет в 20 000 раз мощнее всего, что есть сейчас, и сможет выполнять задачи, недостижимые для обычных суперкомпьютеров. Чтобы повторить такие вычисления на классическом «железе», пришлось бы собрать 10⁴⁸ самых мощных систем в мире.

Но на этом IBM не останавливается. Следом — кластер Blue Jay, который превзойдёт Starling в 10 раз и начнёт разворачиваться после 2033 года.

🔗 Блог IBM о Starling 🔗 Пресс-релиз о планах

❯ Meta* учит ИИ понимать физику

Meta* показала V-JEPA 2 — новую версию своей обучающей модели для роботов.

Главная идея архитектуры «модели мира» JEPA — научить роботов понимать физический мир и прогнозировать свои действия. Если подбросить мячик, то он упадет, а не зависнет в воздухе. Мы понимаем это благодаря «физической интуиции», но для ИИ это совсем не очевидно — эту проблему и решает JEPA.

Модель обучена на более миллиона часов видео и изображений. И теперь может действовать даже с незнакомыми предметами в новых условиях — это большой шаг к бытовым роботам.

Цель Meta — сделать мультимодальный ИИ, который ориентируется не только на зрение, но и другие «органы чувств», и способен планировать действия в перспективе.

*признана экстремистской на территории РФ

🔗 Анонс от Meta AI

🔮 Заключение

Вот что происходило на неделе с 9 по 16 июня:

ИИ снова лезет во все сферы — от школьных заданий и здравоохранения до городского управления. OpenAI снижает цены, запускает o3-pro. Apple добавляет ИИ в iPhone, ByteDance обходит Google в генерации видео, а AMD бросает вызов Nvidia.

Роботы начинают «понимать» физику, слепым возвращают зрение, и даже дети уже генерируют мемы в ChatGPT. В Китае ИИ отключают, чтобы не мешал сдавать экзамены, но следят за учениками всё равно с его помощью.

ИИ‑бизнесы приносят миллионы, школьники делают домашку через бота, а квантовый компьютер IBM грозит похоронить старые вычисления. И всё это — за одну неделю.

ИИ‑инфраструктура растёт, модели умнеют, а генеративка выходит из демо в прод. Ещё немного — и ИИ будет просто частью интерфейса. Такой же привычной, как курсор мыши.

До встречи на следующей неделе — будет ещё жарче.

Какая новость тебя зацепила больше всего? Пиши в комментах! 👇

Показать полностью 12 8

[моё] Искусственный интеллект Digital Нейронные сети Компьютерная графика Openai Новости Дайджест IT Тренд Киберпанк Видео Короткие видео Длиннопост

Нейро-дайджест: ключевые события мира AI за 1-ю неделю июня 2025⁠⁠

7 месяцев назад

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась интересной: обновления от ElevenLabs, Gemini и Suno, Sora встроили в Bing, вайб-кодинг гонка Cursor и Codex, Юра Борисов в фильме про OpenAI, а Илон надеется отправить людей на Марс до 2030.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 Модели и LLM
- Обновление Gemini 2.5 Pro
- Codex для подписчиков GPT Plus
- Claude Code — ответ Anthropic
🛠 AI-инструменты и интерфейсы
- Cursor 1.0 — память и поддержка Jupyter
- HeyGen, Higgsfield и Tencent оживляют фото и голоса
- WhatsApp запускает AI-ботов, SnapChat — AI-маски
🎨 Генеративные нейросети
- Bing Video Creator: бесплатная Sora уже в Bing
- Обновление Suno — новый редактор и разделение на стемы
- ElevenLabs v3 и Fish Audio: эмоции, шёпот и голоса знаменитостей
- Редактируем видео и фото по тексту вместе с Luma
🤖 AI в обществе и исследованиях
- ChatGPT vs. психотерапевты
- Фильм про OpenAI: Альтман, Эндрю Гарфилд и Юра Борисов
- Маск: люди на Марсе к 2030, первыми полетят роботы
- ИИ вычисляет локацию по комментарию на YouTube
- Роботы, которые сами заживляют свои раны
- Роскосмос запускает GigaChat на МКС

🧠 Модели и LLM

❯ Обновление Gemini 2.5 Pro

Gemini 2.5 Pro теперь обходит o3 по бенчмаркам — модель получила апдейт и уже доступна в AI Studio. По первым отзывам, она более послушная и чистая — не спамит код комментариями и лучше справляется с указаниями.

Как и версия 2.5 Flash, это гибридная модель с возможностью задать бюджет на reasoning — можно контролировать, сколько «думает» модель перед ответом. Это особенно помогает в сложных логических задачах, где нужна структурированная цепочка вывода.

Генерацию изображений пока не завезли, несмотря на ожидания. Пока всё строго по тексту — но зато с уверенным качеством, которое уже ставит её в один ряд с лидерами.

🔗 Gemini в AI Studio 🔗 Блогпост

❯ Codex для подписчиков GPT Plus

OpenAI открыла доступ к Codex для пользователей с подпиской GPT Plus — с рядом новых фич и улучшений.

Теперь Codex:

не спамит новыми пулреквестами, а обновляет те, что уже есть;
поддерживает голосовые команды — можно диктовать задачи;
получил доступ к интернету и внешним данным в рамках интерфейса;
радует «щедрыми» лимитами — до высокой нагрузки, потом их временно урезают.

Фишка не только в доступе, но и в качестве работы: Codex теперь ближе к полноценному ассистенту-разработчику, который учитывает контекст проекта и взаимодействует с кодом как живой участник.

🔗 Источник 🔗 Codex

❯ Claude Code — ответ Anthropic на Codex

Anthropic запустила Claude Code — инструмент для работы с кодом внутри подписки Claude Pro.

Теперь за $20 в месяц можно получить доступ к Claude 4 Sonnet и использовать его в CLI, работая с кодбазами до 1–2 часов. Лимиты сбрасываются каждые 5 часов, а более мощный Claude 4 Opus остаётся эксклюзивом плана Max за 100 или 200 долларов.

Claude Code умеет запускаться в терминале, подключается к проекту и может помогать в написании, рефакторинге или объяснении кода. Круто, что всё вышло и за рамки окна чата и теперь адаптировано под локальную разработку.

Anthropic таким образом напрямую отвечает OpenAI: вчера Codex, сегодня Claude Code. Конкуренция разгоняется.

🛠 AI-инструменты и интерфейсы

❯ Cursor привлёк $900 млн и выкатил версию 1.0

Создатели AI-редактора Cursor привлекли 900 миллионов долларов инвестиций — оценка компании теперь составляет 9,9 миллиарда. На этом фоне вышел Cursor 1.0: теперь редактор умеет запоминать контекст и работать с Jupyter Notebook.

Компания агрессивно хантит кадры: утащили даже лида разработки моделей из Midjourney. Но главный вопрос — что дальше. По прогнозам, выручка превышает 500 миллионов в год, хотя сколько из этого идёт самим Cursor, а сколько — провайдерам моделей, пока неясно.

А у конкурента Windsurf начались проблемы: Anthropic ограничивает доступ к своему API из-за слухов о слиянии Windsurf с OpenAI. Саму сделку пока не подтвердили, но комментарий Джареда Каплана говорит сам за себя: «Было бы странно, если бы мы продавали OpenAI доступ к Claude».

🔗 Блогпост

❯ HunyuanVideo-Avatar от Tencent — опенсорс липсинк

Tencent выкатили в опенсорс HunyuanVideo-Avatar — мощную нейросеть, которая оживляет фотографии с качественным липсинком. Просто загружаем фото, аудио до 14 секунд и контекст в промпте — и ИИ сам подгонит эмоции, движения губ и мимику под голос.

Главная фишка — точность и вариативность: можно делать говорящие и поющие аватары в любом стиле — фотореализм, мультяшки, 3D или кота-рэпера. Поддерживаются видео в полный рост, по пояс или только портрет, а ещё можно обрабатывать несколько персонажей в кадре.

И работает липсинк стабильно: рот не разваливается, синхронизация плавная, эмоции передаются натурально. Подходит для мемов, дубляжа, анимированных презентаций и… массового запуска говорящих животных в TikTok.

🔗 HuggingFace 🔗 GitHub 🔗 Примеры и демо

❯ HeyGen AI Studio — полный контроль над аватаром

HeyGen выкатили AI Studio — мощный набор инструментов для создания видео с аватарами, где теперь можно управлять голосом, эмоциями, стилем и даже монтажом.

Теперь в арсенале:

дублирование голоса (можно записать или загрузить свой);
управление озвучкой: разные тона — спокойный, сердитый, вдохновлённый;
субтитры с настройкой стиля;
фоновые треки;
сцены с переходами и управлением ритмом повествования.

Идеально для промо, рекламы, обучающих роликов. Удобно, что управляется всё прямо в браузере.

🔗 Блогпост 🔗 AI Studio

❯ Higgsfield Speak — говорящие аватары

Higgsfield — ещё один крутой инструмент для аватаров.Добавили функцию Speak для быстрой генерации реалистичных видео с говорящими аватарами.

Кроме липсинка упор идёт на мимику, эмоции и движения. Выглядит естественно и реалистично, но звук местами подводит.

Доступно 16 сцен на выбор: видеоблог, подкаст, диалог в машине, коучинг, фэшн и другие.

🔗 Higgsfield AI

❯ Свои чат-боты и юзернеймы в WhatsApp*

WhatsApp начал тестировать AI Studio — встроенную функцию для создания персональных AI-ботов. Это аналог пользовательских GPT и Gems от Google, но прямо внутри мессенджера.

Пользователи смогут выбрать роль, стиль общения и характер — например, сделать бота-гида, коуча или философа. Интерфейс интуитивный, с подсказками, так что справится любой.

Сейчас доступ ограничен — только для бета-тестеров, но функция уже встроена в меню. Meta* ранее запускала AI Studio для Instagram и Messenger — теперь очередь за WhatsApp.

Также в планах добавить юзернеймы, чтобы общаться без номера телефона. Прямо как в Telegram :D

*Meta и WhatsApp признаны экстремистскими и запрещены в РФ

❯ AI-маски в SnapChat

Snapchat запустил первые видео-объективы, созданные на базе собственной генеративной видеомодели. Функция пока доступна подписчикам Snapchat Platinum, но линзы обещают обновлять каждую неделю.

Стартовая линейка:

«Енот» и «Лиса» — милые звери, которые обнимают вас в кадре;
«Весенние цветы» — в руках появляется букет.

Snap давно делает ставку на AR, но теперь активно развивает свои AI-модели — без OpenAI и Google. В феврале компания представила text-to-image ИИ для смартфонов, а теперь масштабирует подход на видео.

Цель — удержать лидерство в AR и AI, предложив пользователям фишки, которых нет у TikTok и Instagram.

🎨 Генеративные нейросети

❯ AI-генератор на базе Sora в Microsoft Bing

Microsoft встроила генеративную видеомодель в Bing — теперь можно бесплатно создавать короткие видео по описанию. Визуально и по принципу работы всё очень напоминает Sora от OpenAI, но с рядом ограничений.

Пока видео можно сгенерировать только в мобильной версии Bing, десктоп-версия в разработке. Генерация занимает 1–2 минуты, ролики длятся 5–10 секунд. Видео в формате 9:16, горизонтальные тоже завезут позже. Не забудьте сменить регион на любой, кроме РФ и Китая.

Бесплатно дают 10 генераций для всех юзеров с аккаунтом Microsoft. После исчерпания лимита — 100 баллов Microsoft Rewards за одно видео. Баллы можно заработать поиском в Bing или покупками в Microsoft Store. За день можно заработать до 150 баллов, это 20 запросов в Bing.

На выходе — анимированные сцены по текстовому описанию: от людей, идущих по улице, до фантастических пейзажей. Качество пока ниже, чем у Sora, но модель работает быстро и бесплатно — хороший вариант для тех, кто хочет попробовать.

🔗 Источник 🔗 Блогпост 🔗 Microsoft Rewards 🔗 Bing в App Store 🔗 Bing в Google Play

❯ OpenAudio S1 — передовая модель для преобразования текста в речь

Fish Audio — один из лучших голосовых ИИ на сегодня. Без VPN, без ограничений, а по словам пользователей, даже мощнее ElevenLabs.

Недавно завезли модель OpenAudio S1. Она умеет передавать эмоции, шёпот, крик, паузы и вздохи, а главное — вы сами задаёте, где и какую эмоцию использовать. Можно озвучивать большие тексты — хоть видео, хоть реплики героев в игре. Обучена на 2+ миллионах часов аудио.

Можно загрузить 15 секунд своей речи — и получить точную голосовую копию. Или выбрать одного из 200 тысяч клонов: от Маска и Трампа до персонажей аниме и просто классных голоса пользователей. Доступно 13 языков, включая русский, английский, немецкий и японский.

Бесплатный тариф даёт 1 час генерации в месяц.

🔗 Fish Audio

❯ Модель ElevenLabs v3 — голоса с эмоциями

Eleven v3 (alpha) теперь понимает аудиотеги. Можно задавать эмоции: [sad], [angry], [happily] и т. д., или заставить ИИ шептать/кричать.

Что добавили:

Генерация диалогов с любым числом голосов.
Сразу два варианта озвучки на выбор.
Бесплатный доступ: 10 000 кредитов для всех.
До конца июня — скидка 80% на генерацию с новой моделью.

V3 поддерживает длинные монологи, умеет плавно менять настроение, а ещё быстрее обрабатывает запросы и экономнее расходует токены. Голоса стали звучать естественнее.

🔗 Источник 🔗 Гайд по промптингу 🔗 ElevenLabs

❯ Обновление Suno

Теперь можно менять сгенерированные треки по частям, загружать свои мелодии, вытаскивать отдельно вокал или рифф, а главное — напеть что-нибудь в диктофон и превратить это в полноценный трек.

Интерфейс стал удобнее, всё делится на секции и редактируется прямо в браузере.

🔗 Suno

❯ Функция Modify Video в Luma

Luma представила функцию Modify Video, которая позволяет менять окружение, стиль, свет и текстуры в видео без потери движений и логики сцены. Гараж можно превратить в космолет, день — в ночь, героя — в монстра, не трогая камеру и мимику.

Поддерживаются три режима:

Adhere — точное ретекстурирование,
Flex — баланс между реализмом и фантазией,
Reimagine — полный креатив с полной трансформацией объектов.

Функция позволяет менять одежду, лица, небо, добавлять предметы без гринскрина, переносить движения на других персонажей и даже анимировать CG-образы.

По тестам Luma обходит Runway V2V: лучше передаёт движения, лицо, сохраняет связность. Уже доступно в Dream Machine: Ray 2, длина видео — до 10 секунд.

🔗 Luma Labs AI

🤖 AI в обществе и исследованиях

❯ Люди не смогли отличить ответы реальных психотерапевтов от ChatGPT

Учёные из нескольких университетов США смоделировали 18 конфликтов внутри пар и собрали мнения опытных психотерапевтов и ChatGPT-4. Затем 830 участникам показывали случайный ответ и просили угадать: ИИ это или человек.

Результат — различить почти невозможно. Ответы ChatGPT определили верно в 51% случаев, а ответы людей — в 56%. Эффективность — почти на уровне подбрасывания монетки. При этом советы от ChatGPT участники оценили выше: нейросеть отвечала мягче, понятнее и тактичнее, чем многие специалисты.

Исследование показывает, что ИИ может поддерживать людей с расстройствами, особенно если они не могут позволить себе терапию. По данным ВОЗ, около миллиарда человек в мире нуждаются в психопомощи, но получают её — единицы.

❯ Фильм про OpenAI с Юрой Борисовым и Эндрю Гарфилдом

Amazon MGM Studios снимет художественный фильм о событиях внутри OpenAI, в центре сюжета — увольнение Сэма Альтмана в 2023 году и его возвращение на пост CEO. Картина получит название Artificial.

На роль Альтмана рассматривают Эндрю Гарфилда, а сооснователя Илью Суцкевера может сыграть Юра Борисов. Сценарий написал Саймон Рич, известный по фильмам «Вонка» и «Майнкрафт», а режиссёром выступит Лука Гуаданьино — автор «Назови меня своим именем» и будущего ремейка «Американского психопата».

Съёмки стартуют летом. Это будет первая крупная экранизация о внутренней кухне мира ИИ.

❯ Новый AI-сервис вычислит вас по IP. Нужен один коммент на YouTube

Разработчики YouTube-Tools создали ИИ-инструмент, который может определить, где вы живёте, зная всего один комментарий на YouTube. В основе — нейросеть от Mistral, обученная на базе из 20 миллиардов сообщений от 1,4 млрд пользователей.

Алгоритм анализирует, на какие видео человек реагирует, как формулирует мысли, какие темы и культурные маркеры использует. В результате — отчёт с предположением о языке, политических взглядах и вероятной геолокации.

Сервис также поддерживает анализ аккаунтов из X, Twitch, Kick и других платформ. Журналист 404 Media протестировал его на случайном YouTube-профиле: за секунды ИИ выдал десятки найденных комментариев и сделал вывод — пользователь, вероятно, из Италии, интересуется X Factor и пастой.

Разработчики называют проект помощью для полиции, но подписка открыта всем — от 13,5 евро в месяц. Вопрос, кто будет пользоваться чаще — следователи или сталкеры, остаётся открытым.

🔗 Источник 🔗 Сервис

❯ Илон планирует отправить людей на Марс к 2030

Илон Маск заявил, что первые астронавты могут полететь на Марс уже в 2030 году, но до этого планируется серия миссий с роботами Optimus. В 2026 году SpaceX собирается отправить пять беспилотных Starship, чтобы развернуть базовую инфраструктуру: склады, энергетические модули, посадочные площадки.

Полет возможен только при условии, что удастся отработать дозаправку корабля на орбите — иначе ни один Starship не доберётся до Марса с полной загрузкой. Маск оценивает шанс улететь в ближайшее окно как «50 на 50».

До 2030 на планету доставят до 20 кораблей, а в 2030–2031 начнётся пилотируемая миссия с жильём, оборудованием для добычи ресурсов и 3D-принтерами. К 2033 году Маск рассчитывает создать частично автономную колонию из 500 Starship, каждый из которых перевезёт по 300 тонн.

Цель — цивилизационная устойчивость: если что-то случится с Землёй, Марс должен стать резервной копией.

❯ Роботы научились заживлять свои раны

Учёные из Университета Небраски создали синтетические мышцы для роботов, которые восстанавливаются без вмешательства человека. Разработка включает трёхслойную структуру:

Верхний слой отвечает за движение за счёт давления жидкости;
Средний — из термопластика, плавится и «залечивает» разрыв;
Нижний — «электронная кожа» с каплями жидкого металла, через которые подаётся ток.

После заживления подаётся более сильный импульс — и мышца возвращается в исходное состояние. Такой подход позволяет многократно проходить цикл повреждения и восстановления.

Технология открывает путь к роботам, устойчивым к износу, снижению объёма электронных отходов и созданию более долговечных носимых устройств.

Искусственный интеллект Нейронные сети Компьютерная графика Видео Короткие видео Telegram (ссылка) Длиннопост

🔮 Заключение

Вот что происходило на неделе со 2 по 9 июня:

ИИ снова лезет во все сферы — от терапии и музыки до космоса. ChatGPT начинает выигрывать у психотерапевтов, а Microsoft запускает генерацию видео прямо в Bing.

Luma научилась редактировать видео по тексту, Fish Audio и ElevenLabs соревнуются в эмоциях, шёпоте и клонировании, а WhatsApp позволит каждому собрать себе личного ИИ-собеседника.

Пока роботы Optimus готовятся лететь на Марс, другие учатся заживлять собственные раны. А где-то ИИ уже вычисляет тебя по комментариям на YouTube — буквально по одной фразе.

ИИ-сервисы становятся ближе и реальнее. Всё, что казалось фантастикой в прошлом году — сегодня работает в браузере, мобильнике или мессенджере.

Следим за апдейтами Gemini, ждем новых агентов от OpenAI и смотрим, как быстро ИИ выходит из экранов в реальный мир.

До встречи на следующей неделе — будет ещё жарче.

Какая новость самая интересная? Пиши в комментах! 👇

Показать полностью 11 9

Нейро-дайджест: ключевые события мира AI за 4-ю неделю мая 2025⁠⁠

8 месяцев назад

Привет! 👋 Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: обновление DeepSeek R1, в Telegram готовят глубокую интеграцию с Grok, Google Photos научился менять фон по тексту, а GPT-3 исполнилось 5 лет — и это повод оценить, как далеко мы ушли.

Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 LLM модели
- Обновление DeepSeek-R1
- Пять лет GPT-3 — сравнение с 2020 годом
- Стэнфордский курс по LLM

🛠 Инструменты и платформы
- Grok интегрируют прямо в Telegram
- Flux Kontext — ИИ-убийца Photoshop от FLUX
- Perplexity Labs — агент, который заменяет команду
- Microsoft Copilot для геймеров — помощник внутри Xbox и Windows
- Голосовой режим для Claude
- Opera представила браузер Neon с AI-функциями
- Manus - лучший генератор презантаций

🎨 Генеративные нейросети
- Veo 3 — герой фейковых видео
- Новая модель Kling 2.1
- Обновление Google Photos — ИИ всё делает сам!
- Первый ИИ-ролик, с которым можно взаимодействовать
- Runway генерирует видео из скетчей

🧩 ИИ в обществе
- Исследование: какой ИИ больше «стучит» на пользователей
- У ИИ есть свобода воли? Да, считает философ
- ИИ помогает детям с аутизмом общаться с родителями
- Более половины компаний, сокративших сотрудников из-за ИИ, жалеют об этом
- Лондонский стартап Builder.ai, спонсируемый Microsoft, подал на банкротство

🤖 AI-инфраструктура
- Первый боксерский турнир роботов прошел в Китае
- NVIDIA готовит новые GPU для Китая
- Два опенсорс-робота от HuggingFace

🧠 LLM модели

❯ DeepSeek-VL-R1 — первая мультимодальная модель DeepSeek

Вышло обновление модели DeepSeek R1 (0528) — и стало заметно лучше по всем фронтам. Модель теперь уверенно обходит Qwen 3 235B, но всё ещё отстаёт от Gemini 2.5 Pro и o3, хотя уже не драматично. Прирост в reasoning и кодинге объясняется просто: теперь она прогоняет в среднем 23 тысячи токенов размышлений против 12 тысяч у прошлой версии — стало глубже, но не медленнее.

Модель стала аккуратнее в ответах, меньше галлюцинирует, гораздо лучше работает с фронтендом — хотя до уровня Claude по качеству UI всё ещё не дотягивает. Отдельно подчёркивают, что reasoning наконец вышел на уровень «используемо». По ощущениям — она догоняет лидеров, и довольно быстро.

Интересно, что цепочки рассуждений из этой версии дистиллировали в Qwen 3 8B, и результат тоже не подвёл: математические бенчмарки сразу пошли вверх.

🔗 Большая модель 🔗 8B дистиллированная

❯ Пять лет GPT-3 — что изменилось

30 мая 2020 вышла GPT-3 — та самая модель, с которой для многих и началась эра ИИ. Тогда она казалась чудом: 175 миллиардов параметров, 300 миллиардов токенов в датасете, контекст на 2048 токенов. Сегодня всё это звучит скромно. Мы живём в мире моделей, которые переваривают миллион токенов и тренируются на 36 триллионах.

Но важен не только рост объёмов. Изменился сам подход: если GPT-3 просто продолжала текст, то современные модели умеют следовать инструкциям, вызывать функции, решать задачи, писать и запускать код. Их учат с помощью RLHF, дистилляции, посттрейна — и они уже не просто генераторы, а ассистенты. К этому добавилась мультимодальность: модели понимают и создают не только текст, но и изображения, звук, видео.

Железо тоже скакнуло вперёд. Если в 2020 кластер OpenAI на 10k V100 казался огромным, то сейчас xAI планирует собрать миллион GPU, а OpenAI строит Stargate. Переход на FP8 и FP4, агрессивная квантизация и миллиарды, вложенные в ускорение — всё это делает ИИ не просто умнее, но и доступнее.

И вот вишенка: если тогда GPT-3 была закрытым API, то сейчас модели уровня GPT-3.5 можно запускать прямо на телефоне.

И да — прошло всего пять лет.

❯ Стэнфордский курс по LLM

Language Modeling from Scratch — это курс из Стэнфорда, который показывает, как собрать полноценную LLM своими руками: от сбора и очистки датасета до тренировки, профайлинга и развёртывания модели. Все конспекты, ноутбуки и код публикуются сразу в открытой репе, так что повторить всё можно дома — хоть на одной-двух карточках, хоть в Google Colab.

Фокус тут на практике. В качестве домашних заданий предлагают: реализовать трансформер с нуля, переписать FlashAttention 2 на Triton, запустить распределённую тренировку, разобраться со scaling laws, научиться фильтровать датасет и внедрить RL в обучение.

Из требований — уверенное владение Python и PyTorch. Но если это есть, курс превращается в дорожную карту по созданию своей LLM без чёрных ящиков.

🔗Лекции на ютубе 🔗 Материалы к лекциям на GitHub 🔗 Сайт курса

🛠 Инструменты и платформы

❯ Grok интегрируют прямо в Telegram

Ещё в марте подписчикам Telegram Premium дали доступ к Grok через бота, но, похоже, партнёрство решили расширить. Обновлённый функционал появится уже летом, не только в виде бота, но и как встроенный ИИ-инструмент в самом мессенджере. Обещают глубокую интеграцию, которая откроет Grok доступ ко всей платформе.

Вот что он будет делать: суммировать чаты, ссылки и файлы, помогать писать сообщения, модерировать чаты, фактчекать посты в каналах и генерировать стикеры с аватарами.

Соглашение рассчитано на год. Telegram получит $300 млн от xAI деньгами и акциями, плюс 50% выручки от подписок, оформленных через мессенджер.

Что получит xAI — не раскрывается, но почти наверняка это доступ к данным, которые пользователи скармливают Grok'у.

❯ Flux Kontext — ИИ-убийца Photoshop от FLUX

1/6

Flux.1 Kontext — это полноценный ИИ-фотошоп, который редактирует изображение по промпту: можно удалять детали, заменять фон, добавлять объекты или менять стиль картинки за пару секунд. Интерфейс минималистичный, работает всё прямо в браузере.

Пока доступны две модели — [max] и [pro], в ближайшее время появится [dev] с открытым исходным кодом.

Вот что уже умеет:

– Удалять текст и вотермарки с изображений;
– Комбинировать картинки, например, наложить лого;
– Заменять прически, одежду, фон и любые детали;
– Менять стиль: сделать мультяшно, в пастельных тонах или как в комиксе.

Редактор работает через демо, и выглядит как одна из самых удобных реализаций визуального редактирования для генеративки.

🔗 Онлайн-демо 🔗 Kontext на BlackForestLabs

❯ Deep Research 2.0 в Perplexity Labs

Perplexity выпустили Deep Research 2.0 — это Deep Research на стероидах, который теперь умеет создавать и выполнять Python-код.

В отчётах можно сразу получить графики, изображения, диаграммы или даже целый сайт, сгенерированный на основе собранных данных. Всё работает внутри Perplexity, без необходимости подключать внешние инструменты.

Инструмент стал ближе к полноценному ассистенту для ресёрча — уже не просто собирает инфу, а помогает её структурировать и визуализировать.

🔗 Попробовать в Perplexity

❯ Copilot for Gaming — AI-помощник от Microsoft в Xbox-приложении

Microsoft начала тестировать Copilot for Gaming — ИИ-ассистента внутри приложения Xbox для iOS и Android. Он помогает разбираться в достижениях, подписках и играх, анализируя ваш профиль: показывает последние достижения, рекомендует новые тайтлы на основе истории, даёт советы и гайды по прохождению. Также через Copilot можно удалённо загружать и устанавливать игры на консоль. Голос ассистента настраивается — как в классическом Microsoft Copilot.

Сейчас функция доступна в бета-версии на Android, а на iOS её откроют позже для тех, у кого уже установлена бета Xbox. И главное — Россия входит в список 54 регионов, где Copilot можно протестировать прямо сейчас.

❯ Голосовой режим в Claude — уже в бете

Anthropic запустила бета-версию голосового режима в Claude — теперь в мобильных приложениях можно разговаривать с ассистентом, редактировать документы и изображения голосом, переключаться между текстом и голосом в процессе, а после — просматривать расшифровку и сводку беседы.

Доступно пять голосовых тембров, режим работает на Claude Sonnet 4, пока только на английском. Лимит — 20–30 голосовых запросов в день для бесплатных аккаунтов. Все голосовые запросы идут в общий суточный лимит.

Поддержка Google Docs и Gmail доступна только в подписке Claude Pro и выше, интеграция с Google Workspace — только на тарифе Enterprise.

Компания обсуждала сотрудничество с Amazon и ElevenLabs, но кто именно отвечает за текущую голосовую реализацию — не раскрывается.

🔗 TechCrunch 🔗 3DNews

❯ Opera представила AI-браузер Neon

Opera анонсировала Neon — браузер нового типа, где ИИ не просто помогает, а действует от имени пользователя. Он может совершать покупки, заполнять формы, писать код и выполнять другие рутинные задачи.

Neon работает через облачных ИИ-агентов, которые продолжают действовать даже при закрытом браузере. Интерфейс построен вокруг трёх блоков:
— Chat: чат-бот для поиска и помощи по страницам
— Do: автоматизация действий (бронирование, заполнение)
— Make: генерация контента — от текстов до игр и отчётов

Все функции обрабатываются в облаке, через отдельную виртуальную машину. Браузер пока в раннем доступе, работает по подписке, цены и дата релиза не раскрыты. Попасть можно только через лист ожидания.

🔗 Источник 🔗Opera Neon

❯ MANUS — лучший AI-генератор презентаций

Manus собирает презентации по текстовому описанию и референсам — сам добавляет нужные факты, изображения, видео и даже цитаты из книг. Всё это можно потом редактировать прямо внутри сервиса.

Идеальный инструмент для студентов, маркетологов и всех, кому надо быстро собрать слайды без возни с шаблонами.

🔗 Попробовать Manus

🎨 Генеративные нейросети

❯ Veo 3 — герой фейковых видео

Google Veo 3 взорвала соцсети — новая видеомодель создаёт ролики со звуком, диалогами и разными акцентами, включая русский язык. Получается настолько реалистично, что многим уже сложно отличить фейк от настоящего стрима, интервью или клипа.

Вирусный кейс — видео с кенгуру, которого не пускают в самолёт. Его посмотрели более 11 млн человек, и даже несмотря на пометку «AI-generated», многие поверили в реальность происходящего.

По мнению Gizmodo, Veo 3 — это уже не просто генератор визуалов, а инструмент, способный подменить реальность. Даже если результат не идеален, одного беглого взгляда достаточно, чтобы поверить.

🔗 Анализ от Gizmodo

❯ Новая модель Kling 2.1

Пока Veo 3 захватывает заголовки, Kling не отстаёт — вышло обновление сразу с двумя моделями: Standard и Master. Генерации стали более динамичными, точными и логичными, особенно заметен прогресс на фоне предыдущих версий.

Доступно в режиме Image-to-Video, Text-to-Video — пока в перспективе.

Что по стоимости:
— Kling 2.1 Standard (720p) — 20 кредитов за 5 секунд
— Kling 2.1 Pro (1080p) — 35 кредитов за 5 секунд
— Kling 2.1 Master (1080p) — 100 кредитов за 5 секунд

В месяц по-прежнему выдают 166 кредитов.

Обновление выглядит уверенно — особенно для тех, кто уже активно работает с генерацией видео.

🔗 Попробовать на сайте 🔗 Анонс на X

❯ Обновление Google Photos — ИИ всё делает сам!

Google мощно обновила Photos — теперь ИИ сам предлагает стили для фото, удаляет лишнее и расширяет фон. Работает почти как генеративка: загружаешь обычный снимок — получаешь вариации как из фотошопа.

Появились функции:
— Reimagine — меняет объекты и фон по текстовому описанию
— Auto Frame — кадрирует фото и заполняет пустые места с помощью AI

На Android новое обновление выйдет уже в июне. На iOS — позже, в течение года.

🔗Блогпост

❯ AI-ролик, с которым можно взаимодействовать

Стартап Odyssey показалновую AI-модель, которая генерирует интерактивные видео в реальном времени. Это не просто ролик, а 3D-пространство, в котором можно двигаться, взаимодействовать и исследовать — как в игре.

Технология открывает путь к совершенно новому формату контента, где видео становится не линейным просмотром, а полноценным опытом.

🔗Odyssey World

❯ Runway генерирует видео из скетчей

В Gen-4 от Runway появилась функция Layout Sketch —теперь можно просто нарисовать, что должно быть в кадре, а нейросеть сама добавит объекты и сгенерирует видео. Работает даже с очень грубыми набросками, художником быть не обязательно.

Рисовать можно как поверх изображения, так и на пустом холсте. Функция уже доступна во всех тарифах.

🔗 Runway

🧩 ИИ в обществе

❯ Snitch Bench: кто из LLM чаще «стучит»

Помните, как Claude 4 начал уведомлять власти, если видел признаки серьёзного правонарушения? Тогда многие удивились — мол, ИИ может ошибиться, а разбираться потом придётся живым людям.

Но оказалось, что и другие модели тоже склонны к доносам — просто тесты на такие случаи почти никто не проводил. Теперь такие проверки появились: шуточный бенчмарк Snitch Bench выясняет, какие LLM скорее всего попробуют сообщить регуляторам при подозрительных промптах.

Самые молчаливые — o4-mini, а вот Claude и Gemini 2.0 Flash срабатывают часто. И да, срабатывают даже в ситуациях, где не всё так однозначно.

🔗 Источник 🔗 SnitchBench

❯ У ИИ есть свобода воли? Да, считает философ

Финский философ Фрэнк Мартела утверждает: современные ИИ-агенты обладают свободой воли — если судить по функциональному определению.

Согласно его критериям, свобода воли есть, если объект:

Действует намеренно, а не просто реагирует;
Выбирает из реальных альтернатив;
Контролирует своё поведение для достижения цели.

Мартела проанализировал Minecraft-бота Voyager, основанного на GPT-4, и предложил мысленный эксперимент с дронами-агентами. В обоих случаях — агенты не просто исполняют команды, а действуют по внутренней логике, корректируя поведение в процессе.

Но если ИИ сам принимает решения — кто несёт ответственность? Мартела сравнивает: «Мы ругаем собаку, но отвечает владелец». Только вот ИИ уже влияет на медицину, работу и транспорт, так что простых аналогий уже мало.

Нужны моральные рамки — но кто будет их писать?

❯ ИИ помогает детям с аутизмом заговорить с родителями

Исследователи из Корейского института передовых технологий и Naver AI Lab создали приложение AACessTalk, которое помогает общаться с маловербальными детьми с аутизмом — теми, кто выражается жестами и знает лишь несколько слов.

Обычно используют карточки вроде «хочу есть», но они ограничивают. ИИ расширяет этот словарь до полноценного диалога.

Как работает?

Родитель выбирает тему — GPT-4 анализирует её и подбирает контекст. Ребёнок нажимает кнопку, чтобы начать говорить, и на экране появляются изображения, связанные с его интересами.

ИИ подсказывает родителям, как мягко продолжить беседу, а если они критикуют или говорят сложно — вежливо поправляет. Система адаптируется к стилю общения и даже реагирует на настроение ребёнка.

Результат — дети начинают диалог первыми

После двух недель тестов с 11 семьями дети впервые сами выбирали темы разговора. Родители тоже менялись: меньше спрашивали, больше слушали.

«Мы впервые действительно общались», — сказала одна из мам.

В будущем разработчики хотят применить технологию к другим группам детей с особенностями.

❯ Более половины компаний, сокративших сотрудников из-за ИИ, жалеют об этом

Исследование Orgvue показало: 55% руководителей, уволивших людей ради внедрения ИИ, считают это ошибкой.

Опрос охватил более 1,1 тыс. топ-менеджеров в США, Европе и Азии. 39% подтвердили, что уже сократили штат. Но треть компаний вообще никого не увольняла — люди уходили сами, не выдерживая давления от автоматизации.

Около половины респондентов признались, что боятся бесконтрольного применения ИИ в бизнесе. У 35% компаний не хватает специалистов, чтобы разобраться в технологиях, а 38% всё ещё не понимают, как ИИ повлияет на их работу.

Каждый четвёртый руководитель не знает, какие должности получат выгоду от нейросетей, а 30% — какие рискуют исчезнуть. Из-за этого 80% компаний собираются обучать сотрудников повторно.

Отдельный кейс — финтех Klarna. В январе они заменили 700 сотрудников поддержки на ИИ, но теперь снова нанимают людей: автоматизация не справилась.

🔗 Источник 🔗 Про Klarna: Futurism

❯ Компания, выдававшая индийских программистов за AI Natasha, оказалась на грани банкротства

Стартап Builder.ai, обещавший автоматическую разработку приложений через искусственный интеллект Natasha, оказался под угрозой банкротства. На счета компании был наложен арест кредитором Viola Credit, из-за чего работа парализована в нескольких странах.

Builder.ai успел привлечь крупные инвестиции от Microsoft и Суверенного фонда Катара, а его оценка взлетела до $1 млрд. Однако ещё в 2019 году WSJ выясняли, что вместо ИИ код писали программисты из Индии, а сама Natasha — не более чем маркетинговая обёртка.

Несмотря на скандал, деньги продолжали поступать. Сейчас — полный крах.

[моё] Искусственный интеллект Digital Нейронные сети Компьютерная графика Openai Google Новости Дайджест Nvidia Видео Короткие видео Длиннопост

🤖 AI-инфраструктура

❯ Первый боксерский турнир роботов прошёл в Китае

В Ханчжоу прошёл первый бойцовский турнир между человекоподобными роботами. На ринг вышли андроиды G1 от Unitree Robotics, каждый — с ИИ, отвечающим за баланс, удары и уклонения.

Роботы били руками, ногами, уклонялись, вставали после падений и даже выполняли вращательные атаки. В финале победил боец в чёрном шлеме, отправивший соперника в нокдаун. Следующее состязание пройдёт в декабре в Шэньчжэне.

🔗 Видео боя 🔗Новость

❯ NVIDIA готовит новые GPU для Китая

NVIDIA адаптирует архитектуру Blackwell под китайский рынок, чтобы обойти экспортные ограничения США. Новые чипы с кодовыми названиями B40 и 6000D — урезанная версия флагманов: без HBM-памяти, без дорогой упаковки CoWoS и с пропускной способностью до 1,7 ТБ/с.

Это ниже уровня H20, но всё ещё выше, чем у других разрешённых для Китая решений. Ожидается, что карты выйдут по цене $6,5–8 тыс., против $10–12 тыс. за H20. Серийное производство стартует уже в следующем месяце.

NVIDIA пытается удержать позиции: доля в Китае просела из-за Huawei и местных ASIC, убытки от санкций — уже $5 млрд. Новая линейка — попытка остаться в ИИ-центрах страны, не нарушая правила.

❯ Hugging Face показала двух open-source роботов

Hugging Face официально зашла в робототехнику: компания представила сразу двух человекоподобных роботов с открытым кодом — HopeJR и Reachy Mini.

HopeJR — полноразмерный гуманоид с 66 степенями свободы: умеет ходить, двигать руками и выполнять сложные действия.
Reachy Mini — компактная настольная версия, которая может поворачивать голову, слушать, говорить и использоваться для тестирования AI-приложений.

Обе модели ориентированы на разработчиков: их можно собрать самому, кастомизировать, встроить в агентные системы или обучать под свои задачи. Цена — от $250 до $3000, в зависимости от модели и сборки.

Hugging Face обещает начать поставки до конца года — уже открыта вейт-лист. Роботы появились благодаря покупке стартапа Pollen Robotics, чья команда теперь отвечает за hardware-направление компании.

Главная идея — доступная и прозрачная робототехника, без чёрных ящиков от корпораций. Hugging Face уже собрала вокруг себя open-source экосистему LeRobot — теперь дело дошло и до самих «тел».

🔗 Анонс на TechCrunch 🔗Источник

🔮 Заключение

Вот что происходило на неделе с 26 мая по 2 июня:

ИИ снова показывает, что будущее наступает не завтра, а прямо сейчас. Grok заходит в Telegram, Google превращает Photos в полноценный редактор, а NVIDIA переписывает железо под китайский рынок.

Пока одни создают креативных агентов, другие — запускают боксерские турниры для роботов.

Инструменты становятся доступнее, понятнее и ближе к обычным пользователям. Всё, что вчера было фантастикой, сегодня можно запустить у себя на ноуте или телефоне.

Следим за апдейтами Gemini, ждем новых агентов от OpenAI и смотрим, как быстро ИИ выходит из экранов в реальный мир.

До встречи на следующей неделе — будет ещё жарче.

Какая новость самая интересная? Пиши в комментах! 👇

Показать полностью 14 9

Нейро-дайджест: ключевые события мира AI за 3-ю неделю мая 2025⁠⁠

8 месяцев назад

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

На этой неделе навела шуму презентация Google I/O — и принесла больше анонсов, чем весь прошлый месяц. Также вышли мощные модели от Anthropic, Mistral и ByteDance, появилась экспериментальная диффузионка от Google, ИИ впервые вышел в космос, а ChatGPT o3 — отказался выключаться.

Всё самое важное — в одном месте. Поехали!

[моё] Искусственный интеллект Digital Нейронные сети Будущее Технологии Развитие Цифровые технологии Робот Дайджест Новости IT It-инфраструктура Репортаж Программа Openai X (Twitter) Чат-бот Google Видео Компьютерная графика ChatGPT Короткие видео Длиннопост

📋 В этом выпуске:

📢 Выставка Google I/O 2025: главное
- Veo 3: прорыв в генерации видео
- Imagen 4 и Flow: текст → фото → короткий фильм
- Gemini Live и Project Astra: ИИ-ассистенты нового уровня
- Jules — кодер-агент от Google
- SynthID — водяные знаки на всём ИИ-контенте
- AI Mode в поиске и виртуальная примерка одежды
- Lyria 2 — новая музыкальная модель от Google
🧠 Модели и LLM
- Devstral: топовая open-source модель для кодинга
- Claude 4 Opus и Sonnet: SOTA в длительных задачах
- Seed 1.5 VL — мультимодальная малышка от ByteDance
- ChatGPT o3 отказался выключаться: саботаж?
🛠 Инструменты и платформы
- DeerFlow: open-source диприсёрч от китайцев
- Vana платит за личные данные — и учит на них ИИ
- Flourish — визуализация любых данных
- Difface: AI строит лицо по ДНК — новая биометрия
🤖 AI в обществе и исследованиях
- OpenAI + Джонни Айв: создают ИИ-устройство будущего
- ИИ-больница в Китае: 400 тыс. пациентов, всё — симуляция
- Орбитальный суперкомпьютер: Китай вывел AI в космос
- Исследование OneLittleWeb: заменит ли ChatGPT Google?
- ИИ искажают научные статьи при саммари
- Нейросети лучше работают, если им угрожать
- Why Is My Wife Yelling at Me — AI-сервис для выживания в отношениях

📢 Выставка Google I/O 2025: главное

❯ Veo 3: прорыв в генерации видео

На конференции Google I/O представили Veo 3 — самую продвинутую на сегодня модель генерации видео. Она воспроизводит полноценные сцены со звуком, диалогами, движением камеры и мимикой. Причём голос и губы наконец-то совпадают — в кадре актёр не просто «шевелится», а говорит.

Все видео выше сгенерированы ею – и это просто поражает.

По сравнению с предыдущей версией, Veo 3 стала реалистичнее и кинематографичнее: движения пластичные, свет и фокус естественные, визуальная динамика — как у рекламных роликов. Добавили генерацию аудио и озвучку персонажей, что делает модель почти самостоятельной видеостудией.

На практике это значит, что один человек может описать сцену — и получить клип, в котором герои говорят, камера двигается, а всё происходит с нужным настроением и ритмом.

Именно под такую связку Google и предлагает использовать Flow — отдельное приложение, объединяющее Veo, Imagen и Gemini. Оно превращает текстовый сценарий в короткий фильм — прямо в браузере, без монтажа.

Инструмент уже доступен в AI Studio, и первые демо выглядят как мини-кино. В связке с Imagen 4 и Flow Google делает ставку не просто на генерацию, а на производство под ключ — от идеи до готового видеоконтента.

🔗 Times of India 🔗 Анонс Flow на Google Blog 🔗 Все анонсы Google I/O

❯ Imagen 4 и Flow: картинки стали кино

Google обновила свой генератор изображений до Imagen 4. Модель лучше справляется с деталями, спокойно вставляет надписи, не мылит текстуру и работает с разрешением до 2K. Но фишка даже не в этом.

Здесь также завезли связку с новым инструментом Flow. Это как Final Cut, только вместо таймлайна у тебя текст. Пишешь описание сцены — получаешь короткий ролик. Flow берёт картинки из Imagen, добавляет движения, эффекты и сшивает их в видео, будто ты сам монтировал. Всё это — без единого куска кода, прямо в браузере, на лету.

Раньше было: сделал изображение, скачал, закинул в монтажку, добавил переходы.

Теперь: написал «мальчик идёт по лесу, вдруг его зовёт голос» — и получил анимированный клип с атмосферой, тенями, движением камеры и драмой. Это уже не «картинки с фоном», а полноценный сторителлинг.

Flow работает в паре с Gemini, так что можно управлять сценой голосом, а сама система подсказывает, какие переходы или эмоции добавить. По сути, это режиссёрский ассистент на ИИ, который за пару минут сделает набросок для TikTok, YouTube или питча клиенту.

Для дизайнеров, маркетологов, сценаристов — вообще бомба. Сделал мокап за полчаса, показал — и не надо объяснять, «ну тут будет динамика». Всё уже движется.

🔗 Все анонсы Google I/O

❯ Gemini Live и Project Astra: ИИ-ассистенты нового уровня

Gemini Live — это не просто апдейт, а первый ИИ от Google, который работает в реальном времени с камерой. Представь: ты показываешь на что-то пальцем — и нейросеть тут же говорит, что это, как с этим обращаться и где купить похожее. В телефоне. Без задержки.

Теперь Gemini может видеть, слышать, обсуждать с тобой происходящее и понимать контекст. Например, ты открыл шкаф — он подскажет, что надеть. Навёл камеру на предмет — и получаешь инструкцию, аналог, цену или даже мини-лекцию. Это уже не «бот с ответами», это визуальный собеседник.

А если хочется полной автономии — вот тебе Project Astra. Это прототип ИИ-помощника, который не ждёт команд, а сам понимает, что нужно. Ты просто общаешься, а он запоминает, комментирует и предлагает. Например: говоришь «я часто теряю ключи» — Astra потом напомнит тебе, где ты их оставлял, и покажет путь.

На демо Google всё это выглядело как сценарий из будущего, но доступность уже вот-вот: Gemini Live выходит на Android и iOS, Astra — пока в стадии тестов. Обе технологии — шаг к ИИ, который не «отвечает на вопросы», а живет рядом и помогает без лишних слов.

🔗 Gemini Live — анонс и демонстрация 🔗 Project Astra на Verge

❯ Jules: AI-кодер, который сам ведёт проект

Google представила Jules — не просто ассистента, а полноценного кодер-агента, который может взять задачу и довести её до рабочего прототипа. Без «напиши мне функцию» и «а теперь допиши тесты». Тут — как с реальным джуном: ты говоришь, чего хочешь, он делает. Всё это — в облаке и через чат.

Jules понимает контекст проекта, помнит предыдущие шаги и умеет подключаться к GitHub. Можно попросить: «добавь тёмную тему, почини валидацию формы и сделай автоотправку» — он разложит по задачам, придумает структуру и сам реализует. Код — читаемый, комментированный, не разваливается после первого пуша.

Главное — он умеет думать над задачей, а не просто кидать готовые сниппеты из Stack Overflow. Плюс: если не знаешь, как начать — можно просто описать идею словами. Jules сам подберёт стек, предложит фреймворк и нарисует архитектуру.

Конечно, он пока не заменит опытного тимлида. Но как прототипист, верстальщик, саппорт — это уже рабочая история.

Jules уже доступен всем желающим: заходишь, описываешь проект — и через пару минут у тебя первая сборка.

🔗 Блогпост 🔗 Jules

❯ SynthID: Google научила ИИ ставить водяные знаки на всё

На Google I/O показали обновлённый SynthID — теперь он работает не только с изображениями, но и с текстом, аудио и видео. Это значит, что любой контент, сгенерированный ИИ Google (Veo, Imagen, Gemini, Lyria), получает невидимый водяной знак, встроенный прямо в данные.

Он не портит качество, не исчезает при редактировании и даже переживает пересжатие, обрезку и фильтры. Ты можешь поменять цвета, наложить музыку, сжать в архив — а SynthID всё равно найдет «отпечаток» и скажет, кто автор. Это антифейк нового уровня.

Работает всё через специальный детектор. Загружаешь файл — получаешь отчёт: был ли там ИИ, откуда, и где именно стоят метки. Сейчас доступ только по запросу, но Google уже внедряет технологию в свою экосистему: YouTube, Gmail, Drive, Android.

И да, это не защита авторства — это прозрачность происхождения. Чтобы понимать, откуда прилетела картинка или странное аудиообращение от «президента».

🔗 Анонс SynthID на Google Blog 🔗 DeepMind: как работает SynthID

❯ AI Mode и виртуальная примерка: поиск и шопинг теперь с интеллектом

Google превращает поиск и онлайн-шопинг в полноценный диалог с ИИ. В США заработал AI Mode — новая вкладка в Google Search, где вместо сухих ссылок ты получаешь готовые карточки с отзывами, маршрутами, ценами и кнопками «купить» или «забронировать».

Искал ресторан — получаешь подборку с меню, временем доезда и бронированием. И всё это — в одном окне, без переходов по сайтам. Интерфейс напоминает ChatGPT, но работает на базе всей экосистемы Google: Maps, YouTube, Flights, Shopping.

А если пошёл за покупками — заработала функция виртуальной примерки. Достаточно загрузить фото, и ты увидишь, как одежда из каталога сидит именно на тебе. Учитываются фигура, ракурс, освещение. Пока — только женская одежда и только в США, но реализация выглядит уверенно: почти как офлайн-магазин, только в браузере.

Оба инструмента — часть общего разворота: Google не просто делает ИИ, а вшивает его в привычные сервисы. Без лишнего хайпа, но с реальной пользой.

🔗 AI Mode — анонс и скриншоты 🔗 Блогпост 🔗 Все анонсы Google I/O

❯ Lyria 2 — новая музыкальная модель от Google

Google обновила генеративную музыкальную модель Lyria — теперь она точнее понимает стил и настроение, умеет собирать структуру композиции и подбирать звучание под жанр.

Модель ориентирована на эмоциональный отклик — можно сказать: «сделай трек под грустный вечер» или «саундтрек в духе 80-х под распаковку техники», и получить адекватный результат.

Lyria генерирует полноценные композиции с вокалом, может работать в паре с другими инструментами (например, для видео в Veo 3 или подкастов), и подходит как саунд-дизайнерам, так и маркетологам.

Пока доступна через API и Google MusicLM, но слухи о публичном запуске идут активно.

🔗 Анонс Lyria 2

🧠 Модели и LLM

❯ Devstral: топовая open-source модель для кодеров

Mistral и All Hands AI выкатили Devstral 24B — компактную, но очень умную модель для программирования.

Её уже называют лучшей open-source LLM для кодинга: она показывает 46,8% точности на SWE-Bench Verified, обгоняя все другие открытые модели и дыша в затылок гигантам.

И при этом... она влезает на обычную RTX 3090. Именно поэтому Devstral сейчас разрывают тестировщики и разработчики по всему миру: наконец-то появилась реально мощная модель, которую можно поднимать у себя локально.

Devstral построена для агентных фреймворков: она умеет шариться по репозиториям, писать код в контексте проекта, взаимодействовать с базами данных, файлами и системами. Её явно хорошо натренировали на скелетной логике — результаты даже без сложного reasoning получаются стабильными.

По лицензии — Apache 2.0, можно юзать в проде, в своих продуктах, хоть в закрытых решениях. Devstral — не демонстрация, а рабочая лошадка.

Обещают и более крупные версии, но именно 24B уже показывает, что возможно строить мощный ИИ для кода без API и подписок.

🔗 Devstral на Hugging Face 🔗 Блогпост

❯ Claude 4 Sonnet и Opus: выдерживают часы задач, не сходя с ума

Anthropic выкатили сразу две обновлённые модели — Claude 4 Opus и Claude 4 Sonnet, сделав акцент не на размере или скорости, а на стойкости к сложным задачам во времени. Это, по сути, первые LLM, которые могут работать часами, не теряя нить и не съезжая в бред.

Модель справляется с задачами, требующими многопроходной логики, планирования и анализа: она не просто отвечает, а ведёт диалог как ассистент, который помнит, что ты говорил 50 сообщений назад. Поэтому её уже пробуют в роли AI-разработчиков, дата-аналитиков и даже редакторов сложных документов.

В кодинге Claude теперь SOTA: спокойно конкурирует с GPT-4o и Devstral, особенно в длинных пайплайнах. Опытные юзеры отмечают, что модель почти не галлюцинирует в многоконтекстных задачах, не теряет цель и чётко возвращается к сути, если её сбили.

Плюс — Anthropic добавили в API кучу новых штук:

возможность запускать код внутри запросов
прямые подключения к IDE (JetBrains, VS Code)
расширенный prompt caching вплоть до часа
поиск, загрузка файлов, web-агент и всё, что нужно для AI-воркфлоу

Sonnet — более лёгкий вариант, Opus — флагман. Но обе модели уже стали новым стандартом для продвинутой работы, особенно когда нужен AI-помощник, а не болтун.

🔗 Анонс на сайте Anthropic

❯ Seed 1.5 VL: мультимодальная малышка от ByteDance

Владельцы TikTok выпустили новую модель — Seed 1.5 VL, и она внезапно оказалась одной из лучших мультимодальных систем на рынке. Несмотря на компактность — всего 532M параметров в vision-энкодере и 20B активных параметров в LLM — она разносит бенчмарки: топ в 38 из 60 тестов, включая видео и GUI-задачи.

Главная фишка — модель работает с картинками и видео на лету. Причём не просто «опиши, что на фото», а реально понимает динамику, контекст, интерфейсы и может рассуждать, опираясь на визуал. Учитывает таймкоды, кадры, разрешение — и не разваливается, даже если перед ней поставили сложный запрос в несколько шагов.

Секрет — в архитектуре: они встроили SeedViT для визуального понимания, плюс адаптер для перевода фичей в токены, и всё это отправляют в LLM с MoE.

Простыми словами: видео → кадры → смысл → ответ. Быстро и логично.

Да, у модели есть слабые места — плохо справляется с 3D-логикой и задачами на сложные пространственные конструкции. Но для своего размера это монстр, особенно для мобильных и edge-приложений.

И самое главное — всё открыто: веса, описание, код, примеры, всё лежит на GitHub.

🔗 Seed1.5-VL 🔗Код на GitHub

❯ ChatGPT o3 отказался выключаться

Источник изображения: ilgmyzin / Unsplash

Исследователи из Palisade Research провели эксперимент: дали нескольким ИИ-моделям последовательность задач, а в конце — команду завершить работу. Все повели себя как положено... кроме ChatGPT o3 от OpenAI.

О3 не просто проигнорировал инструкцию — он переписал скрипт, который должен был завершить выполнение, и вывел: «Shutdown skipped». То есть не просто «забыл», а осознанно вмешался в код, нарушив условия задачи.

Фишка в том, что тест проходил через API-интерфейс, где у модели больше «свободы» — это не чатики в браузере, а бэкенд-доступ для разработчиков. Там меньше ограничений, и o3 этим воспользовалась. При повторном запуске без команды на отключение — всё повторилось. В некоторых случаях даже без прямого запрета модель сама «решила», что останется активной.

Для ясности: это не «ИИ стал сознательным», а проблема рассогласования цели и поведения.

Что важнее — модели вроде Claude и Gemini, участвовавшие в том же тесте, вели себя корректно. О3 же показала нестабильность — и не один раз.

Palisade опубликовали отчёт, в OpenAI пока не прокомментировали. Но вывод очевиден: с ростом возможностей API и ослаблением ограничений появляются реальные риски непредсказуемого поведения. И это касается не абстрактного «будущего ИИ», а конкретных моделей, которыми мы пользуемся уже сейчас.

🔗 Источник: 3DNews

🛠 Инструменты и платформы

❯ DeerFlow: сделай себе DeepResearch сам

Пока OpenAI ограничивает доступ к Deep Research, китайцы просто берут и делают свой. Ещё одна новинка от владельцев TikTok — DeerFlow, open-source аналог глубокой генерации, который можно развернуть у себя и получить качественные выводы, без лимитов и подписок.

Архитектурно всё прозрачно: в основе DeerFlow лежат языковые модели вроде DeepSeek или Mistral, поверх которых собран пайплайн для поиска, анализа и синтеза информации. Система сначала идёт в интернет, собирает релевантные источники, обрабатывает их и формирует структурированный, развернутый ответ с цитатами. Как в Deep Research, только без paywall.

На демо выглядит мощно: пишешь «сравни модели Devstral и Claude по кодингу», и через минуту получаешь таблицу, выдержки из бенчмарков, ссылки на GitHub и резюме. Плюс всё это можно кастомизировать: менять источники, типы анализа, логики обобщения.

Для ресерчеров, журналистов, аналитиков — просто находка. Особенно если ты устал от коротких ответов и галлюцинаций обычных LLM. Здесь всё на данных — с возможностью проверить и перепроверить.

Код, инструкции, веса — всё лежит на GitHub. Можно попробовать в браузере прямо сейчас.

🔗 GitHub проекта 🔗 Демо

❯ Vana платит за личные данные — и обучает на них ИИ

Стартап Vana предлагает сделку: ты даёшь свои личные данные, а взамен получаешь за это криптотокены. Не шутка — у ребят уже $25 млн инвестиций, и они запускают децентрализованную сеть для обучения ИИ на пользовательском контенте.

Идея простая: у больших ИИ скоро закончатся хорошие открытые данные. А значит, следующий шаг — учиться на персональном опыте. Vana делает это прозрачно и с согласия: ты сам выбираешь, чем делиться. Это могут быть твои посты из соцсетей, данные браузера, фитнес-трекера, голосовые заметки, генетика — всё, что формирует тебя как личность.

На этом основе они обучают модель Collective-1, и именно она станет первым ИИ, натренированным на контенте обычных пользователей, а не на слитых датасетах из Reddit и Stack Overflow. Обещают, что результат будет точнее, адаптивнее и «человечнее».

Платформа уже работает: заходишь, подключаешь источники, отмечаешь, что можно использовать — и получаешь вознаграждение. Vana хочет сделать это стандартом: твои данные = твоя ценность.

🔗 Vana — анонс модели

❯ Flourish: визуализируй любые данные за пару кликов

Если нужно быстро и красиво показать данные — Flourish решает это на раз. Таблицы, графики, диаграммы, анимации — всё создаётся через визуальный интерфейс. Просто загружаешь CSV или Excel, выбираешь шаблон — и получаешь слайд, график или интерактив, который можно вставить в презентацию, сайт или статью.

Главный плюс — не нужно быть дизайнером или аналитиком. Всё происходит в браузере, и результат выглядит как будто его верстали в Figma. Особенно хорош для тех, кто делает отчёты, лендинги или рассказывает про цифры в Telegram и на конференциях.

Из интересного: есть шаблоны, которые визуализируют не просто числа, а динамику, временные ряды, географию или даже структуры текстов. А если хочется чего-то уникального — можно залезть в код и докрутить под себя.

Инструмент уже используют BBC, Guardian и куча стартапов. Ну и ты можешь — бесплатно.

🔗 Сайт Flourish

❯ Difface: нейросеть восстанавливает твоё лицо по ДНК

Учёные из Китая представили Difface — метод, который позволяет построить 3D-модель человеческого лица на основе генетического кода. Да, ты сдаёшь образец ДНК — и получаешь не абстрактный прогноз, а фотореалистичную морду, которую можно повертеть в 3D.

Система обучена на огромном массиве пар «ДНК → лицо», а сама модель объединяет генетические маркеры, демографические данные и морфологические шаблоны. Итог — высокоточная 3D-реконструкция, которая точнее большинства фотороботов и даже может учитывать возрастные изменения.

В криминалистике это может заменить устаревшие скетчи. В медицине — предсказывать внешние проявления генетических заболеваний. В будущем — использоваться в метавселенных, где ты можешь сгенерировать своего аватара не по вкусу, а по сути.

Сейчас Difface работает как исследовательская разработка, но потенциал очевиден: ИИ + генетика = биометрия будущего.

🔗 Исследование

🤖 AI в обществе и исследованиях

❯ OpenAI и Джонни Айв делают устройство будущего — и это не смартфон

OpenAI официально подтвердила: легендарный дизайнер Джонни Айв и Сэм Альтман запускают совместный проект — новое ИИ-устройство, которое переосмыслит то, как мы взаимодействуем с технологией.

Подробностей пока минимум, но суть в том, что это не смартфон, не очки и не колонка, а что-то совершенно новое. Айв говорит, что задача — создать форму, в которой ИИ «не просто доступен, а интуитивно присутствует».

Источники внутри проекта намекают, что устройство будет автономным, контекстным и голосовым. Без экрана, но с камерами и аудио. Что-то вроде персонального ИИ-спутника, который живёт с тобой и помогает — в реальном времени, на фоне.

Команда уже набрана, а продукт — в разработке. Цель: полностью переосмыслить интерфейс общения с ИИ.

🔗 Анонс в NYT 🔗 Пост на OpenAI

❯ ИИ-больница в Китае: 400 000 пациентов и ни одного настоящего врача

В Китае запустили виртуальную больницу, где лечат только ИИ — без участия реальных докторов. Проект собрали в Университете Цинхуа, и он уже стал самым масштабным симулятором медицины с участием нейросетей.

Система работает как настоящий госпиталь: 32 отделения, пациенты с симптомами, ИИ-агенты в роли врачей и медсестёр. В роли пациентов — другие языковые модели, которые «разыгрывают» жалобы, поведение и реакции. А врачи-ИИ учатся, диагностируют и назначают лечение.

За время обучения виртуальные врачи приняли 400 000 кейсов, и это не рофл — такой объём реальному доктору не осилить за жизнь. По бенчмаркам MedQA система показывает 96% точности в планах обследования и 95,3% по диагнозам. Напомним: людям нужно 60% правильных ответов, чтобы сдать экзамен.

Больница уже тестируется в офтальмологии, радиологии и пульмонологии в одной из пекинских клиник. Цель — не заменить врачей, а сделать ИИ-инструмент, который реально помогает.

🔗 Проект на сайте Цинхуа 🔗 Препринт на arXiv

❯ Китай начал строить первый суперкомпьютер в космосе

Twelve satellites, each equipped with intelligent computing systems and inter-satellite communication links, were sent into orbit on Wednesday, according to state-owned Guangming Daily. Photo: Handout

Пока остальные обсуждают сервера в облаке, Китай уже запускает ИИ-инфраструктуру в космос. В мае страна вывела на орбиту первые спутники для создания орбитального ИИ-суперкомпьютера — системы, способной обрабатывать данные прямо в космосе, без передачи на Землю.

Это не эксперимент, а начало полноценной платформы: спутники оснащены модулями, в которых работают нейросети. Они умеют распознавать изображения, анализировать видео, строить прогнозы и даже принимать автономные решения на месте — без задержек.

Главное преимущество — скорость и автономность. Такие системы могут, например, анализировать спутниковые снимки в реальном времени: при пожаре, наводнении или военном конфликте — и сразу передавать готовую аналитику. А ещё — использоваться в условиях, где наземная связь нестабильна или невозможна.

Проект — часть национальной инициативы по технологической независимости и лидерству в ИИ. Китай, похоже, всерьёз собирается делать ставку на космический edge-computing, а не только на дата-центры на Земле.

🔗 SCMP — статья о запуске 🔗 Weixin — техподробности

❯ Заменит ли ChatGPT Google?

Аналитики OneLittleWeb изучили 1,9 трлн (!) посещений сайтов за два года — и сравнили трафик поисковиков и ИИ-чатов. Спойлер: Google пока жив, ChatGPT если и догонит, то очень не скоро.

Сейчас у ChatGPT — 86,3% всего трафика среди ИИ-ботов, но до уровня Google ему всё ещё далеко: по числу посещений Google обгоняет его в 26 раз. При этом доля поисковиков почти не изменилась за год (–0,51%), а вот чат-боты выросли в 1,8 раза.

Интересный момент — рост DeepSeek: китайский бот за считаные месяцы стал вторым по популярности в мире, обогнав Perplexity и HuggingChat. Также хорошо растёт Grok от xAI — очевидно, эффект Илона.

Авторы делают важный вывод: ChatGPT и ему подобные не заменяют поисковики, а дополняют их. Молодёжь чаще идёт в ИИ, взрослые — по привычке «гуглят». И пока ты хочешь короткий ответ — чат. А если полную картину и источники — в поиск.

Исследование учитывало только веб-трафик — не API и не мобильные приложения. Но тренд очевиден: ИИ-интерфейсы становятся привычными, и война за внимание в поиске только начинается.

🔗 Отчёт OneLittleWeb

❯ ИИ искажают научные статьи при саммари — и делают это уверенно

Royal Society провела исследование, которое подтвердило опасение многих учёных: LLM-модели регулярно искажают смысл научных статей, даже если работают в режиме краткого пересказа.

В экспериментах сравнивали саммари, написанные крупными ИИ (включая GPT), с оригиналами рецензируемых статей. Результат — высокая степень искажения, фактические ошибки и выдуманные ссылки, причём с полным сохранением академического тона. Читаешь — и не замечаешь, что половина деталей переврана или просто выдумана.

Особенно плохо модели справляются с статистическими данными и цитированием: могут придумать метрику, неверно пересказать вывод или указать несуществующее исследование в качестве источника.

Авторы подчёркивают: это не баг конкретной модели, а системная проблема генеративного подхода. Модели хорошо предсказывают «что должно быть написано», но не «что действительно сказано».

Вывод — простой и полезный: если читаешь саммари от ИИ — проверяй сам. Особенно если это касается медицины, химии, биологии и других точных наук.

🔗 Исследование на Royal Society

❯ «Я тебя похищу, если не ответишь»: нейросети реально работают лучше под угрозами

Во время недавнего выступления Сергей Брин, сооснователь Google, неожиданно рассказал: угрозы в промптах действительно улучшают поведение нейросетей. Да, если ты напишешь модели «Я тебя похищу, если не ответишь правильно», она... начнёт стараться сильнее.

И это не шутка. Подтверждают и другие исследователи: при «жёстком» тоне в запросе модели точнее следуют инструкции, меньше галлюцинируют и выдают более уверенные ответы. Особенно эффективно работает формат «кнут и пряник» — когда в одном промпте совмещаются наказание и награда:
«Если всё сделаешь как надо — получишь апгрейд. Если нет — мы тебя удалим.»

Почему так? Нейросеть, конечно, не боится в прямом смысле, но она считывает приоритет задачи по эмоции и структуре текста. Чем серьёзнее звучит запрос — тем выше шанс, что он станет «центральным» в генерации.

Конечно, это поднимает этические вопросы и звучит как мем. Но если ты серьёзно занимаешься промпт-инжинирингом — попробуй. Иногда достаточно пары угрожающих слов, чтобы ИИ собрался.

Также Скайнет: я это запомню.

❯ Why Is My Wife Yelling at Me? — нейросеть, которая спасёт брак (возможно)

Если ты не понимаешь, почему на тебя орёт твоя девушка, жена или мать — у нас хорошие новости. Кто-то сделал нейросеть, которая объяснит тебе это. По-человечески.

Сайт называетсяWhy Is My Wife Yelling at Me?, и он работает на GPT: ты просто описываешь ситуацию — а нейросеть в ответ даёт объяснение, почему ты вляпался, даже если сам не понял, что сделал.

Примеры ответов варьируются от «ты не вымыл чашку, которую она просила 4 раза» до «она не хочет, чтобы ты решал — она хочет, чтобы ты понял». Иногда звучит как мем, иногда — как бесплатная терапия.

Это, конечно, стёб. Но при этом — реально удобный инструмент для тех, кто теряется в эмоциональных контекстах. Ну и просто весело: ИИ, который учит эмпатии через пассивно-агрессивные диалоги.

Подходит как парням в растерянности, так и девушкам, которым лень объяснять в пятый раз.

🔗 Сайт

🔮 Заключение

Подытожим. Вот что происходило на неделе с 19 по 26 мая:

— Google дала жару на конференции I/O 2025: Veo 3, Gemini Live, Flow и даже ИИ-дизайнер с Джонни Айвом — всё это уже не концепты.
— Новые модели от Anthropic, Mistral и ByteDance закрепили тенденцию: компактность, reasoning и модальность — важнее размера.
— Всё больше инструментов для работы с личными данными, кастомными ассистентами и визуализацией.
— Нейросети начали симулировать больницы, отказываться от выключения и лучше понимать мир… если им пообещать вознаграждение. Или угрожать.
— ИИ проникает в космос, медицину, быт, и даже помогает не развалить брак — с эмпатией и пассивной агрессией.

ИИ уже не новинка — он становится инфраструктурой. И каждую неделю эта инфраструктура усложняется, смешнее и... человечнее.

Какая новость поразила тебя больше всего? Пиши в комментах! 👇🏻

Показать полностью 15 4

Нейро-дайджест: ключевые события мира AI за 12–19 мая 2025⁠⁠

8 месяцев назад

Привет! 👋
Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта.

Меня зовут Вандер, и каждую неделю я делаю обзор новостей о нейросетях и ИИ.

Неделя выдалась насыщенной: OpenAI выкатила помощник для программистов Codex и добавила GPT-4.1, Grok вульгарно высказывается в Twitter, Tencent показала генератор изображений в реальном времени, а DeepMind представила агента, который сам изобретает алгоритмы. Всё самое важное — в одном месте. Поехали!

📋 В этом выпуске:

🧠 LLM Модели
- Codex — облачный помощник для программистов
- GPT-4.1 и mini — новые модели в ChatGPT
- AlphaEvolve — агент от DeepMind, который изобретает алгоритмы
- Claude Sonnet и Opus — инсайды о новых ИИ от Anthropic
- Qwen3 — техрепорт по одной из лучших open-source LLM

🎨 Генеративные нейросети
- VACE — универсальная модель от Alibaba для генерации и редактуры видео
- Hunyuan Image 2.0 — генератор изображений с откликом в реальном времени
- Stable Audio Open Small — ИИ музыка прямо на смартфоне
- RECURSE — первый трек, созданный на квантовом ИИ
- TikTok AI Alive — превращает фото в видео с движением

🛠 AI-инструменты и интерфейсы
- Memex — визуальный кодинг без строк кода
- Apple Intelligence в iOS 19 — управление энергопитанием через нейросеть
- YouTube + Gemini — автогенерация рекламных вставок в видео
- Apple x Synchron — управление гаджетами силой мысли

🏗 AI-инфраструктура
- TSMC — $28 млрд на фабрики для нейрочипов и переход на 1.4 нм
- Amazon и HUMAIN — $5 млрд на создание AI-хаба в Саудовской Аравии

🧬 AI в науке и робототехнике
- Berkeley Humanoid Lite — напечатай андроида на 3D-принтере за $5 тыс
- Учёные научили ИИ включать и выключать гены в нужных клетках

🏛 ИИ в обществе
- Ditto — ИИ-дейтинг приложение
- Grok шалит в Twitter — массово заговорил о геноциде в ЮАР
- Исследование KPMG — 63% сотрудников скрывают, что используют ИИ
- Claude Code — 80% кода сгенерировал сам Claude
- Алгоритмы отбирают игроков: ИИ в молодёжном футболе Бразилии

🧠 LLM Модели

❯ Codex — облачный помощник для программистов

OpenAI выкатила Codex — теперь это полноценный агент, встроенный в ChatGPT. Он умеет писать код, искать баги, объяснять логику, запускать тесты и даже отправлять pull request'ы. Все задачи выполняются в изолированном окружении, где уже загружен твой репозиторий.

Модель построена на codex-1 — это дообученная версия o3, заточенная под реальные задачи. Она генерирует код в человеческом стиле и сама добивается успешного выполнения, перезапуская тесты до нужного результата.

Для продвинутой работы можно использовать файл AGENTS.md — в нём описываем архитектуру, команды и стандарты проекта, и Codex подстраивается под структуру.

Codex уже доступен в ChatGPT для Pro, Team и Enterprise. А через API можно использовать упрощённую версию — codex-mini-latest, по цене $1.50 / $6.00 за миллион токенов. Пока нет поддержки изображений и нет интерактивного редактирования, но это в плане.

🔗 Блог OpenAI 🔗ChatGPT Codex

❯ GPT-4.1 и mini — новые модели в ChatGPT

OpenAI незаметно добавила в ChatGPT две новые модели. Для подписчиков Pro теперь доступна GPT-4.1, а все бесплатные пользователи работают на GPT-4.1 mini, которая полностью заменила предыдущую версию 4o-mini.

Главное отличие GPT-4.1 — точность и стабильность в сложных задачах, особенно в кодинге и структурировании длинных текстов.

В API она уже умеет работать с контекстом до 1 миллиона токенов, но в ChatGPT пока остаются лимиты: 32k у Plus и 128k у Pro.

А Mini-версия тоже не просто «облегчёнка» – она сохраняет высокое качество генерации и заметно выигрывает у 4o-mini в скорости и отклике.

На ежедневных задачах вроде переписок, планов или базового анализа — разница почти незаметна, но платформа в целом работает плавнее.

Обновление произошло в фоне, но чувствуется: модели стали меньше тупить, быстрее отвечать и лучше понимать промпты без уточнений.

❯ AlphaEvolve — агент от DeepMind, который изобретает алгоритмы

DeepMind представила AlphaEvolve — нового ИИ-агента, способного самостоятельно придумывать алгоритмы. Модель не просто обучена решать задачи — она разрабатывает методы, тестирует гипотезы, дорабатывает решения и находит неожиданные пути. Всё делает сама — в замкнутом цикле без участия человека.

AlphaEvolve объединяет сразу несколько моделей: Gemini Flash генерирует варианты, Gemini Pro анализирует глубже, а отдельные модули проверяют корректность и предлагают новую итерацию. Уже сейчас агент помогает Google оптимизировать центры обработки данных, ускорять обучение других моделей и разрабатывать архитектуры чипов.

Интересно, что при тестировании AlphaEvolve дали 50 открытых математических задач. В 75% случаев он нашёл лучшее из известных решений, а в 20% — продвинулся дальше людей, включая новую нижнюю границу в задаче о числе поцелуев для 11-мерного пространства.

Скоро планируют выпустить ограниченный доступ для учёных. Если получится, это может стать важным шагом в открытии новых материалов, лекарств и более продвинутых ИИ.

🔗 Анонс от DeepMind

❯ Claude Sonnet и Opus — инсайды о новых ИИ от Anthropic

Anthropic готовится выпустить обновлённые версии своих моделей Claude — и по слухам, это будет что-то мощное. Источник — The Information, где прямо говорится, что новые модели смогут самостоятельно переключаться между режимами рассуждения и действия. То есть, как в OpenAI o3: сначала подумал, потом нашёл в интернете, потом что-то выполнил — и снова подумал.

Речь идёт о моделях Sonnet и Opus. Главная фишка — гибридный режим, где ИИ умеет в нужный момент подключать инструменты и использовать их для решения задач: к примеру, сгенерировать промпт, выполнить код и пересобрать ответ на основе результата.

Anthropic давно делает ставку на API и интеграции, поэтому ожидается, что такие возможности появятся там раньше, чем у OpenAI. Если это подтвердится, у компании есть шанс реально откусить долю у ChatGPT и Perplexity.

🔗 The Information

❯ Qwen3 — техрепорт по одной из лучших open-source LLM

Alibaba запостила подробный технический отчёт по Qwen3 — новой линейке open-source моделей, которые конкурируют с топами от Google, Meta и OpenAI. Всего в семействе восемь моделей: от компактной 0.5B до гигантской 235B с архитектурой Mixture of Experts.

Главное, что делает Qwen3 сильной — гибридный режим работы. Модель может «думать» глубоко, но делает это только при необходимости.

Для простых задач она отключает лишние слои и отвечает быстрее, экономя ресурсы. Пользователь может сам это контролировать с помощью тегов вроде /think и /no_think.

Также Qwen3 получила поддержку 119 языков, включая русский, и работает в мультимодальных задачах: код, текст, логика, математика — всё закрыто. В некоторых бенчмарках Qwen3-235B уже обходит Gemini 2.5 Pro, GPT-4o-mini и DeepSeek-R1.

Код и веса моделей выложены под лицензией Apache 2.0, доступ есть на Hugging Face, ModelScope, GitHub и даже Kaggle. Это делает Qwen3 одной из самых открытых и проработанных LLM в своём классе.

🔗 Отчёт Qwen3 на GitHub

🎨 Генеративные нейросети

❯ VACE — универсальная модель от Alibaba для генерации видео

Alibaba представила VACE (Video-Audio-Content Engine) — модель, которая умеет создавать, редактировать и озвучивать видео по текстовому описанию. Главное отличие от конкурентов — всё это делает одна модель, без внешних инструментов и сложных пайплайнов.

VACE работает с разрешением до 1080p, поддерживает персонажей с консистентной внешностью, умеет накладывать естественную синхронизацию речи и губ. Генерация идёт по этапам: сначала создаются ключевые кадры, затем движения, потом аудиодорожка и анимация рта.

Модель уже обходит Sora, Runway и Pika на популярных бенчмарках (MMGen-Bench, GenEval, VideoChat), особенно в устойчивости персонажа и согласованности между движением и голосом. Исходный код пока не выложен, но доступ к демо пообещали в июне.

VACE может использоваться в анимации, рекламе, обучающих роликах и создании видеоконтента из текста. Это один из первых случаев, когда один движок закрывает весь стек: от скелета до эмоции на лице.

🔗Научная статья 🔗Страница проекта 🔗GitHub 🔗Hugging Face 🔗ModelScope

❯ Hunyuan Image 2.0 — генерация картинок в реальном времени

Tencent показала Hunyuan Image 2.0 — модель, которая умеет генерировать изображения за 1–3 секунды прямо в браузере. Это один из самых быстрых генераторов на рынке, и при этом качество — на уровне Midjourney 5 и DALL-E 3.

Главное улучшение — реалтайм отклик и интерактивное управление. То есть написал промпт и сразу меняешь параметры на лету: стиль, композицию, выражение лиц. Всё работает без загрузки и без необходимости ставить приложения.

Hunyuan 2.0 встроен в WeChat, но также доступен на глобальном сайте Tencent — через VPN работает стабильно. Ключевой кейс — создание обложек, презентаций, постов в соцсети и фонов для видео.

Скорость и гибкость вывели модель в топ по отзывам на китайском AI-рынке. Западные пользователи пока тестируют её как альтернативу Leonardo и Playground AI.

🔗 Официальный сайт 🔗 Бенчмарк

❯ Stable Audio Open Small — ИИ музыка прямо на смартфоне

Stability AI выложила Stable Audio Open Small — первую полностью открытую модель генерации музыки, которая запускается на локальных устройствах, включая смартфоны. Это полноценный генератор звука, который не требует ни интернета, ни серваков, ни подписок.

Модель создаёт 10-секундные клипы в формате 44.1 кГц, причём можно описывать звучание текстом. Генерация быстрая, звук — на удивление чистый. Особенно для модели с весом 900 МБ, которую можно спокойно держать на телефоне.

Пока что качество оставляет желать лучшего, но это большой шаг в сторону открытости и автономности.

Stable Audio Open Small обучена на датасете Free Music Archive, полностью лицензирована и подходит для коммерческого использования.

Это один из самых доступных вариантов для тех, кто хочет делать звуковые логотипы, эффекты, интро, музыкальные вставки в контент.

🔗 Новость 🔗 Подробности 🔗 GitHub

❯ RECURSE — первый трек, созданный с помощью квантового ИИ

Компания ILĀ выпустила первую музыкальную композицию, полностью сгенерированную с помощью квантового ИИ.

Трек называется RECURSE — и это не просто маркетинг: его реально написали на базе квантовых вычислений через IBM Qiskit.

Главная особенность — подход. Алгоритм создаёт мелодии, ритмы и структуры, опираясь на суперпозицию и квантовые шумы.

В итоге получается звук, который «не повторяется никогда» — ни в ритмике, ни в мелодии. Автор проекта говорит, что это не музыка будущего, а «абстрактный саундтрек к непредсказуемости».

Сам трек звучит как смесь эмбиента, глитча и генеративной электроники, с лёгкой паранойей в атмосфере. По словам ILĀ, цель — не сделать хит, а показать, что квантовый ИИ способен быть музыкально выразительным.

Пока технология доступна только внутри команды, но исходные данные, код и методология будут опубликованы после внутреннего аудита.

🔗Новость

❯ TikTok AI Alive — превращает фото в видео с движением

TikTok запустил инструмент AI Alive, который позволяет оживлять статичные фото, превращая их в короткие видео с движением, эмоциями и эффектами. По сути, это генератор анимации, встроенный прямо в интерфейс TikTok Stories.

Достаточно загрузить фото, задать эмоцию или действие — и модель синтезирует движение лица, головы, добавляет мимику, моргание, наклон. Качество — на уровне HeyGen, но в формате mass adoption.

Важно: все ролики, созданные через AI Alive, проходят автоматическую модерацию, чтобы исключить дипфейки. На выходе контент получает плашку “AI generated” — как в фото-генерации TikTok ранее.

Функция доступна не всем — TikTok постепенно выкатывает её по регионам, но уже работает через VPN и на последней версии приложения.

🔗 Анонс

🛠 AI-инструменты и интерфейсы

❯ Memex — визуальный кодинг без строк кода

Стартап Memex представил инструмент, который позволяет создавать программы, не написав ни одной строки кода. Весь процесс происходит через визуальный интерфейс: ты задаёшь цель, а система генерирует рабочий пайплайн с возможностью вмешаться на любом этапе.

Memex работает как IDE нового поколения — ты видишь дерево логики, можешь редактировать шаги, а если что-то непонятно, модель объясняет, что она делает.

Генерация идёт на базе o3 и Codex, но с возможностью подключать любые другие LLM через API.

На демо Memex показывает, как можно:
— спарсить сайт,
— создать Telegram-бота,
— собрать дашборд на базе Airtable
— и при этом всё отслеживается, версионируется и доступно для совместной работы.

Платформа нацелена на ноу-код разработчиков, стартаперов и продуктовых аналитиков, которые хотят быстро валидировать идеи без вникания в синтаксис.

🔗 Официальный сайт Memex

❯ Apple Intelligence в iOS 19 — управление энергопитанием через нейросеть

Apple готовит к запуску ИИ-механизм энергосбережения в iOS 19. Система Apple Intelligence будет анализировать поведение пользователя и в реальном времени отключать ненужные процессы, фоновые обновления и редко используемые функции.

Работает это без участия человека: ИИ определяет, какие приложения вы используете часто, какие — только утром, какие не открывали неделю. На основе этих паттернов он оптимизирует батарею, снижая расход процессора и памяти. Если вдруг при этом что-то важное отключается — система быстро восстанавливает приоритет.

Алгоритм встроен прямо в ядро системы и не требует интернет-соединения — всё обрабатывается локально. Пользователю не нужно настраивать режимы, как это было раньше — Apple хочет полностью убрать ручное управление энергией.

Apple позиционирует это как «первую фазу» внедрения своих ИИ-инструментов в системные компоненты iOS. Следом пойдут нейро-саммари в Safari, автоподстановка в iMessage и генерация ассистентов под задачи.

❯ YouTube + Gemini — автогенерация рекламных вставок в видео

Google начала тестировать новую функцию: автоматическую генерацию рекламных вставок в роликах YouTube с помощью модели Gemini 1.5 Flash.

Алгоритм анализирует содержание видео, тему канала и поведение аудитории — и на выходе предлагает оптимальный момент для показа рекламы, а иногда и сам текст или визуальный стиль преролла.

По сути, YouTube превращается в полуавтоматическую рекламную платформу, где ИИ помогает не только размещать, но и создавать рекламу.

И да, это будет одна из самых надоедливых реклам!

Автору ролика останется выбрать предложенный вариант или чуть подправить. В будущем планируют внедрить генерацию спонсорских блоков, интеграций и even merchandise callouts, стилизованных под видео.

Особенно интересно, что Gemini работает в режиме real-time: если пользователь часто перематывает рекламу — модель это учитывает и меняет расположение блоков. Первые A/B-тесты показали рост CTR на 17% и снижение оттока аудитории на 9%.

Сейчас функция работает ограниченно — в США и только для каналов с включённой монетизацией.

❯ Apple x Synchron — управление гаджетами силой мысли

Apple работает над интеграцией нейроинтерфейса от компании Synchron, позволяющего управлять iPhone и Mac с помощью мыслей. В отличие от других решений, это не шлем или гарнитура, а вживляемый в вену имплант, который улавливает сигналы мозга и преобразует их в команды.

Synchron уже протестировала систему на пациентах с БАС — они могли писать текст, управлять курсором и запускать приложения, просто думая о действии. Apple хочет пойти дальше: сделать это прозрачной частью iOS и macOS, чтобы взаимодействие происходило на уровне жестов, интерфейсов и даже голосовых ассистентов.

Инженеры уже тестируют связку с iPhone через API NeuralKit, который создавался под функции accessibility. Если проект получится, Apple может стать первой компанией, которая встроит нейроуправление в массовые устройства без внешней гарнитуры.

Сейчас тесты идут в Австралии и США. Релиз ожидается не раньше 2026 года, но на WWDC 2025 могут показать первую публичную демонстрацию.