Серия «Новости»

1

Вышла новая модель для генерации видео Bernini

Серия Новости

Анонсирована новая модель Bernini (https://huggingface.co/ByteDance/Bernini-R), которая разделяет труд между выполняющим семантическое планирование MLLM и диффузионным рендерингом (DiT), синтезирующим пиксели. Интерфейсом стало собственное пространство эмбеддингов ViT, уже использующее MLLM.

Планировщик (MLLM) предсказывает целевые визуальные эмбеддинги через маскированное генеративное моделирование. Рендерер (DiT), в свою очередь, по полученному семантическому плану, текстовым признакам и VAE-признакам источника генерирует видео методом сопоставления потоков.

Стандартизации помог единый входной протокол для text-to-video, subject-to-video и редактирования вместе с введённым SA-3D RoPE для разделения визуальных токенов разных сегментов.

Качество редактирования улучшили, встроив в планировщик текстовые и визуально-текстовые цепочки мыслей (CoT).

Информацию взяли из масштабного многозадачного корпуса, состоящего примерно из 20M видеопар, почти 30M пар изображений, данных для редактирования с учётом движения, генерации на основе референса и рассуждений.

Три стадии обучения включали предобучение MLLM-планировщика, предобучение DiT-рендерера и лёгкую совместную донастройку с сохранением предобученных способностей.

В результате получен уровень SOTA на бенчмарках видеоредактирования (OpenVE-Bench, EditVerse, FiVE и собственный Bernini-Bench), генерации (VBench) и subject-to-video (OpenS2V-Eval), а также обнаружено обобщение на инструкции, отсутствовавшие в обучении.

Показать полностью 3
0

Вышла новая модель Kimi K2.7 Code

Серия Новости

Предложена новая кодовая агентная модель Kimi K2.7 Code (https://huggingface.co/moonshotai/Kimi-K2.7-Code) на базе K2.6, оптимизированная для реальных долгоиграющих задач со сниженным на примерно 30% расходом "думающих" токенов под лицензией Modified MIT.

Чтобы избежать деградации качества, её нативно квантизировали до INT4, как Kimi K2 Thinking.

Архитектура MoE содержит 1 трлн параметров, из которых активируются 32 млрд. Они распределены по 61 слою, включая 1 плотный, и управляются 384 экспертами, по 8 на каждый токен. Размерность внимания равна 7168 при использовании 64 голов, контекста в 256 тысяч токенов, MLA, активации SwiGLU и зрительного энкодера MoonViT (400M).

В результате замечен значительный прирост по сравнению с K2.6, составивший +21.8% на Kimi Code Bench, +11% на Program Bench и +31.5% на MLS Bench Lite, а также рост в агентных тестах (Kimi Claw, MCP Atlas, MCP Mark Verified).

Показать полностью 1
0

Вышла новая модель MiniMax M3

Серия Новости

Загружена первая открытая модель MiniMax M3 (https://huggingface.co/MiniMaxAI/MiniMax-M3), объединяющая три флагманские способности, включая сильный кодинг, агентность, окно контекста до 1 млн токенов (архитектура MSA) и нативную мультимодальность (изображения, видео, рабочий стол).

Новая разрежённая архитектура внимания MSA (MiniMax Sparse Attention) снизила вычислительную стоимость на сверхдлинных контекстах (предварительная обработка быстрее в 9 раз, декодирование в 15 раз по сравнению с прошлым поколением, и при 1M токенов вычисления на токен снизились в 20 раз).

На реальных задачах она смогла автономно воспроизвести научную работу ICLR за 12 ч (18 коммитов, 23 графика), оптимизировать CUDA-ядро FP8 GEMM с 7.6% до 71.3% пиковой утилизации (рост в 9.4 раза) за примерно 24 ч без участия человека, а также самостоятельно провести полный цикл дообучения 4 базовых моделей (37.1 на PostTrainBench, уступая только Opus 4.7 и GPT-5.5).

В результате модель сопоставима с закрытыми топами, набрав 59.0 на SWE-Bench Pro, 66.0 на Terminal-Bench, 83.5 на BrowseComp и других.

Показать полностью 3
1

Вышла новая модель для генерации видео SCAIL-2

Серия Новости

Существующие методы анимации персонажей используют промежуточные представления (скелеты, маски фона), что приводит к потере информации и ошибкам при сложных взаимодействиях, перекрытиях и смене телосложения.

В ответ разработали SCAIL-2 (https://huggingface.co/zai-org/SCAIL-2) с end-to-end подходом, который подаёт управляющее видео напрямую в латентную диффузионную модель, извлекая всю визуальную информацию без промежуточных этапов.

Данные были получены из синтетического датасета MotionPair-60K (около 60 тыс. пар движений) с помощью генераторов (SCAIL, Wan-Animate, MoCha) и техники обратного управления, чтобы реальное видео служило целевым качеством.

Единого формата подзадач достигли через универсальный фреймворк для анимации, замены персонажей и групповых сцен за счёт In-Context Mask Conditioning с масками среды и каналами привязки персонажей для разграничения режимов и исключения путаницы, а также Mode-Specific RoPE с различными сдвигами позиционного кодирования для режимов анимации и замены.

Над устранением систематической ошибки синтетики работает Bias-Aware DPO, выполняющий пост-тренировку с региональной DPO-оптимизацией на парах предпочтений, нацеленную на улучшение детализированных областей (пальцы).

В результате SCAIL-2 превосходит современные методы во всех задачах (анимация одного или нескольких персонажей, замена), демонстрирует zero-shot возможности (управление от животных, от первого лица) и превосходит генераторы, на которых обучался.

Показать полностью 3
2

Вышла новая модель DiffusionGemma

Серия Новости

Стала общедоступной новая экспериментальная открытая модель DiffusionGemma (https://huggingface.co/collections/google/diffusiongemma) на 26B параметров (MoE, активны 3.8B), основанная на диффузии текста, а не на авторегрессии, с лицензией Apache 2.0.

Работа происходит через генерацию блоков по 256 токенов сразу с итеративным уточнением и двунаправленным вниманием (текст "проявляется" из шума, как в диффузионных картинках).

На выделенных GPU скорость в 4 раза выше по сравнению с авторегрессивными моделями (около 1100 токенов/с на H100 и около 700 токенов/с на RTX 5090), причём после квантизации необходимо всего 18 ГБ видеопамяти (VRAM).

Она подходит для локальных интерактивных приложений с низкой задержкой, чтобы быстро редактировать, автодополнять код и нелинейно генерировать (таблицы, графы, разметка).

На данный момент невозможно добиться выигрыша в высоконагруженных облачных системах с пакетной обработкой, а на архитектурах с общей памятью (Apple Silicon) ускорение минимально.

В результате качество ниже, чем у стандартной Gemma 4 (например, MMLU Pro 77.6% против 82.6%), ради скорости и параллельной работы, но возможна тонкая настройка под специфические задачи (судоку, нелинейные структуры).

Показать полностью 1
0

Вышла новая модель North-Mini-Code-1.0

Серия Новости

Выпущена новая модель North-Mini-Code-1.0 (https://huggingface.co/CohereLabs/North-Mini-Code-1.0) с 30B параметров (MoE, 3B активных) и лицензией Apache 2.0, предназначенная для агентных задач программирования, работы в терминале и генерации кода.

Архитектура построена на декодер-трансформере, чередовании оконного self-attention (SWA и RoPE) и полного self-attention (без позиционных эмбеддингов) в соотношении 3:1. При этом MoE включает 128 экспертов, из которых 8 активны на токен, имеет активацию SwiGLU, сигмоидный роутер и один плотный слой перед разреженными.

Для посттренинга было два этапа SFT. Этап 1 содержал 30B токенов (75% код) и контекст 64K, а этап 2 уже 4.5B токенов (61% код, агентные данные) и контекст 128K. Также использовали данные из контейнеризованных сред (более 70k задач, около 5k репозиториев) и дедупликацию с SWE-Bench/Pro. Такая SFT-модель получила pass@10 в 80.2% на SWE-Bench Verified и 55.1% на Terminal-Bench v2.

Процесс RLVR (Reinforcement Learning with Verifiable Rewards) охватил асинхронный цикл (тренер и vLLM sidecar) с окном FIFO очереди, целевую функцию CISPO (лог-правдоподобие с выборкой по важности на уровне токенов), единый запуск на двух средах, вобравший терминальные задачи (ReAct) и SWE-задачи (SWE-agent), бинарные награды по юнит-тестам, штраф за невалидные вызовы инструментов. Всё это повлияло на прирост +7.9% (до 36.0) на Terminal-Bench и +3.0% (до 67.6) на SWE-Bench Verified.

Обучение на нескольких каркасах (SWE-Agent, mini-SWE-Agent, OpenCode, Terminus-2) с небольшой долей данных (6%) дало перенос без потерь и, в частности, 61.0% pass@1 с mini-SWE-Agent на SWE-Bench Verified.

Внутренняя оценка людьми (RLVR против SFT) обнаружила улучшения в редактировании кода (общий винрейт 66.1% в пользу RLVR-модели) и сильно выраженный эффект на задачах "реализация с нуля" и "визуализация данных".

В результате при сравнении с аналогами она демонстрирует 36.0 на Terminal-Bench v2 (лучше Poolside XS.2, Gemma4, Devstral Small 2, но ниже Qwen3.6), 67.6 на SWE-Bench Verified (на уровне Qwen3.6 и Devstral Small 2), 40.2 на SWE-Bench Pro и 70.3 на LiveCodeBench v6, а на индексе Artificial Analysis Coding Index обходит модели вплоть до 120B.

Показать полностью 4
3

Вышла новая модель для синтеза речи Higgs Audio v3 TTS

Серия Новости
Вышла новая модель для синтеза речи Higgs Audio v3 TTS

Создана новая синтезирующая речь модель Higgs Audio v3 TTS (https://huggingface.co/bosonai/higgs-audio-v3-tts-4b) для голосового ИИ, рассчитанная на живую беседу вместо простого чтения.

Применяемый авторегрессионный декодер (примерно 4B) обрабатывает текст и аудиотокены. Аудио кодируется в 8 словарей векторов (25 fps, паттерн задержки), выполняется многослойный эмбеддинг, затем информация объединяется в единый поток, снимается задержка и осуществляется декодирование в 24 кГц.

Поддерживается выразительная речь на более 100 языках, zero‑shot клонирование голоса, внутритекстовое управление эмоциями, стилем, интонационной окраской, паузами и звуковыми эффектами через теги в тексте. Среди 102 языков 85 имеют WER/CER меньше 5 (продакшн-качество) и 17 с WER/CER от 5 до 10, что приемлемо.

Управляющие токены <|категория:значение|> позволяют настраивать 21 вид эмоций от радости до беспомощности, стили, как пение, крик или шёпот, а вдобавок звуковые эффекты (кашель, смех и другие), каждый из которых требует немедленного звукоподражания (например, <|sfx:laughter|>Haha). Плюс ко всему, они дают возможность регулировать интонацию скорости речи (от очень медленной до очень быстрой), длину пауз (обычная либо длинная), высоту тона (низкая или высокая) и экспрессивность (высокая или низкая).

Базовая лицензия разрешает только исследования и некоммерческое использование. Для коммерции, хостинга API и получения дохода требуется отдельная лицензия. Также запрещено клонирование без согласия, имперсонация, мошенничество, вмешательство в выборы, биометрическое наблюдение и незаконное применение.

В результате лучшее общее качество в однозначных WER/CER на SeedTTS, CV3, MiniMax‑Multilingual и внутреннем 111‑языковом Higgs‑Multilingual, а Emergent TTS имеет общий процент побед 53,65%, лидерство в паралингвистике, вопросах и синтаксической сложности, демонстрируя эмоции на уровне конкурентов.

Показать полностью
1

Представлен новый фреймворк AlphaProof Nexus от Google

Серия Новости

LLM сильны в математических рассуждениях, но ненадёжны, поэтому возникла идея генерировать формальные доказательства в Lean с автоматической верификацией для обнаружения ошибок в формализациях и углубления понимания у математиков.

Фреймворк AlphaProof Nexus (https://arxiv.org/abs/2605.22763v1) для агентов использует LLM, обратную связь компилятора Lean и эволюционный поиск (включая инструмент AlphaProof).

При сравнении архитектур базовый агент повторил успехи на задачах Эрдёша, но на самых трудных оказался дороже, а полнофункциональный агент с эволюцией и AlphaProof проявил себя эффективнее на сложных задачах.

В результате автономно решено 9 из 353 проблем Эрдёша (некоторые открыты более 50 лет) при затратах порядка сотен долларов на задачу, доказано 44 из 492 гипотез OEIS, сделан вклад в алгебраическую геометрию (15-летняя открытая задача о лог-вогнутости), оптимизацию (уточнение скорости сходимости GDA), теорию графов, аддитивную комбинаторику и квантовую оптику.

Показать полностью 4
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества