Серия «Новости»

2

Вышла новая модель для управления роботами Qwen-VLA

Серия Новости

Показана новая универсальная модель Qwen-VLA, в которой одна политика управляет манипуляцией, навигацией и разными роботами, переходя от понимания мира к целенаправленным действиям.

Данными стали более 10к ч открытых, более 1к ч реальных и более 8 млн синтетических траекторий манипуляции с видом от первого лица (Ego4D и другие), а ещё VLM-данные, навигация и 48k описаний действий.

Четыре этапа обучения включали T2A с замороженным VLM и декодером, обучавшимся превращать язык в действие без картинок, CPT с разморозкой VLM и декодера для совместного обучения на всех модальностях и получения Qwen-VLA-Base, этап SFT для мультизадачной и реальной донастройки, а также RL (PPO) оптимизирующий успех на симуляции (SimplerEnv) в замкнутом цикле, что создало Qwen-VLA-Instruct.

В результате уровень манипуляции достиг 97.9% на LIBERO, 73.7% на Simpler-WidowX и около 86-87% на RoboTwin (одна модель против специализированных), а навигация на VLN-CE превосходит открытые аналоги. Реальные эксперименты ALOHA показали в среде 83.6%, вне среды 76.9% (против 71.6% и 41.5% у pi 0.5), обобщаясь на новые цвета, объекты, фон и составные задачи. Zero-shot в динамике (DOMINO) продемонстрировал 26.6% успеха, что лучше многих специализированных VLA.

Показать полностью 1
0

Вышла новая модель LFM2.5-8B-A1B

Серия Новости

Стала доступной новая модель LFM2.5-8B-A1B (https://huggingface.co/LiquidAI/LFM2.5-8B-A1B) от Liquid AI для устройств, заточенная под быстрый вызов инструментов на потребительском железе.

Относительно LFM2-8B-A1B контекст расширили с 32K до 128K токенов, словарь удвоили (до 128K), что резко повысило эффективность для нелатинских письменностей (хинди, тайский, арабский и других), а дообучение масштабировали с 12T до 38T токенов предобучения, плюс большое RL. Такие изменения сделали модель чисто "рассуждающей", давая прирост качества без потери скорости за счёт малого числа активных параметров.

Для борьбы с артефактами проделали целевую оптимизацию против "петель" в длинных рассуждениях (штраф за шаблонные перезапуски) и RL с avg@k-вознаграждением для снижения галлюцинаций, чтобы модель чаще воздерживалась, когда не знает, и меньше выдумывала.

В результате на тестах следования инструкциям и агентных задачах она сопоставима с гораздо более крупными плотными и MoE моделями, считаясь самой быстрой в своём классе на CPU и GPU, выдавая около 253 токена/с на M5 Max и до 18,5K выходных токенов/с на H100 при высокой конкурентности, работая на ноутбуках и даже на телефонах (примерно 30 токенов/с) и сохраняя приватность.

Показать полностью 3
3

Вышла новая модель для поиска объектов на изображении LocateAnything-3B

Серия Новости

Раскрыта новая модель LocateAnything-3B (https://huggingface.co/nvidia/LocateAnything-3B), основанная на методе параллельной генерации координат (Parallel Box Decoding) для задач визуальной привязки и обнаружения в VLM.

Существующие модели генерируют координаты рамок как одномерную последовательность токенов, что делает процесс медленным и не учитывает геометрическую связность.

Для решения проблемы каждую ограничивающую рамку (или точку) начали предсказывать как единый блок за один прямой проход, сохраняя геометрическую согласованность и снимая узкое место последовательной генерации.

Источником данных стал масштабный датасет LocateAnything-Data (138 млн обучающих примеров) для разнообразных сценариев локализации.

Добавили три режима, чтобы реализовать быстрый (параллельный MTP), медленный (авторегрессионный NTP) и гибридный (с автоматическим возвратом к NTP при неуверенности или нарушении формата) вывод.

В результате модель до 2,5 раз ускорила генерацию, улучшила точность (особенно при высоких IoU) и добилась новых state-of-the-art на LVIS, COCO, ScreenSpot-Pro, DocLayNet и других.

Показать полностью 3
2

Представлен новый бенчмарк-датасет и фреймворк Qwen-Image-Bench от Qwen

Серия Новости

Проблема заключается в том, что бенчмарки генерации текста в изображение (T2I) сосредоточены на семантическом соответствии и базовом качестве, поэтому они не оценивают реалистичность окружающего мира и творческую выразительность, востребованные профессионалами, а многие конвейеры оценки слепо доверяют мультимодальным языковым моделям (MLLM) как единственным судьям, наследуя их систематические ошибки.

Решением стало создание Qwen-Image-Bench (https://huggingface.co/collections/Qwen/qwen-image-bench), который представляет собой бенчмарк, ориентированный на создателей контента, разработанный совместно с профессиональными художниками и основанный на реальных творческих сценариях. Многоуровневую классификацию построили на 5 столпах первого уровня (Качество, Эстетика, Соответствие, Реалистичность мира, Творческая генерация), 23 подспособностях и 56 проверяемых критериях (гранях) с чёткими рубриками. Эксперты подготовили 1000 двуязычных (китайский/английский) и сбалансированных по длине (500 коротких, 500 длинных) промтов, покрывающих по несколько граней из разных столпов каждый.

Судьёй сделали унифицированную модель Q-Judger на базе Qwen3.6-27B, обученную на 130 000 человеческих оценках от 80 экспертов художественных академий (тройное независимое слепое аннотирование), чтобы она выставляла независимую оценку по каждой из 56 граней (Fail=0, Pass=60, Excel=100, N/A), обеспечивая прозрачные анализы, а не единый непрозрачный балл, достигая высокой корреляции с экспертами-людьми (Spearman ρ=0.92).

В результате протестировали 18 T2I-моделей, и GPT-Image 2 лидирует по общему баллу, а также всем пяти столпам. Наибольшую межмодельную дисперсию (разделение) достигли именно на новых прикладных столпах, таких как реалистичность мира и творческая генерация, где старые бенчмарки не давали различимости. При этом для всей индустрии в гранях "Физической логики", "Анатомической точности", "Животных" и "Контактного взаимодействия" выявили системные потолки, когда даже лучшие модели набирают ниже 44 из-за нехватки неявного знания о мире.

Показать полностью 4
0

Вышла новая модель MiniCPM5-1B

Серия Новости

Реализована новая флагманская плотная модель MiniCPM5-1B (https://huggingface.co/openbmb/MiniCPM5-1B) с архитектурой LlamaForCausalLM, 1.08B параметров и контекстом 131K под лицензией Apache 2.0.

Один чекпоинт поддерживает режимы enable_thinking=True (размышление) и False (быстрый ассистент) за счёт гибридного мышления.

Полный цикл тренировки выполнили на базе UltraData с базовым обучением (Ultra-FineWeb), дообучением (mid-training), посттренингом (SFT 200B и 200B токенов), RL и On-Policy Distillation (OPD) с учителями. RL и OPD дали +16 процентных пунктов среднего балла по математике, коду и следованию инструкциям, снизив долю обрезанных ответов примерно на 29%.

Чтобы использовать инструменты вызова функции, рекомендуют SGLang с парсером minicpm5, при этом модель совместима с vLLM, Transformers, llama.cpp, Ollama и так далее.

В результате она стала 1B SOTA, превосходя аналоги (Qwen3-0.6B/3.5-0.8B, LFM2.5-1.2B) в инструментальном использовании, коде и сложных рассуждениях.

Показать полностью 4
1

Вышла новая модель для генерации видео LongCat-Video-Avatar 1.5

Серия Новости

Предоставлен новый открытый фреймворк LongCat-Video-Avatar 1.5 (https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-...) для генерации видео по аудио, готовый к промышленному применению.

После замены аудиокодировщика Wav2Vec2 на Whisper‑large (1.5B параметров) в связке с тщательной многоэтапной очисткой и разметкой данных (офлайн-аннотации лиц, поз, качества камеры, аудио-видео синхронизации, эмоций с онлайн‑фильтрацией клипов) улучшились точность синхронизации губ и естественные движения рта. Многоперсонажные сцены, беззвучные видео и эмоциональные данные потребовали специализированных пайплайнов, в том числе региональное внимание с silent‑дорожкой для фоновых персонажей.

Архитектура соединила DiT-видеодиффузию, аудиокросс‑аттеншен, текст‑кросс‑аттеншен и референс‑изображение, позволив поддерживать разнообразные входные форматы.

Тренировка базовой модели (Flow Matching) прошла поэтапно от низкого разрешения к высокому, с добавлением референса и многоперсонных данных. Дальнейший RLHF (GRPO) с покадровыми наградами сделал настройку в соответствии с человеческими предпочтениями, снижая искажения рук и лица. Завершающим этапом стала 8-шаговая дистилляция методом DMD2 с LoRA‑адаптерами, обеспечившая баланс между скоростью и качеством.

В результате сократился разрыв между академическими прототипами и коммерческими системами, ведь успешно пройден бенчмарк из более 500 пар изображение-аудио (включая аниме, животных, разные языки и сложность), а по субъективной оценке (770 человек, 13 тысяч оценок) достигнуто лидерство или равенство с HeyGen, OmniHuman‑1.5 и Kling Avatar 2.0 по человекоподобию. Экспертная оценка по 4 измерениям (рациональность, гармония, стабильность, консистентность) дала минимальный процент дефектов. Между тем, ускоренная версия (8 NFE) показывает лучшую стабильность, чем базовая (150 NFE), при небольшом снижении выразительности.

Показать полностью 3
1

Вышла новая модель Command A+

Серия Новости

Дебютировала новая открытая (Apache 2.0) MoE-модель Command A+ (https://huggingface.co/CohereLabs/command-a-plus-05-2026-w4a...) от Cohere с 218B общих и 25B активных параметров, которая предназначена для сложных агентных задач, мультимодальности и многоязычия (48 языков).

Объединив возможности Command A Reasoning, Vision и Translate, они получили одну модель вместо целой линейки.

Для её запуска рекомендуют использовать две H100 (W4A4) или одну B200, с почти незаметной потерей качества.

Квантование W4A4 повышает скорость вывода на 47% и снижает TTFT на 13%, а новый токенизатор сокращает число токенов для арабского (-20%), корейского (-16%) и японского (-18%). К тому же, спекулятивное декодирование ускоряет генерацию в 1.5-1.6 раз.

В результате эффективность модели увеличилась с 37% до 85% на τ²-Bench Telecom, с 3% до 25% на Terminal-Bench Hard, с 57% до 90% на AIME 25, с 73.5% до 80.6% на MathVista и с 53% до 86% на MT-AIME (многоязычный), а внутренние оценки North показывают рост с 45% до 65% на Agentic QA, с 13% до 45% на Data Analysis и с 39% до 54% на Memory.

Показать полностью 5
3

Вышла новая модель для машинного перевода Qwen3.5-LiveTranslate-Flash

Серия Новости

Презентована новая потоковая мультимодальная модель Qwen3.5-LiveTranslate-Flash на базе Qwen3.5-Omni с архитектурой Thinker-Talker (мыслитель-говорящий) и чанковым стримингом для синхронного перевода аудио и видео в ходе международных совещаний, стриминга, онлайн-обучения, переговоров и путешествий.

В отличие от предшественника, её языковые возможности значительно расширились, ведь теперь она понимает 60 языков вместо 18 и синтезирует речь на 29 языках вместо 10 со средней задержкой речь-в-речь около 2,8 с благодаря технологии Readable Unit. Более того, встроенное клонирование голоса в реальном времени даёт переводу звучание исходного диктора. Приоритетно обрабатываются имена, термины и бренды (динамически настраиваются).

В результате модель превосходит Qwen3-LiveTranslate и ведущие коммерческие модели на бенчмарках FLEURS и CoVoST2.

Показать полностью 5
Отличная работа, все прочитано!

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества