Новости
34 поста
34 поста
2 поста
8 постов
40 постов
62 поста
12 постов
7 постов
Двуязычная модель Solar Open (https://huggingface.co/upstage/Solar-Open-100B) для малопредставленных языков использует архитектуру Sparse Mixture-of-Experts (MoE) с общим числом параметров 102B и 12B активных параметров на токен, и у неё есть специальный токенизатор, оптимизированный для корейского языка.
Целью её разработки было создание конкурентоспособной языковой модели для языков с дефицитом данных (на примере корейского).
Во время создания модели была нехватка данных, и чтобы заполнить базу, было сгенерировано 4.5 трлн токенов синтетических данных высокого качества для пре-тренинга, SFT и RL. Управление данными осуществляли, применяя прогрессивную учебную программу для совместной оптимизации состава, качества и охвата доменов в англо-корейском корпусе (20 трлн токенов). Масштабируемое RL реализовали с использованием фреймворка SnapPO, который разделяет генерацию данных, вычисление вознаграждений и обучение, что позволяет эффективно обучать на множестве задач.
На первом этапе процесса обучения всё началось с пре-тренинга (19.7T токенов), где была поэтапная учебная программа с увеличением доли синтетических данных (до 64%) и ужесточением фильтрации качества. Затем был Mid-training (1.15T токенов), суть которого заключалась в улучшении логического мышления с помощью синтезированных "траекторий рассуждений". А к концу начался Post-training (SFT + RL). SFT использовался для следования инструкциям и базовых навыков. RL имел два этапа, и на первом он был направлен на улучшения рассуждений (STEM, код, агенты), а на втором он был применён для выравнивания с предпочтениями человека и безопасности.
В результате модель демонстрирует сильные результаты в корейских тестах (общие знания, финансы, право, медицина), превосходя или соответствуя аналогам, при этом сохраняя конкурентоспособную производительность на английском.
Тут сразу представлены две новые модели для машинного перевода от Tencent Hunyuan Team (https://huggingface.co/tencent/HY-MT1.5-1.8B), и первая из них HY-MT1.5-1.8B (1.8 млрд параметров), а вторая HY-MT1.5-7B (7 млрд параметров). А также предложен комплексный фреймворк их обучения.
По эффективности модели дают хороший баланс между качеством перевода и скоростью работы. HY-MT1.5-1.8B по качеству превосходит многие средние открытые модели (например, Tower-Plus-72B) и коммерческие API (Microsoft, Doubao), достигая ~90% качества большой закрытой модели Gemini-3.0-Pro. В свою очередь модель HY-MT1.5-7B ещё мощнее и на тесте Flores-200 достигает ~95% качества Gemini-3.0-Pro, а на WMT25 и переводах с китайского на языки меньшинств вообще превосходит его.
Если говорить об их специальных возможностях, то модели поддерживают управление терминологией, контекстный и форматированный перевод через промты.
Для их обучения был применён многоэтапный процесс, включающий предобучение, тонкую настройку, дистилляцию и обучение с подкреплением.
Опубликованная крупная мультиязычная модель K-EXAONE-236B-A23B (https://huggingface.co/LGAI-EXAONE/K-EXAONE-236B-A23B) имеет MoE архитектуру (236B параметров, активно 23B).
Она поддерживает корейский, английский, испанский, немецкий, японский и вьетнамский язык. Её контекст имеет размер в 256K токенов. У неё эффективная MoE-архитектура + гибридное внимание. Также в ней используется улучшенный токенизатор (словарь на 150K токенов).
Во время обучение в начале было трехэтапное предобучение (11T токенов), а затем постобработка (SFT, RL, выравнивание предпочтений).
В результате её конкурентоспособная производительность на уровне передовых открытых моделей в рассуждениях, общих задачах, корейском и мультиязычных бенчмарках.
Загрузили сразу серию больших моделей для генерации 3D-движений человека по текстовому описанию HY-Motion 1.0 (https://huggingface.co/tencent/HY-Motion-1.0).
Эта модель первая в своей области с архитектурой Diffusion Transformer (DiT), масштабированная до миллиарда параметров.
Для того чтобы создать эту модель, её пришлось пронести через полный цикл обучения. В самом начале было предобучение на >3000 часов разнообразных данных о движениях. Затем началась точная настройка на 400 часах отобранных высококачественных данных. К концу перешли к доводке с помощью обучения с подкреплением (RL) на основе обратной связи от людей и reward-моделей для улучшения качества и соответствия тексту.
Для подготовки данных использовали собственный пайплайн обработки данных (очистка, аннотирование) с таксономией из >200 категорий движений.
В результате эта модель превосходит современные открытые аналоги по качеству движений и точности следования текстовой инструкции.
(мне просто стало интересно как использовать дизеринг)
Для примера возьмём этот GIF-файл:
Как вы видите, это не идеальное качество. На всём изображении есть некий шум. Он появился тут именно из-за дизеринга.
Что же делает дизеринг?
Если попытаться объяснить это простыми словами, то представьте, что вы художник, но у вас украли почти все краски, оставив только базовый набор. И чтобы, например, получить оранжевый, вы не можете просто смешать красный и желтый на палитре, вам приходится ставить красные и желтые точки так близко друг к другу, что с расстояния они сливаются в оранжевый цвет.
Вернёмся к нашему GIF-файлу. Почему же нам пришлось применить этот метод к данному изображению? Всё очень просто. Формат GIF поддерживает только 256 цветов.
Где же применяют дизеринг?
Ну, например, в печати газет и цветной полиграфии CMYK, преобразовывая градации в точки, предотвращая муар (узор, возникающий при наложении двух периодических сетчатых рисунков).
Также его используют в дисплеях и графике, преодолевая ограничения глубины цвета на старых системах, в E-ink дисплеях и низкобитных устройствах для экономии ресурсов.
Изначально дизеринг в играх экономил память, имитируя градиенты, но теперь он используется для HDR, сглаживания (TAA) и апскейлинга, маскируя артефакты. Сейчас его используют по большей части как художественный инструмент для пиксельной графики или для стилизации под ретро-эстетику.
Ещё данный метод применяют в веб-дизайне. Сначала он был необходим для оптимизации "веб-палитры", а потом, когда надобность в этом отпала, его начали применять как художественный приём.
В научной и медицинской визуализации этот метод критически важен для точности, устраняя ложные полосы на снимках (МРТ, КТ).
Кроме того, метод применяют в специализированных областях, таких как цифровая печать на текстиле, при обработке видео для борьбы с мерцанием, а также в фотофорензике (проверка подлинности цифровых фотографий).
Теперь как же применить дизеринг к изображению?
Для этого есть куча абсолютно бесплатных программ, например Ditherista (https://github.com/robertkist/ditherista/releases) или же Dither-Pro-2 (https://github.com/dovvnloading/Dither-Pro-2/releases/tag/v2...) и так далее.
Я возьму программу Ditherista.
Для демонстрации я возьму это сгенерированное изображение:
Для начала после добавления изображения нужно зайти в параметры палитры и выбрать "reduced" вместо "built-in", который был по умолчанию, чтобы использовались цвета из добавленного изображения:
Было с режимом "built-in":
Стало с режимом "reduced":
После этого мы можем выбрать совершенно любой режим, который нам понравится:
Я выбрал "Variable 2x2" в разделе "Mono":
На этом всё!
Проблема заключается в том, что метод Hyper-Connections (HC) расширяет и усложняет остаточные связи, что даёт прирост качества, но нарушает ключевое свойство identity mapping, приводя к нестабильности обучения (взрыв/затухание сигнала) и высоким системным накладным расходам при масштабировании.
Для решения этого был создан общий фреймворк mHC (Manifold-Constrained Hyper-Connections) (https://arxiv.org/abs/2512.24880), который проецирует пространство остаточных связей HC на специальное многообразие, восстанавливая свойство identity mapping.
Идея заключается в том, чтобы ограничить матрицу остаточного смешивания H_l^res множеством дважды стохастических матриц (Birkhoff polytope) с помощью алгоритма Sinkhorn-Knopp, гарантируя сохранение средней интенсивности сигнала (нормы) и его стабильность при распространении по слоям.
Для оптимизации использовали ядерное слияние (Kernel Fusion) и смешанную точность для снижения накладных расходов на доступ к памяти. Кроме того, применили перевычисление (Recomputing) активаций для экономии памяти. Дополнительно задействовали наложение вычислений и коммуникации в конвейерном расписании DualPipe.
В результате стабильность mHC устраняет нестабильность обучения HC, а градиенты остаются ограниченными. Также это привело к улучшению качества, превышая производительность базовой модели и HC на множестве тестов (MMLU, DROP, GSM8K и др.). Что касается масштабируемости, то этот метод эффективен для обучения больших моделей. При n=4 добавляет только ~6.7% к времени обучения. В конечном счёте инфраструктурные оптимизации сводят системные накладные расходы к минимуму.
Выложили семейство языковых моделей для кода (7B, 14B, 40B, 40B-Loop), достигших передовых результатов (https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Loop-In...). Основной идеей было Code-Flow Training, где происходит обучение на динамической эволюции кода, а не на статических снимках.
Во время обучения модель прошла несколько этапов.
В самом начале было предобучение на общих и код-данных, включая коммиты (историю изменений). Затем Mid-Training, который был критическим этапом на 32k/128k контексте с данными для логического рассуждения и агентских траекторий, что сформировало глубокую логическую основу. После началось пост-обучение, состоящее из двух путей. Первым был Thinking Path с обучением с подкреплением (RL) для автономного рассуждения и исправления ошибок, а вторым был Instruct Path, оптимизированный для следования инструкциям и общей помощи.
Архитектура Loop (V1-40B-Loop) представляла рекуррентный механизм для итеративной обработки сложного кода. Оптимизируя баланс между качеством и вычислительными затратами.
К концу были сделаны несколько выводов. Первый из них заключается в том, что данные из истории коммитов (изменений) лучше учат планированию задач, чем статический код. Второй, что внедрение траекторий рассуждения перед пост-обучением стабилизирует работу модели. Третий о том, что путь "Thinking" (с RL) даёт модели emergent-способность к самостоятельному исправлению ошибок в сложных задачах.
В результате модели показывают State-of-the-Art (SOTA) результаты в ключевых областях. Например, агентской разработке (SWE), соревновательном программировании, редактировании кода, использовании инструментов и рассуждениях.
А ещё была выпущена полная "белая" цепочка чекпоинтов для исследований.
Модель Qwen-Image-2512 (https://huggingface.co/Qwen/Qwen-Image-2512) теперь имеет высокий реализм людей, благодаря чему сильно снижена "искусственность", а также улучшена детализация лиц и возрастных признаков. Доработана детализация природы, дающая более точную прорисовку ландшафтов, воды, шерсти животных и текстур. В модели улучшили текст, позволяя создавать точное отображение текста в изображениях, правильную вёрстку и мультимодальную композицию.
В результате, согласно слепой оценке, модель теперь сильнейшая среди открытых и конкурирует с закрытыми.