Вышла новая модель GFusion
Подготовлена новая модель GFusion (https://huggingface.co/collections/ai-sage/gfusion), переводящая авторегрессионный GigaChat3-10B в диффузионный режим (dLLM) без обучения с нуля. Она генерирует текст поблочно и шаг за шагом заполняет маски внутри блока (TPF > 1) вместо строго последовательного предсказания.
Адаптируя AR в dLLM, постепенно увеличивали размер блока от 1 до 2, затем до 4, далее до 8 и, наконец, до 16. Одновременно равномерно добавляли маскирование с шумом t в диапазоне U от 0.25 до 0.85. На поздних этапах предсказывали текущий замаскированный токен без гибридной AR-регуляризации, которая была полезна на ранних этапах.
Для декодирования использовали энтропийно-ограниченное сэмплирование, отбирая токены по накопленной энтропии, что превзошло пороговое сэмплирование по скорости и качеству.
При выполнении SFT применяли комплементарное маскирование (обратная маска для каждого примера) и настройки уверенности, штрафующие энтропию для верных предсказаний и повышающие уровень TPF.
Улучшая удобство в SGLang, добавили поддержку GFusion и реализовали EB-семплинг, а кастомные attention-ядра на TileLang ускорили обучение на 60% относительно Flex-Attention.
В результате генерация ускорилась примерно на 70% против обычной AR-модели и на +39% против варианта с MTP, при контролируемом падении качества на 2-4 процентных пункта.



