Вышла новая модель HRM-Text-1B⁠⁠

Разработана новая модель HRM-Text-1B (https://huggingface.co/sapientinc/HRM-Text-1B) с отказом от дорогостоящего предобучения на сыром тексте в пользу архитектурно-целевого проектирования.

Использовали архитектуру, состоящую из иерархической рекуррентной модели (HRM) с медленным (H) и быстрым (L) слоями для имитации двухуровневой обработки. Для стабилизации глубокой рекуррентности применяли MagicNorm (PreNorm блоки и финальная норма на выходе), прогрев глубины обратного распространения (сначала 2 шага, затем до 5), а также Gated self-attention, SwiGLU, RoPE и parameterless RMSNorm.

Обучали только пары "инструкция-ответ" (без предобучения на неразмеченном тексте), при этом целевая функция -log P(xa | xq) осуществляла предсказание только ответа, в то время как маска внимания PrefixLM применяла двунаправленное внимание к инструкции и каузальное к ответу.

Исследование показало, что рекуррентность даёт большую эффективную глубину (logit lens, покомпонентные изменения), а загрязнение бенчмарков статистически незначимо или не влияет на выводы.

В результате удалось провести обучение с нуля на 40 млрд уникальных токенов при бюджете около $1500 (1,9 суток на 16 GPU) и получить 60.7% на MMLU, 81.9% на ARC-C, 82.2% на DROP, 84.5% на GSM8K и 56.2% на MATH, что сравнимо с открытыми моделями 2-7B параметров, используя в 100-900 раз меньше токенов и в 96-432 раза меньше вычислений.

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества