Вышла новая модель для оцифровки видео Marlin-2B
Создана новая 2B видео-языковая модель Marlin-2B (https://huggingface.co/NemoStation/Marlin-2B) для ответа на вопросы "что происходит?" и "когда?".
Выбор режима даёт плотное описание (сцена и список событий с временными метками) от caption или поиск временного интервала по текстовому запросу от find.
Чтобы начать обучение не с нуля, взяли Qwen3.5-2B с видеобашней и примерно 400K клипов (публичные аннотации и плотная переразметка Gemini-3-Flash с правками). Дальше приступили к SFT (Tarsier-формат) и SimPO (без референсной модели с парами "победа/поражение" от судьи Gemini-3-Flash).
Можно обрабатывать максимум 240 кадров (около 2 минут) с частотой 2, а параметры задаются переменными окружения. Вывод начинается с <think>, методы выполняют автоматическую очистку, но при ручном generate() нужно удалять блок <think>...</think>.
В результате статус лучшей в классе 2B подтверждается плотным описанием 8.62 на CaReBench и 8.15 из 10 на DREAM-1K. По части временной локализации mIoU достигает 51.3% на TimeLens (<90 с), что на 6.4 mIoU больше Qwen2.5-VL-7B, соответствуя уровню Gemini-2.0-Flash.




















