SGLang – новый фреймворк для LLM и VLM?
Для начала. Что такое VLM?
VLM (Vision-Language Model) — такой тип мультимодальных нейросетевых архитектур – они обрабатывают и связывают визуальные и текстовые данные: генерация текстовых описаний на основе изображений, визуальный вопрос-ответ и классификация изображений с помощью текстовых запросов - всё тут.
Технологически, VLM интегрирует CNN (Convolutional Neural Networks) или трансформеры для анализа визуальных данных и работы с текстом, объединяя их через специальные слои для совместного обучения представлений (joint representations).
SGLang – эффективный фреймворк. Построен он в очередной раз на вычислительных особенностях.
Его основная цель заключается в ускорении взаимодействия с моделями и предоставлении пользователю возможности более детального контроля за процессом выполнения задач.
Достигается это благодаря совместной оптимизации среды выполнения на уровне бэкэнда и более интуитивному языку интерфейса на уровне фронтенда.
Внутри фреймворка своя среда выполнения – она позволяет эффективно обрабатывать запросы за счет, например, RadixAttention — механизма для кэширования префиксов, декодирования с ограничением перехода вперед, а также использования внимания к токенам.
Сюда же в технологический стек фреймворка входят: тензорный параллелизм и применение ядер FlashInfer для быстрого выполнения вычислений.
SGLang также поддерживает методы оптимизации: квантование (INT4/FP8/AWQ/GPTQ), которые позволяют снизить ресурсоемкость моделей без потери их производительности.
В интерфейсе поддерживаются некоторые «бонусы» в видео последовательной генерации, сложных схем подсказок и потоков управления, работу с многомодальными входами и реализацию параллелизма.
Помимо этого, фреймворк обеспечивает интеграцию с внешними сервисами и взаимодействие с другими моделями – это неплохо так увеличивает "возможности" для работы с нейронками.
Еще SGLang поддерживает широкий спектр cамых современных генеративных моделей: Llama 3, Gemma 2, Mistral, QWen, DeepSeek и LLaVA.
Короче говоря, тестим тут.
