SGLang – новый фреймворк для LLM и VLM?⁠⁠

Для начала. Что такое VLM?

VLM (Vision-Language Model) — такой тип мультимодальных нейросетевых архитектур – они обрабатывают и связывают визуальные и текстовые данные: генерация текстовых описаний на основе изображений, визуальный вопрос-ответ и классификация изображений с помощью текстовых запросов - всё тут.

Технологически, VLM интегрирует CNN (Convolutional Neural Networks) или трансформеры для анализа визуальных данных и работы с текстом, объединяя их через специальные слои для совместного обучения представлений (joint representations).

SGLang – эффективный фреймворк. Построен он в очередной раз на вычислительных особенностях.

Его основная цель заключается в ускорении взаимодействия с моделями и предоставлении пользователю возможности более детального контроля за процессом выполнения задач.

Достигается это благодаря совместной оптимизации среды выполнения на уровне бэкэнда и более интуитивному языку интерфейса на уровне фронтенда.

Внутри фреймворка своя среда выполнения – она позволяет эффективно обрабатывать запросы за счет, например, RadixAttention — механизма для кэширования префиксов, декодирования с ограничением перехода вперед, а также использования внимания к токенам.

Сюда же в технологический стек фреймворка входят: тензорный параллелизм и применение ядер FlashInfer для быстрого выполнения вычислений.

SGLang также поддерживает методы оптимизации: квантование (INT4/FP8/AWQ/GPTQ), которые позволяют снизить ресурсоемкость моделей без потери их производительности.

В интерфейсе поддерживаются некоторые «бонусы» в видео последовательной генерации, сложных схем подсказок и потоков управления, работу с многомодальными входами и реализацию параллелизма.

Помимо этого, фреймворк обеспечивает интеграцию с внешними сервисами и взаимодействие с другими моделями – это неплохо так увеличивает "возможности" для работы с нейронками.

Еще SGLang поддерживает широкий спектр cамых современных генеративных моделей: Llama 3, Gemma 2, Mistral, QWen, DeepSeek и LLaVA.

Короче говоря, тестим тут.

Программирование IT Машинное обучение Нейронные сети

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества