2

SGLang – новый фреймворк для LLM и VLM?

SGLang – новый фреймворк для LLM и VLM?

Для начала. Что такое VLM?

VLM (Vision-Language Model) — такой тип мультимодальных нейросетевых архитектур – они обрабатывают и связывают визуальные и текстовые данные: генерация текстовых описаний на основе изображений, визуальный вопрос-ответ и классификация изображений с помощью текстовых запросов - всё тут.

Технологически, VLM интегрирует CNN (Convolutional Neural Networks) или трансформеры для анализа визуальных данных и работы с текстом, объединяя их через специальные слои для совместного обучения представлений (joint representations).

SGLang – эффективный фреймворк. Построен он в очередной раз на вычислительных особенностях.

Его основная цель заключается в ускорении взаимодействия с моделями и предоставлении пользователю возможности более детального контроля за процессом выполнения задач.

Достигается это благодаря совместной оптимизации среды выполнения на уровне бэкэнда и более интуитивному языку интерфейса на уровне фронтенда.

Внутри фреймворка своя среда выполнения – она позволяет эффективно обрабатывать запросы за счет, например, RadixAttention — механизма для кэширования префиксов, декодирования с ограничением перехода вперед, а также использования внимания к токенам.

Сюда же в технологический стек фреймворка входят: тензорный параллелизм и применение ядер FlashInfer для быстрого выполнения вычислений.

SGLang также поддерживает методы оптимизации:  квантование (INT4/FP8/AWQ/GPTQ), которые позволяют снизить ресурсоемкость моделей без потери их производительности.

В интерфейсе поддерживаются некоторые «бонусы» в видео последовательной генерации, сложных схем подсказок и потоков управления, работу с многомодальными входами и реализацию параллелизма.

Помимо этого, фреймворк обеспечивает интеграцию с внешними сервисами и взаимодействие с другими моделями – это неплохо так увеличивает "возможности" для работы с нейронками.

Еще SGLang поддерживает широкий спектр cамых современных генеративных моделей: Llama 3, Gemma 2, Mistral, QWen, DeepSeek и LLaVA.

Короче говоря, тестим тут.

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества