4

BAGEL — ОТКРЫТЫЙ МУЛЬТИМОДАЛЬНЫЙ ИИ ОТ BYTEDANCE

ByteDance опять роняет запад! Они открылм код BAGEL — единой мультимодальной модели нового поколения, которая «видит», «читает» и «рисует» в одном флаконе. Проект вышел 20 мая 2025 года и сразу доступен под Apache 2.0 — можно дообучать и использовать коммерчески.

Что умеет

🔘 принимает текст + изображения и отвечает тем же смешанным форматом;

🔘 генерирует, редактирует, переносит стили;

🔘 разворачивает краткие запросы в режиме <think>;

🔘 лидирует среди open-source VLM: MME-P 1687, MMBench 85 %, MMMU 55 %, MMVet 67 %.

🔘мультиязычность, понимает и на русском, но отвечает на английском.

Архитектура

BAGEL построена на Mixture-of-Transformer-Experts (MoT): токены маршрутизируются между «экспертами», что увеличивает ёмкость без заметных задержек. Визуальная часть кодируется двумя энкодерами — ViT отвечает за пиксельные детали, VAE — за семантику. Далее объединённые представления поступают в MoT-декодер, обученный в парадигме Next Group of Token Prediction, поэтому модель одинаково уверенно продолжает как текст, так и визуальные токены.

Уже доступны GGUF-веса (ema)

q2_k — 5.53 GB

q4_k_m — 8.85 GB

q6_k — 12.5 GB

Ссылки

📖 Страница проекта — https://bagel-ai.org/

🌍 Веб-демо — https://demo.bagel-ai.org/

💻 Код — https://github.com/bytedance-seed/BAGEL

🤗 HF demo — https://huggingface.co/spaces/ByteDance-Seed/BAGEL

🤗 GGUF — https://huggingface.co/calcuis/bagel-gguf/tree/main

Источник: 🎯 НЕЙРО-ПУШКА ● НОВОСТИ И ОБЗОРЫ НЕЙРОСЕТЕЙ

Искусственный интеллект

4.5K постов11.3K подписчиков

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан