Вышли модели Llama 4 от Meta
Пока в открытом доступе есть модель Scout и Maverick. Самая мощная модель Behemoth пока доделывается по словам Meta и её нет в открытом доступе.
У всех этих моделей MOE архитектура, это когда модель разделена на части, которым соответствуют определённые эксперты: по математике, по кодированию и так далее. При ответе для каждого токена активируется свой эксперт.
Все модели Llama 4 мультимодальные.
Behemoth является главной моделью (Модель-учитель), а модели поменьше дистиллированны из этой.
Все модели знают 200+ языков.
Поговорим немного по подробнее про вышедшие модели:
Llama 4 Scout:
17b активных параметров, 16 экспертов, 109b общих параметров.
Эта модель поддерживает, барабанная дробь, авации: 10 млн токенов!!!
Превосходит Llama 3, Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1 в бенчмарках.
Llama 4 Maverick:
17b активных параметров, 128 экспертов, всего 400b параметров.
Тут контекстное окно поменьше 1 млн токенов.
Она обгоняет GPT-4o, Gemini 2.0 Flash в мультимодальных тестах, сравнима с DeepSeek v3 в кодинге и логике, но экономичнее.