0

Falcon Mamba: Новый шаг в развитии языковых моделей без механизма внимания

Технологический институт инноваций (Technology Innovation Institute, TII) из ОАЭ представил свою новую языковую модель Falcon Mamba, которая обещает стать серьёзным конкурентом для существующих моделей, основанных на трансформерах. Falcon Mamba построена на архитектуре Mamba, которая кардинально отличается от традиционных механизмов внимания, используемых в большинстве современных моделей.

Механизм внимания (attention), широко используемый в современных моделях, позволяет фокусироваться на важных частях данных, что значительно улучшает качество работы с текстом. Однако он требует больших вычислительных ресурсов, особенно при обработке длинных последовательностей. Falcon Mamba, напротив, использует архитектуру, которая обходится без этого механизма, сохраняя высокую производительность и эффективность даже при работе с длинными текстами.

Falcon Mamba была обучена на внушительном объёме данных (~5500GT), включая RefinedWeb и различные открытые источники технической информации и кода. Добавление слоев нормализации RMS обеспечивает стабильное обучение и высокую производительность модели.

При тестировании на стандартных бенчмарках, Falcon Mamba продемонстрировала результаты, сопоставимые с лучшими современными моделями, а в некоторых случаях и превосходящие их. Модель уверенно справляется с такими задачами, как генерация текста и обработка длинных последовательностей, при этом сохраняя высокую скорость работы и эффективность использования памяти.

Falcon Mamba доступна для использования в экосистеме Hugging Face, что делает её удобной для интеграции в различные приложения и исследования. Модель также поддерживает квантование с помощью библиотеки bitsandbytes, что позволяет запускать её на устройствах с ограниченными вычислительными ресурсами.

Для разработчиков доступны несколько версий модели, включая инструктивную версию, оптимизированную для выполнения заданий на основе инструкций. Модель может быть использована через стандартные API Hugging Face, а также поддерживает работу с функцией torch.compile для ускорения вывода.

Falcon Mamba — это важный шаг вперед в развитии языковых моделей, предлагающий новые возможности для работы с большими объемами данных и открывающий путь к созданию ещё более мощных и эффективных инструментов в области искусственного интеллекта.

______________________________________

Всех, кто интересуется последними новинками из мира AI призываем подписываться на наш канал. А тех, кто уже сейчас хочет попробовать себя в роли нейрокреатора, приглашаем на наш сайт.

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества