9

Кошмар для бигтеха: как обучить большую ИИ-модель всем миром

Кошмар для бигтеха: как обучить большую ИИ-модель всем миром

Путь к победе в современной гонке за ИИ заключается в поиске новых эффективных архитектур, методов обучения, качественных данных (включая синтетические) и вычислительных ресурсов.

Когда мы слышим про «обучение больших ИИ-моделей» обычно представляем громадный кластер из видеокарт, который стоит миллиарды долларов и по карману лишь топовым корпорациям. Более того, такой подход опасен утечкой данных и усиливает «концентрацию власти», ведь широкая общественность не участвует в подготовке данных для обучения.

На этом фоне появляется децентрализованное обучение: вместо одного суперкластера ресурсы и данные распределяются по множеству независимых узлов. Каждый узел хранит свои данные, обучает локальную версию модели и периодически синхронизируется с другими. Новые узлы могут подключаться «на лету», что обеспечивает гибкое масштабирование и независимость от единого дата-центра.

Университеты, стартапы и энтузиасты со всего мира способны собрать модель, сопоставимую по качеству с решениями крупных компаний. Кажется, привычная монополия бигтеха на гигантские вычислительные мощности может разрушиться.

Наиболее известный метод децентрализованного обучения — федеративное обучение, которое Google впервые применил для персонализированных моделей на смартфонах для предиктивного ввода с клавиатуры. Сервер рассылает начальную модель на устройства, где она обучается на локальных данных, а назад отправляются только изменения весов. Сервер усредняет полученные обновления и формирует «глобальную модель». Приватность при этом сохраняется, поскольку исходные данные никуда не передаются.

Но есть и более «экзотические» варианты: полная децентрализация без единого сервера (узлы синхронизируются по схеме peer-to-peer) или блокчейн-решения со «смарт-контрактами», которые регистрируют вклад каждого участника и гарантируют распределение вознаграждений.

Недавно группа энтузиастов представила INTELLECT-1 — децентрализованно обученную языковую модель на 10 млрд параметров. Она показала результаты, сопоставимые с решениями аналогичного размера, обученными классическим путем. Хотя проект пока пилотный, он подтверждает практичность и экономическую эффективность децентрализованного подхода.

Почему INTELLECT-1 интересен?

1. Участникам не нужно тратить миллионы долларов на единую инфраструктуру.

2. Проект ориентирован на открытое сообщество и ценит коллективную ответственность при решении этических вопросов. Такая модель может стать основой для будущего AGI.

3. Каждый получает вознаграждение пропорционально предоставленным вычислительным мощностям.

Prime Intellect обучили INTELLECT-1 на 14 узлах, распределенных по трем континентам, с участием 30 независимых членов сообщества, предоставляющих вычислительные ресурсы.

Код обучения использует фреймворк Prime, масштабируемую распределенную систему для отказоустойчивого и высокопроизводительного обучения на ненадежных, глобально распределенных рабочих узлах.

Модель была обучена с использованием метода DiLoCo (Distributed Low-Communication Training). Судя по бенчмаркам, она оказалась в среднем примерно на уровне Llama 2 7B, но есть модели получше (Llama 3.1, Qwen 2.5), поэтому вряд ли кто-то будет ее использовать. Но все же для первого децентрализованного обучения такого масштаба результаты отличные.

В будущем Prime Intellect планируют расширить масштабы обучения, оптимизировать стек и добавить финансовую мотивацию для сообщества

Блокчейн добавляет новый уровень. Теоретически можно создать гигантскую сеть в форме ДАО (децентрализованной автономной организации), объединяющую GPU-фермы в единый «убер-кластер» без головной компании-владельца.

Так появилась AIArena — децентрализованная блокчейн-платформа для обучения ИИ. За семь месяцев она привлекла 603 узла, которые создали 18 656 моделей для 16 задач. Эти модели оказались эффективнее базовых, а механизм консенсуса в блокчейне обеспечил справедливое вознаграждение каждому участнику исходя из его вклада.

Разумеется, в децентрализованном обучении остаются нерешенные вопросы: например, как корректно синхронизировать множество узлов или что делать с «мусорными» данными отдельных участников. Однако эти проблемы в целом решаемы.

Объединив тысячи научных лабораторий, владельцев GPU-ферм и даже геймеров можно обучить большую модель без контроля корпораций. Снижая зависимость от дорогих дата-центров, ИИ-технологии становятся более доступными. И хотя децентрализованный ИИ еще не доминирует, он уже становится реальной альтернативой.

Возможно, через несколько лет громоздкие GPU-кластеры в одном здании будут казаться архаизмом. Но кто станет лидером в эпоху децентрализованных суперкомпьютеров? Думаю появятся новые децентрализованные проекты, которые станут серьезным вызовом для текущих бизнес-моделей крупных технологических компаний.

Не пора ли нам объединиться и покончить с монополией бигтеха?

🕹 Демо INTELLECT-1

🕸 Веса INTELLECT-1

📝 Технический отчет INTELLECT-1

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Искусственный интеллект

5.1K постов11.5K подписчиков

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.


Разрешено:


- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.


Запрещено:


I) Невостребованный контент

  I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

  I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

  I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.


II) Нетематический контент

  II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

  II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

  II.3) Создавать контент, входящий в противоречие с правилами Пикабу.


III) Непотребный контент

  III.1) Эротика, порнография (даже с NSFW).

  III.2) Жесть.


За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан