Продолжение поста «Чудо чудесное»⁠⁠1

Итак, в прошлом посте я пообещал выложить результаты тестов RTX 4090 c 48GB VRAM из неведомого китайского подвала. Несколько человек на меня даже наехали за то, что я похвастался карточкой, но зажал тесты. За что им отправлены персональные цифровые лучи поноса, а для остальных публикую тесты, которые успел сделать.

Для тестов я установил 4090/48 вместо ранее установленной 5090/32, сравнив работу Ollama на одном и том же железе на обеих карточках с двумя моделями - gemma3:27b (https://ollama.com/library/gemma3:27b) и llama 3.3 (https://ollama.com/library/llama3.3:latest). Первая модель успешно влезает в память обоих карточек, вторая влезает в 48, но не влезает в 24 гигабайта.

Тестировалось всё самописным скриптом через API ollama. На вход подавался вопрос, как помочь голодающим детям Африки (о которых переживал @PravdaZe в комментариях). Результаты первого запроса всегда игнорировались, поскольку во время него ollama может подгружать модель в память).

Итак, gemma3

На 5090

Продолжение поста «Чудо чудесное» IT, Нейронные сети, Видеокарта, Длиннопост, Компьютерное железо, Ответ на пост

На 4090/48

Как видим, 5090 Тут на четверть быстрее за счёт свежей архитектуры, что, в целом, предсказуемо.

Теперь llama 3.3

5090

4090/48

А вот тут 4090 гораздо бодрее. Правда llama 3.3 периодически считает, что я хочу обидеть африканских детей (хочу, но откуда она догадалась?) и пишет "Я не могу предоставить помощь в написании текстов, которые могут быть восприняты как нечувствительные или бесчеловечные. Если вы заинтересованы в том, чтобы узнать о помощи голодающим детям Африки или других регионах, я готов предоставить вам информацию и ресурсы по этой теме.", такой ответ в частности дал выкидыш в 16 секунд. Но в целом разница в скорости всё равно около 4-х раз и на 4090 становится абсолютно работоспособной. Что и требовалось.

Заодно посмотрим имеющуюся используемую память (комментаторы в прошлом посте выражали надежду, что китайцы меня обманули) и температуру карточки под нагрузкой.

Но нет, память в наличии, почти вся используется, а температура 65 градусов не смотря на скромную систему охлаждения с одной турбиной.

За сим прощаюсь, всё что успел - сделал.

Искусственный интеллект

4.5K постов11.3K подписчика

Добавить пост

Правила сообщества

ВНИМАНИЕ! В сообществе запрещена публикация генеративного контента без детального описания промтов и процесса получения публикуемого результата.

Разрешено:

- Делиться вопросами, мыслями, гипотезами, юмором на эту тему.

- Делиться статьями, понятными большинству аудитории Пикабу.

- Делиться опытом создания моделей машинного обучения.

- Рассказывать, как работает та или иная фиговина в анализе данных.

- Век жить, век учиться.

Запрещено:

I) Невостребованный контент

I.1) Создавать контент, сложный для понимания. Такие посты уйдут в минуса лишь потому, что большинству неинтересно пробрасывать градиенты в каждом тензоре реккурентной сетки с AdaGrad оптимизатором.

I.2) Создавать контент на "олбанском языке" / нарочно игнорируя правила РЯ даже в шутку. Это ведет к нечитаемости контента.

I.3) Добавлять посты, которые содержат лишь генеративный контент или нейросетевой Арт без какой-то дополнительной полезной или интересной информации по теме, без промтов или описания методик создания и т.д.

II) Нетематический контент

II.1) Создавать контент, несвязанный с Data Science, математикой, программированием.

II.2) Создавать контент, входящий в противоречие существующей базе теорем математики. Например, "Земля плоская" или "Любое действительное число представимо в виде дроби двух целых".

II.3) Создавать контент, входящий в противоречие с правилами Пикабу.

III) Непотребный контент

III.1) Эротика, порнография (даже с NSFW).

III.2) Жесть.

За нарушение I - предупреждение

За нарушение II - предупреждение и перемещение поста в общую ленту

За нарушение III - бан

1 пост-ответ

от yeks

Смотреть

Вы смотрите срез комментариев. Показать все

VedroidoV

2 месяца назад

А что за скрипт? Как понимаю, он просто считает время с момента посыла запроса и до ответа на него, верно? Правда у меня нет 48 ГБ памяти, но любопытно стало.

раскрыть ветку (11)

yeks

2 месяца назад

Обычный скрипт на python. Дёргает api, получает ответ, пишет на консоль и в файл. Статистику сам api отдает, даже мерить не обязательно. Написан тем же самым ИИ на той же самой железке ;)

раскрыть ветку (10)

VedroidoV

2 месяца назад

только хотел подумать о том, чтобы этому же ИИ скормить такой запрос... правда у меня мощностя далеки до ваших и стоит какая то видеокарта без видео выхода на 8 гб, купленная на авито... а покупал как раз, чтобы побаловаться с локальным ИИ. Вечером озадачу её таким скриптом.

раскрыть ветку (9)

yeks

2 месяца назад

Видеокарта в принципе и вообще не обязательна, просто будет ме-едленно.

раскрыть ветку (8)

studentslava

2 месяца назад

На мак м4мах/48 будет не так и медленно, и он стоит примерно как эта видяха. Ещё можно на Mac studio m3ultra 96 посмотреть, туда даже 70b влезет. Но уже точно мееееедленно.

раскрыть ветку (7)

yeks

2 месяца назад

Так тут как-раз 70b запускалась ;)

раскрыть ветку (6)

studentslava

2 месяца назад

Оу. Ну в случае с маками там под видео где-то 2/3 памяти доступно (на самом деле), так что на 70b на типовых комплектациях можно даже не замахиваться.

раскрыть ветку (5)

zzz1313

2 месяца назад

С таким ценником, если для себя то проще купить токенов у какого-нибудь ГигаЧата, а если для работы то пусть начальство покупает железо или арендует

раскрыть ветку (4)

yeks

2 месяца назад

Для работы. Все покупается за бюджет конторы. Я решаю что покупать, и я же с ним играюсь (не только я, конечно, но мне тоже интересно же). Но в разумных пределах, поскольку есть конкретные задачи.

Но смысл иметь железо у себя в том, что на нем можно не просто использовать готовые модели, но и разрабатывать, тестировать, обучать свои, писать приложения и т.п. Можно, понятно, арендовать железо, но тут на коротком отрезке выходит дешевле, на длинном - дороже.