Профиль dikiypIayerpig на Пикабу

Потратил полгода на обучение своей ии с нуля, вот что вышло⁠⁠

2 часа назад

Последние пол года я обучал свою небольшую нейросеть с нуля на одной rtx 4060. Сжег кучу времени, перебрал кучу данных и в итоге дошел до версии 2.1 — это крошечная LLM всего на 260 млн параметров.

Зачем вообще было это делать? Мне просто стало интересно, можно ли научить такую микроскопическую нейронку (а более большую я обучить и не мог) хоть какой-то логике.

Что в итоге вышло:

Во-первых, она умеет считать по разрядам. Она может считать большие числа, которые другие модели того же размера считают неверно.

(после файн тюнинга она стала считать немного хуже, так что может ошибаться в длинных примерах. В будущих версиях ошибки будут исправлены.)

Во-вторых, она умеет разбивать слова по буквам, считать количество букв в словах. Например, может сказать сколько букв "r" в слове "strawberry".

(в длинных словах могут быть ошибки, также если сформулировать запрос иначе может не понять что сделать)

Ну и базово понимает русский, английский и французский. Может переводить простые фразы и поддерживать простой диалог.

что под капотом:

Архитектура: Llama 3 (20 слоев, размерность 1024, 16 голов). Контекст 4096, словарь 16384.
На претрейне скормил ей 11.8 млрд токенов (батч 512k).
На SFT ушло больше 16.5 млн токенов качественной синтетики, которую я сам генерировал через Gemma 4, Qwen 3.5 и DeepSeek v4.

Модель можно запустить через Lm Studio, как чат версию так и базовую модель.

Название модели: dpp-gptV2.1 Pro.

Ссылка на чат версию: https://huggingface.co/dikiyplayerpig/dpp-gpt-V2.1-Pro-260m

Ссылка на base версию (просто продолжает текст): https://huggingface.co/dikiyplayerpig/dpp-gpt-V2.1-base-260m

Кстати, сейчас я обучаю flash версию на ~90м параметров. Она почти в 3 раза меньше, посмотрим сможет ли она считать. Буду очень рад любым советам и критике от тех, кто глубоко шарит в ML и обучении моделей. Если у вас есть идеи, как лучше фильтровать датасеты, оптимизировать процесс или улучшить математику у таких малюток - добро пожаловать в комменты!

График лосса. Во время обучения (оно длилось больше 3 недель) данные немного менялись, из за этого есть скачки и просадки лосса. Примерно на 23000 шаге начался файн тюнинг.

Лучший стих, написанный dpp-gpt. (обычно рифмы нет вообще).

Показать полностью 8

dikiypIayerpig

Компьютер это просто

Сборка ПК на 775 сокете⁠⁠

8 месяцев назад

Хочу научиться собирать пк, для этого решил дешего купить комплектующих, в пределах 4000-6000 рублей, чтобы если что то сломаю было не страшно. Сейчас купил на авито за 1500 рублей материнскую плату, процессор, видеокарту и оперативку ддр3 (ее всего 4 гига по 2 плашки по 2 гига, куплю потом 2 плашки по 4). Я не знаю нормальные ли я купил комплектующие, про материнскую плату все что знаю что она на 775 сокете и с ддр3.

Если конкретнее, то
Процессор: Intel Core 2 Duo CPU E8400 @ 3.00Ghz
Материнская плата: G41M-P26 (MS-7592)
Оперативка: DDR3 2048МБx2 533Mhz
Видеокарта: ATI Radeon HD 4650

Нормально за 1500р или фигня?

[моё] Сборка компьютера Видеокарта Игровой ПК Компьютерная помощь Компьютерное железо Текст

dikiypIayerpig

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества