Машинное обучение: истории из жизни, советы, новости, юмор и картинки — Горячее

NeuralNet.2025

Морфогенетический Нейро-Рой / Точность распознавания цифр⁠⁠

18 часов назад

Как превратить рой нейронов, кластеризующий образы цифр, в классификатор? Узнайте, как проверить точность классификатора на MNIST, используя принципы биологической эволюции и энергетического баланса!

Мы продолжаем эксперименты с «Морфогенетическим Нейро-Роем».

Первую часть рекомендуется посмотреть, чтобы иметь представление о модели роя:

https://rutube.ru/video/93237fce9666b5d2c6bf0a8c31c677e0/

В прошлый раз автономные агенты научились видеть различия в цифрах, работая как чистый кластеризатор. Но как заставить их не просто группировать данные, а присваивать им конкретные имена — 0, 1, 7?

В этом выпуске мы совершаем ключевой шаг: превращаем «дикий» рой в самообучающийся классификатор без использования традиционного градиентного спуска. Мы используем элегантный метод «Ассоциативного Маркирования», вдохновленный тем, как мозг закрепляет ассоциации.

Что в новой серии:

Концепция Резонансного Маркирования: Как мы калибруем агентов, наблюдая за их победами в конкуренции, чтобы присвоить им метки классов (например, «Детектор Семерок»).

Биологическая Аналогия: Как этот процесс похож на формирование специализированных нейронных групп в живом мозге.

Инференс: Простая и быстрая логика предсказания, основанная на том, какой агент оказался самым сильным в рое.

Взгляд в Будущее: Анонс следующего этапа — внедрение вертикального роста и локального зрения, что приблизит наш рой к архитектуре CNN.

Если вы интересуетесь нейроморфными вычислениями, самоорганизующимися системами или ищете альтернативы стандартному машинному обучению, этот выпуск может быть вам интересен. Смотрите, как хаос превращается в высокоточный порядок!

Код модели: https://gitverse.ru/Nikas/NeuralNet.2025/content/master/mani...

Показать полностью 1

SlyVolunteer

Наука | Научпоп

Ответ на пост «Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов»⁠⁠1

5 дней назад

Что такое функция потерь?

Что такое оптимизатор Adam?

Делаю такой клиповый курс «Что такое», где за 20 секунд объясняю термины по разработке нейросетей и искусственному интеллекту.

Если пост наберёт 30 плюсов, продолжу выкладывать другие клипы в сообществе «Наука | Научпоп».

Показать полностью 1

[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Видео Вертикальное видео Короткие видео Ответ на пост Длиннопост

RuslanSenatorov

Искусственный интеллект

Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов⁠⁠1

5 дней назад

Линейная регрессия — один из самых фундаментальных и широко применяемых методов в машинном обучении. Несмотря на простоту, её эффективность сильно зависит от двух ключевых компонентов:

Функции потерь (loss function) — что именно мы минимизируем?
Метода оптимизации (solver) — как мы ищем решение?

В этой статье мы разберём популярные функции потерь — MSE, MAE, Huber и Log-Cosh — их свойства, плюсы и минусы. А также покажем, как выбор функции потерь определяет выбор алгоритма оптимизации.

Почему функция потерь так важна?

Функция потерь измеряет, насколько предсказания модели отличаются от реальных значений. От её формы зависят:

Чувствительность к выбросам
Наличие замкнутого решения
Выпуклость задачи
Скорость и стабильность обучения

Давайте сравним четыре ключевые функции потерь в контексте линейной регрессии.

1. MSE (Mean Squared Error) — стандарт по умолчанию

Эквивалентна максимуму правдоподобия при нормальном шуме.

Замкнутое решение (метод наименьших квадратов):

Плюсы:

Выпуклая, гладкая, дифференцируемая → легко оптимизировать

Минусы:

Чувствительна к выбросам (ошибки возводятся в квадрат).

Solver:

Normal Equation (аналитическое решение)
SGD, SAG, LBFGS (в scikit-learn: solver='auto', 'svd', 'cholesky' и др.)

Когда использовать: когда данные «чистые», ошибки гауссовские, и важна интерпретируемость.

2. MAE (Mean Absolute Error) — робастная альтернатива

Плюсы:

Робастна к выбросам (ошибки в первой степени).
Минимизирует медиану ошибок (а не среднее).

Минусы:

Недифференцируема в нуле → нет аналитического решения.
Требует итеративных методов.

Solver:

Linear Programming (например, через симплекс-метод)
Subgradient Descent (в scikit-learn: QuantileRegressor с quantile=0.5)

Когда использовать: когда в данных есть аномалии или тяжёлые хвосты (например, цены, доходы).

3. Huber Loss — лучшее из двух миров

Плюсы:

Гладкая и дифференцируемая.
Робастна к выбросам (линейная штраф за большие ошибки).
Гибкость через параметр δδ.

Минусы:

Нужно настраивать δδ (часто выбирают как процентиль ошибок).
Нет замкнутого решения.

Solver:

Gradient Descent, LBFGS, Newton-CG(в scikit-learn: HuberRegressor с fit_intercept=True)

Когда использовать: когда вы подозреваете наличие выбросов, но хотите сохранить гладкость оптимизации.

4. Log-Cosh Loss — гладкая робастность

Плюсы:

Гладкая везде (бесконечно дифференцируема).
Ведёт себя как MSE при малых ошибках и как MAE при больших.
Устойчива к выбросам, но без «изломов».

Минусы:

Вычислительно дороже (логарифм и гиперболический косинус).
Не так распространена в классических библиотеках.

Solver:

Gradient-based методы: SGD, Adam, LBFGS(в TensorFlow/PyTorch легко реализуется; в scikit-learn — через кастомный регрессор)

Когда использовать:

когда вы ищете баланс между робастностью MSE и гладкостью MAE.
Вы хотите избежать чувствительности MSE к выбросам, но сохранить дифференцируемость.
Вы строите гибридную модель, где loss должен быть всюду гладким (например, для вторых производных).

Правило:

Если loss квадратичен → можно решить напрямую.
Если loss неквадратичен → нужен итеративный численный метод.

И помните: нет универсально «лучшей» функции потерь — только та, что лучше всего подходит вашим данным и задаче.

Показать полностью 7

[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Длиннопост

NeuralNet.2025

Лига Новых Технологий

Цифровые бактерии учатся узнавать цифры на фото⁠⁠

6 дней назад

Сегодня будем обучать нейросеть. Но не ту, что с миллионами слоев и градиентным спуском, который вечно норовит увести нас в локальный минимум. Нет. Мы будем использовать Морфогенетический Нейро-Рой.

Звучит как название плохого фантастического фильма? Возможно. Но суть в том, что мы имитируем биологию, чтобы решить задачу, которую обычно решают чистой математикой.

Пассмотрим цифровую чашку Петри. В ней живут сотни крошечных, голодных, но очень целеустремленных BioAgent’ов. Их цель? Выжить. А еда? Рукописные цифры из классического датасета MNIST.

Да, мы заставим этих цифровых бактерий эволюционировать, чтобы они научились отличать «семерку» от «единицы». И это — без единого намёка на градиентный спуск!

Анатомия Цифровой Бактерии: Геном и Совесть

Наш главный герой — BioAgent. Это не просто нейрон. Это, по сути, одноклеточный организм, у которого есть:

Геном (W): Вектор весов размером 784. Это его «мысленный образ» того, как должна выглядеть идеальная цифра. В начале они слепы, веса инициализированы около нуля (типичный «Темный старт»).
Энергия (E): Валюта жизни. Угадал цифру — поел. Не угадал — плати за метаболизм. Классика капитализма, только в мире пикселей.
Привыкание (H): Вот тут начинается самое интересное. Это наша «цифровая совесть». Если агент слишком часто побеждает и жрёт, он «устаёт». Его чувствительность падает. Он становится ленивым и должен уступить дорогу молодым и голодным.

Ирония: Мы ввели в модель нечто, что заставляет самых успешных агентов замедляться. Потому что в реальной жизни, если ты слишком долго сидишь на одном месте, тебя съедает конкурент.

Подготовка Среды: Включаем Свет в Многомерном Пространстве

Прежде чем выпустить рой на охоту, нужно подготовить поле боя. Если просто скормить агентам сырые пиксели MNIST, они будут барахтаться в шуме.

Мы делаем трюк с предобработкой: центрирование данных.

X{input} = \frac{X{raw}}{||X{raw}||} - X{mean}

Что это значит на пальцах? Мы вычитаем из каждого изображения «среднюю картинку» всего датасета.

Представьте, что вы смотрите на кучу фотографий. Мы убираем из каждой из них общий фон и среднюю яркость. В результате, то, что было нулем (фоном), становится отрицательным (синим на визуализации), а сама цифра — положительной (красной).

Эффект? Векторы разных цифр становятся ортогональными. Они смотрят в совершенно разные стороны в 784-мерном пространстве. Для наших агентов это как если бы кто-то включил свет в тёмной пещере. Цифры стали выпуклыми и легко различимыми.

Цикл Жизни: 4 Фазы Эволюции (Без Учителя!)

Когда в среду попадает новая цифра X, запускается четырёхфазный цикл, который заменяет нам весь наш любимый градиентный спуск.

Фаза I: Восприятие и Штраф за Жадность

Каждый агент смотрит на X и считает свой Score. Но это не просто сходство. Мы вводим штраф за «привыкание» (H):

Score = (W X) - (beta H)

Если ты недавно много ел (высокий H), твой Score искусственно занижается. И ты не можешь просто так забрать всю еду. Конкуренция с совестью. (Или форма закона сохранения энергии, когда даже самое большое чудище, сидящее на ресурсе, не может одинаково легко и быстро расти бесконечно)

Фаза II: Питание и Эволюция (Правило Хебба в действии)

Победитель (максимальный Score) получает жирный кусок энергии (E \leftarrow E + R_{feed}). И тут же учится по правилу Хебба: «Neurons that fire together, wire together».

W{new} = W{old} + \eta (X - W_{old})

Он подтягивает свой геном к увиденному образу. Причем учатся и ближайшие соседи (Top-2, Top-3), но слабее. Так рождаются «банды» агентов, специализирующихся на одной и той же цифре, но с разными стилями написания.

Фаза III: Метаболизм (Естественный Отбор)

За всё надо платить. E \leftarrow E - E_{cost}. Если агент не смог найти свою нишу и не заработал достаточно, он умирает от голода (Апоптоз). Жестоко? Да. Эффективно? Ещё как!

Фаза IV: Динамика Популяции (Митоз)

Если агент накопил слишком много энергии (E > E_{threshold}), он делится. Но это не просто копирование!

Родитель отдает потомку половину энергии и веса с небольшой мутацией.
Ключевой момент: У родителя H высокий (он устал). У потомка H = 0.0 (он свежий, голодный и очень чувствительный).
Пока родитель «отдыхает» и ждет, пока его H спадет, потомок тут же бросается в бой, чтобы уточнить специализацию. Например, если родитель узнавал «восьмерку» с наклоном вправо, потомок может начать специализироваться на «восьмерке» с наклоном влево. Рой сам заполняет все возможные вариации данных!

Взгляд в Бактерии: Что там внутри?

Давайте посмотрим на результат. Перед нами снимок популяции выживших агентов после первой эпохи. (После показа системе 5000 изображений)

Цифровые бактерии учатся узнавать цифры на фото

Помните про центрирование? Посмотрите на цвета в весах агента (например, G8 W65 — Агент 8-го поколения, 65 побед).

Красные/Желтые зоны: Возбуждение. Агент ожидает увидеть здесь чернила цифры.
Синий фон: Торможение. Агент ожидает увидеть здесь пустоту.
Этот агент — не просто набор чисел. Это фильтр, который настроен на конкретный паттерн. Если входящий пиксель совпадает с красным, а фон — с синим, происходит резонанс, и агент получает энергию. А рядом с ветеранами (W65) вы видите «шумных» новичков с W0. Они либо умрут в следующем цикле, либо найдут свою уникальную нишу, которую еще не заняли доминирующие кластеры.

Выводы: Эволюция лучше, чем градиент?

Почему этот Морфогенетический Нейро-Рой смог распознать цифры без всякого учителя?

Секрет в балансе:

Конкуренция за ресурсы (Энергия).
Механизм усталости (H), который не дает одному агенту монополизировать нишу.
Биологическое размножение с обнулением «совести» у потомства, что обеспечивает постоянное исследование новых вариаций.
Мы не учили систему, что такое «цифра 2». Мы просто создали среду, где выживание зависело от способности находить и уточнять уникальные паттерны в данных.

Мораль: Иногда, чтобы создать интеллект, нужно просто дать ему возможность проголодаться и заставить конкурировать за еду.

Если хотите посмотреть, как это всё работает в коде, загляните по ссылке: https://gitverse.ru/Nikas/NeuralNet.2025/commit/5075d6f248b2...

Что дальше?

Поле непаханное того, что можно сделать:

Разобраться как элегантно из кластеризатора сделать классификатор.
Определить точность с которой эта система классифицирует MNIST и скорость сходимости.
Вертикальный рост (в глубину). Можно создать агентов, которые смотрят не только на пиксели, а на агентов нижних слоев, исследуют глубинные архитектуры и пытаются найти такую топологическую конфигурацию, которая будет стабильно выживать.
Петлевые агенты (обратной связи) - которые смотрят на глубокие слои, находясь в нижних слоях.
Вариации на CNN. Ограничивать количество рассматриваемых агентом пикселей (чтобы он видел не всю матрицу, а только какую-то часть) Будет эффективнее по памяти и сможет находить более низкоуровневые фичи, чем готовые цифры.
Когда все предыдущее заработает можно поробовать классифицировать ImageNet

Увидимся в новой симуляции!

Показать полностью 1

[моё] Контент нейросетей Машинное обучение Генетический алгоритм Кластерный анализ Бионика Эволюция Распознавание Видео RUTUBE Длиннопост

NeuralNet.2025

Искусственный интеллект

Модель адаптивного Роя в задаче Консенсуса плотности⁠⁠

10 дней назад

Как рой агентов находит истину без главного? 2500 простых программных единиц достигают 100% консенсуса, используя только локальные сплетни!

Вы когда-нибудь задумывались, как стая птиц или муравьиная колония принимают коллективные решения без единого лидера?

В этом видео мы погрузимся в мир распределенных систем и смоделируем, как рой агентов, видящих только своих ближайших соседей, может решить задачу консенсуса. Мы откажемся от градиентных спусков и вместо этого применим принципы, вдохновленные нейрофизиологией — Обучение Хебба.

Вы этом выпуске:

Механика "Роя": Как бинарные агенты (Черный/Белый) принимают решения, основываясь на взвешенном мнении соседей.
Самообучение: Увидите, как агенты динамически меняют "доверие" (веса) к другим, усиливая связи с теми, кто прав, и игнорируя "шум".
Фазовый переход: Наблюдайте в реальном времени, как хаос (51% консенсуса) превращается в абсолютный порядок (100%) через лавинообразный процесс.
Устойчивость: Почему децентрализованные системы самоисцеляются и как они справляются с "дефектными" агентами, чего не всегда удается добиться в централизованных моделях.

Здесь не только теория — но и запуск симуляции на сетке 50x50, где мы проследим хронологию победы коллективного разума. Если вам интересно, как простые локальные правила порождают сложное, адаптивное и устойчивое поведение - смотрите видео.

Код модели можно посмотреть здесь
В том же каталоге текстовая затравка (spec.txt) для генерации кода анимации и сам сгенерированный код анимации.

Показать полностью

[моё] Контент нейросетей Адаптивность Рой Модели Децентрализация Машинное обучение Видео RUTUBE

RuslanSenatorov

Искусственный интеллект

Как понять всё машинное обучение через линейную регрессию?⁠⁠

14 дней назад

Сердце всех ML алгоритмов это функция потерь, научившись её оптимизировать мы поймём как обучаются машины.

Дальше в посте, я опишу свойства функции среднеквадратичной ошибки (MSE), затем методы её оптимизации (аналитические, численные, стохастические и гибридные), укажу важные формулы, поведение градиента/Гессиана, оценки сходимости и практические рекомендации.

Основные свойства MSE

1. Дифференцируемость

MSE — гладкая (бесконечно дифференцируема) функция параметров для линейной модели она квадратичная — что сильно упрощает анализ.

2 Квадратичность и выпуклость

MSE — квадратичная функция, такая функция выпукла (всегда), а если X⊤X положительно определена (то есть признаки линейно независимы и строго выпукла и имеет единственный глобальный минимум.

Для нелинейных параметрических моделей выпуклость обычно не выполняется — могут быть локальные минимума.

3. Градиент и Гессиан

Гессиан положительно полуопределён. Его собственные значения управляют «кривизной» функции (вдоль направлений с большими э-величинами функция круто меняется).

4 Шкала, чувствительность к выбросам и статистическая интерпретация

MSE сильно чувствительна к выбросам (квадратичная зависимость даёт большим ошибкам непропорционально большой вклад).

Если ошибки в модели нормальны, то MSE (максимизация правдоподобия) соответствует MLE — минимизация MSE = максимизация нормального правдоподобия.

5. Аналитическое решение

Закрытая форма (normal equations).

6. Алгоритмы численной оптимизации

Градиентный спуск (Batch Gradient Descent)

7. Стохастический градиентный спуск (SGD) и мини-батчи

Стохастичность даёт возможность выйти из плохих локальных минимумов (для нелинейных задач).

8. Ускоренные и адаптивные методы

Momentum (classical momentum) — ускоряет спуск по узким долинам.

Nesterov Accelerated Gradient (NAG) — улучшенный momentum с теоретическими гарантиями.

Адаптивные алгоритмы: Adagrad, RMSProp, Adam, AdamW. Они подбирают адаптивный шаг для каждого параметра.

9. Второго порядка и квазиньютоновские методы

Newton’s method (использует Гессиан) Kвазиньютоновские: BFGS, L-BFGS Conjugate Gradient (CG) часто используют для ridge регрессии

10. Проксимальные и координатные методы (для регуляризации)

Coordinate Descent — особенно эффективен для L1-регуляризованных задач (LASSO), когда функция частично сепарабельна.

11. Прямые методы оптимизации

SVD, cholesky, QR

Обратите внимание что в посте вы не увидите саму модель линейной регресии, где мы точки прямой аппроксимируем, потому что это вообще неинтересно с точки зрения понимания моделей машинного обучения, интересно только сердце ML моделей - функция потерь.

Показать полностью 2