Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Управляйте маятником, чтобы построить самую высокую (и устойчивую) башню из падающих сверху постов. Следите за временем на каждый бросок по полоске справа: если она закончится, пост упадет мимо башни.

Башня

Аркады, Строительство, На ловкость

Играть

Топ прошлой недели

  • cristall75 cristall75 6 постов
  • 1506DyDyKa 1506DyDyKa 2 поста
  • Animalrescueed Animalrescueed 35 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
18
SlyVolunteer
SlyVolunteer
Наука | Научпоп

Ответ на пост «Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов»⁠⁠1

5 дней назад

Что такое функция потерь?

Перейти к видео

Что такое оптимизатор Adam?

Перейти к видео

Делаю такой клиповый курс «Что такое», где за 20 секунд объясняю термины по разработке нейросетей и искусственному интеллекту.

Если пост наберёт 30 плюсов, продолжу выкладывать другие клипы в сообществе «Наука | Научпоп».

Показать полностью 1
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Видео Вертикальное видео Короткие видео Ответ на пост Длиннопост
11
8
RuslanSenatorov
RuslanSenatorov
Искусственный интеллект

Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов⁠⁠1

5 дней назад

Линейная регрессия — один из самых фундаментальных и широко применяемых методов в машинном обучении. Несмотря на простоту, её эффективность сильно зависит от двух ключевых компонентов:

  1. Функции потерь (loss function) — что именно мы минимизируем?

  2. Метода оптимизации (solver) — как мы ищем решение?

В этой статье мы разберём популярные функции потерь — MSE, MAE, Huber и Log-Cosh — их свойства, плюсы и минусы. А также покажем, как выбор функции потерь определяет выбор алгоритма оптимизации.

Почему функция потерь так важна?

Функция потерь измеряет, насколько предсказания модели отличаются от реальных значений. От её формы зависят:

  • Чувствительность к выбросам

  • Наличие замкнутого решения

  • Выпуклость задачи

  • Скорость и стабильность обучения

Давайте сравним четыре ключевые функции потерь в контексте линейной регрессии.

1. MSE (Mean Squared Error) — стандарт по умолчанию

  • Эквивалентна максимуму правдоподобия при нормальном шуме.

Замкнутое решение (метод наименьших квадратов):

Плюсы:

Выпуклая, гладкая, дифференцируемая → легко оптимизировать

Минусы:

  • Чувствительна к выбросам (ошибки возводятся в квадрат).

Solver:

  • Normal Equation (аналитическое решение)

  • SGD, SAG, LBFGS (в scikit-learn: solver='auto', 'svd', 'cholesky' и др.)

Когда использовать: когда данные «чистые», ошибки гауссовские, и важна интерпретируемость.

2. MAE (Mean Absolute Error) — робастная альтернатива

Плюсы:

  • Робастна к выбросам (ошибки в первой степени).

  • Минимизирует медиану ошибок (а не среднее).

Минусы:

  • Недифференцируема в нуле → нет аналитического решения.

  • Требует итеративных методов.

Solver:

  • Linear Programming (например, через симплекс-метод)

  • Subgradient Descent (в scikit-learn: QuantileRegressor с quantile=0.5)

Когда использовать: когда в данных есть аномалии или тяжёлые хвосты (например, цены, доходы).

3. Huber Loss — лучшее из двух миров

Плюсы:

  • Гладкая и дифференцируемая.

  • Робастна к выбросам (линейная штраф за большие ошибки).

  • Гибкость через параметр δδ.

Минусы:

  • Нужно настраивать δδ (часто выбирают как процентиль ошибок).

  • Нет замкнутого решения.

Solver:

  • Gradient Descent, LBFGS, Newton-CG(в scikit-learn: HuberRegressor с fit_intercept=True)

Когда использовать: когда вы подозреваете наличие выбросов, но хотите сохранить гладкость оптимизации.

4. Log-Cosh Loss — гладкая робастность

Плюсы:

  • Гладкая везде (бесконечно дифференцируема).

  • Ведёт себя как MSE при малых ошибках и как MAE при больших.

  • Устойчива к выбросам, но без «изломов».

Минусы:

  • Вычислительно дороже (логарифм и гиперболический косинус).

  • Не так распространена в классических библиотеках.

Solver:

  • Gradient-based методы: SGD, Adam, LBFGS(в TensorFlow/PyTorch легко реализуется; в scikit-learn — через кастомный регрессор)

Когда использовать:

  • когда вы ищете баланс между робастностью MSE и гладкостью MAE.

  • Вы хотите избежать чувствительности MSE к выбросам, но сохранить дифференцируемость.

  • Вы строите гибридную модель, где loss должен быть всюду гладким (например, для вторых производных).

Правило:

  • Если loss квадратичен → можно решить напрямую.

  • Если loss неквадратичен → нужен итеративный численный метод.

И помните: нет универсально «лучшей» функции потерь — только та, что лучше всего подходит вашим данным и задаче.

Показать полностью 7
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Длиннопост
2
9
RuslanSenatorov
RuslanSenatorov
Искусственный интеллект

Как понять всё машинное обучение через линейную регрессию?⁠⁠

14 дней назад

Сердце всех ML алгоритмов это функция потерь, научившись её оптимизировать мы поймём как обучаются машины.

Дальше в посте, я опишу свойства функции среднеквадратичной ошибки (MSE), затем методы её оптимизации (аналитические, численные, стохастические и гибридные), укажу важные формулы, поведение градиента/Гессиана, оценки сходимости и практические рекомендации.

Основные свойства MSE

1. Дифференцируемость

MSE — гладкая (бесконечно дифференцируема) функция параметров для линейной модели она квадратичная — что сильно упрощает анализ.

2 Квадратичность и выпуклость

MSE — квадратичная функция, такая функция выпукла (всегда), а если X⊤X положительно определена (то есть признаки линейно независимы и строго выпукла и имеет единственный глобальный минимум.

Для нелинейных параметрических моделей выпуклость обычно не выполняется — могут быть локальные минимума.

3. Градиент и Гессиан

Гессиан положительно полуопределён. Его собственные значения управляют «кривизной» функции (вдоль направлений с большими э-величинами функция круто меняется).

4 Шкала, чувствительность к выбросам и статистическая интерпретация

MSE сильно чувствительна к выбросам (квадратичная зависимость даёт большим ошибкам непропорционально большой вклад).

Если ошибки в модели нормальны, то MSE (максимизация правдоподобия) соответствует MLE — минимизация MSE = максимизация нормального правдоподобия.

5. Аналитическое решение

Закрытая форма (normal equations).

6. Алгоритмы численной оптимизации

Градиентный спуск (Batch Gradient Descent)

7. Стохастический градиентный спуск (SGD) и мини-батчи

Стохастичность даёт возможность выйти из плохих локальных минимумов (для нелинейных задач).

8. Ускоренные и адаптивные методы

Momentum (classical momentum) — ускоряет спуск по узким долинам.

Nesterov Accelerated Gradient (NAG) — улучшенный momentum с теоретическими гарантиями.

Адаптивные алгоритмы: Adagrad, RMSProp, Adam, AdamW. Они подбирают адаптивный шаг для каждого параметра.

9. Второго порядка и квазиньютоновские методы

Newton’s method (использует Гессиан) Kвазиньютоновские: BFGS, L-BFGS Conjugate Gradient (CG) часто используют для ridge регрессии

10. Проксимальные и координатные методы (для регуляризации)

Coordinate Descent — особенно эффективен для L1-регуляризованных задач (LASSO), когда функция частично сепарабельна.

11. Прямые методы оптимизации

SVD, cholesky, QR

Обратите внимание что в посте вы не увидите саму модель линейной регресии, где мы точки прямой аппроксимируем, потому что это вообще неинтересно с точки зрения понимания моделей машинного обучения, интересно только сердце ML моделей - функция потерь.

Показать полностью 2
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Длиннопост
0
tobotsp
tobotsp

Музей вещей без математики⁠⁠

15 дней назад
Перейти к видео

В торговом центре «Авиапарк» в Москве открылся Музей вещей без математики, который, по словам организаторов из Яндекс Образования, пуст, поскольку вещи без математики не существуют.

В экспозиции демонстрируются примеры того, как математика пронизывает повседневные предметы и процессы: даже муравьи оптимизируют свои маршруты с помощью алгоритмов, а обычный вязаный свитер задаётся рекуррентной структурой. Онлайн‑перевод, согласно представителям музея, представляет собой геометрическое преобразование пространства, хотя это часто остаётся незамеченным. Посетители могут узнать, как математика проявляется в привычных вещах и технологиях, и тем самым убедиться, что без неё ничего не работает. Днём математики, по мнению организаторов, следует считать каждый день.

Показать полностью
Математика Яндекс Музей Научпоп Видео Короткие видео
0
tablepedia
Серия Вклады учёных в мировую науку

Вклад академика Осипова Ю.С. в мировую науку⁠⁠

18 дней назад

Источник: https://tablepedia.com/science/Osipov_Yu_S.html

Основные научные достижения

Юрий Сергеевич Осипов — советский и российский математик, академик РАН, специалист в области теории управления, дифференциальных уравнений и их приложений. Президент Российской академии наук в 1991-2013 годах.

Область науки Вклад Значение

Теория управления Разработка теории позиционного управления и дифференциальных игр Создание новых методов управления сложными динамическими системами

Дифференциальные уравнения Исследования устойчивости решений дифференциальных уравнений Развитие качественной теории дифференциальных уравнений

Обратные задачи Разработка методов решения обратных задач динамики Создание основ для идентификации параметров сложных систем

Математическая теория устойчивости Исследования устойчивости по Ляпунову и её обобщений Развитие методов анализа устойчивости динамических систем

Прикладная математика Применение математических методов в механике и технике Решение практических задач управления и стабилизации

Ключевые научные достижения

Теория позиционного управления

Разработал теорию позиционного управления динамическими системами, которая позволяет строить алгоритмы управления в условиях неполной информации о состоянии системы.

Дифференциальные игры

Внес фундаментальный вклад в теорию дифференциальных игр, разработав методы решения задач преследования и уклонения для сложных динамических систем.

Обратные задачи динамики

Создал новые подходы к решению обратных задач динамики, позволяющие восстанавливать параметры системы по наблюдаемому движению.

Устойчивость динамических систем

Развил теорию устойчивости нелинейных систем, предложив новые критерии устойчивости и методы их анализа.

Научное направление Основные результаты Годы

Теория управления Разработка принципа позиционного управления с обратной связью 1970-1980

Дифференциальные игры Создание методов решения задач группового преследования 1980-1990

Обратные задачи Разработка алгоритмов идентификации параметров динамических систем 1990-2000

Устойчивость Обобщение методов Ляпунова для нелинейных систем 2000-2010

Прикладные задачи Применение теоретических результатов в технических системах 1970-настоящее время

Научно-организационная деятельность

Период Должность Вклад

1991-2013 Президент Российской академии наук Руководство крупнейшей научной организацией страны в переходный период

1986-1993 Директор Института математики и механики УрО РАН Развитие математической школы на Урале

1993-2013 Академик-секретарь Отделения математики РАН Координация математических исследований в России

2002-2013 Президент Международного математического союза Развитие международного сотрудничества в области математики

1991-2013 Главный редактор журнала "Известия РАН. Серия математическая" Руководство ведущим математическим журналом России

"Математика — это не только язык науки, но и мощный инструмент познания мира. Без развития математики невозможно развитие других наук и технологий."

— Юрий Осипов

Основные этапы научной деятельности

1959

Окончание Уральского государственного университета, начало научной работы в области дифференциальных уравнений

1965

Защита кандидатской диссертации по теории устойчивости дифференциальных уравнений

1971

Защита докторской диссертации по теории управления динамическими системами

1975

Назначение заведующим отделом теории управления в Институте математики и механики УрО РАН

1984

Избрание членом-корреспондентом АН СССР

1987

Избрание академиком АН СССР

1991

Избрание президентом Российской академии наук

2002

Избрание президентом Международного математического союза

Научное наследие и признание

Форма признанияОписаниеГосударственные наградыОрден "За заслуги перед Отечеством" I, II, III и IV степеней, Орден Ленина, Орден Октябрьской РеволюцииНаучные премииПремия имени А.М. Ляпунова РАН, Государственная премия РФ в области науки и техникиЧленство в академияхАкадемик РАН (1987), член-корреспондент с 1984 года, иностранный член многих зарубежных академийНаучные публикацииБолее 200 научных работ, включая монографии и учебные пособияПамятьПремия имени Ю.С. Осипова для молодых ученых, именные стипендииНаучная школаСоздал одну из ведущих российских школ теории управления и дифференциальных уравнений

"Юрий Сергеевич Осипов — это не только выдающийся математик, но и блестящий организатор науки, сумевший сохранить российскую академическую науку в сложнейшие годы."

— Академик Владимир Фортов

Фундаментальные научные концепции

Позиционное управление

Разработал теорию управления по принципу обратной связи, когда управляющие воздействия формируются на основе текущей информации о состоянии системы.

Метод программных итераций

Создал метод последовательных приближений для решения задач оптимального управления, позволяющий находить решения сложных нелинейных задач.

Теория дифференциальных игр

Развил математический аппарат для анализа конфликтно управляемых систем, когда несколько участников имеют противоположные цели.

Устойчивость нелинейных систем

Предложил новые критерии устойчивости для нелинейных динамических систем, обобщающие классические методы Ляпунова.

Вклад в развитие мировой науки

НаправлениеВклад ОсиповаМировое значениеТеория управленияРазработка принципов позиционного управления и методов обратной связиСоздание основ современных систем автоматического управленияДифференциальные игрыРазвитие математической теории конфликтно управляемых системПрименение в экономике, экологии, военном делеМатематическое образованиеПодготовка научных кадров, руководство математическими школамиСохранение и развитие математических традиций в РоссииМеждународное сотрудничествоРазвитие связей российской науки с мировым научным сообществомИнтеграция российской науки в мировое научное пространствоОрганизация наукиРуководство РАН в переходный период, сохранение научного потенциалаСохранение одной из ведущих научных школ мира

"Работы Юрия Сергеевича Осипова по теории управления и дифференциальным играм стали классическими и вошли в учебники по всему миру."

— Математик Джон Бэлл

Основные научные публикации

Название работыГодОбластьЗначение"Позиционные дифференциальные игры"1973Теория игрФундаментальная монография по теории дифференциальных игр"Обратные задачи динамики"1985Теория управленияСистематическое изложение методов решения обратных задач"Управление в условиях неопределенности"1992Теория управленияРазработка методов управления при неполной информации"Стабилизация нелинейных систем"2001Теория устойчивостиНовые подходы к анализу устойчивости сложных систем"Избранные труды по теории управления"2009Теория управленияСборник ключевых работ по различным аспектам теории управления

Информация о вкладе Юрия Сергеевича Осипова в мировую науку

Страница создана нейросетью DeepSeek

Показать полностью
Контент нейросетей Наука Ученые Исследования Осипов Научпоп НаукаPRO История (наука) Наука и техника Математика Статистика Управление СССР РАН Дифференциальные уравнения DeepSeek Диссертация Академик Механика Управление проектами Текст Длиннопост
10
161
CatScience
CatScience
Наука | Научпоп

Сколько нужно съесть морковок, чтобы стать оранжевым?⁠⁠

29 дней назад

Для ЛЛ: 800 грамм морковного пюре или 1 кг 250 г сырой моркови.

Цвет моркови определяется содержанием в ней пигмента бета-каротина. Всего существует более 600 разновидностей каротина, из которых 50 содержится в фруктах и овощах (а ещё – в яичном желтке!), которые мы едим. Разные разновидности каротина окрашивают еду в тёплые цвета от жёлтого до красного. Бета-каротин – очень полезное вещество для человека: он защищает клетки от рака и улучшает здоровье сердца. Бета-каротин также называется «провитамин А» - это означает, что в организме именно из него производится жизненно важный витамин А.

Однако, как сказал Клавдий Гален – «всё есть яд, и всё есть лекарство». Очень высокое потребление каротина приводит к синдрому, называемому гиперкаротинемией. Гиперкаротинемия развивается при потреблении в течение нескольких месяцев доз бета-каротина (обычно, в виде пищевых добавок), превышающих 30 мг/сутки. Помимо изменения цвета кожи, повышается риск развития рака. Но пока что не будем брать во внимание негативный эффект для здоровья, так как наша цель – не просто слегка пожелтеть, а стать насыщенного оранжевого цвета. Попробуем рассчитать: сколько моркови нужно есть в сутки, чтобы получать более 100 мг каротина?

Также важный вопрос – должна ли морковь быть сырой или приготовленной? Термическая обработка может разрушить вещество, а может изменить его биодоступность – то есть, насколько легко нашему телу получить искомое вещество из продукта.

На основе базы данных американского Минсельхоза в 100 г. свежей моркови содержится примерно 8,25 мг бета-каротина, и, к счастью для нашего испытуемого, его количество не сильно изменяется при приготовлении, зато резко растёт биодоступность: при поедании сырой моркови в теле остаётся только около 41% исходного каротина, в то время как после морковного пюре усваивается до 65% каротина. Это означает, что достижение нашей цели в 100 мг потребует съедать в день примерно 1 кг 250 г сырой моркови или примерно в полтора раза меньше – 788 г морковного пюре.

Пищевая ценность моркови не сильно изменяется при её варке или тушении:
34 – 41 ккал,
0.5 г белка,
7.7 – 9.6 г углеводов,
0.1 – 0.4 г жиров
2 – 3 грамма клетчатки на 100 грамм.

Значит, морковная диета обеспечит нашего подопытного, ориентировочно, 400 калориями в день, 5 граммами белка, 90 граммами углеводов, 2-3 граммами жира и 30 граммами пищевых волокон в день – прожить только на ней не выйдет, придётся добирать питательную ценность другими продуктами…

…Но что если мы поставим перед собой цель питаться только морковкой? Взрослый человек весом 70 кг и при малоподвижной работе должен получать в день:

2000 – 2500 ккал,
60 – 70 г белка,
60 – 80 г жира,
250 – 330 г углеводов
и 30 и более грамм клетчатки.

Чтобы удовлетворить главное требование по калориям, нашему несчастному подопытному потребуется есть от 6 до 7 кг сырой моркови, или от 4 до 5 кг морковного пюре, в день. При этом он будет испытывать потерю мышечной массы и ряд других проблем со здоровьем. Ну и, разумеется, будет потреблять уже до 500 мг бета-каротина в день, приобретая насыщенный оранжевый цвет.
Так что рыжеть эндогенно – далеко не самая разумная затея. Лучше уж покраситься краской.

Но как узнать, сколько краски вам потребуется? С этой проблемой связан второй вопрос этой недели: «как высчитать площадь человека?»

(Для ЛЛ: чтобы рассчитать площадь человека, необходимо человека раздеть и нанести ему на кожу сетку из линий, максимально прямых, и по большей части перпендикулярных. А затем – приблизительно посчитать площадь каждого из многоульников)

Это совершенно не праздный и очень интересный вопрос. У человека сложная форма, и до 19 века никто не знал, как её изучать. Прорыв в этой области совершил русский математик Пафнутий Львович Чебышёв (1821 – 1891). В 1878 году Чебышёв опубликовал статью «О кройке одежды», где описал математический способ расчёта формы элементов ткани, которые должны формироваться в плотно сидящее платье. Согласно легенде, свою лекцию для парижских портных, в которой он излагал основы своего метода, он начал со слов «предположим, что человек имеет форму шара»…

Метод Чебышёва заключается в нанесении на криволинейную поверхность сети кривых линий, как бы нарезающих её на изогнутые многоугольники. Площадь каждой из этих фигур посчитать уже не трудно. Сеть Чебышёва производит результат, напоминающий вид глобуса, нарезанного линиями параллелей и меридианов. А в 3D графике похожий подход применяют для того, чтобы разбить форму сложных предметов на кучу маленьких треугольников.

Кстати, те, кто живет или находится проездом в Петербурге, могут ознакомиться с механическим и математическим наследием Пафнутия Львовича в музее истории физики и математики СПБГУ, расположенном в Петергофе.

Автор - Иван Маврин

Ещё нас можно читать в ВК, телеге и Дзене

Подписывайтесь, чтобы не пропустить новые посты!

Показать полностью
[моё] CatScience Наука Научпоп Математика Биология Питание Текст
53
5
kukonkov1996
Лига математиков

Статья: Бинарная гипотеза Гольдбаха⁠⁠

1 месяц назад

Аннотация

В данной статье проводится исследование бинарной гипотезы Гольдбаха, утверждение о том, что любое чётное число, большее чем 4, представимо в виде суммы двух простых чисел. В данной работе предлагается оригинальный подход к доказательству этой гипотезы. Основанный на плавном переходе от поиска пар простых чисел, дающих в сумме N, к поиску пар составных чисел вида 6к-1 и 6к+1, далее производится возврат к исходной задаче через формулу, связывающую два этих представления числа в виде суммы. Данный метод позволяет определить нижнюю границу, при которой гипотеза Гольдбаха выполняется.

Заключение

Предложенный в данной работе метод позволяет установить нижнюю границу, при которой гипотеза Гольдбаха гарантированно выполняется. А именно, доказано, что при N>(1.95143 × 10^3992657)^2 гипотеза Гольдбаха верна.

Разработанный подход открывает новые перспективы для исследования гипотезы Гольдбаха и может послужить основой для дальнейших исследований в этой области.

Показать полностью 10
[моё] Исследования Наука Научпоп Математика Мозг Длиннопост
4
4
kukonkov1996
Лига математиков

Бинарная гипотеза Гольбаха⁠⁠

1 месяц назад
Показать полностью 8
[моё] Математика Наука Научпоп Исследования Мозг Длиннопост
0
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии