Горячее
Лучшее
Свежее
Подписки
Сообщества
Блоги
Эксперты
Войти
Забыли пароль?
или продолжите с
Создать аккаунт
Регистрируясь, я даю согласие на обработку данных и условия почтовых рассылок.
или
Восстановление пароля
Восстановление пароля
Получить код в Telegram
Войти с Яндекс ID Войти через VK ID
ПромокодыРаботаКурсыРекламаИгрыПополнение Steam
Пикабу Игры +1000 бесплатных онлайн игр Монстрикс — это динамичная стратегия, где ты собираешь, улучшаешь и сражаешься с могучими монстрами.

Монстрикс

Мидкорные, Стратегии, Мультиплеер

Играть

Топ прошлой недели

  • cristall75 cristall75 6 постов
  • 1506DyDyKa 1506DyDyKa 2 поста
  • Animalrescueed Animalrescueed 35 постов
Посмотреть весь топ

Лучшие посты недели

Рассылка Пикабу: отправляем самые рейтинговые материалы за 7 дней 🔥

Нажимая «Подписаться», я даю согласие на обработку данных и условия почтовых рассылок.

Спасибо, что подписались!
Пожалуйста, проверьте почту 😊

Помощь Кодекс Пикабу Команда Пикабу Моб. приложение
Правила соцсети О рекомендациях О компании
Промокоды Биг Гик Промокоды Lamoda Промокоды МВидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
0 просмотренных постов скрыто
18
SlyVolunteer
SlyVolunteer
Наука | Научпоп

Ответ на пост «Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов»⁠⁠1

5 дней назад

Что такое функция потерь?

Перейти к видео

Что такое оптимизатор Adam?

Перейти к видео

Делаю такой клиповый курс «Что такое», где за 20 секунд объясняю термины по разработке нейросетей и искусственному интеллекту.

Если пост наберёт 30 плюсов, продолжу выкладывать другие клипы в сообществе «Наука | Научпоп».

Показать полностью 1
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Видео Вертикальное видео Короткие видео Ответ на пост Длиннопост
11
8
RuslanSenatorov
RuslanSenatorov
Искусственный интеллект

Функции потерь и алгоритмы оптимизации в линейной регрессии: обзор основных подходов⁠⁠1

5 дней назад

Линейная регрессия — один из самых фундаментальных и широко применяемых методов в машинном обучении. Несмотря на простоту, её эффективность сильно зависит от двух ключевых компонентов:

  1. Функции потерь (loss function) — что именно мы минимизируем?

  2. Метода оптимизации (solver) — как мы ищем решение?

В этой статье мы разберём популярные функции потерь — MSE, MAE, Huber и Log-Cosh — их свойства, плюсы и минусы. А также покажем, как выбор функции потерь определяет выбор алгоритма оптимизации.

Почему функция потерь так важна?

Функция потерь измеряет, насколько предсказания модели отличаются от реальных значений. От её формы зависят:

  • Чувствительность к выбросам

  • Наличие замкнутого решения

  • Выпуклость задачи

  • Скорость и стабильность обучения

Давайте сравним четыре ключевые функции потерь в контексте линейной регрессии.

1. MSE (Mean Squared Error) — стандарт по умолчанию

  • Эквивалентна максимуму правдоподобия при нормальном шуме.

Замкнутое решение (метод наименьших квадратов):

Плюсы:

Выпуклая, гладкая, дифференцируемая → легко оптимизировать

Минусы:

  • Чувствительна к выбросам (ошибки возводятся в квадрат).

Solver:

  • Normal Equation (аналитическое решение)

  • SGD, SAG, LBFGS (в scikit-learn: solver='auto', 'svd', 'cholesky' и др.)

Когда использовать: когда данные «чистые», ошибки гауссовские, и важна интерпретируемость.

2. MAE (Mean Absolute Error) — робастная альтернатива

Плюсы:

  • Робастна к выбросам (ошибки в первой степени).

  • Минимизирует медиану ошибок (а не среднее).

Минусы:

  • Недифференцируема в нуле → нет аналитического решения.

  • Требует итеративных методов.

Solver:

  • Linear Programming (например, через симплекс-метод)

  • Subgradient Descent (в scikit-learn: QuantileRegressor с quantile=0.5)

Когда использовать: когда в данных есть аномалии или тяжёлые хвосты (например, цены, доходы).

3. Huber Loss — лучшее из двух миров

Плюсы:

  • Гладкая и дифференцируемая.

  • Робастна к выбросам (линейная штраф за большие ошибки).

  • Гибкость через параметр δδ.

Минусы:

  • Нужно настраивать δδ (часто выбирают как процентиль ошибок).

  • Нет замкнутого решения.

Solver:

  • Gradient Descent, LBFGS, Newton-CG(в scikit-learn: HuberRegressor с fit_intercept=True)

Когда использовать: когда вы подозреваете наличие выбросов, но хотите сохранить гладкость оптимизации.

4. Log-Cosh Loss — гладкая робастность

Плюсы:

  • Гладкая везде (бесконечно дифференцируема).

  • Ведёт себя как MSE при малых ошибках и как MAE при больших.

  • Устойчива к выбросам, но без «изломов».

Минусы:

  • Вычислительно дороже (логарифм и гиперболический косинус).

  • Не так распространена в классических библиотеках.

Solver:

  • Gradient-based методы: SGD, Adam, LBFGS(в TensorFlow/PyTorch легко реализуется; в scikit-learn — через кастомный регрессор)

Когда использовать:

  • когда вы ищете баланс между робастностью MSE и гладкостью MAE.

  • Вы хотите избежать чувствительности MSE к выбросам, но сохранить дифференцируемость.

  • Вы строите гибридную модель, где loss должен быть всюду гладким (например, для вторых производных).

Правило:

  • Если loss квадратичен → можно решить напрямую.

  • Если loss неквадратичен → нужен итеративный численный метод.

И помните: нет универсально «лучшей» функции потерь — только та, что лучше всего подходит вашим данным и задаче.

Показать полностью 7
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Длиннопост
2
UoOdin

Теорема Эйлера-Савари в трактовке советских «файдоров» …⁠⁠

8 дней назад

Сие: вариант этюда для «Пикабу»…

Спросим всепроникновенную "Алису" за теорему Эйлера-Савари!

Рис.1

"... радиусами кривизны профилей"?! Вероятно, «первоисточником» такой трактовки теоремы Эйлера-Савари явились труды знаменитого советского механика тов. Н.И.Колчина. Например, фундаментальный труд «Механика машин». Рисунок из т.1 «Механики машин» 1972-го года издания:

Рис.2

Нетрудно понять, что на приведённом рисунке - построение Бобилье для точек С1 и С2: точка С2 - центр кривизны траектории, которую описывает точка С1 при обкаточном движении тела 1 вокруг неподвижного тела2. Разумеется, точка С1 «автоматически» будет центром кривизны траектории точки С2 в случае неподвижного тела 1 и «обкатывающего» тела 2.

Вопиющую ошибочность колчинской трактовки теоремы Эйлера-Савари(Ф.!) нетрудно понять из рис.3, на котором построены циклоиды, описываемые точками на сопряжённом профиле (например, эвольвентном) подвижного зубчатого колеса 1 при обкатке его относительно (условно) неподвижного колеса 2:

Рис.3

Замечание: очевидно, что профиль второго колеса есть огибающая семейства циклоид от точек на профиле колеса 1.

Непонимание сути (красивейшей !) теоремы Эйлера-Савари, вероятно, приводит тов. Н.И.Колчина к такому ошибочному суждению:

Рис.4

Во-первых, «на одном из колёс профиль зубьев» - совершенно не произвольный. Согласно теореме Виллиса (о мгновенном передаточном отношении - главная теорема зацепления), профиль «на одном из колёс» должен быть таким, чтобы нормаль к этому профилю в каждом угловом положении колеса на всём интервале касания с сопряжённым профилем проходила через полюс зацепления (мгновенный - в общем случае). Фактически же (см. «Замечание» выше), профиль «на одном из колёс» порождает профиль на другом колесе.

Во-вторых, как показано на рис.3, теорема Эйлера-Савари - суть элегантный способ нахождения центра кривизны траектории (циклоиды) данной конкретной точки на обкатывающем колесе. Разумеется, этот центр кривизны может быть вычислен методами аналитической геометрии. В общем случае - при переменном передаточном отношении - теорема Эйлера-Савари даёт ограничение на локальную кривизну сопряжённых профилей.

Исходя из вышесказанного, можно сделать такой вывод: геометрия сопряжённых профилей полностью следует из теоремы Виллиса. Теорема Эйлера-Савари при построении сопряжённых профилей может играть только сугубо вспомогательную роль.

………………………….

(Отметим, для примера, ещё одну очевидную ошибку тов. Н.И.Колчина:

Рис.5

Почему линия зацепления цевочной передачи с цевкой ненулевого радиуса не будет дугой окружности r1:

Рис.6)

Так что…

(Ещё про «пёрлы» советских «файдоров» - на Дзен-канале «Добро» на вентилятор»... Там же ж: иллюстрации к сему писанию.)

Показать полностью 5
[моё] Исследования Математика Политика Длиннопост
11
9
RuslanSenatorov
RuslanSenatorov
Искусственный интеллект

Как понять всё машинное обучение через линейную регрессию?⁠⁠

14 дней назад

Сердце всех ML алгоритмов это функция потерь, научившись её оптимизировать мы поймём как обучаются машины.

Дальше в посте, я опишу свойства функции среднеквадратичной ошибки (MSE), затем методы её оптимизации (аналитические, численные, стохастические и гибридные), укажу важные формулы, поведение градиента/Гессиана, оценки сходимости и практические рекомендации.

Основные свойства MSE

1. Дифференцируемость

MSE — гладкая (бесконечно дифференцируема) функция параметров для линейной модели она квадратичная — что сильно упрощает анализ.

2 Квадратичность и выпуклость

MSE — квадратичная функция, такая функция выпукла (всегда), а если X⊤X положительно определена (то есть признаки линейно независимы и строго выпукла и имеет единственный глобальный минимум.

Для нелинейных параметрических моделей выпуклость обычно не выполняется — могут быть локальные минимума.

3. Градиент и Гессиан

Гессиан положительно полуопределён. Его собственные значения управляют «кривизной» функции (вдоль направлений с большими э-величинами функция круто меняется).

4 Шкала, чувствительность к выбросам и статистическая интерпретация

MSE сильно чувствительна к выбросам (квадратичная зависимость даёт большим ошибкам непропорционально большой вклад).

Если ошибки в модели нормальны, то MSE (максимизация правдоподобия) соответствует MLE — минимизация MSE = максимизация нормального правдоподобия.

5. Аналитическое решение

Закрытая форма (normal equations).

6. Алгоритмы численной оптимизации

Градиентный спуск (Batch Gradient Descent)

7. Стохастический градиентный спуск (SGD) и мини-батчи

Стохастичность даёт возможность выйти из плохих локальных минимумов (для нелинейных задач).

8. Ускоренные и адаптивные методы

Momentum (classical momentum) — ускоряет спуск по узким долинам.

Nesterov Accelerated Gradient (NAG) — улучшенный momentum с теоретическими гарантиями.

Адаптивные алгоритмы: Adagrad, RMSProp, Adam, AdamW. Они подбирают адаптивный шаг для каждого параметра.

9. Второго порядка и квазиньютоновские методы

Newton’s method (использует Гессиан) Kвазиньютоновские: BFGS, L-BFGS Conjugate Gradient (CG) часто используют для ridge регрессии

10. Проксимальные и координатные методы (для регуляризации)

Coordinate Descent — особенно эффективен для L1-регуляризованных задач (LASSO), когда функция частично сепарабельна.

11. Прямые методы оптимизации

SVD, cholesky, QR

Обратите внимание что в посте вы не увидите саму модель линейной регресии, где мы точки прямой аппроксимируем, потому что это вообще неинтересно с точки зрения понимания моделей машинного обучения, интересно только сердце ML моделей - функция потерь.

Показать полностью 2
[моё] Научпоп Исследования Ученые Математика Машинное обучение Статистика Искусственный интеллект Roadmap Data Science Наука Длиннопост
0
tablepedia
Серия Вклады учёных в мировую науку

Вклад академика Осипова Ю.С. в мировую науку⁠⁠

18 дней назад

Источник: https://tablepedia.com/science/Osipov_Yu_S.html

Основные научные достижения

Юрий Сергеевич Осипов — советский и российский математик, академик РАН, специалист в области теории управления, дифференциальных уравнений и их приложений. Президент Российской академии наук в 1991-2013 годах.

Область науки Вклад Значение

Теория управления Разработка теории позиционного управления и дифференциальных игр Создание новых методов управления сложными динамическими системами

Дифференциальные уравнения Исследования устойчивости решений дифференциальных уравнений Развитие качественной теории дифференциальных уравнений

Обратные задачи Разработка методов решения обратных задач динамики Создание основ для идентификации параметров сложных систем

Математическая теория устойчивости Исследования устойчивости по Ляпунову и её обобщений Развитие методов анализа устойчивости динамических систем

Прикладная математика Применение математических методов в механике и технике Решение практических задач управления и стабилизации

Ключевые научные достижения

Теория позиционного управления

Разработал теорию позиционного управления динамическими системами, которая позволяет строить алгоритмы управления в условиях неполной информации о состоянии системы.

Дифференциальные игры

Внес фундаментальный вклад в теорию дифференциальных игр, разработав методы решения задач преследования и уклонения для сложных динамических систем.

Обратные задачи динамики

Создал новые подходы к решению обратных задач динамики, позволяющие восстанавливать параметры системы по наблюдаемому движению.

Устойчивость динамических систем

Развил теорию устойчивости нелинейных систем, предложив новые критерии устойчивости и методы их анализа.

Научное направление Основные результаты Годы

Теория управления Разработка принципа позиционного управления с обратной связью 1970-1980

Дифференциальные игры Создание методов решения задач группового преследования 1980-1990

Обратные задачи Разработка алгоритмов идентификации параметров динамических систем 1990-2000

Устойчивость Обобщение методов Ляпунова для нелинейных систем 2000-2010

Прикладные задачи Применение теоретических результатов в технических системах 1970-настоящее время

Научно-организационная деятельность

Период Должность Вклад

1991-2013 Президент Российской академии наук Руководство крупнейшей научной организацией страны в переходный период

1986-1993 Директор Института математики и механики УрО РАН Развитие математической школы на Урале

1993-2013 Академик-секретарь Отделения математики РАН Координация математических исследований в России

2002-2013 Президент Международного математического союза Развитие международного сотрудничества в области математики

1991-2013 Главный редактор журнала "Известия РАН. Серия математическая" Руководство ведущим математическим журналом России

"Математика — это не только язык науки, но и мощный инструмент познания мира. Без развития математики невозможно развитие других наук и технологий."

— Юрий Осипов

Основные этапы научной деятельности

1959

Окончание Уральского государственного университета, начало научной работы в области дифференциальных уравнений

1965

Защита кандидатской диссертации по теории устойчивости дифференциальных уравнений

1971

Защита докторской диссертации по теории управления динамическими системами

1975

Назначение заведующим отделом теории управления в Институте математики и механики УрО РАН

1984

Избрание членом-корреспондентом АН СССР

1987

Избрание академиком АН СССР

1991

Избрание президентом Российской академии наук

2002

Избрание президентом Международного математического союза

Научное наследие и признание

Форма признанияОписаниеГосударственные наградыОрден "За заслуги перед Отечеством" I, II, III и IV степеней, Орден Ленина, Орден Октябрьской РеволюцииНаучные премииПремия имени А.М. Ляпунова РАН, Государственная премия РФ в области науки и техникиЧленство в академияхАкадемик РАН (1987), член-корреспондент с 1984 года, иностранный член многих зарубежных академийНаучные публикацииБолее 200 научных работ, включая монографии и учебные пособияПамятьПремия имени Ю.С. Осипова для молодых ученых, именные стипендииНаучная школаСоздал одну из ведущих российских школ теории управления и дифференциальных уравнений

"Юрий Сергеевич Осипов — это не только выдающийся математик, но и блестящий организатор науки, сумевший сохранить российскую академическую науку в сложнейшие годы."

— Академик Владимир Фортов

Фундаментальные научные концепции

Позиционное управление

Разработал теорию управления по принципу обратной связи, когда управляющие воздействия формируются на основе текущей информации о состоянии системы.

Метод программных итераций

Создал метод последовательных приближений для решения задач оптимального управления, позволяющий находить решения сложных нелинейных задач.

Теория дифференциальных игр

Развил математический аппарат для анализа конфликтно управляемых систем, когда несколько участников имеют противоположные цели.

Устойчивость нелинейных систем

Предложил новые критерии устойчивости для нелинейных динамических систем, обобщающие классические методы Ляпунова.

Вклад в развитие мировой науки

НаправлениеВклад ОсиповаМировое значениеТеория управленияРазработка принципов позиционного управления и методов обратной связиСоздание основ современных систем автоматического управленияДифференциальные игрыРазвитие математической теории конфликтно управляемых системПрименение в экономике, экологии, военном делеМатематическое образованиеПодготовка научных кадров, руководство математическими школамиСохранение и развитие математических традиций в РоссииМеждународное сотрудничествоРазвитие связей российской науки с мировым научным сообществомИнтеграция российской науки в мировое научное пространствоОрганизация наукиРуководство РАН в переходный период, сохранение научного потенциалаСохранение одной из ведущих научных школ мира

"Работы Юрия Сергеевича Осипова по теории управления и дифференциальным играм стали классическими и вошли в учебники по всему миру."

— Математик Джон Бэлл

Основные научные публикации

Название работыГодОбластьЗначение"Позиционные дифференциальные игры"1973Теория игрФундаментальная монография по теории дифференциальных игр"Обратные задачи динамики"1985Теория управленияСистематическое изложение методов решения обратных задач"Управление в условиях неопределенности"1992Теория управленияРазработка методов управления при неполной информации"Стабилизация нелинейных систем"2001Теория устойчивостиНовые подходы к анализу устойчивости сложных систем"Избранные труды по теории управления"2009Теория управленияСборник ключевых работ по различным аспектам теории управления

Информация о вкладе Юрия Сергеевича Осипова в мировую науку

Страница создана нейросетью DeepSeek

Показать полностью
Контент нейросетей Наука Ученые Исследования Осипов Научпоп НаукаPRO История (наука) Наука и техника Математика Статистика Управление СССР РАН Дифференциальные уравнения DeepSeek Диссертация Академик Механика Управление проектами Текст Длиннопост
10
3
MathNotForYou
MathNotForYou

Одна новость — и вся ваша история болезней на ладони: опыт США⁠⁠

20 дней назад

Элис ложится в больницу в США. Её лечащий врач и страховая компания имеют доступ к подробной информации о её состоянии, и нередко эти же данные известны и государственным органам штата. Тридцать три штата, владея такими сведениями, не просто хранят их у себя и не всегда ограничивают к ним доступ. Вместо этого они по закону передают или даже продают часть этих данных исследователям. И вот штаты обращаются к вам — как к специалисту по информатике, IT, политике, консультанту или эксперту по конфиденциальности — с вопросом: действительно ли эти данные обезличены? Можно ли по ним узнать конкретного человека? Чаще всего у вас нет чёткого понимания, насколько реален такой риск. В этом тексте рассказывается, как мне удалось сопоставить имена пациентов с «анонимными» медицинскими данными, проданными штатом Вашингтон, и как власти штата отреагировали на это. Подобные исследования помогают улучшать практику обмена данными, уменьшать угрозы для частной жизни и стимулируют разработку более надёжных технических решений.

Если кратко описать результаты: штат Вашингтон продаёт набор медицинских данных о пациентах за 50 долларов. В этом публичном наборе содержалась информация почти обо всех госпитализациях за один конкретный год: демографические характеристики пациентов, диагнозы, выполненные процедуры, имена лечащих врачей, названия больниц, общая стоимость лечения и способ оплаты. Имена и точные адреса пациентов были удалены, оставались только пятизначные почтовые индексы. В то же время в местных газетах за этот год регулярно выходили материалы со словом «госпитализация», где назывались имена людей, указывалось место их проживания и причина попадания в больницу, например авария или нападение. Тщательно проанализировав четыре новостных архива по штату Вашингтон в единой поисковой системе, удалось однозначно сопоставить записи в медицинском наборе данных с 35 из 81 таких газетных статей за 2011 год (то есть с 43 %), фактически привязав имена к конкретным записям пациентов. Все найденные совпадения были проверены и подтверждены независимой третьей стороной.

После того как была продемонстрирована возможность повторной идентификации пациентов, власти штата Вашингтон изменили порядок предоставления этих данных и ввели трёхуровневую систему доступа. Теперь любой желающий может бесплатно скачать только агрегированные статистические таблицы. За 50 долларов и при подписании соглашения об использовании данных можно получить уже сокращённый, частично отредактированный вариант набора. А полный доступ ко всем полям, которые были доступны до этого эксперимента, теперь предоставляется лишь ограниченному кругу заявителей, прошедших проверку.

Введение

Деидентификация — это практика, при которой из персональных данных убирают имя, адрес и другую явно идентифицирующую информацию. Логика проста: если по данным нельзя установить конкретного человека, ими можно делиться, не рискуя ему навредить.

«Повторная идентификация» — это ситуация, когда этот принцип нарушается: по формально обезличенным данным всё-таки удаётся понять, кому они принадлежат.

Юристы сегодня придерживаются двух противоположных взглядов на реальный риск повторной идентификации, и эти позиции важны и для специалистов по компьютерным наукам, и для ИТ-практиков, и для самих пациентов.

Пол Ом, профессор права из Джорджтауна, утверждает, что в современном мире с обилием данных сделать их действительно анонимными невозможно. Если это верно, логичный вывод — отказаться полагаться на технические методы защиты и искать нетехнические решения. Его оппонентка, Джейн Яковиц из юридического факультета Университета Аризоны, заявляет, что достоверных случаев повторной идентификации не было, а те, о которых говорили раньше, преувеличены или неправильно интерпретированы. Если права она, значит, текущие «кустарные» подходы к деидентификации уже достаточны и не требуют новых технологий или изменений в политике.

Хотя эти позиции противоречат друг другу, обе по факту тормозят развитие технологий защиты. Дифференциальная конфиденциальность, которая даёт формальные гарантии того, насколько ограничена возможность повторной идентификации, стала одним из ключевых направлений исследований в компьютерной конфиденциальности. Но даже если бы такие инструменты уже были широко доступны, ни одна из описанных юридических позиций не подталкивала бы к их активному внедрению. Чтобы новые технологии защиты конфиденциальности действительно начали применять, нужно донести до общества реалистичное представление о рисках и возможном вреде.

В качестве примера рассмотрим общедоступные данные о госпитализациях. Иногда информация о лечении выглядит совершенно безобидной — сломал руку, наложили гипс. Но бывают и другие случаи: например, после ДТП человека экстренно привозят в больницу, и там выявляют алкогольную или наркотическую зависимость. Понятно, что разглашение таких сведений может серьёзно задеть человека, поэтому к публикации данных о пациентах нужно относиться очень осторожно.

Несколько лет назад многие штаты США приняли законы, обязывающие больницы передавать информацию о каждом пациенте, госпитализированном в стационар. Большинство этих штатов затем широко распространяют копии этих данных для разных целей. Фактически любой желающий может получить открытую версию базы, где есть демография пациентов, диагнозы и проведённые процедуры, список лечащих врачей, структура платежей и сведения о том, каким образом оплачивался каждый случай госпитализации. Имена пациентов при этом убираются, но нередко сохраняются почтовые индексы.

Такие базы на уровне штатов существуют много лет и активно используются. Если бы с ними были серьёзные проблемы, можно было бы ожидать множество выявленных инцидентов. На момент написания текста автор не нашёл сообщений о нарушениях конфиденциальности, связанных именно с этими базами, хотя непонятно даже, куда и как о таких нарушениях можно сообщать. К тому же большинство людей вообще не знают о существовании этих государственных баз, поэтому, даже столкнувшись с утечкой или злоупотреблением, вряд ли свяжут её именно с открытыми данными штата.

С другой стороны, есть тревожные, хотя и не подтверждённые факты. В 1996 году в опросе компаний из списка Fortune 500 треть из 84 респондентов заявили, что используют медицинские данные сотрудников при решении вопросов найма, увольнения и продвижения. Неясно, насколько это соответствует действительности, но теоретически это возможно, и в условиях непрозрачного обмена данными выявить подобные злоупотребления почти нереально, хотя последствия могут быть крайне тяжёлыми. Поэтому необходим наглядный, конкретный пример того, как можно идентифицировать пациентов по таким данным.

Представим, что вы знаете, что некий человек обращался в больницу, а также примерно понимаете причину обращения и/или знаете его возраст, пол и почтовый индекс. Сможете ли вы найти его запись в государственной медицинской базе?

На первый взгляд, задача сопоставления пациентов с общедоступными медицинскими базами кажется академическим упражнением или праздным любопытством. Но на практике возможность пользоваться такими базами позволяет работодателям проверять здоровье сотрудников, банкам — учитывать медицинские сведения при оценке кредитоспособности, компаниям по анализу данных — строить личные медицинские профили, журналистам — узнавать о болезнях публичных фигур, а обычным людям — следить за состоянием здоровья друзей, родственников или соседей. Все эти акторы вполне могут знать, когда человек попадал в больницу, и иметь в распоряжении достаточно дополнительных сведений, чтобы найти его запись в открытой базе госпитализаций.

Закон HIPAA не распространяется на штаты

Закон о переносимости и подотчётности медицинского страхования (HIPAA) — федеральный закон США 1996 года, который регулирует обмен медицинскими данными: кто и при каких условиях врачи, больницы и страховые компании могут делиться информацией о пациентах. Однако государственные (штатные) базы медицинских данных под действие HIPAA не попадают. Когда штат выступает как сборщик и распространитель данных, он не считается «субъектом HIPAA». Кроме того, штат имеет право передавать данные так, как это разрешено законами самого штата и в том формате, который он сочтёт допустимым. Возникает вопрос: чем подход штатов отличается от требований HIPAA?

В Правилах конфиденциальности HIPAA есть положение «Безопасная гавань» (Safe Harbor), которое описывает, как можно публиковать медицинские данные. Там установлены конкретные ограничения:

  • в датах можно указывать только год, без месяца и дня;

  • почтовый индекс можно публиковать только по первым трём цифрам и только в том случае, если суммарное население всех индексов с такими первыми тремя цифрами превышает 20 000 человек;

  • если население меньше 20 000, вместо реального индекса указывается 00000;

  • из данных нужно убрать явные идентификаторы — имена, номера социального страхования, точные адреса и т.п.

Теперь сравним с практикой штатов. Среди тех, кто публикует данные о госпитализациях на уровне штата, лишь три штата делают это по стандартам HIPAA; остальные 30 этим стандартам не следуют. Многие из них включают более детальные сведения — например, указывают не только год рождения пациента, но и месяц. Другие, наоборот, дополнительно обобщают данные по сравнению с HIPAA: используют возрастные интервалы вместо точного возраста и/или публикуют диапазоны почтовых индексов, а не конкретные значения.

Предыстория

Под «повторной идентификацией» медицинских данных понимают ситуацию, когда удаётся точно и однозначно связать конкретного человека с его медицинской записью. Такие эксперименты уже проводились и раньше.

В 1997 году я узнала, что медицинская информация о госслужащих станет доступна довольно широкому кругу лиц. Владельцы данных убрали явные идентификаторы — имя, адрес и т.п. — в соответствии с тогдашними стандартами деидентификации. Однако в базе остались дата рождения, пол и пятизначный почтовый индекс. Простые прикидки заставили задуматься: в году 365 дней, пол — один из двух, средняя продолжительность жизни ~78 лет. Если перемножить, получается около 56 940 возможных комбинаций. При этом в среднем в одном пятизначном почтовом индексе проживает всего около 25 000 человек. Значит, многие комбинации «дата рождения + пол + индекс» будут уникальными.

Чтобы проверить гипотезу, нужно было найти конкретного человека в базе. Тогдашний губернатор Массачусетса Уильям Уэлд был идеальным примером: его дата рождения и домашний адрес в Кембридже были в открытом доступе. За 20 долларов я купила список избирателей Кембриджа, где для 54 805 зарегистрированных избирателей были указаны имя, адрес, дата рождения, пол и история голосования. Оказалось, что сочетание «дата рождения + пол + почтовый индекс» Уэлда уникально и в списке избирателей, и в медицинской базе, что позволило однозначно сопоставить его личность с записью в формально обезличенном файле о госслужащих.

Одна новость — и вся ваша история болезней на ладони: опыт США

История быстро дошла до Вашингтона, округ Колумбия, где как раз обсуждались вопросы конфиденциальности в здравоохранении в рамках будущего закона HIPAA. Этот эксперимент по повторной идентификации заметно повлиял на формирование правил конфиденциальности HIPAA, и меня упомянули в преамбуле. Обсуждение случая Уэлда также привело к усилению защиты демографических данных в регулировании по всему миру.

После этого было проведено ещё несколько экспериментов по повторной идентификации. Сразу после истории с Уэлдом я сделала множество подобных проектов, но страх, шок, непонимание и отсутствие финансирования привели к тому, что результаты так и не были опубликованы. Например, в деле «Университет Южного Иллинойса против Департамента здравоохранения» сам Департамент признал, что я успешно повторно идентифицировала детей по комбинации {тип рака, почтовый индекс, дата постановки диагноза}. Суд в решении похвалил мой профессионализм, адвокаты называли меня «богиней повторной идентификации», но одновременно суд засекретил детали методики и запретил её публикацию. То же самое произошло и с другими ранними работами по повторной идентификации данных опросов и фармацевтических исследований.

В тех немногих случаях десять лет назад, когда эксперименты удавалось довести до публикации, журналы всё равно часто отказывали — и не из-за качества науки. Издания по информатике не хотели публиковать работы, где описывалась только атака с повторной идентификацией, без готового технического «лекарства», хотя авторы и утверждали, что сами такие атаки должны стимулировать создание новых технологий защиты. Журналы по политике в области здравоохранения, напротив, боялись, что публикация таких результатов нанесёт удар по существующей практике обмена данными, хотя именно рост масштабов обмена за счёт технологий требует их пересмотра. В итоге даже пример с Уэлдом и анализ демографической уникальности, которые позже повлияли на глобальное регулирование конфиденциальности, были первоначально отклонены более чем 20 научными журналами.

Финансирование тоже давали неохотно. Десять лет назад гранты на эксперименты по повторной идентификации обычно выдавали только при условии, что результаты покажут отсутствие риска или что все проблемы можно будет «закрыть» некой модной теоретической технологией, находящейся в разработке. Если ожидался неудобный результат о реальных рисках, деньги, как правило, не выделялись — а без них трудно провести систематические исследования.

Отсутствие опубликованных данных сыграло на руку критикам, которые стремились убедить общество, что рисков почти нет (иногда, доходя до сильных искажений фактических сведений о повторной идентификации).

Спустя десять лет Эль Эмам и соавторы провели обзор литературы и нашли всего 14 опубликованных атак с повторной идентификацией. Из них 11 они исключили, посчитав, что это лишь демонстрационные или оценочные атаки исследователей, а не «реальные» повторные идентификации, проверяемые на практике. В эту группу они, например, отнесли работу Нараянана и Шматикова, которые показали, как можно повторно идентифицировать пользователей по набору анонимизированных историй просмотров Netflix, сопоставляя их с публичными (идентифицированными) отзывами о фильмах. Хотя Эль Эмам и коллеги в своём обзоре фактически «отмахнулись» от этого эксперимента, он вылился в расследование Федеральной торговой комиссии США и судебный иск, который Netflix затем урегулировал.

Из трёх оставшихся, признанных «реальными» повторными идентификациями, две Эль Эмам и соавторы отвергают как не соответствующие стандартам HIPAA. Оставшееся исследование они, напротив, представляют как выполненное по требованиям HIPAA и демонстрирующее очень низкий риск повторной идентификации. Однако в этом эксперименте авторы по сути только заново воспроизвели мой старый эксперимент времён до HIPAA, но уже на данных, отредактированных по HIPAA. Работа была чрезмерно зациклена на одном конкретном сценарии и не учитывала другие возможные стратегии атак, которые могли бы оказаться успешнее. Это серьёзный недостаток, который Эль Эмам и коллеги не учитывают. Тем не менее их обзор подчёркивает: нам по-прежнему не хватает целостного понимания реальных рисков повторной идентификации.

Такое бедное состояние науки о рисках повторной идентификации в мире, где объём данных и их доступность постоянно растут, сегодня вызывает ещё больше тревоги, чем десять лет назад. Отсюда логичный вопрос: можно ли сейчас, при текущем уровне технологий и открытости данных, повторно идентифицировать пациентов по медицинским данным штатов?

Это была только вводная часть

В премиум-версии материала показан сам эксперимент: как новости, ZIP-коды и дата рождения превратились в имена и диагнозы, что ответили пациенты по телефону и почему после этого штаты срочно переписывали законы о конфиденциальности.

Поддержите автора

  • В премиум-разделе уже восемь объемных материалов, раскрывающих математику с самых разных сторон!

  • Подписывайтесь на телеграм-канал «Математика не для всех»

Показать полностью 1
Математика Яндекс Дзен (ссылка) Исследования Персональные данные Длиннопост
1
2
petr.novish

Странная избыточность математики⁠⁠

1 месяц назад

Математику ценю больше чем другие науки. Но в то же время считаю недопустимыми попытки оценивать результаты развития техники лишь количественными критериями.

Когда я начинал свою научно-техническую карьеру  в Ленинградском ВНИИ Мощного Радиостроения, каждый понедельник в крайне богатой по тому времени институтской научно-технической библиотеке  мне посчастливилось регулярно посещать выставки отечественной и иностранной профессиональной периодики по электронике. И довльно часто бывало, что материалы на русском не уступали публикациям на западно-европейских языках…

Единственное мощное отличие научных журналов было в том, что по любой проблеме именно в советских изданиях считалось хорошим тоном безмерно изощряться в ворохе математических выкладок. Как же без тройного интеграла! Ну и частенько было не протиснуться читателю к сути излагаемого сквозь сложнущие математические выражнния.

А в периодике о тех же проблемах того же уровня и значимости на английском обычно хватало двух–трех резюмирующих формул, не затеняющих технического смысла статьи.

Но у нас без сложной математики почему-то было невозможно…

Да и в диссертациях сплошь и рядом оценивались не  сами результаты эффективности технических изобретений , а изощренность математических выкладок.

Петр Новыш

Санкт –Петербург

Показать полностью
Математика Наука Исследования Ученые Текст
2
0
user11222293

Предел масштабируемости LLM: новая метрика для математического мышления (AMO-Bench)⁠⁠

1 месяц назад

Автор: Денис Аветисян


Оценка производительности различных больших языковых моделей на базе AMO-Bench, измеренная по показателю AVG@32, демонстрирует вариативность в способности решать задачи, представленные в данной сравнительной оценке.

Оценка производительности различных больших языковых моделей на базе AMO-Bench, измеренная по показателю AVG@32, демонстрирует вариативность в способности решать задачи, представленные в данной сравнительной оценке.

Долгое время считалось, что достижение высоких результатов на математических соревнованиях является достаточным критерием для оценки истинных способностей к рассуждению в моделях искусственного интеллекта; однако, представленный набор данных AMO-Bench: Large Language Models Still Struggle in High School Math Competitions обнажает критическую проблему – существующие бенчмарки, достигнув насыщения, перестают эффективно выявлять подлинные ограничения в логическом мышлении, маскируя поверхностное заучивание и оптимизацию под конкретные задачи. Это несоответствие между кажущейся производительностью и реальным уровнем понимания ставит под сомнение надежность существующих метрик и необходимость разработки более сложных, оригинальных тестов, способных выявить слабые места в архитектуре моделей и стимулировать развитие по-настоящему интеллектуальных систем. Не станет ли создание таких бенчмарков определяющим фактором в прогрессе исследований в области искусственного интеллекта, способным радикально изменить наше понимание границ машинного разума?

Пределы Современных Эталонов Оценки

Существующие эталоны оценки математического мышления, такие как AIME, все чаще оказываются неспособными предоставить адекватный вызов продвинутым языковым моделям. Результатом становится завышение показателей эффективности, маскирующее истинное состояние возможностей модели. Ограниченность этих эталонов проявляется в недостаточной глубине и сложности задач, не позволяющих в полной мере оценить способность модели к решению принципиально новых и запутанных математических проблем.

Наблюдается тенденция к тому, что модели демонстрируют высокую производительность на задачах, которые являются лишь вариациями уже известных, и испытывают затруднения при столкновении с задачами, требующими оригинального подхода и глубокого понимания математических принципов. Это подчеркивает необходимость разработки более строгих и комплексных эталонов, способных выявить истинные ограничения существующих моделей.

Исследование демонстрирует, что производительность модели и длина выходных данных варьируются в зависимости от степени приложенных усилий при рассуждении.

Исследование демонстрирует, что производительность модели и длина выходных данных варьируются в зависимости от степени приложенных усилий при рассуждении.

Доказательство корректности всегда сильнее интуиции. Оценка модели по ее способности решать задачи, которые требуют не просто применения известных алгоритмов, а глубокого понимания математических принципов, является ключевым фактором в определении ее истинного потенциала. Разработка эталонов, основанных на строгих математических принципах, позволит создать более надежные и объективные инструменты для оценки языковых моделей.

Необходимо помнить, что оценка модели должна основываться на ее способности решать задачи, которые требуют не просто воспроизведения известных решений, а глубокого понимания математических принципов и способности к оригинальному мышлению. В противном случае, оценка будет лишь иллюзией, скрывающей истинное состояние возможностей модели.

AMO-Bench: Новый Стандарт для Оценки Рассуждений

Представлен AMO-Bench – новый эталон для оценки математического рассуждения, состоящий из пятидесяти задач, намеренно разработанных для превосходства по сложности над существующими стандартами, такими как AIME. Существующие наборы данных, как правило, демонстрируют признаки насыщения, что затрудняет дифференциацию между передовыми моделями и точную оценку их истинных возможностей. Представленный набор задач призван заполнить этот пробел, предоставляя строгую платформу для оценки и стимулирования прогресса в области искусственного интеллекта.

Процесс создания AMO-Bench основывался на принципе «Создания оригинальных задач», чтобы предотвратить утечку данных и обеспечить, чтобы эталон оценивал именно подлинное рассуждение, а не способность к запоминанию или экстраполяции. Уделялось особое внимание формулировке задач, которые не встречаются ни в одном общедоступном источнике, и которые требуют глубокого понимания математических принципов для их решения. Это особенно важно в эпоху, когда модели машинного обучения часто обучаются на огромных объемах данных, что может привести к артефактам и предвзятостям.

Разработанный конвейер построения и оценки AMO-Bench обеспечивает структурированный подход к оценке моделей.

Разработанный конвейер построения и оценки AMO-Bench обеспечивает структурированный подход к оценке моделей.

Для гарантии высокого уровня сложности была реализована строгая процедура «Оценки гарантированной сложности». Этот процесс включал в себя многоступенчатую проверку каждой задачи экспертами-математиками, обладающими значительным опытом в области математических соревнований. Кроме того, для оценки трудности задач были использованы передовые языковые модели, что позволило выявить и устранить задачи, которые могут быть решены с использованием простых эвристик или шаблонов. Эта комбинация экспертной оценки и машинного обучения обеспечила, что задачи AMO-Bench действительно представляют собой серьезную задачу для современных языковых моделей.

Крайне важно, что представленный набор задач избегает неявно подразумеваемых компромиссов, свойственных эвристическим подходам. Любое решение либо корректно, либо ошибочно — промежуточных состояний не существует. Целью является не просто получение работоспособного решения, а демонстрация строгой логики и доказательной базы, лежащей в основе математических рассуждений.

Оценка LLM с использованием AMO-Bench

Для оценки производительности больших языковых моделей (LLM) на AMO-Bench использовался метод ‘Оценка по конечному ответу’ (Final-Answer Grading), разработанный для эффективной автоматической оценки. Этот подход позволяет быстро и однозначно определять корректность решения, что особенно важно при работе с задачами высокой сложности. Если решение кажется магией – значит, вы не раскрыли инвариант. Необходимо стремиться к прозрачности и доказуемости алгоритма, а не полагаться на эмпирические наблюдения.

Данный метод был дополнен двумя подходами: ‘Оценка на основе парсера’ (Parser-Based Grading) для численных и множественных ответов, и ‘Оценка на основе LLM’ (LLM-Based Grading) для более сложных, описательных ответов. Первый подход гарантирует точность в случаях, когда ответ может быть однозначно представлен в структурированном виде. Второй же позволяет оценивать ответы, требующие развернутого объяснения и демонстрации логической цепочки рассуждений.

Сравнение LLM показывает, что производительность AVG@32 обратно пропорциональна средней длине выходных данных модели.

Сравнение LLM показывает, что производительность AVG@32 обратно пропорциональна средней длине выходных данных модели.

В качестве тестовых образцов были использованы модели GPT-5-Thinking и DeepSeek. Первичный анализ результатов позволил получить ценные сведения об их производительности на данном, новом и сложном эталоне. Особое внимание уделялось не только точности ответов, но и эффективности алгоритмов, используемых для их получения. Любое решение либо корректно, либо ошибочно — промежуточных состояний нет.

Полученные данные демонстрируют, что текущие модели все еще испытывают трудности при решении задач, представленных в AMO-Bench. Тем не менее, анализ результатов позволяет выявить перспективные направления для дальнейших исследований и разработки более совершенных алгоритмов.

Анализ Эффективности Рассуждений и Потенциала Моделей

Оценка производительности на AMO-Bench выявила критическую необходимость учета не только точности, но и «Потребления Токенов». Этот параметр позволяет получить более полное представление об эффективности рассуждений модели. Простая точность, как известно, может ввести в заблуждение, особенно в задачах, требующих сложных вычислений и многошаговых логических выводов.

В процессе анализа были созданы подробные «Пути Рассуждений, Аннотированные Экспертами». Эти пути, представляющие собой детальное описание логических шагов, необходимых для решения каждой задачи, обеспечивают основу для дальнейшего развития и совершенствования моделей рассуждений. Их наличие позволяет не только оценить правильность ответа, но и понять, каким образом модель пришла к этому ответу, выявив слабые места и области для улучшения.

Анализ данных математических тестов выявил взаимосвязь между точностью и средней длиной выходных данных, указывающую на компромисс между этими двумя параметрами.

Анализ данных математических тестов выявил взаимосвязь между точностью и средней длиной выходных данных, указывающую на компромисс между этими двумя параметрами.

Метрика ‘Pass@32’, обозначающая вероятность получения корректного ответа при множественных попытках, предоставляет более нюансированное понимание потенциала модели, чем однократная точность. Оптимизация без анализа — самообман и ловушка для неосторожного разработчика. Единичные показатели могут быть случайными, в то время как ‘Pass@32’ дает более надежную оценку стабильности и надежности модели в решении сложных задач.

Анализ взаимосвязи между метрикой ‘Pass@32’ и потреблением токенов выявил важные закономерности. Модели, демонстрирующие более высокую производительность, как правило, требуют больше токенов для генерации ответа. Это подчеркивает необходимость поиска баланса между точностью и эффективностью. Стремление к максимальной точности не должно приводить к неоправданному увеличению вычислительных затрат.

Дальнейшие исследования показали, что модели, демонстрирующие стабильно высокие показатели ‘Pass@32’, имеют более выраженную способность к обобщению и адаптации к новым задачам. Это указывает на то, что разработка моделей, способных к глубокому пониманию и логическому выводу, является ключевым направлением в развитии искусственного интеллекта.

Представленный труд демонстрирует, что современные большие языковые модели (LLM) всё ещё испытывают трудности с решением задач, требующих глубокого математического рассуждения. Созданный бенчмарк AMO-Bench, призванный выявить слабые места в этой области, подтверждает необходимость поиска более элегантных и доказуемых алгоритмов. Как однажды заметил Тим Бернерс-Ли: “Web — это не только о технологиях, но и о людях и идеях.” Эта фраза отражает суть исследования: сложность математических задач требует не только вычислительной мощности, но и четкости логики, прозрачности подхода. Если решение кажется магией – значит, инвариант не раскрыт, и модель, подобно плохо спроектированному алгоритму, не способна предоставить доказательство своей корректности.

Что впереди?

Представленный анализ демонстрирует, что современные большие языковые модели (LLM) всё ещё сталкиваются с серьёзными трудностями при решении задач, требующих глубокого математического рассуждения. Создание AMO-Bench – не просто констатация этой очевидной проблемы, но и попытка формализовать её. Однако, стоит признать, что сама идея “бенчмарка” – это лишь приближение к истине. Любой набор задач, каким бы сложным он ни был, всегда остаётся конечным и, следовательно, не может полностью отразить бесконечное разнообразие математических проблем.

Ключевым вопросом остаётся воспроизводимость результатов. Если LLM демонстрирует успех на AMO-Bench, но терпит неудачу на незначительно отличающемся наборе задач, – что это означает? Недостаточность обобщающей способности или принципиальную невозможность создания действительно универсального решателя математических задач? Необходимо разработать методы, позволяющие строго оценить детерминированность и надёжность математических рассуждений LLM.

Будущие исследования должны быть сосредоточены не только на увеличении размера моделей или разработке новых архитектур, но и на формализации самих принципов математического доказательства и рассуждения. Возможно, истинный прогресс будет достигнут не путём имитации интеллекта, а путём создания систем, способных к строгому логическому выводу, а не просто к статистическому предсказанию.


Оригинал статьи: denisavetisyan.com

Связаться с автором: linkedin.com/in/avetisyan

Показать полностью 4
[моё] Исследования Наука Математика Эволюция Статья Псевдонаука Ученые Будущее Длиннопост
1
Посты не найдены
О нас
О Пикабу Контакты Реклама Сообщить об ошибке Сообщить о нарушении законодательства Отзывы и предложения Новости Пикабу Мобильное приложение RSS
Информация
Помощь Кодекс Пикабу Команда Пикабу Конфиденциальность Правила соцсети О рекомендациях О компании
Наши проекты
Блоги Работа Промокоды Игры Курсы
Партнёры
Промокоды Биг Гик Промокоды Lamoda Промокоды Мвидео Промокоды Яндекс Маркет Промокоды Пятерочка Промокоды Aroma Butik Промокоды Яндекс Путешествия Промокоды Яндекс Еда Постила Футбол сегодня
На информационном ресурсе Pikabu.ru применяются рекомендательные технологии