Если вы профи в своем деле — покажите!
Такую задачу поставил Little.Bit пикабушникам. И на его призыв откликнулись PILOTMISHA, MorGott и Lei Radna. Поэтому теперь вы знаете, как сделать игру, скрафтить косплей, написать историю и посадить самолет. А если еще не знаете, то смотрите и учитесь.
Простыми словами про метрики в ИИ. Регрессия. MSE, RMSE, MAE, R-квадрат, MAPE
Привет, Пикабу! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я продолжаю серию коротких статей по метрикам качества моделей для машинного обучения!
Что такое регрессия?
Задача регрессии в машинном обучении — это тип обучения в ИИ, когда модель обучается на данных с непрерывным значением, чтобы предсказывать его на основе одного или нескольких входных параметров. Отличие регрессии от задач классификации заключается в том, что регрессия предсказывает непрерывные значения (например, цену на дом, температуру, количество продаж), в то время как классификация предсказывает категориальные метки (например, да/нет, красный/синий/зеленый).
То есть задача регрессии предсказывает какую-то цифру, а задача классификации - это как выбор в тесте из нескольких вариантов ответа.
Пример
Давайте представим, что мы - доска объявлений типа Авито или Циана. Мы хотим подсказывать пользователю в интерфейсе по какой цене ему лучше разместить свою квартиру на основании множества факторов, например:
Местоположение квартиры
Площадь
Этаж
Ремонт
Год постройки здания
В итоге мы выводим пользователю рекомендуемую цифру в евро.Мы предсказали стоимость 10 квартир, а через месяц узнали за сколько их на самом деле продали.
Далее мы проведем с этими результатами нехитрые вычисления:
Вычтем из предсказанной цены реальную цену (первый столбик)
Возведем эту разницу в квадрат (второй столбик)
Возьмем корень из этого квадрата (третий столбик)
Получим следующие результаты на нашем примере:
P.S. да, можно просто взять разницу по модулю, но более умные математики говорят, что это все-таки не одно и то же - можете почитать об этом отдельно
MSE
Если мы возьмем второй столбик из зеленой таблицы выше, сложим все числа в нем, а потом поделим на количество этих чисел (возьмем среднюю), то получим MSE или среднюю квадратическую ошибку. В нашем случае:
MSE = 3353809295
Большое число! Из-за его величины оно сложно интерпретируется с точки зрения бизнеса. Чаще эту метрику используют при разработке моделей, когда важно наказывать большие ошибки сильнее, чем маленькие, так как ошибка возрастает квадратично. Это делает MSE чувствительной к выбросам. MSE используют, если большие ошибки недопустимы и должны сильно влиять на модель.
RMSE
RMSE или среднеквадратическая ошибка - это младший брат MSE. Чтобы ее посчитать нужно просто взять квадрат из MSE!
В нашем случае получится 57912.
RMSE также штрафует за большие ошибки, но в отличие от MSE, масштаб ошибки аналогичен исходным данным, что облегчает интерпретацию. Это делает RMSE хорошим выбором для многих практических задач, где важна интерпретируемость результата.
MAE
MAE или средняя абсолютная ошибка считается по третьем столбику из зеленой таблички выше. Нужно взять сумму корней из квадрата разницы между предсказанной ценой и реальной ценой и поделить ее на количество наблюдений. Проще говоря, берем среднее из третьего столбика.
В нашем примере MAE = 49243
MAE менее чувствительна к выбросам по сравнению с MSE и RMSE. Это делает её предпочтительным вариантом, когда выбросы присутствуют в данных, но не должны сильно влиять на общую производительность модели.
Немного усложним нашу зеленую табличку
Чтобы разобраться с тем как считается R-квадрат и MAPE нужно дополнить нашу зеленую табличку еще двумя стобиками:
Вычтем из предсказанной цены среднюю предсказанную цену и возведем это в квадрат (четвертый зеленый столбик 4). P.S. Не спрашивайте зачем это нужно и какой в этом практический смысл - просто сделайте :)
Поделим третий зеленый столбик на предсказанную цену квартиру из желтой таблички. То есть поделим разницу между предсказанной и реальной ценой квартиры по модулю на предсказанную стоимость квартиры. (пятый зеленый столбик)
Коэффициент детерминации (R квадрат)
Чтобы его получить надо из единицы вычесть разницу суммы второго и четвертого зеленых столбцов.
R квадрат = 1 - (сумма 2 зеленого столбца / сумма 4 зеленого столбца)
В нашем случае R квадрат = 85,2%
R-квадрат измеряет, какая доля вариативности зависимой переменной объясняется независимыми переменными в модели. Это хороший способ оценить адекватность модели: близость к 1 говорит о хорошем объяснении данных моделью. R-квадрат лучше всего подходит для сравнения моделей с одинаковыми данными.
MAPE
Средняя абсолютная процентная ошибка или MAPE - это среднее пятого зеленого столбца.
В нашем случае = 14,2%
MAPE измеряет отклонение прогнозов от фактических значений в процентах и является хорошим выбором, когда нужно легко интерпретируемое показание ошибки в процентном отношении. Однако MAPE может быть неэффективной, когда в данных присутствуют нулевые или очень маленькие значения.
Excel файл с примерами
Вы можете найти эксель файл с этими цифрами, бесплатно его скачать и собственноручно поиграться со значениями в нем вот в этом посте в моем телеграмм канале
Заключение
Поздравляю! Вы узнали про основные метрики в задачах регрессии!
Если вам интересно знать про ИИ и машинное обучение больше, чем рядовой человек, но меньше, чем data scientist, то подписывайтесь на мой канал в Телеграм. Я пишу редко, но по делу: AI для чайников. Подписывайтесь!
Кот уничтожил стопку ноутбуков
Профессионалы
Рейтинг 20 крупнейших IT-компаний России по итогам 2023 года
Привет, Пикабу! Меня зовут Александр Троицкий, я автор канала AI для чайников, и я решил поделиться своим небольшим исследованием о крупнейших 20 российских IT компаниях.
1 апреля закончился срок сдачи бухгалтерской отчётности для российских компаний, а это значит, что мы можем посмотреть на рынок «целиком», а не только на публичные компании, которые обязаны раскрывать отчётность раньше непубличных.
Методология
При составлении этого рейтинга использовалась следующая методология:
Для публичных компаний (Яндекс, Позитив Технолоджис, ВК груп, Софтлайн, Хэдхайнтер, Астра) использовались данные из их публичной отчетности
Для непубличных компаний (те, кто не вышел на биржу) использовалась выручка и чистая прибыль их юридического лица за 2023 и 2022 год по данным ФНС.
IT компанией считаются те, чья основная деятельность связана с разработкой ПО, обработкой данных или продажа товаров через интернет (маркетплейсы). Производственные компании или участники реестра IT компаний не участвуют в рейтинге, поскольку их основная деятельность зачастую не связана с IT (например, Почта России - крупнейшая компания в России из реестра IT компаний).
Банки также не участвуют в рейтинге, поскольку все-таки получают большую часть дохода от кредитных продуктов. Единственное исключение - Точка, которая является больше платформой для предпринимателей, нежели классическим банком.
Технологические дочки крупных компаний попадают в рейтинг, если у них есть доступный сайт, на котором показаны продукты их компании, используемые не только их материнской компанией. Таким образом, в рейтинг не были включены, например, ООО "Процессинговый центр" - дочка Татнефти, я не смог найти даже их сайт, X5-tech - дочка X5 Retail Group, у которых на сайте все продукты используются только в рамках материнской компании (судя по их описанию).
В рейтинг не вошли некоторые известные IT компании, у которых нету отчетности за 2023 или 2022 год. Один из примеров - 1С, у которой выручка за 2022 около 70 млрд рублей (по оценка из открытых источников), но про 2023 я не смог найти информации.
Рейтинг
Основные наблюдения из рейтинга:
Суммарная выручка крупнейших 20 компаний рунета выросла на 54% с 1740 млрд руб в 2022 до 2690 млрд руб в 2023
Суммарная чистая прибыль увеличилась в два раза с 51 млрд рубл в 2022 до 103 млрд руб в 2023
Для меня было неожиданностью, что самый прибыльный российский IT - это Avito с 39 млрд чистой прибыли по итогам 2023
В рейтинге всего 2 компании с отрицательной чистой прибылью - ВК и Ozon, их суммарные убытки за 2023 составили почти 100 млрд рублей
Многие известные компании оказались ниже радара этого рейтинга, хотя я думал, что они сюда войдут - это, например, Циан, Carprice, Aviasales, Flocktory, Whoosh.
Заключение
Если этот рейтинг вызовет у вас интерес - я продолжу его до 50-100 крупнейших компаний России. Здесь собрана не просто информация из ФНС - многие цифры взяты из пресс-релизов компаний или из их консолидированных отчетностей, поэтому добавление каждой компании не так просто. Если у вас есть замечания - пишите, я учту их.
Если вам интересно знать про ИИ и машинное обучение больше, чем рядовой человек, но меньше, чем data scientist, то подписывайтесь на мой канал в Телеграм. Я пишу редко, но по делу: AI для чайников. Подписывайтесь!
Ответ на пост «Все профессии важны»
Да, чёрт возьми да, да! Это же прекрасно решать сложные задачи, когда работа требует мыслительного процесса, а не монотонного заполнения таблиц, когда можешь свалить пораньше потому что решил проблему, вместо того что бы сидеть положенные 9 часов. Так ещё и платят куда больше 40 тыс в месяц