Очень часто в аналитике смотрят на среднее:
Но среднее - коварная штука.
Оно сглаживает реальность.
Если у 9 человек чек 100 ₽, а у одного - 10 000 ₽,
среднее будет 1 090 ₽.
И это вообще не похоже на реальность большинства.
Вот здесь и появляется перцентиль.
Подписывайся, если интересно как устроен мир аналитика!
В моем канале Аналитика FM выпуски про расчет Retention в разных бизнесах.
Канал я веду с нуля подписчиков, рассказываю про аналитику и разбираю различные кейсы на реальных примерах.
Перцентиль это значение, ниже которого находится определённый процент данных.
50-й перцентиль (P50) - это медиана
90-й перцентиль (P90) - значение, ниже которого 90% наблюдений
95-й перцентиль (P95) - ещё более "правый хвост"
Если сказать по-человечески:
P90 - это "как живёт большинство, кроме самых крайних случаев".
Как это считать
Берём все значения
Сортируем их по возрастанию
Берём нужную позицию
Например, у нас 100 значений:
P50 → 50-е значение
P90 → 90-е значение
В реальности всё чуть сложнее (интерполяции, разные методы расчёта),
но логика именно такая.
Во многих СУБД есть встроенные функции.
PERCENTILE_CONT(0.9) WITHIN GROUP (ORDER BY amount)
PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY duration)
Где это применяется в аналитике
1️⃣ Время отклика / загрузки
Среднее время ответа может быть нормальным,
но пользователи всё равно недовольны.
90% запросов - быстрые
10% - очень медленные
И именно эти 10% формируют опыт.
2️⃣ Чеки и выручка
Средний чек может быть завышен из-за крупных покупок.
3️⃣ Зарплаты
Средняя зарплата - почти всегда вводит в заблуждение.
Перцентили дают реальную картину:
P50 - "типичный доход"
P90 - "верх рынка"
4️⃣ Время выполнения задач
Среднее не показывает хвосты.
Перцентили - показывают.
В чём особенность перцентилей
Они устойчивы к выбросам
Один аномально большой показатель не сломает картину.
Они показывают распределение
Среднее - это одна точка.
Перцентили - это уже форма данных.
Они ближе к реальному пользовательскому опыту
Пользователь - это не "среднее значение".
Он где-то внутри распределения.
Где ещё используются перцентили
Инженерия и DevOps - latency, SLA
Финансы - оценка рисков
Медицина - рост, вес, показатели анализов
Образование - результаты тестов
Логистика - время доставки
Везде, где важно понимать не "в среднем",
а "как распределены значения".
Когда перцентили могут запутать
при маленьких выборках они нестабильны
разные системы могут считать их по-разному
P99 может сильно "скакать"
перцентили не заменяют среднее - они его дополняют
Главное
Перцентиль - это способ перестать думать "в среднем"
и начать видеть, как данные распределены на самом деле.
Потому что в аналитике
самые важные вещи часто происходят
не в центре,
а на краях.
В канале Аналитика FM разбираем реальные продуктовые метрики и их реализацию на SQL. Погружаемся в мира аналитики и аналитического мышления.
Если у тебя тоже есть интерес к аналитике,
Подписывайся!