Как лгать с помощью статистики — часть 2
Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост
Выбор среднего
Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты
Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион
Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку
На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое
Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми
Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения
Сложение нескладываемого
Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?
Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?
Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла
Предвзятая выборка
По данным интернет-голосования 100% людей пользуются интернетом
Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках
Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана
Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им
Ищу зарплату гендиректора по гибкому графику без опыта работы
«Наглядная» визуализация
Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести
Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!
Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:
Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y
Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них
Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!
Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично
Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:
Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно
Пример качественной визуализации
На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!
После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?
Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм
Лига образования
5K постов22.1K подписчиков
Правила сообщества
Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:
ДЛЯ АВТОРОВ:
Приветствуются:
-уважение к читателю и открытость
-желание учиться
Не рекомендуются:
-публикация недостоверной информации
ДЛЯ ЧИТАТЕЛЕЙ:
Приветствуются:
-конструктивные дискуссии на тему постов
Не рекомендуются:
-личные оскорбления и провокации
-неподкрепленные фактами утверждения
В этом сообществе мы все союзники - мы все хотим учиться! :)