924

Как лгать с помощью статистики — часть 2

Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост

Выбор среднего

Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты

Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион

Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку

На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое

Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми

Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения

Сложение нескладываемого

Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?

Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?

Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла

Предвзятая выборка

По данным интернет-голосования 100% людей пользуются интернетом

Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках

Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана

Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им

Ищу зарплату гендиректора по гибкому графику без опыта работы

«Наглядная» визуализация

Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести

Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!

Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:

Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y

Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них

Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!

Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично

Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:

Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

Пример качественной визуализации

На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!

Поиграться с моделью

После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?

Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм

Лига образования

7.1K постов23K подписчиков

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:


ДЛЯ АВТОРОВ:


Приветствуются:

-уважение к читателю и открытость

-желание учиться

Не рекомендуются:

-публикация недостоверной информации


ДЛЯ ЧИТАТЕЛЕЙ:


Приветствуются:

-конструктивные дискуссии на тему постов

Не рекомендуются:

-личные оскорбления и провокации

-неподкрепленные фактами утверждения


В этом сообществе мы все союзники - мы все хотим учиться! :)

Вы смотрите срез комментариев. Показать все
27
DELETED
Автор поста оценил этот комментарий
Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

А может, вывод должен быть другой: "больше траты > выше эффективность борьбы > меньше смертей"?

раскрыть ветку (7)
10
Автор поста оценил этот комментарий

Я привёл вывод самих авторов. Но ваша мысль хороша!

раскрыть ветку (2)
17
Автор поста оценил этот комментарий

вообще охуенный вывод без учета специфики болезней. у них тоже есть иерархия. на вершине болезни, которые могут убивать неограниченное количество людей быстро, невзирая на конкуренцию. этакие суперхищники в мире болезней - чума, холера, оспа. вот заболел человек легочной чумой и раком - от чего он умрет? эти болезни человечество победило. (путем вливания денег в прививки и гигиену).

дальше инфекционные болезни более медленного действия - тубик, гепатиты, венерические, малярия, полио. выдавили эти болезни в среду маргиналов. дали таблетки для их замедления.

третий уровень: рак. он прогрессирует медленно, его побьет любая достаточно агрессивная инфекционка, однако он поражает все возрасты. тем более рак груди вообще любит относительно нестарых баб. на этого босса тратится много денег, так как он опасен для той категории населения, которая может за него платить - богатых белых людей 40-60 лет. и маленьких детей. дети увеличивают любые денежные вливания.

(например, от болезни А болеют 5 детей. есть дело ВСЕМ их родственникам. шум, деньги. от болезни Б болеют 5 взрослых. есть дело только самим этим взрослым. шума и денег меньше).

на рак надо тратить больше денег. потому что он может убивать молодых и потому что его реально победить. реально найти от него лекарство "раз и навсегда" (понятно, что не так легко, как от какой-нибудь оспы - сделал укол и не болеешь или выпил таблетку и все, но смысл в том, что рак в принципе реально однажды взять и победить). опыт Израиля это доказывает, например. заболеваемость раком там выше, чем в России, а смертность от него меньше.

потому что тут вступает 4 уровень - сердечные. они подбирают остатки. это болезни пожилых людей. болезни неправильного образа жизни, естественных причин, комплексные внутренние проблемы. их хрен предотвратишь, потому что к 70-80 годам они будут и никуда не денешься. их хрен вылечишь, потому что к тем же годам организм настолько изношен, что не переживет пересадку сердца (если например, возьмем и вырастем искусственные). поэтому денег на них тратиться меньше, ибо не понятно, можно ли в принципе однажды победить эти заболевания. и надо ли это делать?

например, от сердечных умирает 80 стариков в возрасте 70+ лет. а от какой-то другой болезни - 20 молодых людей. вторая вроде менее опасна, она убивает меньше. но денег на борьбу с ней будет вложено больше, потому что для общества она опаснее и в иерархии стоит выше сердечных - не дает людям до них дожить.

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Очень хорошее и аргументированное мнение. Однозначно согласен

3
Автор поста оценил этот комментарий

Может ещё дело в том, что диагностика и лечение раковых заболеваний, на которые тратится больше денег, стоит дороже. Не говоря уже о том, что смерть от сердечно-сосудистых заболеваний зачастую связана со старостью

0
Автор поста оценил этот комментарий

Это абсолютно неверно, разве что совпадения могут быть случайные. А график в этом плане вообще бесполезный) Сами догадаетесь почему?

раскрыть ветку (2)
0
DELETED
Автор поста оценил этот комментарий

Если я ошибся, то поясни, пожалуйста. Видимо, что-то упускаю из виду.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Ох.. я сказал не правильно.

Это - имел ввиду цитированную фразу.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества