924

Как лгать с помощью статистики — часть 2

Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост

Выбор среднего

Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты

Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион

Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку

На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое

Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми

Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения

Сложение нескладываемого

Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?

Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?

Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла

Предвзятая выборка

По данным интернет-голосования 100% людей пользуются интернетом

Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках

Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана

Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им

Ищу зарплату гендиректора по гибкому графику без опыта работы

«Наглядная» визуализация

Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести

Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!

Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:

Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y

Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них

Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!

Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично

Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:

Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

Пример качественной визуализации

На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!

Поиграться с моделью

После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?

Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм

Лига образования

7.1K постов23K подписчиков

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:


ДЛЯ АВТОРОВ:


Приветствуются:

-уважение к читателю и открытость

-желание учиться

Не рекомендуются:

-публикация недостоверной информации


ДЛЯ ЧИТАТЕЛЕЙ:


Приветствуются:

-конструктивные дискуссии на тему постов

Не рекомендуются:

-личные оскорбления и провокации

-неподкрепленные фактами утверждения


В этом сообществе мы все союзники - мы все хотим учиться! :)

5
Автор поста оценил этот комментарий

Ещё наклонена сетка графика. Из-за этого кажется, что спад News ещё более стремительный, чем он есть на деле.

раскрыть ветку (1)
38
Автор поста оценил этот комментарий

Наклон — это скорее вина скана с книги. Но, кажется, вы изобрели новый интересный способ лгать с помощью графиков :D Оптические иллюзии в графиках — это тянет на Шнобелевку

показать ответы
128
Автор поста оценил этот комментарий
Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее.

Баллы относятся к порядковой шкале, а не к номинальной! Баллы можно расставить в порядке возрастания, но нельзя точно сказать, кто на сколько кого больше.


Господи, я впервые применил знания из курса психологии/социологии, это так волнительно.

раскрыть ветку (1)
37
Автор поста оценил этот комментарий

Ааа, стыдно :( Не писать посты в 2 часа ночи...

Крутой у тебя курс психологии, если рассказывают об этом. Обычно психологи и социологи такой математикой и грешат

показать ответы
30
Автор поста оценил этот комментарий

Этот пост бы вышел на пару недель раньше, если бы я не потратил столько времени на первую иллюстрацию. Там даже пасхалки есть, но вряд ли кто-то настолько сумасшедший, чтобы их найти

показать ответы
21
Автор поста оценил этот комментарий

Миллионер валяется на почках?

раскрыть ветку (1)
18
Автор поста оценил этот комментарий

Да, но это вряд ли считается пасхалкой, просто специфический юмор :D

показать ответы
2
Немножко случайно
Автор поста оценил этот комментарий

Как говорил мой учитель в школе:"Есть ложь, наглая ложь и статистика."

раскрыть ветку (1)
22
Автор поста оценил этот комментарий

Ваш учитель — премьер-министр Великобритании начала 20 века? D:

показать ответы
27
DELETED
Автор поста оценил этот комментарий
Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

А может, вывод должен быть другой: "больше траты > выше эффективность борьбы > меньше смертей"?

раскрыть ветку (1)
10
Автор поста оценил этот комментарий

Я привёл вывод самих авторов. Но ваша мысль хороша!

показать ответы
5
Автор поста оценил этот комментарий

Рубли с черточками?

4 51 113 119

Что бы это значило

раскрыть ветку (1)
9
Автор поста оценил этот комментарий

Не так сложно, это просто закос под православный крест :D Да, это одна из пасхалок, пусть и глупая.

Самая интересная, по-моему, у миллионера. А самая сложная — у сисадмина. Потому что я сам её забыл XD

показать ответы
1
Автор поста оценил этот комментарий
Так, случаем, не к матрице отсылка? :)
раскрыть ветку (1)
3
Автор поста оценил этот комментарий

Может быть только неосознанная, я просто пытался нарисовать ему крутые очки :)

0
Автор поста оценил этот комментарий

Ну, это еще до первых лекций было понятно)
Только науку двигать пошли очень мало, в основном это было для того, чтобы сдать диплом.

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Это тоже норма, вряд ли в науку большой процент выпускников идёт :) Но задача университета — открыть такой путь

2
Автор поста оценил этот комментарий

С миллионером легко - это же Павел Дуров

раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Это отсылка, но пасхалка в другом :)

Автор поста оценил этот комментарий

Обалденная ведь, спасибо большое, сохранила!

раскрыть ветку (1)
4
Автор поста оценил этот комментарий

Если интересны именно негативные примеры, рекомендую книгу "Как лгать при помощи статистики" Дарелла Хаффа — многое в этих постах основано на ней.

Если хочется разобраться в самой статистике (это, на самом деле, очень крутая вещь!), есть великолепная книга "Статистика и котики" Владимира Савельева. Очень простая, но при этом методически просто великолепная — я прошёл 3 курса по статистике, не считая университетский, но понятнее, чем в этой книге, некоторые вещи не объяснили нигде.

У меня в группе есть на неё обзор, где можно найти скриншоты и ссылки для покупки/скачки: https://vk.com/manoscience?w=wall-168138197_42

показать ответы
2
Автор поста оценил этот комментарий
Ну, если взять в выборку всех детей на домашнем обучении, то можно смело говорить, что домашнее обучение вызывает сахарный диабет, потому что детей с сахарным диабетом на домашнем обучении в разы больше, чем в школах.
раскрыть ветку (1)
2
Автор поста оценил этот комментарий

Нет, так говорить нельзя. Если найдена связь (корреляция) двух параметров, только из этого нельзя утверждать определённую причинно-следственную связь.

Например, представьте, что учёные нашли у школьников связь между временем, проводимым за видеоиграми, и агрессивностью. Отсюда можно сделать три предположения:

1. Компьютерные игры вызывают агрессивность

2. Агрессивные дети чаще играют в компьютерные игры

3. Есть какой-то неучтённый в исследовании фактор, влияющий на оба параметра. Например, строгие родители растят детей агрессивными, а сами дети сбегают от родителей в мир видеоигр

Но ни один из этих выводов нельзя делать только на основе корреляции! Только журналисты не всегда про это помнят

показать ответы
1
Автор поста оценил этот комментарий

http://russia.duck.consulting/maps/184 -средняя

http://russia.duck.consulting/maps/183 - медианная

http://russia.duck.consulting/maps/104/2017 - Джинни(более показательная штука, как по мне)

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Спасибо, это то, чего не хватает в посте!

0
Автор поста оценил этот комментарий

А как на графике Минарда переключиться на верхнюю ветвь графика - от переправы через Неман до Москвы?

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Сейчас не с компьютера, но, вроде бы, никак: для неё не внесены данные температуры

5
Автор поста оценил этот комментарий

А нужен ли тег моё? Почти весь пост копипаста поста с хабра, ссылку на который скинули в комментариях к первой части https://m.habr.com/post/217545/

#comment_118732488

раскрыть ветку (1)
1
Автор поста оценил этот комментарий

Да, это один из источников, но дополнений здесь тоже достаточно :) Тот пост полностью основывается на книге «Как лгать при помощи статистики» Дарелла Хаффа, я его использовал больше, чтобы картинки брать. И хорошая визуализация в конце тоже порадовала

0
Автор поста оценил этот комментарий

Когда ты берешь игрушечные примеры ты также фактически лжешь о том, как работает статистика.

Правильно выше сказали, что в статистике самое важно это вес.

А так получается из твоего примера, что в стране треть населения это миллионеры.

Разве это плохо ? Получается твоя статистика не врет в таком случае со средней зарплатой в сотни тысяч.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Я хотел показать, что такое эти средние и в чём их особенности: среднее статистическое чувствительно к выбросам, а медиана позволяет их скрывать. Для того, чтобы показать эту мысль не нужно переусложнять модель: тысяча бабушек будет более близка к реальности, но запутает читателя и не позволит ему уловить мысль

0
Автор поста оценил этот комментарий

Ну, Цукерберг - "сахарная гора"...

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Понял XD Точно, вы разгадали пасхалку :)

показать ответы
1
Автор поста оценил этот комментарий

Если и другая пасхалка связана с цветовой палитрой: у Павлика глаза, эмм, цвета неба, если смотреть на него с вершины Сахарной Горы...

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Что? :D Попытайтесь ещё один раз, это связано с Дуровым и тем, чем является ВК. Если нужно, дам ответ :)

показать ответы
0
Автор поста оценил этот комментарий

RGB 89, 125, 163

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Да, но это только половина пасхалки С: Сможете отгадать вторую часть?

показать ответы
0
Автор поста оценил этот комментарий

Прическа Трампа ?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Неа. Там чуть посложнее. Попытайтесь увидеть что-то связанное с Дуровым

показать ответы
1
Автор поста оценил этот комментарий

Автор, в этом и была шутка комментария ...

Забирайте свою лодку

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Ну и ладно, я не возражаю :D

0
Автор поста оценил этот комментарий

На графике неверно идет шкала оси ординат - при шаге в 100.000 внезапно прыжок с 800.000 до 1.500.000, что визуально сближает графики между собой, заставляя думать, что они вот-вот пересекутся. Хотя на самом деле разница между крайними точками в два раза.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Верно :)

0
Автор поста оценил этот комментарий

Блин, вот все от и до прям, хотел сделать то же замечание, образование из той же степи... У нас было чуть лучше(?), дохрена матстата, эксперименталки, спсс.

Для чего нам это надо?...

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Матстат и спсс очень нужны тем, кто будет заниматься наукой

показать ответы
0
Автор поста оценил этот комментарий

А ответ когда будет и где?

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Уже есть в комментариях :)

15
Автор поста оценил этот комментарий

По поводу первого примера. Здесь следует учитывать, что бабок и сисадминов все же несколько больше, чем миллионеров. Иначе хрень получается.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Это игрушечный пример, чтобы показать, как вообще считаются эти средние и в чём их недостатки

показать ответы
0
Автор поста оценил этот комментарий

Если любишь статистику, то можно ещё посмотреть не так давно вышедшую книжку "Статистика. Очень краткое введение." автор Дэвид Дж. Хэнд. Рассчитана она, конечно, на совсем начинающих (после вузовского курса социологического факультета ничего нового мне не попалось) и скорее на качественное понимание, чем на определённые формулы, но мне, честно говоря, было интересно почитать такой подход.

раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Спасибо! Мне уже не очень полезно будет, но посмотрю, чтобы рекомендовать начинающим

4
Автор поста оценил этот комментарий

На одном графике шлитц в %, на другом- в млн баррелей при тех же числах, хмм.

Иллюстрация к комментарию
Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Вы очень внимательны о.о Но на графике с Шлитц, должно быть, опечатка, иначе два графика друг другу противоречат

показать ответы

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества