924

Как лгать с помощью статистики — часть 2

Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост

Выбор среднего

Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты

Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион

Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку

На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое

Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми

Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения

Сложение нескладываемого

Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?

Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?

Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла

Предвзятая выборка

По данным интернет-голосования 100% людей пользуются интернетом

Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках

Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана

Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им

Ищу зарплату гендиректора по гибкому графику без опыта работы

«Наглядная» визуализация

Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести

Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!

Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:

Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y

Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них

Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!

Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично

Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:

Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

Пример качественной визуализации

На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!

Поиграться с моделью

После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?

Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм

Лига образования

7.1K постов23K подписчиков

Правила сообщества

Публиковать могут пользователи с любым рейтингом. Однако мы хотим, чтобы соблюдались следующие условия:


ДЛЯ АВТОРОВ:


Приветствуются:

-уважение к читателю и открытость

-желание учиться

Не рекомендуются:

-публикация недостоверной информации


ДЛЯ ЧИТАТЕЛЕЙ:


Приветствуются:

-конструктивные дискуссии на тему постов

Не рекомендуются:

-личные оскорбления и провокации

-неподкрепленные фактами утверждения


В этом сообществе мы все союзники - мы все хотим учиться! :)

Вы смотрите срез комментариев. Показать все
7
Автор поста оценил этот комментарий
Просто приложу скрин коммента.. Это на тему прививок и статистике.
Самое забавное, что тот факт, что на домашнее обучение направляются дети с аутизмом, СДВГ, невротическими расстройствами, тяжёлыми аллегиями и дальше по списку+ из религиозных побуждений и дети, которых не приняли в школу, потому у них нет медкарты(то есть прививки)
Иллюстрация к комментарию
раскрыть ветку (10)
5
DELETED
Автор поста оценил этот комментарий

На такой маленькой выборке могут быть совершенно любые результаты.

раскрыть ветку (6)
2
Автор поста оценил этот комментарий
Ну, если взять в выборку всех детей на домашнем обучении, то можно смело говорить, что домашнее обучение вызывает сахарный диабет, потому что детей с сахарным диабетом на домашнем обучении в разы больше, чем в школах.
раскрыть ветку (4)
2
Автор поста оценил этот комментарий

Нет, так говорить нельзя. Если найдена связь (корреляция) двух параметров, только из этого нельзя утверждать определённую причинно-следственную связь.

Например, представьте, что учёные нашли у школьников связь между временем, проводимым за видеоиграми, и агрессивностью. Отсюда можно сделать три предположения:

1. Компьютерные игры вызывают агрессивность

2. Агрессивные дети чаще играют в компьютерные игры

3. Есть какой-то неучтённый в исследовании фактор, влияющий на оба параметра. Например, строгие родители растят детей агрессивными, а сами дети сбегают от родителей в мир видеоигр

Но ни один из этих выводов нельзя делать только на основе корреляции! Только журналисты не всегда про это помнят

раскрыть ветку (3)
1
Автор поста оценил этот комментарий

Автор, в этом и была шутка комментария ...

Забирайте свою лодку

Иллюстрация к комментарию
раскрыть ветку (1)
0
Автор поста оценил этот комментарий

Ну и ладно, я не возражаю :D

0
DELETED
Автор поста оценил этот комментарий

>Нет, так говорить нельзя. Если найдена связь (корреляция) двух параметров, только из этого нельзя утверждать определённую причинно-следственную связь.


Любой порядочный журналист знает, что можно! А если очень хочется, то даже и корреляция не нужна!

1
Автор поста оценил этот комментарий

Это зависит от цели. Выборка в миллион тоже может быть не объективной. А правильная в 1000 может дать более точный результат.

Автор поста оценил этот комментарий

А на эту тему сейчас на реддите очень прикольный хайп. Какие-то очередные "американские ученые" провели исследования и пришли к выводу, что движение антипрививочников в Штатах продвигают русские хакеры! Нет, они реально это серьезно имеют в виду. Якобы русские запустили ботов на твиттер, которые там сутками флудят на чистом английском и сеют смуту в умах американских родителей. Я повторюсь, это не прикол, они серьезно пришли к таким выводам

раскрыть ветку (2)
0
Автор поста оценил этот комментарий

Дык не только в твиттер, ещё и на пикабу. Оставляют комменты в виде "ой, вы знаете, такая чушь! Нет, реально, серьезно, чушь, ужас-ужас111". Довят на эмоции крч

0
Автор поста оценил этот комментарий

Помните хайп с Ольгинскими блогерами?

Уже в тот момент мой знакомый работал на одну неназываемую компанию над написанием "системы формирования общественного мнения в сети интернет". Задача была - автоматическое отслеживание постов определеннной тематики, оставление уникальных автосгенеренных комметов нужного направления. Логины получали (выбивали) административным ресурсом прямо от владельцев сайтов.

Если такая система работал у нас уже в 15 году, думаю в сша они появились намного раньше.

Вы смотрите срез комментариев. Чтобы написать комментарий, перейдите к общему списку

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества