Дурацкие графики
2 поста
2 поста
Статистика комментариев под постом с обновлением
Пришлось расчехлить старый код, который писал для научпоп-постов. Я проанализировал 1899 комментариев и 19400 слов, оставленных под постом об обновлении за первые 6 часов. Так выглядит топ 15 слов по частоте:
Слово "минус" встречается больше 500 раз (логично), а "говно" – 139 (то есть примерно в каждом 13 комментарии). Слово "хороший" вроде бы позитивное, но оно обычно встречается в подобном контексте:
Вот ещё визуализация топа слов. Чем больше слово, тем чаще оно встречалось в комментариях:
Как мы видим, обновление пользователям понравилось! Ведь у поста на момент анализа больше 700 плюсов
Как постоянный автор (а я написал по крайней мере 83 научно-популярных поста) я тоже очень доволен обновлением! Ведь уникальность Пикабу теперь убита, а значит можно меньше стараться, чтобы опубликовать здесь пост в первую очередь. Поэтому буду-ка я делать это где-нибудь в другом месте, а сюда лишь дублировать, если в этом будет смысл
Ну и в лучших традициях нового Пикабу, вот мой телеграм-канал о науке и учёбе. Там можно и дизлайк поставить, и какашку! Очень старомодно, но я подумаю о том, чтобы их убрать (нет)
В 30-ых годах 20-ого века Уилл Роджерс пошутил о волнах миграции: „Когда оклахомцы переезжают в Калифорнию, они повышают уровень интеллекта в обоих штатах“. Шутка основана на том, что мнению автора, даже самые глупые оклахомцы были умнее среднего жителя Калифорнии. Уже в 80-ых в честь этой цитаты был назван феномен Уилла Роджерса – любопытный математический парадокс, когда перемещение объекта из одной группы в другую повышает среднее значение признака в обеих группах. Это явление оказалось важным в исследованиях рака
При появлении новых методов диагностики можно обнаружить рак на более ранних стадиях. Это приводит к „миграции“ людей из множества здоровых в множество больных. Так как у них выше шанс развития заболевания, вычёркивание из списка здоровых приводит к повышению средней продолжительности жизни в этой группе. С другой стороны, у этих людей только начальные стадии заболевания, поэтому продолжительность жизни в группе больных также растёт. Может возникнуть неприятный эффект улучшения показателей на бумаге, даже если ранняя диагностика не помогает лучше лечить пациентов
Как пропаганда превращает данные в ненависть
Продолжаю разбор некорректных графиков. Сегодня будет вопиющий пример того, как показать корректные данные, но извратить их интерпретацию. Началось всё с того, что я наткнулся на пост с громким названием «Как работает пропаганда»
На графике представлены межрасовые насильственные преступления. Один из самых маленьких столбцов – количество преступлений, которые совершили белые против темнокожих. Однако по мнению автора картинки медиа заостряют внимание именно на этих случаях
Задумайтесь на минуту, какие эмоции у вас вызывает этот пост? Вероятно, это ощущение несправедливости по отношению к белым. Ещё и столбец преступлений темнокожих против белых значительно выше! В комментариях к посту это отлично видно. Самый популярный комментарий уходит в интерпретации ещё дальше, утверждая, что больше всего преступлений совершают чёрные над чёрными. Также есть рассуждения, что лучше бы сторониться темнокожих людей, приезжая в США
У этого графика и поста крайне много проблем. Прав автор в одном – именно так пропаганда и работает. Давайте последовательно разберёмся, что же здесь не так
Благо, источник указан прямо под графиком – это отчёт за 2018 год министерству юстиции США. Документ подробный, но при этом написан легко, поэтому его способен прочитать с переводчиком даже неподготовленный человек. Иллюстрация из поста сделана на основе данных из 14 таблицы, что уже позволяет оценить масштаб вырывания данных из контекста. Не было ли в предыдущих 13 таблицах чего-то важного?
Второй шаг вырывания из контекста – иллюстрация только межрасовых преступлений. Давайте построим график на основе всех данных:
Я перевернул график для большей наглядности
Все выводы из поста видно и на этом графике: чёрные совершают больше преступлений по отношению к белым, чем наоборот. Но что это за огромный столбик снизу? Это количество преступлений, совершённых белыми по отношению к белым. Белые ответственны за половину всех насильственных преступлений в стране – больше, чем все остальные вместе взятые. Гуляя по Штатам, у вас в 2,5 раза больше вероятность встретить преступника со светлым цветом кожи. Так кого стоит опасаться?
Здесь же видно столбец с количеством преступлений чёрных по отношению к людям той же расы. Он самый большой в категории темнокожих преступников, но меньше, чем количество преступлений темнокожих по отношению к белым людям. Автор самого популярного комментария к посту не прав в своём прогнозе
Даже показав полные данные, всё ещё некорректно делать далеко идущие выводы. Причину отлично иллюстрирует этот комикс от XKCD:
Сравнивать популяционные данные без поправки на численность популяции бессмысленно. Если вы откроете статистику посещаемости почти любого крупного российского сайта, на первом месте в ней будут жители Москвы, на втором – Санкт-Петербурга, а затем других крупных городов. Дело не в популярности сайта именно у москвичей, а просто в том, что население столицы больше
То же самое с этничностью. Согласно данным из отчёта, светлокожие люди составляют 62,3% населения США, а темнокожие – 12%. Неудивительно, что большую часть преступлений совершают белые люди – их просто больше, чем остальных. Также закономерно большее количество преступлений по отношению к белым людям. Представьте, что преступник случайно выбирает жертву из толпы. С большей вероятностью это будет светлокожий человек
Что действительно неожиданно – большое количество внутрирасовых преступлений. На графике ниже показана метрика отклонений от ожидаемой частоты преступлений, если преступник выбирает жертву случайно. Видно, что жертвами темнокожих часто становятся представители той же расы. Это может говорить о том, что люди разных рас отделены друг от друга и случайной жертвой чаще оказывается человек с тем же цветом кожи
Внимательный читатель может заметить, что даже с поправкой на население темнокожие люди совершают больше преступлений. Это же видно в таблице 12 отчёта:
Символы крестов в ней стоят там, где есть значимые отличия от процента населения. Например, светлокожие совершают значимо меньше преступлений – 50,2%, хотя их в стране больше 60%, а темнокожие ответственны за 21,7%преступлений, составляя всего 12% населения страны
Однако, здесь скрыта ещё одна проблема исходного поста. В лучших традициях пропаганды, он задаёт тему дискуссии – преступность в зависимости от расы – и мы начинаем мыслить в её рамках. Но давайте посмотрим на данные внимательнее. Помимо рас (речь о которых впервые поднимается на 12 странице отчёта), рассматриваются и другие параметры. В таблице выше видно, что преступность также неоднородна по возрасту. Люди до 30 лет чаще нарушают закон, несмотря на малую численность, а почти люди старше 30 лет, составляющие почти 72% населения, совершают относительно небольшие 53,7% преступлений. Это логично: насильственные преступления скорее будут совершать буйные молодые люди, чем более взрослые. А теперь давайте взглянем на возрастную структуру населения США по расам:
Люди всех цветов кожи, кроме белого, в основном моложе: коричневая линия пересекает зелёную лишь на 47 годах. Отличия могут показаться незначительными, но пол процента на этом графике – это почти 1,5 миллионалюдей. Молодых людей с не белым цветом кожи больше. Они также совершают больше преступлений, но связано это с цветом кожи или с возрастом?
Пойдём дальше. В том же отчёте в таблице 9 содержится информация о количестве преступлений на 1000 человек в зависимости от уровня дохода. Как можно предположить, люди с меньшим доходом совершают преступления чаще:
А теперь посмотрим на медианный доход населения США по расам. Угадайте, у людей с каким цветом кожи он наименьший?
На графике показаны медианы, у 50% людей в каждой группе доход ещё меньше
Люди совершают преступления из-за низкого дохода и по разным, в том числе историческим, причинам доход меньше у темнокожих людей. Какие мысли у вас возникают, глядя на эти данные? Можно понять, что для снижения преступности нужно работать над устранением бедности, а также внимательнее контролировать правонарушения у подростков. Заметьте, насколько эти выводы отличаются от вызываемых изначальным постом мыслей «Белые – не только белые, но ещё и пушистые, чёрные – преступники, а медиа всё искажают» (судя по комментариям на Пикабу).
Давайте также сделаем заметки о том, как следует подобные графики:
Требуйте полные данные. График из поста сосредоточился лишь на части – межрасовых преступлениях. Глядя на это, мгновенно должен возникнуть вопрос – а что содержится в непоказанных данных?
Интересуйтесь контекстом данных. На какой вопрос старалось ответить исследование? Отчёт был о структуре преступлений – что в нём содержалось помимо рас? Например, в 13 предыдущих таблицах
Никогда не интерпретируйте популяционные данные без поправки на численность. 10 преступлений в год – это много или мало? В деревне из 30 человек – чудовищно много, в Нью-Йорке – практически мир и порядок. Никогда не сравнивайте числа о населении сами по себе, без контекста
Смотрите на данные, а не на интерпретацию. Автор исходного поста в каком-то смысле не врал: он показал настоящие данные, хоть и вырванные из контекста. А затем направил мышление людей (совсем не пропаганда) концентрацией на конкретных расах и оскорблении медиа. Старайтесь отбрасывать подобный шум и интерпретировать данные самостоятельно
Надеюсь, это было полезно! Подписывайтесь на мой телеграм об образовании и науке
Нашёл очень залипательную браузерную игру для любителей математики. Игроку нужно вводить уравнения функций, описывающих поверхность, по которой катится персонаж в санках. Цель каждого уровня – пройти через контрольные точки, иногда в определённом порядке. Очень здорово для запоминания базовых математических функций или понимания, как работают их параметры
Говорят, игра написана подростками на кружке. Если так, то это невероятно впечатляет. Она отлично подходит для школьников, изучающих функции или студентов, желающих прочувствовать матанализ. Из минусов: порог входа высоковат, не помешало бы обучение или шпаргалка для тех, кто подзабыл математику. Также есть совсем неочевидные моменты (спойлер: например, что время – это тоже переменная). Зато получаешь искреннее наслаждение, когда наконец догадываешься как пройти очередной уровень. А музыка и виды очень медитативные
А вживую прокатиться по параболе можно в кампусе математики Технического Университета Мюнхена. Если неохота пользоваться лестницами, можно спуститься с 4 этажа по горке. Говорят, профессора сражаются за офисы у этого спуска
Я катался – очень понравилось! Сверху горка гораздо круче, чем кажется снизу или по фото. Спускаешься очень быстро, а для комфортного скольжения можно взять коврик. Забавно и что горка выполнена в форме параболы, хотя для наибольшей скорости можно было бы сделать брахистохрону
Мой телеграм-канал о науке и образовании
Чтобы научиться читать или строить графики, полезно посмотреть на плохие варианты. Поэтому готовьтесь смотреть на подборку самых дурацких иллюстраций! Заодно научимся распознавать манипуляции и некорректные графики
Начнём с классики. Визуализация результатов вопроса ученикам старшей школы „В каком классе вы учитесь?“
Здесь плохо просто всё. Начиная с данных: на опрос как будто бы ответило 104% участников, продолжая выбором графика и его отображением: почему-то доли круга не пропорциональны числам, которые они должны отражать. Источник графика найти не удалось, но предположу, что были перепутаны числа, а круг разделён корректно. Ещё такие странные графики порой создаются автоматически экселем или гугл-таблицами, но этот явно пошёл в печать.
О выборе графика стоит поговорить подробнее. Пироговые диаграммы (pie charts) кажутся интутивными и часто употребляются в медиа, но значительно реже встречаются в науке. Причина в сложности их восприятия. Числа визуализируются как доли круга – чем больше число, тем больше угол или площадь сектора. Но люди довольно плохо интуитивно сравнивают углы. Попробуйте, глядя на графики сверху упорядочить проценты у себя в голове
Согласитесь, что со столбцами снизу, изображающими те же данные, это сделать гораздо проще
Однако даже столбчатые диаграммы можно превратить в нечитаемый ужас:
Здесь авторы хотели показать слишком многое, но в итоге испортили график, захламив его надписями. Есть хорошее правило: одна иллюстрация – одно сообщение. Оно не всегда реализуемо в научных статьях, где место ограничено, но хорошо соблюдать его хотя бы в презентациях. Мне очень нравится визуализация данных в крупных медиа об экономике: там очень хорошо соблюдают это правило (а может, и изобрели его)
Следующий пример – как даже неплохой график можно превратить в головоломку. Столбики визуализируют частоту цветов обуви
Но надписи не совпадают с цветами! Напоминает психологические эксперименты, в которых нужно читать слова „красный“, „зелёный“, „синий“, написанные другими цветами
Сделав корректные цвета, надписи можно убрать вообще. А также лучше всегда сортировать столбчатые диаграммы: это упростит их восприятие. Направление сортировки зависит от сообщения. Если хочется показать самые распространённые цвета обуви, лучше начинать с больших столбцов, а чтобы обратить внимание на непопулярные цвета – с маленьких
Например, как в этом графике средней высоты девушек по странам. Очевидно, для экранизации Атаки Титанов нужно побольше индианок в роли людей и немного девушек из Латвии, любящих ломать стены
Здесь оочень много проблем. Главная – вертикальная ось начинается не с нуля. Для столбчатой диаграммы это преступление, которое обычно совершается с целью манипуляции или по незнанию. Отсчёт не с нуля приводит к тому, что крошечные различия (здесь – в несколько дюймов) выглядят как изменения в несколько раз. Обычно нужно обращать на это внимание, чтобы не пропустить, но здесь авторы сами довели иллюстрацию до абсурда, заменив столбцы фигурками девушек. Это приводит к такому эффекту:
Использование картинок для изображения того, что визуализируешь – это хороший приём, но с ним нужно быть очень аккуратным. Особенно, если график отражает одно число, а картинка изменяется в двух измерениях. Наш мозг в таком случае сравнивает площади, а не высоту. Разница в 3 раза станет выглядеть, как разница в 9. Это часто используется в манипулятивных целях, когда нужно показать гигантские отличия там, где их нет:
Колоссальный отрыв в разы: целых полтора процента
Следующий пример – про то, как горе помогает путешествовать во времени. Если сильно хочется начать ось не с нуля, нужно показывать данные точками или, в случае непрерывной переменной по оси X – линией. Что-то похожее изображено на этом графике зависимости ответа на горе от времени. Строго говоря, это не визуализация данных, а инфографика – изображение идеи автора
Всё бы хорошо, вот только после снижения ответа на горе, происходит путешествие назад во времени, после которого ответ растёт. Потом этот день грустного сурка начинается заново. Тут нечего улучшить, кроме базового понимания, как работают графики
А здесь всё просто и честно: вот доверие, партнёрство, инновации и эффективность, а вот наши ценности. Даже немного пересекаются!
Это тоже не визуализация данных, а дурацкая иллюстрация по мотивам графиков. Но множества и правда можно изображать при помощи диаграммы Венна. Её можно построить не только для двух, но и для трёх (думаю, все видели подобные круги) и даже для четырёх множеств. Это очень сложный тип визуализации, который редко облегчает понимание данных.
Вот пример интересной диаграммы Венна из научной статьи о бананах. Это относительно неплохой вариант, но и на нём видно основную проблему такого типа графиков – их надо читать, чтобы сравнить данные. Основное преимущество визуализации – простота и скорость зрительного восприятия – теряется
Гораздо более читаемый вариант для изображения таких данных – UpSet plot. С его помощью можно показать гораздо больше множеств и значительно проще визуально сравнивать отличия в их размере.
Завершим подборку гораздо более тонким моментом, однако тоже обесценивающим график (и речь даже не о вырвиглазном дизайне). Здесь показан процент медицинских абортов в США по годам. Попробуйте сами понять, как искажена информация
С вертикальной осью всё в порядке и даже начало идёт от нуля, что позволяет визуально сравнивать, во сколько раз изменились данные. Но на этот раз проблема в горизонтальной оси: точки нанесены на одинаковом расстоянии друг от друга, будь между ними один год или в несколько лет. В целом, это не меняет посыл иллюстрации, но искажает скорость изменения показателя. Кажется, что после 2001 года скорость увеличения абортов увеличилась, но так как до следующей точки 4 года, она на самом деле была меньше, чем прирост с 2000 по 2001 год
В целом, всегда, когда вы видите график, проверяйте несколько вещей:
Подписанные оси. Если непонятно, что изображено на графике, смотреть на него нет никакого смысла
Корректные оси. Если ось начинается не с нуля, визуально размеры сравнить не получится – можно только увидеть тренд. Также важно проверять, чтобы с осями не происходило что-то странное: например, они могут быть перевёрнуты или с неправильными делениями, как на последнем примере
Данные имеют смысл. Например, проценты складываются до 100, а числа имеют разумные масштабы
Этого уже хватит, чтобы найти огромное количество ошибок и манипуляций. Надеюсь, получилось весело и полезно!
Мой телеграм канал о науке и образовании
Любопытно наблюдать за съедобными растениями на старых картинах. Обратите внимание на арбуз слева снизу и гранат около центра. У них значительно больше несъедобной мякоти, чем у тех, что сегодня может купить любой человек в супермаркете
Картина „Посвящение Жакину“ интересна для науки не только этим. На ней изображено разнообразние классов растений, описанное Карлом фон Линнеем. Урна в нише за стеной символизирует этого учёного (этот момент не понял, возможно, в ней находится его прах). А на основании изображён венский ботаник Николаус Йозеф фон Жакин, в честь которого написана картина. Два растения, переплетающиеся над его портретом – Linnaea borealis и Jacquinia mucronata названы в честь Линнея и фон Жакина соответственно
Мой телеграм канал о науке
Это окружность
Нет, не несколько окружностей и не рисунок мопса. Все чёрные линии здесь – это одна окружность! Как это возможно и что я употреблял? Сейчас объясню
Что вообще такое окружность? Учебник геометрии говорит, что это множество точек, расстояние до которых одинаковое. Например, если вы в чистом поле, то места, в которые можно дойти за 5 минут с одной скоростью, будут находиться на окружности. Но иногда окружности могут принимать причудливые формы: например, на Манхэттене они могут быть квадратными. А как их форма будет выглядеть в пространстве с телепортами, между которыми можно мгновенно перемещаться?
Тогда помимо одной привычно выглядящей окружности – скажем, в 5 минутах ходьбы – могут возникать другие. Если телепорт находится от вас в 3 минутах, то можно пройти его и достичь любой точки в 2 минутах от противоположного выхода. Когда телепорты находятся рядом, ситуация может быть ещё интереснее
Разноцветные круги на гифке – это телепорты
С тремя телепортами уже сложнее понять, что происходит, но получается красиво
Чёрные линии всё ещё изображают одну окружность: до любой из них от курсора одинаковое расстояние
На гифке выше через телепорт разрешается проходить только один раз. Но в жизни ничто не мешает гулять через несколько (кроме несуществования телепортов). Если разрешить проходить через один телепорт, выйти из другого, зайти в третий и так далее, пока не исчерпано время на прогулку, окружности выглядят ещё любопытнее
Если червоточины работают как телепорты, такие окружности вполне могут существовать и в нашей Вселенной! Разве что покинуть выход будет затруднительно
Вот ещё любопытный пример, когда два телепорта совсем близко:
Я сделал сайт, на котором вы можете поиграть самостоятельно. Телепорты перетаскиваются мышкой 🙂 С телефона работает не очень удобно, рекомендую заходить с компьютера
Мой телеграм канал о науке
Благодаря современным нейросетям старая шутка превратилась в инструкцию:
Рисуем кружочки
Нейросеть рисует остаток совы
Мой телеграм канал о науке