23

Корреляция и каузальность

Корреляция – это статистическая взаимосвязь двух величин, при которой изменения значений одной из этих величин сопутствуют систематическому изменению значений другой величины.


Каузальность – это причинная взаимообусловленность событий, при которой при воздействии одного объекта (причина) происходит соответствующее ожидаемое изменение другого объекта (следствие).


Одно из основополагающих свойств человеческой психики – неумение думать статистически. Нам с эволюционной точки зрения нужно и важно видеть в первую очередь причинно-следственные связи: это даёт ощущение контроля, это позволяет выжить в этом полном саблезубых тигров, крокодилов и банковских коллекторов мире, это даёт шанс передать свои гены следующему поколению. Это зашито в нас на уровне ДНК.


Статистика нам на фиг не нужна. Шанс встретить динозавра, выйдя из дома? 50% – ты либо встретишь его, либо нет!


Но мир меняется, мы стали сложнее и умнее (en masse), мы придумали науки и научный метод для более глубокого и точного познания себя и окружающего мира. Среди всего прочего, мы придумали и статистику. Это сложная наука – впрочем, любая наука сложная, но статистика ещё и контринтуитивна. Если физику в её простых формах можно интуитивно понять, потому что её выводы не входят в противоречие с выработанным нами в двухлетнем возрасте умением бросить что-нибудь хрупкое и с восхищением наблюдать превращение одного крупного предмета в десять мелких, – то со статистикой этот фокус не проходит.


Честно говоря, я сам не очень хорошо разбираюсь в сложных формулах и графиках, и не строю из себя спеца в теории вероятностей. Но очень хочется поделиться одним интересным фактом насчёт принципа, который я считаю основополагающим в этой области:


КОРРЕЛЯЦИЯ ≠ КАУЗАЛЬНОСТЬ


или Отлёт птиц на юг не вызывает приход зимы


Большинство людей с научным складом ума знают, что корреляция не значит каузальность. Существует масса примеров, в которых очевидно отсутствует причинное влияние одной величины на другую, хотя присутствует корреляция: количество пиратов отрицательно коррелирует с ростом земной средней температуры (мы понимаем, что пираты не влияют на глобальное потепление, но есть какие-то экономические факторы, которые привели к уменьшению количества пиратов и увеличению выбросов СО2 в атмосферу); количество нобелевских лауреатов связано с потреблением шоколада; предпочтение одежды размера XXXL коррелирует с риском сердечного приступа (кто бы мог подумать?!); количество церквей в городе может коррелировать с количеством баров (хотя очевидно, что обе эти величины зависят от числа жителей данного населённого пункта); et cetera, et cetera.


Корреляция может быть ложной и исчезать при добавлении новых данных, а может и вовсе быть иллюзорной в связи с когнитивными искажениями (см. эвристика доступности); возможно присутствие артефактов, или ошибка 1 рода, или выборка была слишком маленькой; или использовалось  cлепое прочёсывание данных и переподгонка (p-hacking/data-mining), а может, повлияла систематическая ошибка отбора или другая ошибка в процессе сбора и обработки данных.


Рекомендую этот сайт, там занимательные графики. Например, корреляция потребления сыра на душу населения и количества людей, которые умерли, запутавшись в простынях своей кровати, составляет 94,71%:

И знаете, в чём проблема? Нам ведь интересны и нужны причинно-следственные связи. А подавляющее большинство исследований рассказывают нам о корреляциях. И создаётся впечатление, что проводящие эти исследования учёные думают, что статистическая связь означает каузальность. Есть отличный обзор (Prasad et al 2013), в котором авторы изучили все оригинальные публикации о нерандомизированных исследованиях, опубликованные в 2010 году в таких серьёзных научных журналах как New England Journal of Medicine, Lancet, Journal of the American Medical Association, и Annals of Internal Medicine. Из 631 публикации 298 (47%) были посвящены обсервационным (не экспериментальным) исследованиям. В 167 (56%) из этих 298 исследований авторы давали лечебные рекомендации, основываясь на результатах своих работ. Только в 24 (14%) из 167 публикаций для проверки рекомендаций было упомянуто о необходимости провести рандомизированные клинические испытания, в остальных 143 публикациях авторы смело выдавали практические лечебные советы. Для них корреляция означала каузальность.


Причина, возможно, заключается в неосознанном применении принципа условной вероятности. Если у нас есть монета, вероятность выпадения любой из двух сторон составляет 1/2. Если мы бросаем игральную кость, вероятность выпадения любой из цифр составляет 1/6. В случае с корреляцией события А и Б могут произойти одновременно по одной из трёх причин: 1) А является причиной Б; 2) Б является причиной А; 3) некая неизвестная переменная В явилась причиной и А, и Б. Если это вариант №1 или №2, мы нашли причинно-следственную связь, и только в случае с вариантом №3 у нас затруднения – но в любом случае, у нас же шансы на каузальность минимум 33%, правда?!


Всё дело в том, что мы интуитивно считаем, что каузальные связи – это нормально и высоковероятно, потому что: ну откуда ещё взяться этой корреляции, если между А и Б нет каузальной связи? И это логично: вряд ли существует вселенский заговор, который постоянно подсовывает нам фактор В, чтобы задействовать вариант №3! И когда кто-то находит корреляцию между А и Б, совсем неудивительно, что они начинают выдавать что-то наподобие:


«Конечно, корреляция не значит каузальность, но… очевидно, что если у вас много толстых знакомых, вы рискуете потолстеть, а ураганы с женскими именами приводят к большим жертвам - по сексистским причинам».

Мы отчаянно хотим верить. Похоже, учёные тоже отчаянно хотят верить. Потому что, если корреляция не означает каузальность, чем они вообще занимаются в большинстве случаев? Если я провожу исследование и получаю данные, которые указывают на то, что умеренное употребление алкоголя ассоциируется с небольшим увеличением средней продолжительности жизни и должно учитываться страховыми компаниями, какое мне вообще до этого дело, если только здесь не причинно-следственная связь? Когда эпидемиологи проводят опрос всего населения и триумфально объявляют, что есть небольшая ассоциация между потреблением мяса (но не яиц!) и средней продолжительностью жизни – кому это может быть интересно, кроме, быть может, тех же страховых компаний? Зачем на это выделяются гранты, зачем они тратят на это время, зачем они публикуют результаты этих исследований – если только у них нет веры («квазирелигиозной?») в то, что эти корреляции не просто некие коэффициенты в рамках модели предсказания, но отображают каузальность?


Хотите посмотреть на «отображение» каузальности? Вот графическое изображение биологической каузальной сети человеческого метаболизма:

Вот вам ссылка, тоже интересно. Попробуйте разобраться.


Здесь всё коррелирует со всем – но не всё является причиной всего. Чем больше переменных в системе, тем больше будет корреляционных связей, но каузальные связи будут появляться медленнее, поэтому количество корреляционных связей, которые также будут каузальными, будет тоже меньше.


Главное наблюдение вот в чём: нельзя рассуждать по принципу «есть 3 категории возможных отношений, поэтому мы отталкиваемся от начальной вероятности в 33%», а нужно рассуждать, что «есть только один вариант ‘А является причиной Б’, только один вариант ‘Б является причиной А’, но есть множество вариантов типа ‘В1 является причиной А и Б’, ‘В2 является причиной А и Б’, ‘В3 является причиной А и Б’, и так далее». И чем больше переменных в нашей каузальной сети (если мы говорим об области психологии или биологии, например), тем больше список этих ‘В’.


Окружающий нас мир – самая большая из всех каузальных сетей. И неудивительно, что большая часть корреляций в нём не являются причинно-следственными связями.


Будьте внимательны.


Заметка подготовлена на основе публикации Гверна Бранвена (Gwern Branwen).


Источник

Темы

Политика

Теги

Популярные авторы

Сообщества

18+

Теги

Популярные авторы

Сообщества

Игры

Теги

Популярные авторы

Сообщества

Юмор

Теги

Популярные авторы

Сообщества

Отношения

Теги

Популярные авторы

Сообщества

Здоровье

Теги

Популярные авторы

Сообщества

Путешествия

Теги

Популярные авторы

Сообщества

Спорт

Теги

Популярные авторы

Сообщества

Хобби

Теги

Популярные авторы

Сообщества

Сервис

Теги

Популярные авторы

Сообщества

Природа

Теги

Популярные авторы

Сообщества

Бизнес

Теги

Популярные авторы

Сообщества

Транспорт

Теги

Популярные авторы

Сообщества

Общение

Теги

Популярные авторы

Сообщества

Юриспруденция

Теги

Популярные авторы

Сообщества

Наука

Теги

Популярные авторы

Сообщества

IT

Теги

Популярные авторы

Сообщества

Животные

Теги

Популярные авторы

Сообщества

Кино и сериалы

Теги

Популярные авторы

Сообщества

Экономика

Теги

Популярные авторы

Сообщества

Кулинария

Теги

Популярные авторы

Сообщества

История

Теги

Популярные авторы

Сообщества