Корреляция и каузальность
Корреляция – это статистическая взаимосвязь двух величин, при которой изменения значений одной из этих величин сопутствуют систематическому изменению значений другой величины.
Каузальность – это причинная взаимообусловленность событий, при которой при воздействии одного объекта (причина) происходит соответствующее ожидаемое изменение другого объекта (следствие).
Одно из основополагающих свойств человеческой психики – неумение думать статистически. Нам с эволюционной точки зрения нужно и важно видеть в первую очередь причинно-следственные связи: это даёт ощущение контроля, это позволяет выжить в этом полном саблезубых тигров, крокодилов и банковских коллекторов мире, это даёт шанс передать свои гены следующему поколению. Это зашито в нас на уровне ДНК.
Статистика нам на фиг не нужна. Шанс встретить динозавра, выйдя из дома? 50% – ты либо встретишь его, либо нет!
Но мир меняется, мы стали сложнее и умнее (en masse), мы придумали науки и научный метод для более глубокого и точного познания себя и окружающего мира. Среди всего прочего, мы придумали и статистику. Это сложная наука – впрочем, любая наука сложная, но статистика ещё и контринтуитивна. Если физику в её простых формах можно интуитивно понять, потому что её выводы не входят в противоречие с выработанным нами в двухлетнем возрасте умением бросить что-нибудь хрупкое и с восхищением наблюдать превращение одного крупного предмета в десять мелких, – то со статистикой этот фокус не проходит.
Честно говоря, я сам не очень хорошо разбираюсь в сложных формулах и графиках, и не строю из себя спеца в теории вероятностей. Но очень хочется поделиться одним интересным фактом насчёт принципа, который я считаю основополагающим в этой области:
КОРРЕЛЯЦИЯ ≠ КАУЗАЛЬНОСТЬ
или Отлёт птиц на юг не вызывает приход зимы
Большинство людей с научным складом ума знают, что корреляция не значит каузальность. Существует масса примеров, в которых очевидно отсутствует причинное влияние одной величины на другую, хотя присутствует корреляция: количество пиратов отрицательно коррелирует с ростом земной средней температуры (мы понимаем, что пираты не влияют на глобальное потепление, но есть какие-то экономические факторы, которые привели к уменьшению количества пиратов и увеличению выбросов СО2 в атмосферу); количество нобелевских лауреатов связано с потреблением шоколада; предпочтение одежды размера XXXL коррелирует с риском сердечного приступа (кто бы мог подумать?!); количество церквей в городе может коррелировать с количеством баров (хотя очевидно, что обе эти величины зависят от числа жителей данного населённого пункта); et cetera, et cetera.
Корреляция может быть ложной и исчезать при добавлении новых данных, а может и вовсе быть иллюзорной в связи с когнитивными искажениями (см. эвристика доступности); возможно присутствие артефактов, или ошибка 1 рода, или выборка была слишком маленькой; или использовалось cлепое прочёсывание данных и переподгонка (p-hacking/data-mining), а может, повлияла систематическая ошибка отбора или другая ошибка в процессе сбора и обработки данных.
Рекомендую этот сайт, там занимательные графики. Например, корреляция потребления сыра на душу населения и количества людей, которые умерли, запутавшись в простынях своей кровати, составляет 94,71%:
И знаете, в чём проблема? Нам ведь интересны и нужны причинно-следственные связи. А подавляющее большинство исследований рассказывают нам о корреляциях. И создаётся впечатление, что проводящие эти исследования учёные думают, что статистическая связь означает каузальность. Есть отличный обзор (Prasad et al 2013), в котором авторы изучили все оригинальные публикации о нерандомизированных исследованиях, опубликованные в 2010 году в таких серьёзных научных журналах как New England Journal of Medicine, Lancet, Journal of the American Medical Association, и Annals of Internal Medicine. Из 631 публикации 298 (47%) были посвящены обсервационным (не экспериментальным) исследованиям. В 167 (56%) из этих 298 исследований авторы давали лечебные рекомендации, основываясь на результатах своих работ. Только в 24 (14%) из 167 публикаций для проверки рекомендаций было упомянуто о необходимости провести рандомизированные клинические испытания, в остальных 143 публикациях авторы смело выдавали практические лечебные советы. Для них корреляция означала каузальность.
Причина, возможно, заключается в неосознанном применении принципа условной вероятности. Если у нас есть монета, вероятность выпадения любой из двух сторон составляет 1/2. Если мы бросаем игральную кость, вероятность выпадения любой из цифр составляет 1/6. В случае с корреляцией события А и Б могут произойти одновременно по одной из трёх причин: 1) А является причиной Б; 2) Б является причиной А; 3) некая неизвестная переменная В явилась причиной и А, и Б. Если это вариант №1 или №2, мы нашли причинно-следственную связь, и только в случае с вариантом №3 у нас затруднения – но в любом случае, у нас же шансы на каузальность минимум 33%, правда?!
Всё дело в том, что мы интуитивно считаем, что каузальные связи – это нормально и высоковероятно, потому что: ну откуда ещё взяться этой корреляции, если между А и Б нет каузальной связи? И это логично: вряд ли существует вселенский заговор, который постоянно подсовывает нам фактор В, чтобы задействовать вариант №3! И когда кто-то находит корреляцию между А и Б, совсем неудивительно, что они начинают выдавать что-то наподобие:
«Конечно, корреляция не значит каузальность, но… очевидно, что если у вас много толстых знакомых, вы рискуете потолстеть, а ураганы с женскими именами приводят к большим жертвам - по сексистским причинам».
Мы отчаянно хотим верить. Похоже, учёные тоже отчаянно хотят верить. Потому что, если корреляция не означает каузальность, чем они вообще занимаются в большинстве случаев? Если я провожу исследование и получаю данные, которые указывают на то, что умеренное употребление алкоголя ассоциируется с небольшим увеличением средней продолжительности жизни и должно учитываться страховыми компаниями, какое мне вообще до этого дело, если только здесь не причинно-следственная связь? Когда эпидемиологи проводят опрос всего населения и триумфально объявляют, что есть небольшая ассоциация между потреблением мяса (но не яиц!) и средней продолжительностью жизни – кому это может быть интересно, кроме, быть может, тех же страховых компаний? Зачем на это выделяются гранты, зачем они тратят на это время, зачем они публикуют результаты этих исследований – если только у них нет веры («квазирелигиозной?») в то, что эти корреляции не просто некие коэффициенты в рамках модели предсказания, но отображают каузальность?
Хотите посмотреть на «отображение» каузальности? Вот графическое изображение биологической каузальной сети человеческого метаболизма:
Вот вам ссылка, тоже интересно. Попробуйте разобраться.
Здесь всё коррелирует со всем – но не всё является причиной всего. Чем больше переменных в системе, тем больше будет корреляционных связей, но каузальные связи будут появляться медленнее, поэтому количество корреляционных связей, которые также будут каузальными, будет тоже меньше.
Главное наблюдение вот в чём: нельзя рассуждать по принципу «есть 3 категории возможных отношений, поэтому мы отталкиваемся от начальной вероятности в 33%», а нужно рассуждать, что «есть только один вариант ‘А является причиной Б’, только один вариант ‘Б является причиной А’, но есть множество вариантов типа ‘В1 является причиной А и Б’, ‘В2 является причиной А и Б’, ‘В3 является причиной А и Б’, и так далее». И чем больше переменных в нашей каузальной сети (если мы говорим об области психологии или биологии, например), тем больше список этих ‘В’.
Окружающий нас мир – самая большая из всех каузальных сетей. И неудивительно, что большая часть корреляций в нём не являются причинно-следственными связями.
Будьте внимательны.
Заметка подготовлена на основе публикации Гверна Бранвена (Gwern Branwen).