Почему некорректно делать выводы из наблюдаемых данных, не проверяя сдвиг выборки?
Признаюсь: меня как-то задевают статьи, посты и прочие виды публикаций, делающие далеко идущие выводы на основании данных со смещенной выборкой. Это проблема не только данных о вакцинации, коронавирусе и медицине вообще. И я подумал, что это удобный пример, на котором можно на популярном уровне показать, что это за зверь "смещение выборки", и почему стоит чаще задаваться вопросом "а какие были исходные данные". Надеюсь, это будет кому-нибудь полезно.
Disclaimer 1: Этот пост не о том, надо или не надо делать вакцинацию от коронавируса, эффективны вакцины или неэффективны. Пост только о том, что интерпретировать данные надо аккуратно, и всегда следует думать, смещена ли выборка в наблюдениях и насколько.
Disclaimer 2: Если вы знаете, что такое смещенная выборка, то первый выделенный жирным тезис и предпоследняя или последняя картинка будут исчерпывающими.
Проблема в том, что наблюдаемые данные не всегда говорят нам о тех величинах, которые мы пытаемся оценить. Покажу это на примере статьи WAZ. Утверждается, что врач в Бохуме наблюдает следующую картину: в клинике, где он работает, из всех пациентов с положительным тестом на коронавирус 90% пациентов – привитые:
Этот кружочек – все пациенты с положительным тестом на коронавирус в данной клинике. n₊⃰ - количество непривитых (n) пациентов с положительным тестом (значок +), v₊⃰ - количество привитых (v) пациентов с положительным тестом v₊⃰ / (v₊⃰ + n₊⃰) = 0.9. Для удобства введем коэффициент асимметрии этого распределения β = v₊⃰ / n₊⃰ = 9.
Это просто наблюдаемые данные, примем их за истину. Но из факта β >> 1 делается вывод «вакцинированные люди — самые большие разносчики вирусов» - и это просто неверная интерпретация данных. Давайте посмотрим, почему.
Представим себе всех жителей г. Бохум большим прямоугольником. Будем представлять себе статическую картину для упрощения. Это допущение, которое сейчас не принципиально. Все жители делятся на вакцинированных (v) и невакцинированных (n):
Среди вакцинированных (v) есть болеющие (v₊) и здоровые (v₋), среди невакцинированных – тоже (n₊ и n₋, соответственно):
Доля болеющих среди вакцинированных pv = v₊ / v в общем случае может отличаться от доли невакцинированных pn = n₊ / n. Если считать, что все люди в обществе одинаковы – в Бохуме нет людей разных возрастов, групп риска и т.п., и болеют все одинаково тяжело – в этом очень сильно упрощенном представлении соотношение α = pv / pn грубо показывает, есть ли положительный эффект от вакцинации (без учета рисков): α > 1 – значит, вакцинированные болели реже невакцинированных, α < 1 – вакцинированные болели чаще невакцинированных, α = 1 – вакцинированные и невакцинированные болели с одинаковой частотой.
Речь ниже пойдет не о том, какие реальные величины pv и pn. Я хочу только показать принципиальную разницу между двумя оценками: α из полной выборки и β из выборки, наблюдаемой врачом из Бохума.
Чтобы понять эту разницу, посмотрим на население Бохума чуть более внимательно. Из всех жителей (большой прямоугольник, v + n) какая-то часть жителей приходит сдать тест – это оранжевый круг на диаграмме ниже. Это как раз те люди, которые наблюдаемы для врача из клиники. Мы будем отмечать число таких людей звездочкой (*):
(На этой картинке хотелось закончить, как с доказательством теоремы Пифагора, но на всякий случай разберем детальнее)
Поделим этот круг на несколько частей:
1) сдавшие тест вакцинированные делятся на тех, у кого тест выявил положительный результат (v₊⃰) и отрицательный (v₋⃰);
2) сдавшие тест невакцинированные также делятся на тех, у кого тест выявил положительный результат (n₊⃰) и отрицательный (n₋⃰).
Заметим, что в каждой из подгрупп v₊, v₋, n₊ и n₋ доля людей, сдававших тест, может быть совершенно разной, потому что мотивации сдавать и не сдавать тест в совершенно разные как у здоровых и больных, так и у вакцинированных и невакцинированных. Если обозначить эти доли так:
kv = v₊⃰ / v₊ – доля больных вакцинированных, сдавших тест,
kn = n₊⃰ / n₊ – доля больных невакцинированных, сдавших тест,
то показатель, который наблюдает наш врач из клиники в Бохуме, можно выразить так:
β = v₊⃰ / n₊⃰ = ( v₊ ∙ kv ) / ( n₊ ∙ kn) = ( v ∙ pv ∙ kv) / ( n ∙ pn ∙ kn).
(Можно ввести еще sv = v₋⃰ / v₋ – долю здоровых вакцинированных, сдавших тест,и sn = n₋⃰ / n₋ – долю здоровых невакцинированных, сдавших тест, они будут отличаться от kv и kn, но они нам не понадобятся дальше).
Сравним наблюдаемый показатель β с показателем эффективности вакцинации α = pv / pn, который мы на самом деле хотели оценить:
β = ( v ∙ pv ∙ kv) / ( n ∙ pn ∙ kn) = α ∙ ( v / n ) ∙ ( kv / kn ).
Как мы видим, это показатели различаются двумя коэффициентами: v / n – соотношение вакцинированных и невакцинированных, и kv / kn – соотношение долей вакцинированных и невакцинированных больных, сдавших тест. По статистике Яндекса в Германии сейчас примерно 69% вакцинированных, v / n ~ 2.2. Предположу, что соотношение kv / kn тоже больше 1; чтобы посчитать, чему именно оно равно, нужны данные, которых у меня нет. Все равно в таких предположениях β >> α.
Таким образом, на основании данных врача из Бохума просто нельзя сделать выводы об эффективности вакцины. И я говорю не о том, эффективна конкретно какая-то вакцина против коронавируса или нет. Важно в целом помнить, что подобные выводы можно делать только из более полных данных, чем локальное наблюдение со смещенной выборкой. Первая картинка - как раз иллюстрация на примере «вакцины», которая никак не влияет на вероятность заразиться, и при этом в двух клиниках наблюдаются ровно противоположные соотношения β привитых и непривитых пациентов с положительным тестом.
Спасибо, что были въедливы и смогли дочитать до конца! :)