Пожалуйста, будьте вежливы! В новостных и политических постах действует Особый порядок размещения постов и комментариев.
484

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых»

Почему некорректно делать выводы из наблюдаемых данных, не проверяя сдвиг выборки?

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых» Германия, Новости, Карантин, Медицина, Статистика, Ответ на пост, Длиннопост

Признаюсь: меня как-то задевают статьи, посты и прочие виды публикаций, делающие далеко идущие выводы на основании данных со смещенной выборкой. Это проблема не только данных о вакцинации, коронавирусе и медицине вообще. И я подумал, что это удобный пример, на котором можно на популярном уровне показать, что это за зверь "смещение выборки", и почему стоит чаще задаваться вопросом "а какие были исходные данные". Надеюсь, это будет кому-нибудь полезно.

Disclaimer 1: Этот пост не о том, надо или не надо делать вакцинацию от коронавируса, эффективны вакцины или неэффективны. Пост только о том, что интерпретировать данные надо аккуратно, и всегда следует думать, смещена ли выборка в наблюдениях и насколько.

Disclaimer 2: Если вы знаете, что такое смещенная выборка, то первый выделенный жирным тезис и предпоследняя или последняя картинка будут исчерпывающими.


Проблема в том, что наблюдаемые данные не всегда говорят нам о тех величинах, которые мы пытаемся оценить. Покажу это на примере статьи WAZ. Утверждается, что врач в Бохуме наблюдает следующую картину: в клинике, где он работает, из всех пациентов с положительным тестом на коронавирус 90% пациентов – привитые:

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых» Германия, Новости, Карантин, Медицина, Статистика, Ответ на пост, Длиннопост

Этот кружочек – все пациенты с положительным тестом на коронавирус в данной клинике. n₊⃰ - количество непривитых (n) пациентов с положительным тестом (значок +), v₊⃰ - количество привитых (v) пациентов с положительным тестом v₊⃰ / (v₊⃰ + n₊⃰) = 0.9. Для удобства введем коэффициент асимметрии этого распределения β = v₊⃰ / n₊⃰ = 9.


Это просто наблюдаемые данные, примем их за истину. Но из факта β >> 1 делается вывод «вакцинированные люди — самые большие разносчики вирусов» - и это просто неверная интерпретация данных. Давайте посмотрим, почему.


Представим себе всех жителей г. Бохум большим прямоугольником. Будем представлять себе статическую картину для упрощения. Это допущение, которое сейчас не принципиально. Все жители делятся на вакцинированных (v) и невакцинированных (n):

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых» Германия, Новости, Карантин, Медицина, Статистика, Ответ на пост, Длиннопост

Среди вакцинированных (v) есть болеющие (v₊) и здоровые (v₋), среди невакцинированных – тоже (n₊ и n₋, соответственно):

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых» Германия, Новости, Карантин, Медицина, Статистика, Ответ на пост, Длиннопост

Доля болеющих среди вакцинированных pv = v₊ / v в общем случае может отличаться от доли невакцинированных pn = n₊ / n. Если считать, что все люди в обществе одинаковы – в Бохуме нет людей разных возрастов, групп риска и т.п., и болеют все одинаково тяжело – в этом очень сильно упрощенном представлении соотношение α = pv / pn грубо показывает, есть ли положительный эффект от вакцинации (без учета рисков): α > 1 – значит, вакцинированные болели реже невакцинированных, α < 1 – вакцинированные болели чаще невакцинированных, α = 1 – вакцинированные и невакцинированные болели с одинаковой частотой.


Речь ниже пойдет не о том, какие реальные величины pv и pn. Я хочу только показать принципиальную разницу между двумя оценками: α из полной выборки и β из выборки, наблюдаемой врачом из Бохума.


Чтобы понять эту разницу, посмотрим на население Бохума чуть более внимательно. Из всех жителей (большой прямоугольник, v + n) какая-то часть жителей приходит сдать тест – это оранжевый круг на диаграмме ниже. Это как раз те люди, которые наблюдаемы для врача из клиники. Мы будем отмечать число таких людей звездочкой (*):

Ответ на пост «Немецкий врач призвал отправить на самоизоляцию только привитых» Германия, Новости, Карантин, Медицина, Статистика, Ответ на пост, Длиннопост

(На этой картинке хотелось закончить, как с доказательством теоремы Пифагора, но на всякий случай разберем детальнее)


Поделим этот круг на несколько частей:

1) сдавшие тест вакцинированные делятся на тех, у кого тест выявил положительный результат (v₊⃰) и отрицательный (v₋⃰);

2) сдавшие тест невакцинированные также делятся на тех, у кого тест выявил положительный результат (n₊⃰) и отрицательный (n₋⃰).

Заметим, что в каждой из подгрупп v₊, v₋, n₊ и n₋ доля людей, сдававших тест, может быть совершенно разной, потому что мотивации сдавать и не сдавать тест в совершенно разные как у здоровых и больных, так и у вакцинированных и невакцинированных. Если обозначить эти доли так:

kv = v₊⃰ / v₊ – доля больных вакцинированных, сдавших тест,

kn = n₊⃰ / n₊ – доля больных невакцинированных, сдавших тест,

то показатель, который наблюдает наш врач из клиники в Бохуме, можно выразить так:

β = v₊⃰ / n₊⃰ = ( v₊ ∙ kv ) / ( n₊ ∙ kn) = ( v ∙ pv ∙ kv) / ( n ∙ pn ∙ kn).

(Можно ввести еще sv = v₋⃰ / v₋ – долю здоровых вакцинированных, сдавших тест,и sn = n₋⃰ / n₋ – долю здоровых невакцинированных, сдавших тест, они будут отличаться от kv и kn, но они нам не понадобятся дальше).


Сравним наблюдаемый показатель β с показателем эффективности вакцинации α = pv / pn, который мы на самом деле хотели оценить:

β = ( v ∙ pv ∙ kv) / ( n ∙ pn ∙ kn) = α ∙ ( v / n ) ∙ ( kv / kn ).

Как мы видим, это показатели различаются двумя коэффициентами: v / n – соотношение вакцинированных и невакцинированных, и kv / kn – соотношение долей вакцинированных и невакцинированных больных, сдавших тест. По статистике Яндекса в Германии сейчас примерно 69% вакцинированных, v / n ~ 2.2. Предположу, что соотношение kv / kn тоже больше 1; чтобы посчитать, чему именно оно равно, нужны данные, которых у меня нет. Все равно в таких предположениях β >> α.

Таким образом, на основании данных врача из Бохума просто нельзя сделать выводы об эффективности вакцины. И я говорю не о том, эффективна конкретно какая-то вакцина против коронавируса или нет. Важно в целом помнить, что подобные выводы можно делать только из более полных данных, чем локальное наблюдение со смещенной выборкой. Первая картинка - как раз иллюстрация на примере «вакцины», которая никак не влияет на вероятность заразиться, и при этом в двух клиниках наблюдаются ровно противоположные соотношения β привитых и непривитых пациентов с положительным тестом.

Спасибо, что были въедливы и смогли дочитать до конца! :)

Лучшие посты за сегодня
6200

Утопическое

Утопическое
5359

Розыгрыш мужей в одинаковых рубашках

5006

Мне бы чего-то попроще, можно?

Мне бы чего-то попроще, можно? Юмор, Мемы, Картинка с текстом, Женщины
4823

Дичь

Дичь
4690

Свет далёких планет

Свет далёких планет Планета, Юпитер, Бинокль, Мобильная фотография, Счастье, Ночь
Показать полностью 1
4611

Много...

Много... Юмор, Картинка с текстом, Повтор, Зашакалено, Собака, Мат
Показать полностью 1
4588

Хобби

Хобби Хобби, 30 лет, Пиво, Обжорство, Вина, Алкоголь, Картинка с текстом, Мемы
Показать полностью 1
4556

Не умею тратить деньги

Не умею тратить деньги Истории из жизни, Свидание, Кот
4495

Сериал Бригада vs х/ф Красотка

4423

Признание? Или не знание языков?

Признание? Или не знание языков? МВидео, Одежда, Английский язык, Футболка, Фотография
Показать полностью 1
4240

Как?

Как?
4211

О, воин!...

О, воин!... Юмор, Комментарии на Пикабу, Язык, Трудности перевода, Повтор, Скриншот
4061

Ответ на пост «Барби»

Показать полностью
4016

Обидчивая подруга

Обидчивая подруга
3925

Беспалева

Беспалева Чат, Название, Скриншот, Переписка, Юмор
Показать полностью 1
3722

Несмотря ни на что, нужно следить за собой

Несмотря ни на что, нужно следить за собой Парикмахерская, Стрижка, Уход за собой, Инвалид, Красота, Мотивация
Показать полностью 1
3664

Проверка

Проверка Комиксы, Яд, Длиннопост, Человек, Паук, Trishka_purpurnaya
Проверка Комиксы, Яд, Длиннопост, Человек, Паук, Trishka_purpurnaya
Проверка Комиксы, Яд, Длиннопост, Человек, Паук, Trishka_purpurnaya
Проверка Комиксы, Яд, Длиннопост, Человек, Паук, Trishka_purpurnaya
Показать полностью 4
3597

О русском языке)

О русском языке) Комментарии, Комментарии на Пикабу, Мат, Скриншот
#comment_241614255
Показать полностью 1
3555

Прекратите it курсы

Показать полностью
3478

Что это за штука - 152

Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Что это за штука - 152 Перевел сам, Reddit, WhatIsThisThing, Видео, YouTube, Длиннопост
Показать полностью 16 2
Похожие посты закончились. Возможно, вас заинтересуют другие посты по тегам: