Как понимать коронавирусные графики? Инструкция «на пальцах»

Представьте, что вы решили посчитать женщин в России.


Допустим, вы способны рассматривать примерно по сто людей в день. В первый день вы насчитали 52 женщины. Во второй к ним прибавилось еще 49, и получилось 101. К третьему дню вы уже насчитали 154, и так далее.

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

И вот вы строите график. По горизонтали — дни, по вертикали — количество женщин, которых вы обнаружили:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

Вы публикуете этот график в интернете. Люди смотрят на него и делают вывод: а количество женщин-то в России растет с каждым днем!


Затем к вам присоединяется китаец, он начинает считать женщин в Китае. Но он нанимает двух помощников, и они считают в три раза быстрее вас. И вот, что получается:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

Люди видят это, и что они думают? Ба-а-а, да китаянки размножаются гораздо быстрее россиянок!


Абсурд? Абсурд!


Данные графики не врут, но поняты они совершенно превратно.


Но что если я скажу вам, что именно так устроены практически все коронавирусные графики в интернете, и многие люди интерпретируют их именно так?



КАК УСТРОЕН ОБЫЧНЫЙ КОРОНАВИРУСНЫЙ ГРАФИК


К примеру, вот график, отображающий общее количество зараженных в Германии и Нидерландах:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

При первом взгляде на него кажется, что в Германии дела обстоят намного хуже!


Но так ли это на самом деле? Нет! Показатели Германии намного выше только потому, что Германия выполняет каждый день примерно в шесть раз больше тестов, чем Нидерладны. Разумеется, и насчитывают они в результате вшестеро больше зараженных:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

В Германии “в поле зрения” тестов попадает в шесть раз больше испытуемых, следовательно, и количество обнаруженных случаев инфекции тоже будет в шесть раз больше.


Реальное количество зараженных при этом остается неизвестным. Не учитывает график и численность населения.



ПРИМЕНЯЕМ ЛОГАРИФМИЧЕСКУЮ ШКАЛУ


Попробуем применить логарифмическую шкалу. Что это такое и зачем она нужна?


Мы знаем, что вирус распространяется в геометрической прогрессии, каждый день умножая количество зараженных на некоторую величину.


Например, если этот коэффициент равен 2, то количество зараженных с каждым днем будет составлять: 1, 2, 4, 8, 16…


Сравнивать эти числа друг с другом не особо полезно, потому что создается ощущение, что ситуация усугубляется.


Ну то есть, она действительно усугубляется — в геометрической прогрессии. Но это-то то мы и так знаем! Если вчера было обнаружено 2 новых случая заражения, а сегодня 4, то завтра следует ожидать 8. Это нам и так понятно. Сравнивать 4 и 8 смысла нет.


Нам интересно другое: ускоряется распространение эпидемии или замедляется? Хотелось бы построить такой график, чтобы на нем рост с постоянным ускорением (например: 1, 2, 4, 8, 16…) отображался прямой линией. При увеличении ускорения (1, 2, 5, 10, 21…) линия бы загибалась вверх, а при уменьшении ускорения (1, 2, 4, 7, 14…) — вниз. Сразу стало бы наглядно!


Это и есть логарифмическая шкала. Применим ее к графику Германии и Нидерландов, на который мы смотрели ранее. Вот, что получится:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

Вот так можно интерпретировать этот график:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

Сначала в обоих странах рост числа зараженных шел с постоянным ускорением, то есть по принципу 1, 2, 4, 8, 16, 32. Но в конце марта ускорение начало ослабевать, и вместо 64, 128, 256 график продолжился числами, условно, 61, 112, 232.


Тут важно понимать, что рост по-прежнему есть. И ускорение тоже есть. Распространение инфекции по-прежнему разгоняется, но с конца марта разгоняется не так резво, как раньше. Если раньше количество зараженных каждый день удваивалось, то есть умножалось на 2, то потом оно стало умножаться на 1.6, потом на 1.4, и так далее, вплоть до 1, то есть отсутствию ускорения. А дальше начнется замедление.


Кстати, на графике видно, что фактическое ускорение распространения коронавирусной инфекции составляет порядка 1.4 на этапе постоянного ускорения. Затем ускорение постепенно падает до 1, и инфекция распространяется линейно, то есть без ускорения.


Линейный рост можно увидеть и на исходном, нелогарифмическом графике, и даже незначительное замедление роста (только у Германии):

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

НО КАК ВСЁ-ТАКИ СРАВНИВАТЬ УСПЕХИ РАЗНЫХ СТРАН?


С геометрической прогрессией разобрались, но перед нами по-прежнему стоит проблема того, что график отражает количество ВЫЯВЛЕННЫХ зараженных, а не того, сколько людей в стране заразилось на самом деле. А количество выявленных зараженных зависит от количества проводимых тестов.


И что же делать?


В случае с подсчетом женщин можно поступить очень просто: нужно количество выявленных женщин поделить на количество рассмотренных людей. Это даст нам процент женщин в населении. И если выборка была более или менее равномерной (вы считали не в армии и не в женском монастыре), то полученное соотношение будет очень близко к фактическому соотношению по всей стране.


Другими словами, вам не нужно пересчитывать всё население страны, чтобы узнать процент женщин в нем. Достаточно узнать этот процент для некоторой части населения — и можно экстраполировать его на всё население.


К сожалению, публично доступная статистика по коронавирусу не сообщает нам ни количество проведенных тестов, ни какая часть населения была протестирована. Нам известно только, как изменялось количество зараженных каждый день.


Но мы можем посчитать другое интересное соотношение: количество свежевыявленных зараженных к общему количеству зараженных. Это очень полезный показатель, который как раз меняется в зависимости от скорости распространения инфекции.


И вот как это соотношение будет выглядеть для Германии и Нидерландов:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

И вот тут становится наглядно видно, что скорость распространения инфекции в этих двух странах меняется практически одинаково!


При этом инфекция может охватывать разную часть населения: как количественно, так и в абсолютном выражении. К примеру, в Германии может быть заражено 40% населения, а в Нидерландах — 5%.


Сколько именно — мы не знаем. Исходная информация не содержит ответа на этот вопрос.


Но что мы точно знаем — это что и Германия, и Нидерланды в одно и то же время добились одного и того же результата: сумели побороть ускорение распространения инфекции и свести его к линейному росту.



НАГЛЯДНЫЕ ДАННЫЕ ПО ВСЕМ СТРАНАМ


Я смастерил вот такой мини-сайт: https://lolmaus.github.io/covisual/


Открывайте его на компьютере, т. к. на телефоне пользоваться неудобно.


На графике доступны:


— данные по всем странам;

— два показателя: заражения и смерти;

— три метрики на выбор: общее количество случаев, количество случаев за последнюю неделю и соотношение первого ко второму, ради которого всё и затевалось;

— два режима шкалы: линейная и логарифмическая.


Когда на экран выводятся данные по большому количеству стран, то разглядеть что-то становится трудно. Поэтому рекомендую выбрать несколько интересующих вас стран и смотреть на них.



НУ ЧЁ ТАМ?


Вот антирейтинг стран на момент написания этого поста (12 апреля). В нем представлены только те страны, где общее количество зарегистрированных случаев заражение превысило тысячу.


1. Беларусь

2. Перу

3. Россия

4. Индия

5. Объединенные Арабские Эмираты

6. Мексика

7. Кувейт

8. Япония

9. Украина

10. Турция

11. Эквадор

12. Бразилия

13. Сингапур

14. Ирландия

15. Молдавия

16. Венгрия

17. Сербия

18. Азербайджан

19. Колумбия

20. Индонезия

21. Саудовская Аравия

22. Катар

23. Панама

24. Египет

25. Великобритания

26. Доминиканская Республика

27. Пакистан

28. США

29. Румыния

30. Польша

31. Марокко

32. Бахрейн

33. Чили

34. Финляндия

35. Босния и Герцеговина

36. Канада

37. Швеция

38. Бельгия

39. Аргентина

40. Португалия

41. Алжир

42. Нидерланды

43. Филиппины

44. Франция

45. Ирак

46. Дания

47. Хорватия

48. Израиль

49. Южно-Африканская Республика

50. Чехия

51. Литва

52. Новая Зеландия

53. Малайзия

54. Германия

55. Испания

56. Армения

57. Иран

58. Греция

59. Италия

60. Словения

61. Швейцария

62. Эстония

63. Тайланд

64. Люксембург

65. Австрия

66. Норвегия

67. Исландия

68. Австралия

69. Корея Южная

70. Китай


Беларусь закономерно лидирует.


Россия тоже вперде планеты всей, что вряд ли кого-то удивит.


А вот Япония удивила.


Италия и Испания в конце списка: они уже преодолели пик, распространение эпидемии в этих странах замедлилось. Это, конечно же, не означает, что у них уже все в порядке.



ИНТЕРЕСНЫЕ ЗАКОНОМЕРНОСТИ


Вот так я объясняю разницу между некоторыми странами:

Как понимать коронавирусные графики? Инструкция «на пальцах» Коронавирус, График, Аналитика, Статистика, Диванные эксперты, Длиннопост, Научпоп

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ


— У разных стран разные методики измерения, сравнивать их некорректно!


Методики действительно разные. Кто-то тестирует всех подряд, кто-то — только тяжелых больных.


Но в соотношении “числа новых случаев за неделю” к “общему числу случаев” фактор методики находится и в числителе, и в знаменателе. Он сокращается, остается чистый коэффициент.



— Не верю!


Вот интересный график: https://aatishb.com/covidtrends/


В нем по горизонтальной оси отложено общее количество случаев, по вертикальной — число новых случаев за неделю. Логарифмическая прогрессия включена для обеих осей.


Обратите внимание, время не находится на оси. Дни представлены в виде данных: каждая точка графика — один день.


И что мы видим? Абсолютное большинство стран подчиняется одинаковому коэффициенту геометрической прогрессии: около 1.4. Независимо от методики, независимо от численности населения и уровня жизни.


Кстати, именно этот график подкинул мне идею сделать мой график и написать этот пост.


Вот замечательное видео, поясняющее его.


Оригинал на английском: https://www.youtube.com/watch?v=54XLXg4fYsc

Перевод на русский: Вирус график (поплюсуйте, этот видос заслуживает большего внимания)



— А если страна резко увеличит количество тестов в день, на твоем графике будет ложный всплеск


Всплеск действительно будет, но кратковременный.


Дело в том, что дополнительное количество случаев попадает сразу и в числитель, и в знаменатель. Причем, в знаменателе оно накапливается, так что достоверность показателя быстро восстановится.


Вот если страна перестанет делать тесты, тогда плохо. На графике это будет выглядеть как победа над эпидемией. Этим путем с самого начала идет Туркменистан, благодаря чему он вообще на график не попал. :)



— Но у разных стран фактическая ситуация может быть абсолютно разной!


Совершенно верно.


Этот график не отражает, какой процент населения заражен. Не видно, справляется ли система здравоохранения или захлебывается.


Короче говоря, график НЕ отражает степень кризисности ситуации в стране. Всё, что он позволяет сравнить — это ускорение распространения инфекции.



— Откуда данные?


Данные мой график берет из этого открытого источника, за что ему спасибо: https://github.com/pomber/covid19 .


Он в свою очередь берет данные Центра системной науки и инженерии Университета Джона Хопкинса, США.



Спасибо за внимание!