Лига статистиков

28 постов 75 подписчиков

Эффект возвращения к среднему

Эффект возвращения к среднему Статистика, Научпоп

Возвращение к среднему - это статистический эффект, описанный более 130 лет назад сэром Фрэ́нсисом Га́льтоном. Упрощенно его можно сформулировать так: если что-то получилось слишком хорошо, то при повторе получится хуже, а если слишком плохо, то при повторе будет лучше.

Это не какая-то философия жизни, а строгая статистическая закономерность, которую можно выразить математическими формулами, чего я тут делать не буду, а вот примеры, как это всё работает, приведу.

Классический пример - это пересдача экзаменов (тестов, контрольных работ).

Результат экзамена определяется не только знаниями, но и случайными факторами. Например, не знал студент один вопрос из сотни, и именно он ему и попался. Понятно, что при повторном экзамене нарваться еще раз на тот же вопрос шансов мало (если вопросы выдаются случайно). Потому результат будет лучше, даже если студент ничего дополнительно доучивать не станет.

Другой классический пример - рост детей и родителей.

Этот пример приводится в научной работе самого Га́льтона. Рост детей определяется не только ростом родителей, но и многими случайными факторами. Если родители имеют слишком высокий рост, то это значит, что не только наследственность у них такая, но и случайные факторы способствовали высокому росту. Второй раз, на их детях, случайности вряд ли так же хорошо сложатся. Так что в среднем дети очень высоких родителей будут чуть пониже родителей. И наоборот, дети родителей с ростом ниже среднего будут чуть выше родителей.

Ну и еще пример про тестирование медицинских препаратов.

Допустим, придумано лекарство “фуфломицин” от хронической болезни, скажем, псориаза. И нужно лечебный эффект подтвердить в клинических испытаниях.

Для испытаний обычно набираются больные, имеющие не самые легкие случаи, чтобы лечебный эффект было проще доказать.

Степень тяжести заболевания зависит от случайных факторов и варьируется со временем, то становится чуть лучше, то чуть хуже. Поэтому в группу на тестирование попадают больные, у которых в среднем тяжесть болезни легкая, но по случайности, в момент первого измерения, она оказалась хуже обычного.

Повторная оценка заболеваний этих людей покажет меньшую степень тяжести, просто потому, что во второй раз случайные факторы вряд ли так же сильно осложнят заболевание. За счет этих случаев мы получим положительный эффект в среднем по группе, даже если никакого лечебного препарата не будем применять.

Замечу, что это не плацебо-эффект, а статистический феномен. Точно так же мы получим положительный эффект на животных.

Если вам стал понятен принцип, то теперь вы сможете предсказать много чего интересного. Например, с точки зрения этого эффекта можно рассмотреть переезд в другой город, смену професии, повторный выход замуж...

Показать полностью 1

Продолжение поста «Статистика использования тега "Мигранты" на Пикабу»1

Ну вот я заморочился и за полчаса собрал данные используя возможности поиска Пикабу:

Продолжение поста «Статистика использования тега "Мигранты" на Пикабу» Статистика, Сбор данных, Ответ на пост

Из графика видно, что достаточно долго количество постов с этим тегом колебалось в пределах 25-35 в месяц. В апреле 2021 начался рост (в ноябре какая то аномалия), который резко пошел на спад в марте 2022, когда повестка резко изменилась (интересно будет поискать, когда начались первые упоминания ЦИПсО), далее более менее ровная линия вплоть до июля 2023, и снова резкий рост. Выводы делайте сами.

Статистика использования тега "Мигранты" на Пикабу1

Уважаемые статистики, может кто нибудь подсказать, как собрать статистику по использованию на Пикабу тега "Мигрант" по месяцам, за несколько лет?

Соревнование самых быстрых

Проверяем сразу три важных навыка: память, внимательность и скорость реакции. Чем быстрее — тем круче и выше место в таблице рекордов. Да, кстати, самые быстрые игроки получат ценные призы.

Продолжение поста «Линейная регрессия рубля»1

На четыре дня раньше моего прогноза однако.

Продолжение поста «Линейная регрессия рубля» Экономика, Статистика, Data Science, Курс доллара, Ответ на пост

Двадцать три дня назад я предсказал, что 100 руб будет достигнуто в интервале с 7 по 14 октября. Использовал простую линейную регрессию по времени.

Продолжение поста «Линейная регрессия рубля» Экономика, Статистика, Data Science, Курс доллара, Ответ на пост
Показать полностью 1

Типичная ошибка ученых

Типичная ошибка ученых Статистика, Наука, Биология, Медицина

Начну издалека, но думаю так будет понятнее о чем я (если нет, то это про поправку на множественную проверку гипотез).

Тиктокер демонстрирует суперспособность: с завязанными глазами бросает мяч и попадает в кольцо. И это не видеомонтаж. Как такое может быть? Опытный пикабушник скажет: баян и жульничество! Он тысячу раз бросал мяч и не попадал, но один раз случайно у него получилось вот это он и показал.

Но этот тиктокер не так прост. У него есть абсолютно надежные доказательства, что все это он делал только один раз и забросить мяч у него получилось с первого раза! Да он даже мячик и кольцо видит первый раз в жизни! Он действительно обладает суперспособностью или тут где-то жульничество? Догадываетесь в чем дело? Тиктокер не повторял бросок тысячу раз, это правда. Вместо этого он сделал тысячу разных трюков, не повторяя их.

Кто-то может решить, что с этим очень просто разобраться – потребуем у тиктокера повторение трюка, вот сразу обман и выяснится! И в следующий раз нам приносят видео, где другой тиктокер подбрасывает монетку два раза и оба раза она падает на ребро. Никакого монтажа, никакого удаления неудачных попыток подбрасывания. Все так и произошло с первого раза.

Догадываетесь как это получилось? Он просто проделал по два раза подряд десять тысяч разных трюков!

Думаете это не имеет отношение к жизни!? Имеет! И подобное регулярно происходит в медико-биологических исследованиях.

Дело в том, что сейчас есть возможность быстро и дешево измерять множество параметров живого организма. Типичное измерение активности генов делается в течение нескольких дней, стоит около $100 и выдает данные об активности десятков тысяч генов.

Теперь вы понимаете, как легко можно провести исследование и “доказать”, что музыка Вивальди, например, влияет на активность генов в раковых клетках. Причем можно даже показать, что это влияние повторяется в нескольких экспериментах. Просто из десятков тысяч результатов отбираем нужное и публикуем!

Показать полностью

Цикличность и особенности Российской тошноты

Я сделал открытие. Тошнота имеет цикличность. Более того, пиковые значения Российской тошноты имеют свои особенности и не совпадают с Американской. Российская тошнота имеет два пика - январский и августовский, а Американская только один - в январе.

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Тошнота в январе скорее всего связана с новогодними праздниками - отравление салатами и алкоголем. Но почему Российская тошнота имеет пик в августе? Созрели кабачки на дачах?

Методика

Проанализированы методом декомпозиции временные ряды поисковых запросов на google trend.

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Анализ поисковых запросов слова "рвота" Российского сегмента интернета

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Анализ поисковых запросов слова "vomit" Американского сегмента интернета

Показать полностью 3

Линейная регрессия рубля1

Линейная регрессия рубля Экономика, Статистика, Data Science, Курс доллара

Синими линиями показан 95% доверительный интервал линейной регрессии обменного курса рубля к доллару. 100 руб. за доллар будет достигнут с 7 по 14 октября 2023 года. К 1 января 2024 года прогнозируется курс в диапазоне 107.7 - 110.2 руб. за доллар.

Никогда не занимался эконометрикой, но в последнее время курс рубля настолько хорошо моделируется линейной регрессией, что я решил попробовать сделать прогноз.

Диагностика модели.

1. Тест на нормальное распределение ошибки (Jarque-Bera test)

P-value = 0.441. Отклонения от нормального распределения не наблюдается.

2. Тест на гетероскедастичность (Breusch-Pagan test).

P-value = 0.044. Тут проблема - непостоянство дисперсии, но не такое уж и большое судя по графику, потому ничего с этим делать не будем, "сойдет и так".

3. Тест на независимость (автокорреляцию) ошибок (Durbin-Watson Test).

p-value < 2.2e-16. Да, есть автокорреляция и по идее линейная регрессия и оценка доверительных интервалов некорректна. Опять же по графику видно, что эти “автокоррелирующие” отклонения от линии не так чтобы сильно больше изменений, связанных с трендом. Потому “сойдет и так”, посмотрим что получится.

Показать полностью

Думаете, что бы такое посмотреть вечером? Есть ответ

Типичная ситуация: надо выбрать фильм на вечер, вы крутите один трейлер за другим, потом все это надоедает, вы бросаете это дело и идете листать ленту. То есть смотрите короткие видео, но в них чего-то не хватает.
Сокращайте ненужные усилия и получайте больше радости: листайте ленту с короткими видео, в которых всего достаточно. Такие водятся на NUUM — свежей платформе для видео, стримов и трансляций. Смотрим, снимаем и зарабатываем!

Реклама ООО «Джумс Проекты», ИНН: 7709484636

Дед Мороз и латентное размещение Дирихле

На детский утренник пришел Дед Мороз с тремя мешками конфет от разных организаций. В каждом мешке разные конфеты и они перемешаны. Одних конфет много в одном мешке и нет в другом. Других конфет примерно поровну во всех мешках.

И решил дед Мороз раздать по быстрому конфеты и продолжить праздновать. Раскрыл он мешки и давай детишкам отсыпать конфеты горстями. А поскольку он праздновал уже с самого утра, то совсем не следил кому и сколько конфет он выдает. Потому кому-то досталось по горсти из каждого мешка, кому-то десяток горстей из одного - вообщем полный беспорядок.

Под конец раздачи пришла Мария Ивановна - заведующая детским садиком, чтобы для отчетности пересчитать конфеты в мешках. Но застала только счастливых детей, три пустых мешка и уснувшего деда мороза.

Заведующая была опытным статистиком. Взглянув на деда Мороза она сразу поняла, что он проделал с конфетами латентное размещение Дирихле. А потому есть хороший шанс восстановить сколько и каких конфет лежало в каждом мешке и по скольку горстей конфет из мешков было выдано каждому ребенку.

Вот например, у Машеньки десяток сникерсов, но нет чупа-чепсов, а у Сережи десяток чупа-чупсов и ни одного сникерса. Значит сникерсы и чупа-чупсы лежали в разных мешках. У Танечки примерно пять сникерсов и пять чупа-чупсов, значит дед мороз выдал Маше и Сереже по паре горстей из одного мешка а Тане по горсти из каждого. Вот таким образом что-то понять можно.

Мария Ивановна запустила компьютер, переписала в файл кто и сколько получил конфет и написала скрипт, который ищет максимум вероятности получить такой расклад конфет в пространстве множества параметров - количества конфет в мешках и количество горстей из этих мешков выданных каждому ребенку. Она запустила скрипт и увидела, что процесс поиска сходится. Happy End

Отличная работа, все прочитано!