Добавить пост

Лига статистиков

27 постов 74 подписчика

Продолжение поста «Статистика использования тега "Мигранты" на Пикабу»

Ну вот я заморочился и за полчаса собрал данные используя возможности поиска Пикабу:

Продолжение поста «Статистика использования тега "Мигранты" на Пикабу» Статистика, Сбор данных, Ответ на пост

Из графика видно, что достаточно долго количество постов с этим тегом колебалось в пределах 25-35 в месяц. В апреле 2021 начался рост (в ноябре какая то аномалия), который резко пошел на спад в марте 2022, когда повестка резко изменилась (интересно будет поискать, когда начались первые упоминания ЦИПсО), далее более менее ровная линия вплоть до июля 2023, и снова резкий рост. Выводы делайте сами.

Статистика использования тега "Мигранты" на Пикабу

Уважаемые статистики, может кто нибудь подсказать, как собрать статистику по использованию на Пикабу тега "Мигрант" по месяцам, за несколько лет?

Продолжение поста «Линейная регрессия рубля»

На четыре дня раньше моего прогноза однако.

Продолжение поста «Линейная регрессия рубля» Экономика, Статистика, Data Science, Курс доллара, Ответ на пост

Двадцать три дня назад я предсказал, что 100 руб будет достигнуто в интервале с 7 по 14 октября. Использовал простую линейную регрессию по времени.

Продолжение поста «Линейная регрессия рубля» Экономика, Статистика, Data Science, Курс доллара, Ответ на пост
Показать полностью 1

Как подготовить машину к долгой поездке

Взять с собой побольше вкусняшек, запасное колесо и знак аварийной остановки. А что сделать еще — посмотрите в нашем чек-листе. Бонусом — маршруты для отдыха, которые можно проехать даже в плохую погоду.

ЧИТАТЬ

Типичная ошибка ученых

Типичная ошибка ученых Статистика, Наука, Биология, Медицина

Начну издалека, но думаю так будет понятнее о чем я (если нет, то это про поправку на множественную проверку гипотез).

Тиктокер демонстрирует суперспособность: с завязанными глазами бросает мяч и попадает в кольцо. И это не видеомонтаж. Как такое может быть? Опытный пикабушник скажет: баян и жульничество! Он тысячу раз бросал мяч и не попадал, но один раз случайно у него получилось вот это он и показал.

Но этот тиктокер не так прост. У него есть абсолютно надежные доказательства, что все это он делал только один раз и забросить мяч у него получилось с первого раза! Да он даже мячик и кольцо видит первый раз в жизни! Он действительно обладает суперспособностью или тут где-то жульничество? Догадываетесь в чем дело? Тиктокер не повторял бросок тысячу раз, это правда. Вместо этого он сделал тысячу разных трюков, не повторяя их.

Кто-то может решить, что с этим очень просто разобраться – потребуем у тиктокера повторение трюка, вот сразу обман и выяснится! И в следующий раз нам приносят видео, где другой тиктокер подбрасывает монетку два раза и оба раза она падает на ребро. Никакого монтажа, никакого удаления неудачных попыток подбрасывания. Все так и произошло с первого раза.

Догадываетесь как это получилось? Он просто проделал по два раза подряд десять тысяч разных трюков!

Думаете это не имеет отношение к жизни!? Имеет! И подобное регулярно происходит в медико-биологических исследованиях.

Дело в том, что сейчас есть возможность быстро и дешево измерять множество параметров живого организма. Типичное измерение активности генов делается в течение нескольких дней, стоит около $100 и выдает данные об активности десятков тысяч генов.

Теперь вы понимаете, как легко можно провести исследование и “доказать”, что музыка Вивальди, например, влияет на активность генов в раковых клетках. Причем можно даже показать, что это влияние повторяется в нескольких экспериментах. Просто из десятков тысяч результатов отбираем нужное и публикуем!

Показать полностью

Цикличность и особенности Российской тошноты

Я сделал открытие. Тошнота имеет цикличность. Более того, пиковые значения Российской тошноты имеют свои особенности и не совпадают с Американской. Российская тошнота имеет два пика - январский и августовский, а Американская только один - в январе.

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Тошнота в январе скорее всего связана с новогодними праздниками - отравление салатами и алкоголем. Но почему Российская тошнота имеет пик в августе? Созрели кабачки на дачах?

Методика

Проанализированы методом декомпозиции временные ряды поисковых запросов на google trend.

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Анализ поисковых запросов слова "рвота" Российского сегмента интернета

Цикличность и особенности Российской тошноты Статистика, Тошнота, США, Россия

Анализ поисковых запросов слова "vomit" Американского сегмента интернета

Показать полностью 3

Линейная регрессия рубля

Линейная регрессия рубля Экономика, Статистика, Data Science, Курс доллара

Синими линиями показан 95% доверительный интервал линейной регрессии обменного курса рубля к доллару. 100 руб. за доллар будет достигнут с 7 по 14 октября 2023 года. К 1 января 2024 года прогнозируется курс в диапазоне 107.7 - 110.2 руб. за доллар.

Никогда не занимался эконометрикой, но в последнее время курс рубля настолько хорошо моделируется линейной регрессией, что я решил попробовать сделать прогноз.

Диагностика модели.

1. Тест на нормальное распределение ошибки (Jarque-Bera test)

P-value = 0.441. Отклонения от нормального распределения не наблюдается.

2. Тест на гетероскедастичность (Breusch-Pagan test).

P-value = 0.044. Тут проблема - непостоянство дисперсии, но не такое уж и большое судя по графику, потому ничего с этим делать не будем, "сойдет и так".

3. Тест на независимость (автокорреляцию) ошибок (Durbin-Watson Test).

p-value < 2.2e-16. Да, есть автокорреляция и по идее линейная регрессия и оценка доверительных интервалов некорректна. Опять же по графику видно, что эти “автокоррелирующие” отклонения от линии не так чтобы сильно больше изменений, связанных с трендом. Потому “сойдет и так”, посмотрим что получится.

Показать полностью

Дед Мороз и латентное размещение Дирихле

На детский утренник пришел Дед Мороз с тремя мешками конфет от разных организаций. В каждом мешке разные конфеты и они перемешаны. Одних конфет много в одном мешке и нет в другом. Других конфет примерно поровну во всех мешках.

И решил дед Мороз раздать по быстрому конфеты и продолжить праздновать. Раскрыл он мешки и давай детишкам отсыпать конфеты горстями. А поскольку он праздновал уже с самого утра, то совсем не следил кому и сколько конфет он выдает. Потому кому-то досталось по горсти из каждого мешка, кому-то десяток горстей из одного - вообщем полный беспорядок.

Под конец раздачи пришла Мария Ивановна - заведующая детским садиком, чтобы для отчетности пересчитать конфеты в мешках. Но застала только счастливых детей, три пустых мешка и уснувшего деда мороза.

Заведующая была опытным статистиком. Взглянув на деда Мороза она сразу поняла, что он проделал с конфетами латентное размещение Дирихле. А потому есть хороший шанс восстановить сколько и каких конфет лежало в каждом мешке и по скольку горстей конфет из мешков было выдано каждому ребенку.

Вот например, у Машеньки десяток сникерсов, но нет чупа-чепсов, а у Сережи десяток чупа-чупсов и ни одного сникерса. Значит сникерсы и чупа-чупсы лежали в разных мешках. У Танечки примерно пять сникерсов и пять чупа-чупсов, значит дед мороз выдал Маше и Сереже по паре горстей из одного мешка а Тане по горсти из каждого. Вот таким образом что-то понять можно.

Мария Ивановна запустила компьютер, переписала в файл кто и сколько получил конфет и написала скрипт, который ищет максимум вероятности получить такой расклад конфет в пространстве множества параметров - количества конфет в мешках и количество горстей из этих мешков выданных каждому ребенку. Она запустила скрипт и увидела, что процесс поиска сходится. Happy End

Парадокс Монти Холла

Три двери, за одной находится приз. Вам предлагается выбрать дверь, но не открывать ее. После этого ведущий открывает одну из двух оставшихся дверей, но ту, за которой нет приза. Далее вам предлагается открыть дверь, на которую вы указали в начале или другую, которая еще открыта. Зависят ли шансы на приз от вашего решения какую открыть дверь?

Допустим вы человек твердых убеждений, “упертый как баран” и не меняете своего изначального выбора. Тогда ваши шансы на приз 1/3. Тут все просто, три двери, за одной приз.

А вот если у вас “ветер в голове”, “семь пятниц на неделе” и вы вообще забыли на какую дверь изначально указали, а потому просто открываете случайным образом одну из закрытых дверей, то как ни удивительно, но шансы на приз у вас уже 1/2. И тут тоже все просто. Две двери, за одной находится приз.

Самый интересный случай, когда вы всегда открываете дверь, на которую не указывали изначально. Тут ваши шансы становятся 2/3. И вот это понять сложнее всего. Думаю проще будет, если представить эту стратегию немного иначе.

В начале игры вы подходите к ведущему, кладете ему руку на плечо и говорите:

- Дружище, я решил играть с тобой в одной команде и теперь у нашей команды есть право открыть две двери, а значит шансы у нас на приз 2/3. Вот эту дверь не открываем, открываем эту и эту. Ох, какая неприятность, ты не можешь открыть дверь с призом, ну что же придется мне уступить тебе право открыть первым дверь, где нет приза, а я так уж и быть открою другую. И давай сразу договоримся, кто откроет дверь с призом, тому приз и достанется.

P.S.

Видимо мое объяснение оказалось не самое понятное. Потому вот скрипт для симуляции в R стратегии, когда игрок всегда меняет выбор. Результат у меня получился 0.668

Парадокс Монти Холла Статистика, Парадокс, Текст
Показать полностью 1
Отличная работа, все прочитано!