Статистика + Теория вероятностей

Теги

С этим тегом используют:

Все теги

Рейтинг

Автор

Сообщество

Тип постов

любые текстовые картинка видео [мое] NSFW

Период времени

за все время неделя месяц интервал

22 поста сначала свежее

user7316492

3 месяца назад

Статистика⁠⁠

Поясните почему в результате t-критерия, если среднее входит в доверительный интервал, то p-value меньше 0.05? Наоборот же должно быть больше, поскольку это среднее "-19.26" не за пределами критических значений?

Статистика Теория вероятностей Текст

VadimPopov

5 месяцев назад

Лига упоротых расчетов

Ответ на пост «Русское лото мошенничество на новый год»⁠⁠

Результаты новогоднего розыгрыша: https://www.stoloto.ru/ruslotto/archive/1526
Давайте проанализируем эти данные — загоняем все в Excel и считаем

Результаты тиража №1526 «Русское лото», трансляция от 01 января 2024 в 15:30

Хмм, что-то не сходится..

На сайте указано что призовой фонд тиража 2 339 822 025 ₽, а простое перемножение даёт сумму 2 779 715 190 ₽ — куда делись еще 439 893 165 ₽ ???

А теперь про вероятности: продано 31 197 627 билетов, из-них билетов с выигрышем 9 208 638, т.е. шансы 29,5% что вы ничего не проиграете и как минимум отобьете свою ставку.

Уберём мелкие выигрыши, оставим только билеты от 1500 р., т.е. с 10-кратным выигрышем — таких получается 38 746 штук.
(38746/31197627)*100 = 0,125%

Итого — вероятность выиграть что-то существенное всего 0,125%

Вероятность выиграть миллиард — 1 к 31,2 миллиону.

Но в любом случае эти вероятности значительно-значительно больше чем нам пытаются показать математики, когда считают комбинаторику — они рассматривают «сферическую лотерею в вакууме» получая совершенно нереальные цифры, но в новогоднем розыгрыше условия изменяются.

P.S. Можно сравнить с рулеткой в казино — ближайший пример получения 10-кратного выигрыша, это ставка на 2 числа с выплатой в 17:1. Вероятность выигрыша — 5.3%
Думайте сами, решайте сами — получается что подобный выигрыш в казино примерно в 40 раз более вероятен, чем в лотерею.

P.P.S. Азартные игры — зло.

P.P.P.S. Я лично знаю человека, который выиграл миллион в Русское лото. Они больше полугода получали эти деньги, заплатили с них налоги. Потом вкинули в покупку квартиры. Но для этого покупали билеты и играли каждую неделю чуть ли не с 1990-х годов.

Показать полностью 2

[моё] Лотерея Мошенничество Русское лото Текст Негатив Статистика Казино Теория вероятностей Ответ на пост Длиннопост

305

sterblich

5 месяцев назад

Книжная лига

Серия Как ожидать неожиданное

Как ожидать неожиданное (2)⁠⁠

Продолжаем знакомиться с книгой Кита Йейтса.

Многие думают: «Совпадения не случайны». Это неудивительно, потому что большинство из нас, сознательно или нет, но считают, что являются центром Вселенной. Cмотрят на вещи со своей колокольни, объявляя удачу – судьбой. Даже там, где нет явной связи, ищутся и находятся знаки и смысл, например, в случае заболеваемости лейкемией в районах, прилегающих к линиям электропередач. Почему? Наверное, когда-то поспешные обобщения спасали нам жизнь. Если кто-то шумит в кустах – то это может быть хищник. Может и не быть, только лучше всё-таки дёрнуть подальше оттуда.

Смысл находим и потому, что не совсем хорошо представляем себе картину случайности. Считаете, эти птицы гнездуются в хаотичном порядке?

Как ожидать неожиданное (2) Книги, Обзор книг, Литература, Теория вероятностей, Статистика, Когнитивные искажения, Критическое мышление, Научпоп, Нон-фикшн, Длиннопост

Гнездовье патагонской чайки

Нет, конечно. Им и в голову не придёт в голову усесться совсем рядом с соседом. А должны бы, если бы садились в случайном порядке.

Ну а если случайная картина напоминает что-то, то мы считаем часто, это не может быть случаем. Этот психический феномен называется апофенией. Некоторые проводят время жизни в поиске тайных сообщений, проигрывая популярные треки задом наперёд, ищут потусторонние сообщения в шуме из динамика радиоприёмника и жалуются на Джоббса, который, по их мнению, недостаточно тщательно перемешивал треки на Айподе. Пришлось тому переделывать алгоритм, чтобы не попадалось несколько треков одного и того же исполнителя подряд (хотя по канонам случайности это вполне возможно).

На самом деле, если захочешь увидеть какое-то совпадение – непременно найдёшь. Учёные, не найдя искомой корреляции в наборе данных, частенько занимаются p-hacking или подгонкой результата. Я рассказывал об этом здесь. Ищут какие-то другие корреляции. И находят их. А то, что они являются полной экзотикой и не воспроизводятся – не волнует. Главное, что можно статейку тиснуть.

В Британии, начиная с 1966 года, было организовано Бюро Предсказаний, куда можно позвонить и рассказать о приближающемся несчастье. В 1967 году некто Алан Хенчер сообщил о скором падении самолёта в горах со смертью 123 или 124 человек. На следующий день мир облетела весть о катастрофе пассажирского лайнера, попавшего в грозу над Кипром. 124 смерти. Бинго! Или нет? Начнём с того, что Кипр горами назвать трудно. Далее, ещё два человека умерло через пару дней в больнице. И закончим тем, что это был лишь один из сотен звонков, поступивших в Бюро от Хенчера. Совпадение? Вполне может быть.

С по-настоящему большими числами всяко бывает. Бывает, выигрывают в лотерею два раза подряд. Бывает, выпадают одни и те же числа два тиража подряд, как в болгарской «6 из 42» в сентябре 2009 года. При этом если в первом из них шесть номеров не угадал никто, то во втором – аж восемнадцать человек. Бывает, чо. Вписать уже выпадавшие номера в билет для следующего тиража – вполне известная стратегия. А вероятность повтора комбинации за более, чем полувековую историю болгарской лотереи составляет ни много, ни мало – 94%. Несмотря на это, болгарский министр спорта запустил расследование, которое не нашло нарушений. Что не удивляет. Не должно удивлять.

Подготовка тиража болгарской национальной лотереи.

Как не должны удивлять повторяющиеся дни рождения в классе, начиная с 23 человек. Да, начиная с этого размера, вероятность того, что у кого-то с кем-то совпадёт, превысит 50%. Объясняется это значительным превышением числа возможных пар (253) таких совпадений над числом одноклассников.

У группы в полсотни человек она составит 97%. А какова она будет у четырехста? 99,99999999...? Нет, конечно. Все 100%. В году-то не бывает больше 366 дней. «Элементарно, это же принцип Дирихле», – скажет математик. «Здравый смысл!» – ответит обыватель. Когда мест в автобусе меньше, чем пассажиров, кому-то придётся стоять.

«Парадокс» дня рождения. Вероятность совпадения хотя бы у двоих из группы.

Как видим, события, которое, казалось бы, имеют весьма малые шансы случиться, происходят вокруг нас постоянно. Здесь ключевые слова: «казалось бы».

Принципом Дирихле пользуются некоторые манипуляторы, пытаясь создать иллюзию своей всеведущести. Они делают прогнозы, закрывающие все возможные варианты с тем, чтобы стереть всё несбывшееся после события. Так сделал некто fifNdhs в Твиттере в попытке «вскрыть» коррупцию в ФИФА.

Double-siding в Твиттере.

Нечто похожее может произойти без манипуляций. Мы можем восхищаться устойчивостью старых зданий, простоявших столетия без видимых повреждений. Но при этом забываем, что всё неустойчивое уже давным-давно развалилось. Можем пасть жертвой рекламы какого-нибудь лекарства, ссылающегося на публикации о его успешном применении. Но забываем, что неуспешные применения вообще не публикуются. Это искажение называют парадоксом выжившего. Совет автора читателю: будьте подобны Шерлоку Холмсу, который делал выводы не только из очевидного, но и из отсутствующих свидетельств. Обращать внимание, когда собаки не лают в ночи.

Мы плохо справляемся с неопределённостью. Нам трудно заставить себя заполнить лотерейный билет так, чтобы какие-нибудь два числа шли друг за другом, хотя примерно половина тиражей содержит такие пары. Хотите создать по-настоящему случайную последовательность? Не выдумывайте ничего, а просто бросьте жребий. Лучше получится. Опытные игроки в камень-ножницы-бумагу безошибочно определяют любую стратегию и начинают бить тебя, как только отгадают её. Не проиграть им можно, лишь переключившись на чистый случай в своём выборе. Так и всюду: если мы на самом деле хотим избежать эксплуатации своей предсказуемости, то некоторую часть своего процесса принятия решения можно попытаться отдать на волю случая.

Некоторую, но не всю! В мире достаточно идиотов, принимающих все решения по броску монеты. Более разумной является смешанная стратегия, которую используют, например, индейцы на востоке Канады. Они бросают жребий, чтобы определить, куда пойти охотиться следующий раз. Случай может помочь нам и при аналитическом параличе, когда мы не можем решиться выбрать из множества альтернатив. Например, выбрать блюдо в меню ресторана. Поговорку «лучшее – враг хорошего» не просто так придумали. Порой, важнее сэкономить время и быстро определиться, чем его упустить в погоне за сомнительной выгодой.

Наше неумение понимать неопределённость можно использовать для изобличения манипуляций. Откройте свою адресную книгу, и если она достаточно велика, можете убедиться, что первой цифрой в номерах домов чаще бывает единица, за ней идёт двойка и т.д. Девятка попадается реже всех. Хоть первым подобный факт заметил американский астроном в девятнадцатом веке (он заметил, что первые страницы математических сборников таблиц всегда наиболее истрёпаны), закон получил имя Фрэнка Бенфорда, который обнаружил подобное распределение в списках бассейнов рек, значениях теплоёмкости и прочих таблицах, включая номера домов.

Распределение Бенфорда.

Казалось бы, просто забавный факт, но нет. Не забываем, что случайные данные тоже подделывают, и не всегда в благих целях. Так некто Уэйн Джеймс Нельсон обналичил как минимум 23 фальшивых чека на сумму до двух миллионов долларов. Жулик знал, что всё, что не превышает стотысячную отметку, практически не проверяется. Но его подвела жадность: слишком многие из его сумм начинались на девятку.

Можно вспомнить в этой связи более общий закон Ципфа, согласно которому частота появления какого-то слова из текста обратно пропорциональна его порядковому номеру в списке «популярности». Наиболее популярное в английских текстах слово „the“ попадается гораздо чаще второго по популярности „of“ и ещё гораздо чаще остальных слов.

Подобным образом разбросаны и другие феномены, например, сила толчков землетрясений в регионе. 4 февраля 1974 года после предупреждения центра землетрясений одной из провинций на северо-востоке Китая власти начали массовые эвакуации. И не зря: в 19:46 случился толчок магнитудой в 7,5 баллов. Сотни тысяч жизней оказались спасены. Китай с гордостью заявил на весь мир об успехах своих сейсмологов. Вот только успехи эти оказались ограничены. Пару лет спустя в соседней провинции случилось ещё одно землетрясение силой в 7,6 баллов. 242 тысячи погибших. Никто не смог предсказать. На что же опирались предсказатели в 1974 году? На правило из старой рукописи, гласившее: «избыток дождя осенью непременно приведёт к землетрясению зимой». Если учесть, что 4 февраля – последний день зимы по китайскому календарю, а также пятибалльный форшок утром того же дня, то нетрудно понять логику китайского сейсмолога, забившего тревогу. Ему повезло. Но всё же он не был так уж неправ в своих ожиданиях. Он мог рассчитывать на сильное землетрясение в регионе в определённый промежуток времени согласно закону Гутенберга-Рихтера. Мы по-прежнему не можем заранее знать, когда это случится, но можем оценить вероятность такого события в определённый промежуток времени. И заранее инвестировать в строительство сейсмоустойчивых зданий, например.

Неочевидность вывода может поджидать нас в, казалось бы, простых случаях. К примеру, при известном заблуждении прокурора, при котором какая-нибудь улика интерпретируется против обвиняемого на том основании, что она является естественным результатом его возможных действий. Но на самом деле она может быть результатом и действий других лиц. Пусть даже эти лица с меньшей вероятностью способны создать её, но круг их может быть так широк, что в целом такой вариант может стать более вероятным, чем тот, что предлагает прокурор. Актуальной иллюстрацией может служить недавняя пандемия коронавируса, когда все массово тестировались. Если тест оказывался позитивным, то это не значило автоматически, что тестируемый инфицирован. Ведь при невысоком уровне распространения вируса в целом и повальном тестировании гораздо выше была вероятность ложнопозитивного теста. Здесь мы входим в мир условной вероятности и формулы Байеса, по которой вероятность можно уточнить на основе новых данных.

Отсюда мораль: при выводе о возможной причине явления нужно обязательно учитывать все возможные сценарии и их вероятности. Иначе можно легко пасть жертвой предвзятости подтверждения. Необходимо собирать новые данные, крупицу за крупицей. И кто знает, может, наступит момент, когда придётся изменить своё мнение. Это нормально. Так Байес сам открыл свою формулу, практикуясь на бильярдном столе и считая шары, попавшие в один или другой угол.

Пожалуй, логичнее можно было бы называть книгу «Занимательная теория вероятности». Слишком велико желание автора набросать побольше иллюстраций из этой науки, приправив соусом из баек о мошенниках. И всё же, до сей поры какая-никакая, но связь повествования с предвидением имелась. В случае с теорией игр, о которой автор рассказывает в очередной главе, я её не увидел.

Показать полностью 4

[моё] Книги Обзор книг Литература Теория вероятностей Статистика Когнитивные искажения Критическое мышление Научпоп Нон-фикшн Длиннопост

Партнёрский материал

specials

Сможете найти на картинке цифру среди букв?⁠⁠

Справились? Тогда попробуйте пройти нашу новую игру на внимательность. Приз — награда в профиль на Пикабу: https://pikabu.ru/link/-oD8sjtmAi

Игры Награда

fakir22

9 месяцев назад

Лига статистиков

Дед Мороз и латентное размещение Дирихле⁠⁠

На детский утренник пришел Дед Мороз с тремя мешками конфет от разных организаций. В каждом мешке разные конфеты и они перемешаны. Одних конфет много в одном мешке и нет в другом. Других конфет примерно поровну во всех мешках.

И решил дед Мороз раздать по быстрому конфеты и продолжить праздновать. Раскрыл он мешки и давай детишкам отсыпать конфеты горстями. А поскольку он праздновал уже с самого утра, то совсем не следил кому и сколько конфет он выдает. Потому кому-то досталось по горсти из каждого мешка, кому-то десяток горстей из одного - вообщем полный беспорядок.

Под конец раздачи пришла Мария Ивановна - заведующая детским садиком, чтобы для отчетности пересчитать конфеты в мешках. Но застала только счастливых детей, три пустых мешка и уснувшего деда мороза.

Заведующая была опытным статистиком. Взглянув на деда Мороза она сразу поняла, что он проделал с конфетами латентное размещение Дирихле. А потому есть хороший шанс восстановить сколько и каких конфет лежало в каждом мешке и по скольку горстей конфет из мешков было выдано каждому ребенку.

Вот например, у Машеньки десяток сникерсов, но нет чупа-чепсов, а у Сережи десяток чупа-чупсов и ни одного сникерса. Значит сникерсы и чупа-чупсы лежали в разных мешках. У Танечки примерно пять сникерсов и пять чупа-чупсов, значит дед мороз выдал Маше и Сереже по паре горстей из одного мешка а Тане по горсти из каждого. Вот таким образом что-то понять можно.

Мария Ивановна запустила компьютер, переписала в файл кто и сколько получил конфет и написала скрипт, который ищет максимум вероятности получить такой расклад конфет в пространстве множества параметров - количества конфет в мешках и количество горстей из этих мешков выданных каждому ребенку. Она запустила скрипт и увидела, что процесс поиска сходится. Happy End

[моё] Теория вероятностей Статистика Анализ данных Текст

Mdaemon

1 год назад

Лига математиков

Про статистику и теории заговора⁠⁠

Вчера вечером попался в горячем один забавный пост. Его уже снесли за политоту, но суть там была в следующем: автор при помощи кучи всяких графиков продвигал тезис о том, что "пикабу постепенно забивается политботами, которые до поры до времени постят котиков и сиськи, и ждут своего часа". И в качестве основного доказательства, на которое наворачивался весь остальной бред, приводился график того, как менялась доля аккаунтов, у которых были большие перерывы (больше года) между постами. График монотонно возрастал, из чего делался вывод, что "происходит непрерывная прокачка аккаунтов, которые ждут своего часа для участия в политсрачах"

И вот тут я вспомнил народную мудрость про то, что "для человека, не знающего физики, мир наполнен магией". А для человека, не знающего статистики, мир оказывается полным заговоров.

Итак, небольшой ликбез в теорию статистики. Представьте, что у вас есть тысяча человек, которые раз за разом бросают монетку. Допустим, каждый из них сделал десять бросков. В среднем у них получилось 5 орлов и 5 решек, но скорее всего, будет один или два человека, у которых выпадала только решка. Никакого мошенничества, обычное совпадение. Допустим, все эти люди продолжали бросать монетку. Постепенно серии из десяти решек появятся и у других людей. А если бросать достаточно долго - то рано или поздно серия из десяти последовательных решек появится у всех.

Если теперь построить график того, как со временем возрастала доля тех, у кого выпало десять решек подряд, то получим непрерывно возрастающий график. Из которого образованный человек увидит, что "фундаментальные законы статистики выполняются", а неграмотный - сделает вывод про "доля жуликов с поддельными монетами в коллективе непрерывно возрастает", и напишет на пикабу огромный пост со срывом покровов про падение нравов и увеличение количества жуликов... Ну, или, если вместо монет будут посты на пикабу, а вместо бросков - решения "написать новый пост или нет" - то можно будет написать стену текста про "кучу спящих политботов, которые до поры до времени постят котиков и сиськи"...

Показать полностью

[моё] Статистика Теория вероятностей Текст

Аноним

1 год назад

Лига математиков

Задачка по терверу на понимание⁠⁠

Здравствуйте.

Помогите пожалуйста поразмышлять над одной задачкой. К сожалению теорию вероятности и мат.статистику проходил давно и ... «мозги заржавели». 🤯

Есть 4.000 одинаковых шариков, 20% из которых красные, остальные 80% белые (пропорция 1:4). Все они перемешаны в куче до однородного состояния.

Я их не глядя достаю партиями по 50шт.

В соответствии с нормальным распределением (вероятностью) 10 шариков будут красные, остальные 40 белые.

Вопрос: вероятность извлечь иное кол-во разноцветных шариков будет пропорционально распределяться в обе стороны, или нет?

Т.е. извлечь партию чтоб был 5 красный шарик так же вероятна как извлечь 20 красных, ведь тут меняется только пропорция (в два раза больше/меньше). Аналогично если бы ни одного красного - все красные.

По моему раз размерность/шаг не меняется, то вероятность будет аналогична, только одно в плюс, другое в минус.

[моё] Математика Теория вероятностей Статистика Текст

fakir22

1 год назад

Лига статистиков

Как я в ночном клубе искал вора телефонов критерием хи-квадрат⁠⁠

Как-то бороздя сайты фриланса я наткнулся на интересную подработку. Заказчик писал, что есть некий ночной клуб, в котором кто-то стал воровать сотовые телефоны. Вход в клуб возможен только по персональной электронной карточке. Заказчик выложил файл с номерами карточек и датами их входа в клуб, а также файл с датами жалоб на пропажу телефонов. Предлагалось вычислить по этим данным тех кто ворует.

Да, задание странное, похожее было на задачку по статистике для студентов (хотя заказчик об этом не писал). Но задачка мне понравилась, так что я решил подработку не брать (как-то неправильно это решать за студента), но воров поискать.

Самое простое что тут можно сделать - посчитать частоту воровства в дни когда человек был в клубе. Тот у кого она максимальная - тот и под подозрением.

Но это неправильный способ. Пришел, например, человек один раз за все время в клуб и в этот день своровали. Вполне возможное совпадение, а мы его в воры запишем, потому что получается, что в дни его появления воруют с частотой 100%.

Правильный подход, по моему, должен звучать как-то так.

- Подозреваемый, вы были в клубе 10 раз и при этом 4 раза пропал телефон. Получается 40% шанс, что при вашем посещении пропадает телефон. А вот 100 раз, что вас небыло в клубе телефон пропадал только 15 раз. Это 15% шанс пропажи - нехорошо это выглядит для вас!

- Я поверю, что это получилось случайно, вы случайно зашли в клуб в дни, когда произошли пропажи. Совпадение, бывает…

- Но поверив в случайность всего происшедшедшего с вами, я получаю возможность просчитать вероятность этой случайности! И поможет мне в этом критерий хи-квадрат, предложенный Карлом Пирсоном в 1900 году. Ну и например, вот этот калькулятор .

- Ага, вот посмотрите на результат, частота вашей случайности 4.6%, а это, увы, слишком мало, чтобы считать вас непричастным к пропаже телефонов!

Вот так я примерно “побеседовал” со всеми членами клуба (с помощью скрипта на языке R) и выявил 3-х человек, связанных с воровством.

Интересно, что нашелся в данных и один посетитель, который наоборот - статистически достоверно (с шансом случайности <5%) снижал вероятность воровства. Я даже задумался, как такое возможно. Но потом вспомнил, что скорее всего это все нереальные данные.

(Для занудных статистиков - про поправку на мно́жественную проверку гипотез я тоже не забыл, сделал коррекцию Бонферрони)

Показать полностью

[моё] Статистика Теория вероятностей

Партнёрский материал

specials

А вы подготовились к главному футбольному событию 2024 года? Пройдите тест, чтобы узнать!⁠⁠

Евро-2024 уже на носу! Готовы ли вы к самому грандиозному футбольному событию года? Проверьте свои знания вместе с нами. Даже если футбол не ваш конек, присоединяйтесь — будет весело!

Для всех поклонников футбола, Hisense подготовил крутой конкурс в соцсетях. Попытайте удачу, чтобы получить классный мерч и технику от глобального партнера чемпионата.

Реклама ООО «Горенье БТ», ИНН: 7704722037

Футбол Тест Евро 2024 Болельщики ВКонтакте (ссылка)

fakir22

1 год назад

Лига статистиков

Правило трех. Вероятность события, которое никогда не происходило раньше⁠⁠

Как вам вот такого рода задача. Создана новая вакцина от обезьяньей оспы, которую испытали на себе 30 добровольцев - у всех все нормально. Что вы можете сказать о частоте побочных эффектов от этой вакцины?

Первое впечатление - тут нечего особо сказать. Надо испытывать дальше. Вот как случатся побочные эффекты, так мы и посчитаем их частоту.

Однако если я скажу, что вакцину "А" испытали на себе 30 добровольцев и ничего не случилось, а вакцину "В" испытали 3000 и ничего не случилось, то вы предпочтете "B". Значит все-таки можно что-то сказать о безопасности вакцины, даже если еще ничего плохого не случилось!

Все дело в правильной постановке задачи. Она должна звучать так:

Какова вероятность побочных эффектов, при которой мы их не обнаружим в эксперименте на 30 добровольцах в 95% случаев.

Эта задача уже имеет точное решение, причем все можно посчитать очень просто!

Максимально возможная частота побочных эффектов равна 3/n, где n - число испытаний.

Вот это 3/n и называется "Правило трех".Т.е. Вероятность побочных эффектов у нас будет в диапазоне от 0% - 10%.

А вот если испытали 3000 человек и все нормально, то вероятность побочных эффектов уже в диапазоне от 0% - 1%.

Теперь, распознав такого рода задачу, вы сможете быстро посчитать все в уме, и сделав напряженное лицо киношного гения уверенно выдать: - "Вероятность этого события ... "

Вот вам еще задачка на эту тему.

Вовочка выглянул в окно 1500 раз и НЕ увидел слона. Каковы шансы, что он его увидит выглянув в 1501-й раз (ответ: 0%-0.2%)

Показать полностью

[моё] Статистика Теория вероятностей Вероятность

Посты не найдены

1 2 3