Добавить пост

Лига статистиков

19 постов 61 подписчик
16

Про проверку статистических гипотез с примером на котиках

Про проверку статистических гипотез с примером на котиках Статистика, Эксперимент, Кот

На картинке показан принцип проверки статистических гипотез. Если гипотеза дает малую вероятность наблюдаемых событий (p < 0.05), то она отвергается и противоположная считается доказанной.

Почему это интересно? Потомучто абсолютно все современные научные исследования включают проверку статистических гипотез. Можно сказать, что проверка статистических гипотез - это глобальный фильтр, который защищает нас от лженаучных результатов.

Вообще проверку статистических гипотез можно применять к любым исследованиям. Вот пример на котиках (с расчетом в R).

Котик 7 раз поцарапал вас правой лапой и только 3 раза левой. “Это случайность или кот правша?” - задумались вы.  Решить этот вопрос поможет биномиальный тест.

Предполагаем, что кот - амбидекстр (обе лапы одинаковы) и перекос на правую лапу это случайность. Тогда вероятность получить правой лапой 7 и более раз из 10:

>binom.test(c(7, 3))

p-value = 0.3438

"p-value" получилось очень большое, поэтому с научной точки зрения ничего сказать нельзя. Может правша, а может и нет. 

Значит продолжаем злить кота, доведя количество обдираний до 30 (это количество можно оценить заранее, но это другая история).

Допустим в результате получилось, что 21 раз из 30 кот царапал правой лапой. Считаем p-value:

>binom.test(c(21, 9))

p-value = 0.04277

Вот этот результат научное сообщество уже принимает, как доказательство того, что котик правша.

Примерно так все и устроено в науке.

Но почему именно “0.05”? - Этого никто не знает. Вот так выбрали и все - традиция.

Эта традиция означает также, что 5% всех научных результатов ошибочны. Можно ли уменьшить число ошибочных результатов? - да можно. Например принимать только результаты с p-value < 0.01. При этом ошибочных результатов станет 1%, но увеличится сложность экспериментов и их стоимость. Нашему котику, например, придется вас царапать раз 50 и у него могут устать лапки.

Показать полностью 1
88

О чем пишут пикабушники и пикабушницы

Топ тегов с высокой частотой мужского авторства. 
О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Здесь и далее "Риск мужского авторства" - это отношение процента мужчин в авторах к проценту женщин. (Risk Ratio)


Кто-то может пояснить, почему "My Little Pony" чисто мужская тема? Она более мужская, чем футбол, армия, политика и оружие!


Топ тегов с высокой частотой женского авторства. 

О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Наиболее многочисленные и гендерно нейтральные теги.

О чем пишут пикабушники и пикабушницы Статистика, Мужчины и женщины, Посты на Пикабу, Сравнение, Длиннопост

Источник данных Датасет Пикабу

Показать полностью 3
12

Рейтинги постов и теги

Продолжение Рейтинг постов на Пикабу

Топ 10 тегов с максимальным средним (медианным) значением рейтинга.
Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Здесь и далее рассматривались только теги, поставленные в постах 10 тыс. раз и более. Исключен NSFW (нет данных в предоставленной базе). "Вероятность +10(+1000) и больше" - это пропорция постов, имеющих данный тег и рейтинг которых больше +10 (+1000).


Как видно из таблицы посты с тегом "Негатив" - самая одобряемая категория на Пикабу. Посты с этим тегом собирают максимальное количество плюсов в среднем, причем с большим отрывом от других постов. Напомню, что все остальные посты набирают в среднем +6.


Более того, такие посты имеют максимальную вероятность набрать рейтинг +1000 и более. Вот топ тегов по этому показателю.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Анимешки отличаются тем, что практически гарантированно выходят в "горячее".  Но при этом шанс получить +1000 у таких постов практически нет.

Вот топ тегов, дающих шанс получить за пост +10 и более. (Котики тоже в этом топе, но при этом у них есть какой-то шанс на +1000)

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Теги, дающие постам минимальный шанс получить +10. Напомню, что в среднем (по всем постам) этот шанс равен 0.42.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост

Самые минусуемые и думаю самые противоречивые категории. С одной стороны, они лидеры по среднему количеству минусов, но с другой стороны, посты в этих категориях имеют хороший шанс попасть в горячее и даже получить +1000.

Рейтинги постов и теги Статистика, Факты, Рейтинг, Сравнение, Пикабу, Теги, Длиннопост
Показать полностью 4
35

Рейтинг постов на Пикабу

Рейтинг постов на Пикабу Статистика, Пикабу, Рейтинг, График

Недавно я обнаружил Пикабу датасет, выложенный год назад. Он содержит записи о примерно 3-х миллионов пользователей, 7 миллионов постов и 154 миллионов комментариев. Там нет никаких персональных данных или детальной информации (например кто за какой пост голосовал), так что нет особого повода беспокоиться. Но он содержит интересный материал для анализа (спасибо @NeAdminPikabu, это действительно очень ценный материал).

Я решил его понемногу “майнить” и писать все интересное, что получится найти. Вот первая порция.


Я построил график кумулятивного распределения рейтинга постов на пикабу. График интересен тем, что поможет вам узнать, насколько хорош ваш пост.


Предположим пост получил +21. Ищем 21 на оси "Рейтинг" и по графику определяем, что примерно 70% постов (0.7) имеет на Пикабу рейтинг ниже. То есть ваш пост вошел в 30% лучших постов Пикабу (есть чем гордиться).


А если ваш пост получил -20, то это тоже своего рода достижение. По графику видно, что только 5% постов получают больше минусов чем ваш.


Еще на основе этого графика можно предсказать рейтинг вашего будущего поста на пикабу даже ничего не зная о нем.

Ваш будущий пост имеет шанс 50% получить рейтинг +6 и выше (синяя вертикальная линия). Вот такой забавный результат :). Я буду ссылаться на него, в последующих постах, где расскажу как можно повлиять на рейтинг в лучшую (или худшую) сторону.

Показать полностью 1
7

Как сделана карта мировых ценностей (Диаграмма Инглхарта)

Как сделана карта мировых ценностей (Диаграмма Инглхарта) Статистика, Опрос, Рейтинг, Психология, Социология, Научпоп, Политология, Длиннопост

Эту диаграмму часто показывают политологи и социологи, однако есть у меня подозрение, что мало кто из них представляет, каким образом рассчитываются координаты каждой страны и что такое эти координаты. Как строятся такие карты лучше всего знают статистики, потому что делается это статистическим методом под названием "факторный анализ".


Все подробности построения диаграммы мне найти не удалось (это описано в книгах Инглхарта, а они не бесплатные). Однако того, что я нашел хватит для объяснения принципа.


Сразу оговорюсь, что бласти, выделенные на диаграмме (и их названия) не имеют никакого отношения к построению диаграммы. Это разделение было придумано совсем другим автором (Хантингтоном) и просто взято у него.


Исходные данные для этой карты - это 10 индикаторов. Каждый индикатор - цифра, полученная из ответов людей (респондентов) в ходе опросов. Вот список этих индикаторов:


1) Бог очень важен в жизни респондента.

2) Для ребенка важнее научиться послушанию и религиозной вере, чем самостоятельности и решительности.

3) Аборт никогда не может быть оправдан.

4) У респондента сильно развито чувство национальной гордости.

5) Респондент выступает за большее уважение к власти.


6) Респондент отдает предпочтение экономической и физической безопасности над самовыражением и качеством жизни.

7) Респондент описывает себя как не очень счастливого.

8) Гомосексуальность никогда не может быть оправдана.

9) Ответчик не подписал и не подпишет никакой петиции.

10) Вы должны быть очень осторожны, доверяя людям.


В методе факторного анализа мы предполагаем, что значения индикаторов определяются (коррелируют) небольшим числом скрытых факторов. Эти факторы мы не можем измерить напрямую (часто даже сложно понять их смысл).

В данном случае Инглхарт предположил, что для каждого респондента есть только два фактора, с которыми связаны значения всех десяти индикаторов. Причем первый фактор коррелирует только со значениями индикаторов 1-5, а второй - со значениями 6-10.


Затем, на основе этого предположения в факторном анализе "подгоняются" значения факторов так, чтобы они наилучшим образом коррелировали со "своими" индикаторами. Делается это специальными программами и методами.


Чтобы лучше понять проблему, представьте таблицу, где в строчках респонденты, а столбцы - значения индикаторов. Нам нужно к этой таблице добавить столбец цифр (фактор) так, чтобы он хорошо коррелировал со всеми столбцами ("предсказывал" значения столбцов).

Можно туда просто скопировать, например, значения первого столбца тогда наш фактор будет идеально коррелировать с ним. Однако с другими столбцами он будет плохо коррелировать. А задача состоит в том, чтобы подобрать значения фактора так, чтобы он "более-менее" коррелировал со всеми столбцами. Т.е. нужно сложить с какими-то коэффициентами значения всех столбцов, так, чтобы суммарная корреляция была наилучшей.


В результате "подгона" Инглхарту удалось подобрать значения первого фактора, так, что фактор объяснял (предсказывал) в целом 26% вариаций индикаторов 1-5 и значения второго фактора, так, что он объяснял 13% вариации индикаторов 6-10.


Я предполагаю, что вычислив факторы для всех респондентов автор просто усреднил значения по каждой стране и отобразили точками на диаграмме. Т.е. координаты - это два фактора, наличие которых предположил Инглхарт, а положение стран - их усредненные значения.


Обычно в таком типе анализа (подтверждающий факторный анализ) обязательно проводят тестирование гипотезы о том, что факторы коррелируют с индикаторами (что это не случайное совпадение). Т.е. все это подтверждается статистикой, а не просто является выдумкой автора.


А вот названия факторов и их интерпретация - это уже субъективное мнение автора. Инглхарт решил, что первый фактор (индексы 1-5) отображает ценности традиционные/рациональные, а второй (индексы 6-10) - ценности выживания/самовыражения.



Список индикаторов взят отсюда

Показать полностью 1
10

Ответ на пост «Б - Баланс»

Проанализировал результаты 1050 бросков, приведенных в посте.


Опровергнуть гипотезу о том, что этот кубик имеет дисбаланс не удалось. Наблюдаемые различия в цифрах объясняются случайностью процесса.


Вот результат теста хи- квадрат

Chi-squared test for given probabilities

data: c(174, 169, 176, 188, 176, 168)

X-squared = 1.4662, df = 5, p-value = 0.9169


Это не доказывает, что кубик идеален (такое доказать в принципе невозможно). Это говорит только о том, что доказать неидеальность не получилось.


Однако если предположить, что различия в числах не случайны, то можно оценить количество бросков, после которых есть шанс обнаружить дисбаланс.


У меня получилось, что нужно сделать 9195 бросков этого кубика, чтобы иметь 80% вероятность обнаружить дисбаланс при 5% уровне ошибки.


Chi squared power calculation

w = 0.03735069

N = 9194.93

df = 5

sig.level = 0.05

power = 0.8


Я представил себе забавную картину - отдел контроля качества игральных костей. Сидят люди, кидают кубики, записывают результат :). Или стоят роботы, кидают кубики и  выдают заключение о дисбалансе.

Показать полностью
37

Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры

Как искать жульничество в цифрах. Закон Бенфорда, или закон первой цифры Научпоп, Статистика, Мошенничество

В 1938 году физик Фрэнк Бенфорд непонятно зачем начал пересчитывать цифры в различных таблицах. Возможно он узнал, что криптографы пересчитывают буквы в текстах и решил тоже что-нибудь такое посчитать. Только в книжках у него были одни цифры (он же физиком был). Вот и пересчитал то, что было.


Не зря он этой глупостью занялся. Оказалось, что во многих таблицах первые цифры чисел встречаются с определенной закономерностью. Чаще всего встречается цифра 1, затем 2, 3 …9 и 0. 

Позже такие закономерности начали находить буквально везде - номера домов в городе, протяженность рек, суммы в налоговых декларациях. Причем проверят, например, протяженности рек, измеренную в километрах - есть закономерность, пересчитают в милях - и опять тоже самое! Просто мистика какая-то!


Но мистики тут никакой нет, да и не везде этот закон работает. Все дело в том, что многие явления и объекты носят экспоненциальных характер распределения. Это такое распределение, где большие числа встречаются гораздо реже маленьких.


Богатых людей мало, а бедных много. Большие и протяженные реки встречаются реже маленьких. Коротких улиц гораздо больше чем длинных. Вот тут и возникает закон Бенфорда.

Кроме того, закон хорошо работает там, где числа меняются в диапазоне нескольких порядков (не 0-10, а 0-10000) и там, где данных много.


А если данные и явления имеют другой характер распределения или искусственно ограничены, то закон не работает. Например: школьные оценки, координаты мест в определенном городе, коэффициент интеллекта - тут не будет такой закономерности.


Особенное интересна эта закономерность тем, что нарушается при попытке жульничества и подделке данных. Есть слухи, что налоговая в США отлавливает подозрительную деятельность используя эту закономерность.


Да, совсем забыл добавить про статистику.

Для этого распределения выведена формула, которая дает частоты цифр. Поэтому мы можем посчитать, что получается в данных и оценить случайность отклонений от теоретических значений.

Оценку отклонений от теории можно сделать, например, с помощью критерия хи-квадрат.

Если хи-квадрат нам скажет что-то типо - может получилось и случайно, но такое бывает раз на миллион случаев, то значит данные кто-то подправил.

Показать полностью

Пссс, экономии надо? Есть на Пикабу Скидках

Спешим напомнить про раздел Пикабу Скидки, ведь после праздников немного экономии — то, что нужно для душевного спокойствия.

В Скидках можно найти выгодные предложения со всего интернета от проверенных магазинов и в разных категориях! Все как на Пикабу: в «Горячем» самые популярные скидки и акции, а в «Свежем» — новые.

Десятки новых скидок каждый день. Заходите, выбирайте, пользуйтесь и делитесь сами, если нашли что-то выгодное!

ВПЕРЕД ЗА ВЫГОДОЙ →

Пссс, экономии надо? Есть на Пикабу Скидках Обзор, Халява, Скидки, Выгода
158

Статистический эффект предвзятости публикации или "эффект ящика для папок”

Статистический эффект предвзятости публикации или "эффект ящика для папок” Медицина, Наука, Статистика, Исследования, Рвота

Предположим, что десяток лабораторий занялись исследованием эффекта нового медицинского препарата и они еще не знают, что у препарата эффекта нет.

В 9 лабораториях действительно не обнаружилось какого-либо эффекта, но в одной эффект получился довольно большим. Это вполне обычная ситуация, когда исследования проводятся на небольшой группе. В этом случае даже если лекарство совсем не действует, то чисто случайно может получится эффект.


А тут лекарство новое, работает или нет - неизвестно. Поэтому выделяется денег на исследование по минимуму, а значит и тестирование проводится на маленькой группе.

А дальше 9 лабораторий, не получившие “интересных” результатов откладывают их в долгий ящик и забывают про них. А вот лаборатория, наблюдавшая сильный эффект радостно публикует результаты! И все теперь почти уверены, что лекарство работает!

Вот это и есть эффект “предвзятость публикации”.


Дальше происходит нечто интересное. Поскольку эффект “есть”, выделяется гораздо больше денег и снова десяток лабораторий начинают уточнять величину эффекта. Однако денег больше и группы для испытаний больше. Чисто статистически тут опять возможна ситуация, когда какая-то лаборатория получит значимый эффект, но теперь он будет ближе к истинному - нулевому.


И вот сново мы получаем публикацию, подтверждающую эффект лекарства, но по уточненным данным он уже не такой “потрясающий”

Ну и т.д.


Самая известная история на эту тему - антидепрессант “reboxetine”. В научных публикациях было показано, что его эффективность на 50% выше чем у пустышки (плацебо). Однако вскоре выяснялось, что 74% исследований этого препарата было просто не опубликовано. А когда их учли при подсчете эффекта, то оказалось никакого эффекта и нет. Пустышки работают ничуть не хуже.


(Картинку своровал, но текст написал текст сам).

Показать полностью
Отличная работа, все прочитано!