gulman23

На Пикабу
поставил 3 плюса и 2 минуса
Награды:
5 лет на Пикабу
13 рейтинг 1 подписчик 1 подписка 1 пост 0 в горячем

Статистика в быту

Бывает такое, что вы с другом поспорили и он приводит лунные факты, которые вас не устраивают.Например :

"Ведьмак 3 был без защиты, но стал самой покупаемой игрой, завоевал больше всех наград. Игроки рады, разработчики рады. Когда игру делают с душой и для людей, она всегда найдёт своих фанатов и добьется успехов в финансовом плане. Заметьте, те игры, что защищены очень сильно - лютый однопроходной шлак."

И вы такой: ты не прав потому что...ну есть там хорошие игры.

Как-то неубедительно.


Вот тут нам и придет на помощь статистика.

Нам понадобится:

1.Excel(хотя можно и вручную, но с екселем удобнее будет)

2.Знания статистики.

Поехали.

Сначала нам нужно решить что собственно мы хотим доказать.А доказать мы хотим вот что:

если взять оценки игр с защитой denuvo и оценки игр без защиты denuvo, то собственно разницы никакой и не будет( т.е. значимых статистических различий и нет вовсе).Соответственно защита игр незначительно влияет на их качество

Определим наш эксперимент:

генеральная совокупность(т.е. область нашего эксперимента) - компьютерные игры(для PC);

2 выборки(так как мы не можем взять данные по всем играм, мы будем брать только часть  игр т.е выбирать из генеральной совокупности):

первая выборка - собственно игры с защитой denuvo

соответственно вторая - игры без защиты;

Зависимый параметр - оценка игры на сайте metacritics;

Собственно нулевая гипотеза(т.е что мы хотим доказать) говорит нам о том что никаких различий в генеральной совокупности нет(т.е. не влияет denuvo на игры),а альтернативная гипотеза говорит о том что отличия есть.;


С первой выборкой все просто.Идем на википедию, смотрим какие игры с защитой, заполняем табличку в экселе оценками.

Вторая - чуть посложнее.Ведь мы не должны быть предвзятыми(не выбирать только плохие или только хорошие).Поэтому будем брать популярные(ведь игры с denuvo популярные) игры 2015-2016 гг.

Получилось что то вроде этого

Статистика в быту Текст, Статистика, Игры, Denuvo, Длиннопост

Здесь первый столбик - оценки игр с denuvo(которые я не подписал, но брал примерно по порядку с википедии)

А второй столбик(подписан кстати) собственно игры без защиты.

Вот теперь начинается самое интересное(а именно статистика).

Во-первых нам нужно рассчитать среднее значение оценок.

Для первого столбика - 79,86; Для второго 78,4

Далее нам нужно рассчитать стандартное отклонение для каждой выборки( показывает нам как сильно отличаются данные внутри выборки).В экселе есть функция(СТАНДОТКЛ.В) которая нам поможет. Для первого случая получилось 8.84, для второго 8.

Теперь у нас есть все данные, чтобы рассчитать t-критерий Стьюдента(он позволяет сравнить 2 выборки между собой).Рассчитывается он так

Статистика в быту Текст, Статистика, Игры, Denuvo, Длиннопост

Т.е из среднего значение 1й выборки отнимаем среднее 2й и делим на корень квадратный суммы стандартного отклонения в квадрате деленное на размер выборки.

Получилось 0.57.Но что это значит?

А значит это что наши значения отклоняются от среднего генеральной совокупности на 0.57 среднеквадратичного отклонения (Но что это значит?)

Вспомним нормальное распределение:

Статистика в быту Текст, Статистика, Игры, Denuvo, Длиннопост

Нормальное распределение говорит, что вероятность того,что мы попадем в интервал среднее значение плюс минус 2 сигмы(стандартное отклонение) составляет 95%.

Но нас интересует другое.А именно какова вероятность получить такие или еще более сильное отклонения при условии что у нас верна нулевая гипотеза( т.е. какова вероятность того что защита все такие не влияет на качество игр)


Для этого заходим на сайт

https://vavilovva.shinyapps.io/dist_calc/

выбираем t-distribution(t-распределение)

выбираем both tails(оба хвоста потому что данные отклоняются как в положительную сторону так и в отрицательную) и проводим ползунок на наше t-значение т.е. 0.57(на графике значение равно 0.507, т.к. сайт не позволяет сделать точнее, но это не важно верьте мне) .

вводим количество степеней свободы(кол-во значение первой выборки + второй - 2) или 42

и получаем:

Статистика в быту Текст, Статистика, Игры, Denuvo, Длиннопост

Что наш p-уровень значимости(Рассчитанная в ходе статистического теста вероятность ошибочного отклонения нулевой гипотезы) равен 0.615. Т.е  вероятность получить такие или еще более сильное отклонения при условии что у нас верна нулевая гипотеза равна 61%, что не позволяет нам отклонить гипотезу о том, что защита влияет на качество игр.

Соответственно делаем вывод - Denuvo не влияет на качество игр.


Воооот.Таким образом вы использовали статистику,чтобы быть на высоте доказать свою правоту и сделать это по научному.

Ах да, чуть не забыл:

Статистика в быту Текст, Статистика, Игры, Denuvo, Длиннопост

P.S.S Если где нет запятых, то они наказаны.


P.S.S.(о p-уровнях) На практике p-уровень значимости сравнивают с значением 0.05(хотя в зависимости от важности эксперимента можно взять и меньшее значение). Если p<0.05 то у нас есть основания отклонить нулевую гипотезу( в нашем случае это БЫ значило, что защита игр все таки влияет на их качество).Но почему 0.05?

Для ответа на этот вопрос нам нужно вспомнить картинку нормального распределения.

Вероятность получить значения в интервале +- 2 средних отклонения(2 сигмы) равна 95%.Поэтому "важными" мы будем считать вероятность того что наши значения отклоняются более чем на 2 сигмы(т.е. те самые 5%)

Показать полностью 5
Отличная работа, все прочитано!