В продолжении цикла по основам статистики мы поговорим о том, какие существуют шкалы измерений. Приходилось ли вам когда-нибудь считать средний балл в вузе или школе? Из этого поста вы узнаете, что так делать нельзя :)
Статистика позволяет дать ответ на интересные вопросы: как выглядит среднее нашей группы, однородна ли она, отличается ли от другой группы. Но прежде чем дать ответ на все эти вопросы, нужно сперва определиться, а что же мы измеряем. И, главное, как. От этого уже будут зависеть дальнейшие действия
Для измерения чего бы то ни было: количества проголосовавших людей или оценки качества продукта, мы будем пользоваться определёнными шкалами. Разберём, какие они бывают, какие дают возможности и ограничения
Шкалы делятся на метрические и неметрические. У метрических есть определённая мера: это может быть метр, доллар, градус и так далее. Неметрические шкалы таким свойством не обладают, они попросту отображают имя или порядок. Начнём разбор именно с них
Мы пользуемся ей, когда мы можем только причислить объект к определённому классу. Например, можно разбить людей по национальностям или полу, а макарошки — по видам
Из самой сути шкалы ясно, что если нам даны два объекта с измеренными в номинативной шкале признаками, мы можем только проверять их на равенство. Мы не можем складывать такие данные или даже сказать, какое значение меньше, а тем более, во сколько раз. Говорить, что мужчина больше, чем женщина или что русский больше, чем американец — это язык чего угодно, но не математики
Почему на этом важно акцентировать внимание? При анализе данных, например, в таблице Excel такие переменные могут кодироваться цифрами. Например 1 в графе «национальность» будет значить «русский», 2 — «американец» и так далее. Нет ничего сложного в том, чтобы посчитать среднее. Но какой в этом смысл? :) Вот пример из жизни от одного из моих преподавателей статистики:
Один весьма уважаемый математик занимался обработкой данных клинических исследований. В один прекрасный вечер он позвонил врачу и с восторгом сообщил, что они совершили открытие! Если в таком-то столбце у пациента будет значение 4,5, то у него с вероятностью >90% будет инсульт! К сожалению, оказалось, что значение «4» в этом столбце значит, что пациент находился дома, а «5» — на работе. Где-то между этими двумя точками человека ждёт инсульт…
И лучше не оказываться между...
Эта шкала очень похожа на предыдущую: мы также называем каким-либо образом переменные. Отличие в том, что на этот раз они расположены в определённом порядке, который имеет смысл! Вы могли сталкиваться с ними в психологических опросах: «никогда, иногда, редко, часто, очень часто»
Или на другом примере, который встречался всем — оценки в школе и вузе! Все они в ранговой шкале: «неудовлетворительно, удовлетворительно, хорошо, отлично». Цифры — это всего лишь их обозначения. Поэтому считать средний балл, что является довольно распространённым явлением — не совсем корректно. Что такое «хорошо + отлично поделить на 2»?
Всё, что нам разрешено делать с измерениями в ранговой шкале — проверять их на равенство, а так же говорить, какое значение больше или меньше. Но мы не можем сказать насколько. Если в гонке участвовали 3 человека: первый пришёл за минуту, второй за 5, а третий вовсе не дошёл до финиша, мы можем присвоить им места, но только из них непонятно, как далеки спортсмены друг от друга
А вот забавный пример про некорректное обращение с ранговой шкалой от другого моего преподавателя статистики:
В одном вузе было решено перейти к другой, «более прогрессивной» системе оценок учащихся. Как было принято ранее. Экзамен состоит из 2 частей: практической и теоретической. Представим в такой системе студента, который абсолютно не подготовился к практической части и сдал по ней пустой лист, а теорию каким-то чудом написал (или очень хитро списал) идеально. Что мы поставим за 1 часть? По хорошему, ноль. Во второй придраться не к чему, ставим 5. В среднем — 2,5, идём на встречу студенту и ставим 3.
А вот как выглядит новая система от эффективных менеджеров. Идея такая: студент, прогулявший экзамен и не пришедший на него — это всё-таки разные случаи. Поэтому прогулявшему мы ставим 0, пришедшему — 1. Далее 2-4 ставятся за удовлетворительную работу, 5-7 за хорошую, 8-10 за отличную. Тот же самый студент, проваливший тест, но списавший теорию теперь получает 1+10 / 2 = 5,5 баллов. Что является твёрдой оценкой «хорошо». Качество знаний не изменилось, но оценки разные!
Такое преобразование шкал называется неэквивалентным и недопустимо. Заметьте, что здесь ранговые оценки всё равно складываются. Такая уж система сложилась в вузах, так как она удобна, хоть математически и некорректна
И вот наконец мы дошли до шкалы, в которой возможно всё! Если численные значения наших величин имеют смысл, мы можем делать с ними всё, что угодно: складывать или даже перемножать и, конечно же, сравнивать
Строго говоря, здесь тоже имеются ограничения, если ноль в нашей шкале не имеет математического смысла, как, например, в текущем годе или температурной шкале Цельсия. Но шкалы с зафиксированным нулём, как возраст или шкала Кельвина позволяют совершать любые действия с переменными
Заметьте, что мы легко можем перейти от более мощной шкалы к менее мощной. Так, зная время финиша бегунов можно легко сказать, кто из них первый, второй и третий — перейти к ранговой шкале, а из неё к номинативной. Но переход в обратную сторону часто невозможен
Спасибо за чтение! Увидимся в 3 части. А если интересны посты про учёбу и науку, заглядывайте в нашу группу ВК и телеграм