Статистика + Человек наук

Теги

С этим тегом используют:

Все теги

Рейтинг

Автор

Сообщество

Тип постов

любые текстовые картинка видео [мое] NSFW

Период времени

за все время неделя месяц интервал

17 постов сначала свежее

Vladimir98

3 года назад

Лев Толстой против Пикабу — статистика русского языка⁠⁠

Недавно я делал пост о частоте букв в русском языке. Из него вы узнали, что «О» встречается чаще, чем 14 самых редких букв вместе взятые, 50% языка написана всего 7 буквами, а «Ё» пора переносить из букваря в Красную книгу

Сегодня мы пойдём ещё дальше! Проанализируем не только буквы, но также их сочетания и целые слова. Для анализа возьмём 4 тома произведения «Война и мир» одного небезызвестного Льва. А для того, чтобы понять, насколько достояние культуры похоже на современный русский язык, сравним его с одним из самых популярных постов на Пикабу 2020 года. У него достаточно много комментариев, в которых люди говорят на разнообразные темы. Это отлично подходит для анализа языка. Вот содержание поста:

Кажется, что язык в комментариях под такой картинкой будет совсем не таким, как в художественном произведении 19 века. Но достаточно длинные тексты становятся похожими друг на друга и подчиняются общим закономерностям. Например, сравним частоты букв:

Они почти идентичны! Единственное, что явно выделяется — частота буквы «Т» в комментариях Пикабу. Предположу, что это связано с тем, что в посте обсуждают Билла Гейтса

Кстати, в комментариях получилось 83 тысячи слов, а в книге — 465 тысяч

Теперь посмотрим на статистику поинтереснее! И самое популярное слово… «И». «И» — самое популярное слово. В обоих текстах

«Топ 15» слов удивительно похожи! Настолько, что первые 4 слова полностью совпадают. Забавляют и суммарные количества слов. Читая «Войну и Мир», вам придётся больше 20 тысяч раз встретить слово «И». Предположим, что на его прочтение уходит одна десятая секунды. Тогда после завершения всех четырёх томов, вы суммарно потратите пол часа только на чтение слова «И»

Вы можете возразить, что эти слова необходимы для связывания текста, поэтому неудивительно, что они так часто встречаются. Можно удалить все предлоги, союзы, частицы и прочие «стоп-слова». Тогда тексты снова приобретают свою индивидуальность. По графику можно сказать, о чём в них шла речь и кто именно главный герой:

Тогда в топ «Войны и мир» попадает 2 французских «стоп-слова» — «de» и «a», что тоже забавно. А у Пьера Безухова и князя Болконского идёт нешуточная борьба за первое место

Ещё правильнее было бы привести слова к одинаковой форме (например, считать «Пьера» и «Пьер» или «Деньги» и «Денег» как одно и то же слово). Могу сделать это в следующих постах :) Пишите, анализ каких текстов вам ещё хотелось бы увидеть или если у вас есть идеи для более интересного анализа

Моя группа ВК и телеграм-канал

Показать полностью 7

[моё] Война и мир (Толстой) Наука Научпоп Статистика Инфографика Русский язык Визуализация Человек наук Длиннопост

226

Vladimir98

3 года назад

График частоты букв в русском языке⁠⁠

На первом месте – "О", она встречается в русскоязычных текстах чаще, чем 14 самых редких букв в сумме! Самая распространённая согласная – "Н", что для меня было неожиданно. А мягкий знак далеко не такой редкий, как я думал – он встречается чаще, чем целых 15 букв

На последнем месте грустит "Ё". Её нещадно вытесняет из письменности "Е", чтобы удержать своё второе место

Если вы читаете достаточно длинный текст, то его 50% составляют всего 7 букв!

Мой телеграм-канал

Показать полностью

[моё] Статистика Русский язык Научпоп График Человек наук

698

Vladimir98

3 года назад

Лига образования

Как визуализировать данные? Виды графиков⁠⁠

Данные окружают нас повсюду. Цены на доллар и бензин, количество новорождённых в стране, температура на улице. Цифры сыпятся со всех сторон! Но гораздо приятнее смотреть на красивые картинки, чем на таблицы с числами. Как же красиво отобразить эти данные?

Гистограмма

Представьте, что у вас есть данные по зарплатам всех людей в стране. Это может быть таблица Excel с единственным столбиком. Смотреть на миллионы чисел вам уж точно не хочется! Но интересно разбить людей на категории по зарплате. Берём одну «корзину» и складываем туда все строки таблицы, в которых записано меньше 15,4 тысяч рублей. Во вторую — людей с зарплатой от 15,4 до 21,8 тысяч и так далее. Получим такую картину:

Визуализация от Коммерсантъ, 2017 год. Современные данные можно найти на сайте росстата

Хотелось бы увидеть нормальное распределение — большую часть людей в центре, немного бедных людей (вряд ли можно полностью избавиться от бедности) и богачей по краям:

К сожалению, это не так: левый «хвост» реального распределения тяжеловат. Благодаря гистограмме мы это увидели, дальше осталось лишь думать и делать выводы

Если данных совсем много, можно не визуализировать отдельные «корзины» в гистограмме, а смотреть только на сглаженную кривую (как на иллюстрации выше). Например, можно посмотреть на то, как изменялся доход на душу населения во времени:

Источник – очень интересное исследование

Стоблчатая диаграмма (bar plot)

В прошлом примере у нас было много чисел в одном столбце таблицы. Это было одно большое распределение, которое мы для удобства разбили на «корзины». Но иногда такие корзины есть в самих данных. Например, если бы у нас были данные о количестве людей, работающих в разных отраслях. Тогда мы бы смогли для каждой отрасли высотой столбца изобразить, как много человек в ней трудоустроены. Это и называется столбчатая диаграмма! Как пример – процент использования разных социальных сетей в мире в 2010-2019 годах:

Круговая диаграмма (pie chart)

Иногда данные составляют доли от чего-то целого. В примере выше, все люди, работающие в разных отраслях, в сумме составляют всё работающее население страны. Есть соблазн изобразить такие данные в виде круга и раскрасить секторы в разные цвета. Площадь сектора будет изображать количество людей, работающих в отрасли. Это называется «круговая», а на английском «пироговая» диаграмма. Например, рекомендованная диета:

Но такому соблазну лучше не поддаваться! Круговые диаграммы ужасны. Они красивы, но, как оказывается, наш мозг довольно плохо на вид оценивает площадь. Особенно если для секторов выбраны контрастные цвета или график сделан трёхмерным и под наклоном. Вот отличная иллюстрация того, как непросто оценивать круговые диаграммы:

На первом графике сектора возрастают по площади от красного к чёрному. На втором они почти одинакового размера. А на третьем — наоборот, убывают. Но на первый взгляд диаграммы кажутся почти одинаковыми! Чтобы увидеть различия приходится внимательно в них вглядываться. А мы как раз хотим упростить понимание данных. Сравните с нижней частью рисунка чтобы понять, как просто ту же информацию извлечь из стобликов

Гифка о том, как сделать круговую диаграмму лучше:

Коротко — лучше не использовать круговые диаграммы вообще, если только вы не хотите намеренно запутать людей. Но иногда их использование уместно. Например, мне кажется удобной визуализация места на диске в Ubuntu. Это не совсем классический pie chart, но суть похожа. Можно рассмотреть сколько места занимает каждая папка, а затем её подпапки:

Иногда круговые диаграммы используют с настоящими пирогами, обыгрывая английское название:

Линейный график

Отлично подходит, когда между точками на графике есть какая-то связь. Например, временная. Когда вы можете сказать, что в разных точках что-то растёт или падает, по отношению к предыдущим, это именно тот случай, когда нужно использовать линейный график! Вот, например, график количества смертей от лесных пожаров по годам:

Цены акций, количество денег у вас на счету, количество заболевших какой-нибудь болезнью — всё это можно визуализировать именно так. Иногда для тех же данных используются и другие методы. Например, уже знакомая нам столбчатая диаграмма, где все столбики помещены друг на друга:

Или можно изображать визуализировать данные как площади, помещая их друг на друга:

У этих видов графиков есть свои плюсы и минусы, но не будем останавливаться на них в этой статье. Можете предположить в комментариях, когда такая визуализация будет хорошей, а когда непонятной или некрасивой!

Точечный график (scatter plot)

На русском также называется «диаграмма рассеяния». Этот график помогает понять зависимость одной переменной от другой. Например, по одной оси откладывается площадь дома, а по второй его цена:

Видно, что в целом, чем больше площадь дома, тем дороже он стоит (переменные коррелируют). Визуально видно и исключения: по цене ниже 200 тысяч есть дома с очень большой площадью

Такой вид графика хорош ещё и тем, что он показывает сырые данные, как они есть. Иногда графики отображают только средние значения или разброс точек вокруг средних. На диаграмме рассеяния же мы видим каждый дом в виде точки!

Иллюстрация ниже показывает, почему это может быть важно. У всех графиков на ней одинаковые средние по обеим осям. Более того, на всех графиках одинаковая дисперсия и корреляция между переменными. Не пугайтесь, если не знаете термины, они просто означают разброс данных и связь между переменными

Все эти данные «одинаковые», если смотреть на средние, дисперсию или корреляцию, но благодаря простому графику очевидно, насколько они разные!

Недостаток такой визуализации в том, что она позволяет изобразить только две переменные. Если их в ваших данных три, то можно попробовать построить трёхмерный график. А если четыре? Такое изображение поймут только существа из фильмов Кристофера Нолана. А если переменных десять, то даже они не справятся

Хотя, используя разные цвета и формы точек, всё же можно изобразить на одном рисунке много переменных. На графике ниже изображены данные по возрасту актёров и актрис в фильмах. Каждая точка обозначает возраст главного актёра (по горизонтальной оси) и возраст главной актрисы (по вертикальной). Размер круга обозначает бюджет фильма, а цвета — конкретных актёров

Видно, что в актёры обычно старше актрис. Кажется, что это различие ещё больше выражено в высокобюджетных фильмах. А цвета позволяют проследить карьеру каждого актёра. Целые четыре переменные мы уместили на плоскости! И смогли увидеть в данных много интересного

На этом сегодняшняя подборка завершается. Это были только самые базовые виды графиков. В арсенале аналитика есть также скрипичные графики, «ящики с усами» и многое другое! Если вам понравится пост, то сделаю продолжение :)

Моя группа ВК и телеграм-канал

Показать полностью 15

[моё] Наука Научпоп Статистика Данные График Человек наук Визуализация Гифка Длиннопост

Vladimir98

5 лет назад

Лига образования

Чем занимается искусственный интеллект⁠⁠

Сегодня отовсюду слышно термины «Машинное обучение» и «Искусственный интеллект». Но что это такое? Человекоподобный робот, который уже скоро отберёт вашу работу, котика и семью? Я бы хотел приоткрыть завесу магии и показать, что ИИ сегодня — вовсе не что-то страшное и таинственное

Прежде всего, давайте разберёмся, чем машинное обучение отличается от искусственного интеллекта?

На самом деле, ИИ — скорее маркетинговый термин. Поэтому существует шутка о том, что если вы пишете код на Питоне, то это машинное обучение. А если презентуете что-то людям, то, конечно, это искусственный интеллект

Что может на самом деле

Постоянно появляются новости о том, что ИИ научился генерировать лица людей, рисовать пейзажи или играть в приставку лучше, чем люди. Из-за этого и создаётся впечатление, что крутые роботы скоро займут наши рабочие места. Но это в какой-то мере ошибка выжившего: все громкие новости — уникальные проекты. Большая же часть «разработчиков искусственного интеллекта» решают куда более приземлённые задачи. Например:

Оптимизация поисковой выдачи

Когда вы набираете какую-нибудь фразу в поисковике, именно алгоритмы машинного обучения подсказывают вам её продолжение. А другие решают в каком порядке выдавать вам сайты, лучше подходящие под ваш запрос. Всё для того, чтобы вы воскликнули "Именно то, что мне нужно!"

А также рекомендаций и рекламы

Похожие алгоритмы пытаются предсказать вам видео, которое вы с большей вероятностью посмотрите и рекламу, на которую вам захочется кликнуть. Была даже грустная шутка о том, что лучшие умы человечества сегодня заняты тем, что думают, как заставить человека кликнуть на баннер

Кредитный скоринг

Когда вы хотите взять кредит, банк должен быть уверен, что вы его выплатите. Вы заполняете анкету и на основе предыдущих случаев выплаты/невыплаты кредита людей с похожими на вас данными, банк выставляет вам определённый «балл», который повлияет на решение. У меня шансы почему-то не очень высокие :)

Наука и медицина

Здесь применение машинного обучения и вовсе безгранично! Вот, например, результат работы нейронной сети, предсказывающей очаги рассеянного склероза по снимкам МРТ

Подробнее!

Мы посмотрели на несколько частных примеров, теперь давайте обсудим, какие вообще существуют области машинного обучения. Обычно, их выделяют 3:

1. Обучение с учителем

2. Обучение без учителя

3. Обучение с подкреплением

Поговорим подробнее про задачи, решаемые в каждой из них

Обучение с учителем

Допустим, у вас есть какие-то данные. Это может быть таблица, которую можно посмотреть в Excel, картинки или, например, звуковые записи. Будем называть одну единицу данных объектом: это строка из таблицы с признаками какого-то одного человека (или чего-то другого), одна картинка или один аудиофайл

Если мы точно знаем какое-то свойство объекта, то можем попытаться его предсказать! Например, в таблице с данными пациентов в одном из столбиков может говориться, выжил человек или нет. Картинки могут быть точно подписаны: на какой пёсель, а где котейка. Вместе со звуком может идти какая-то дополнительная информация: слова на записи или жанр песни. Поэтому обучение и называется «с учителем»

•Классификация

Если мы точно знаем, что объекты делятся на несколько классов, можно попытаться их различать! Пусть компьютер посмотрит на все остальные признаки объекта и попытается понять, чем пёсики отличаются от котиков или что же влияет на выздоровление пациентов

Регрессия

А что если мы хотим предсказать не какой-то класс, а непрерывное число? Например, у нас есть таблица с данными квартир. Мы знаем сколько у каждой квартиры комнат, какова её площадь, этаж и район. А самое главное, для каждой нам известна цена. Если мы хотим снять квартиру, не переплачивая или продать свою, нам нужно понять, сколько будет стоить квартира с такими параметрами. Это позволит сделать регрессия

Обучение без учителя

Не всегда мы точно знаем, что хотели бы предсказывать. Иногда просто есть куча данных и хочется найти в них что-то интересное. Тогда можно просто загрузить данные в алгоритм в надежде, что он что-то обнаружит

Если вы никогда не видели такой картинки, загуглите «Граф друзей ВК». Он покажет сеть ваших друзей. Каждая точка соединена с вами, и если два человека дружат между собой, между ними рисуется связь. На моём графе чётко видно 2 кластера: это люди из разных городов

Часто строятся дендрограммы, показывающие, какие объекты похожи друг на друга больше всего

Видно, что сначала в 1 группу объединились самые близкие точки: E и F, затем A и B, и так далее. В конце концов остаются два кластера: что довольно легко увидеть на графике слева

Вот как это выглядит с реальными данными об автомобилях. Если вы разбираетесь в машинах, можете предположить, по какому принципу они считались похожими

Можно завернуть дендрограмму в круг. Вы, наверняка, видели подобные филогенетические деревья. Это очень часто используется в генетике

Обучение с подкреплением

Если у вас есть не набор данных, а какая-то динамичная среда, вы можете поместить в неё модель машинного обучения! Например, заставить её играть в Змейку. Вы говорите «Ты можешь ходить вверх, вниз, вправо и влево и видеть экран». Дальше вы поощряете модель за увеличение длины тела и штрафуете за проигрыш. Таким образом система старается повысить желаемый результат и учится! Всё, как в биологии

Есть даже генетические алгоритмы, в которых создаётся много случайных моделей. Те, кто достиг лучшего результата, остаются в живых и дают потомство, остальные удаляются. Дарвин хлопал бы в ладоши

Считалось, что компьютеру никогда не одолеть такую сложную игру, как Го, но в 2015 году это всё же произошло. Команде исследователей за это даже присвоили почётный 9 дан

Позже алгоритм от этой же компании играл в Доту 2 против человека, а в 2018 году сыграл командой. Здесь успех уже не был так ошеломляющ, но это всё же колоссальный прорыв

Как это работает?

Мы познакомились с задачами и областями ИИ. Но как это всё устроено внутри всё ещё напоминает магию. Я бы хотел разрушить это ощущение, поэтому давайте сами изобретём один из распространённых алгоритмов

Предположим, у нас есть набор данных пациентов. Для каждого человека мы знаем давление и есть ли у него диагноз «Гипертония». Можно отобразить это на графике вот так:

Каждая точка — пациент. График читается, смотря на координаты точки по каждой из осей. Например, давление у человека, которому соответствует самая левая точка — примерно 135/60

Теперь представим, что к нам поступили данные о давлении нового пациента и мы не знаем диагноз. Нужно сказать, всё ли в порядке или лучше пройти осмотр. Как это сделать?

Для нас очевидно, что давление высоковато. Но представьте, что пациентов поступает сразу 10000. Неохота смотреть на каждого из них, верно? Давайте попытаемся понять, как мы отнесли эту точку к классу гипертоников

Очевидно, она просто ближе к ним! Мы смотрим на ближайших соседей точки и говорим «Раз ты рядом с ними, наверное, ты к ним и относишься»

Поздравляю, мы только что изобрели метод k ближайших соседей! k потому что мы можем смотреть на 1, 2 или другое число близких точек

Конечно, такую задачу человек решит легко, зачем же здесь учить чему-то машины? Но в этом примере было всего 2 признака: систолическое и диастолическое давление. Их легко изобразить на плоскости. Если бы их было 3, то можно было бы попытаться нарисовать 3-мерное пространство. А если 4? А если 400? :)

Для компьютера посчитать расстояние до каждой точки было бы решаемой задачей, для человека — невыполнимой. Поэтому, главное понять идею алгоритма, остальное сделает машина

Известный физик Ричард Фейнман когда-то шутил: «Математики — странные ребята. Ты просишь у них какую-то формулу, они говорят:

— О, у нас есть чудесная формула для N размерностей!

— Зачем мне N, я же живу в трёхмерном мире?!

— Так просто подставь N=3»

Оказывается, такая абстрактная математика бывает полезна

Надеюсь, я немного развеял у вас ощущение того, что искусственный интеллект — это что-то таинственное и непонятное. Это просто более крутой анализ данных, статистика на стероидах

Сегодня ИИ решает довольно узкие задачи и ещё не скоро заменит человека во всех сферах жизни

Моя группа ВК и телеграм

Показать полностью 21 1

[моё] Искусственный интеллект Машинное обучение Лонгриды Наука Математика Анализ данных Статистика Человек наук Видео Длиннопост

Vladimir98

5 лет назад

Лига образования

Статистика с макарошками. Часть 2 — шкалы⁠⁠

1. Введение, генеральная совокупность и выборка

В продолжении цикла по основам статистики мы поговорим о том, какие существуют шкалы измерений. Приходилось ли вам когда-нибудь считать средний балл в вузе или школе? Из этого поста вы узнаете, что так делать нельзя :)

Статистика позволяет дать ответ на интересные вопросы: как выглядит среднее нашей группы, однородна ли она, отличается ли от другой группы. Но прежде чем дать ответ на все эти вопросы, нужно сперва определиться, а что же мы измеряем. И, главное, как. От этого уже будут зависеть дальнейшие действия

Для измерения чего бы то ни было: количества проголосовавших людей или оценки качества продукта, мы будем пользоваться определёнными шкалами. Разберём, какие они бывают, какие дают возможности и ограничения

Статистика с макарошками. Часть 2 — шкалы Статистика, Математика, Наука, Учеба, Человек наук, Макароны, Мемы, Длиннопост

Шкалы делятся на метрические и неметрические. У метрических есть определённая мера: это может быть метр, доллар, градус и так далее. Неметрические шкалы таким свойством не обладают, они попросту отображают имя или порядок. Начнём разбор именно с них

Номинативная шкала

Мы пользуемся ей, когда мы можем только причислить объект к определённому классу. Например, можно разбить людей по национальностям или полу, а макарошки — по видам

Из самой сути шкалы ясно, что если нам даны два объекта с измеренными в номинативной шкале признаками, мы можем только проверять их на равенство. Мы не можем складывать такие данные или даже сказать, какое значение меньше, а тем более, во сколько раз. Говорить, что мужчина больше, чем женщина или что русский больше, чем американец — это язык чего угодно, но не математики

Почему на этом важно акцентировать внимание? При анализе данных, например, в таблице Excel такие переменные могут кодироваться цифрами. Например 1 в графе «национальность» будет значить «русский», 2 — «американец» и так далее. Нет ничего сложного в том, чтобы посчитать среднее. Но какой в этом смысл? :) Вот пример из жизни от одного из моих преподавателей статистики:

Один весьма уважаемый математик занимался обработкой данных клинических исследований. В один прекрасный вечер он позвонил врачу и с восторгом сообщил, что они совершили открытие! Если в таком-то столбце у пациента будет значение 4,5, то у него с вероятностью >90% будет инсульт! К сожалению, оказалось, что значение «4» в этом столбце значит, что пациент находился дома, а «5» — на работе. Где-то между этими двумя точками человека ждёт инсульт…

И лучше не оказываться между...

Ранговая шкала

Эта шкала очень похожа на предыдущую: мы также называем каким-либо образом переменные. Отличие в том, что на этот раз они расположены в определённом порядке, который имеет смысл! Вы могли сталкиваться с ними в психологических опросах: «никогда, иногда, редко, часто, очень часто»

Или на другом примере, который встречался всем — оценки в школе и вузе! Все они в ранговой шкале: «неудовлетворительно, удовлетворительно, хорошо, отлично». Цифры — это всего лишь их обозначения. Поэтому считать средний балл, что является довольно распространённым явлением — не совсем корректно. Что такое «хорошо + отлично поделить на 2»?

Всё, что нам разрешено делать с измерениями в ранговой шкале — проверять их на равенство, а так же говорить, какое значение больше или меньше. Но мы не можем сказать насколько. Если в гонке участвовали 3 человека: первый пришёл за минуту, второй за 5, а третий вовсе не дошёл до финиша, мы можем присвоить им места, но только из них непонятно, как далеки спортсмены друг от друга

А вот забавный пример про некорректное обращение с ранговой шкалой от другого моего преподавателя статистики:

В одном вузе было решено перейти к другой, «более прогрессивной» системе оценок учащихся. Как было принято ранее. Экзамен состоит из 2 частей: практической и теоретической. Представим в такой системе студента, который абсолютно не подготовился к практической части и сдал по ней пустой лист, а теорию каким-то чудом написал (или очень хитро списал) идеально. Что мы поставим за 1 часть? По хорошему, ноль. Во второй придраться не к чему, ставим 5. В среднем — 2,5, идём на встречу студенту и ставим 3.

А вот как выглядит новая система от эффективных менеджеров. Идея такая: студент, прогулявший экзамен и не пришедший на него — это всё-таки разные случаи. Поэтому прогулявшему мы ставим 0, пришедшему — 1. Далее 2-4 ставятся за удовлетворительную работу, 5-7 за хорошую, 8-10 за отличную. Тот же самый студент, проваливший тест, но списавший теорию теперь получает 1+10 / 2 = 5,5 баллов. Что является твёрдой оценкой «хорошо». Качество знаний не изменилось, но оценки разные!

Такое преобразование шкал называется неэквивалентным и недопустимо. Заметьте, что здесь ранговые оценки всё равно складываются. Такая уж система сложилась в вузах, так как она удобна, хоть математически и некорректна

Количественная шкала

И вот наконец мы дошли до шкалы, в которой возможно всё! Если численные значения наших величин имеют смысл, мы можем делать с ними всё, что угодно: складывать или даже перемножать и, конечно же, сравнивать

Строго говоря, здесь тоже имеются ограничения, если ноль в нашей шкале не имеет математического смысла, как, например, в текущем годе или температурной шкале Цельсия. Но шкалы с зафиксированным нулём, как возраст или шкала Кельвина позволяют совершать любые действия с переменными

Заметьте, что мы легко можем перейти от более мощной шкалы к менее мощной. Так, зная время финиша бегунов можно легко сказать, кто из них первый, второй и третий — перейти к ранговой шкале, а из неё к номинативной. Но переход в обратную сторону часто невозможен

Спасибо за чтение! Увидимся в 3 части. А если интересны посты про учёбу и науку, заглядывайте в нашу группу ВК и телеграм

Показать полностью 10

[моё] Статистика Математика Наука Учеба Человек наук Макароны Мемы Длиннопост

Vladimir98

5 лет назад

Лига образования

Статистика с макарошками, часть 1⁠⁠

Это первая статья из цикла по основам статистики. В нём вы узнаете, зачем нужна эта наука и даже будете понимать её страшные термины. Но здесь не будет сухого математического языка, я постараюсь донести всё на простых примерах, которыми волею судьбы стали макарошки

Зачем нужна статистика

В зарубежных курсах первая лекция часто посвящена обсуждению темы: почему полезен этот предмет. У нас такой традиции почему-то не сложилось, откуда и возникают вопросы студентов «Зачем вообще это нужно?» после матанализа, «Как это использовать?» после дифференциальных уравнений и «Это что сейчас было?» после рядов Фурье. Я постараюсь разрушить эту тенденцию и объяснить, как применяется статистика в реальной жизни и кому она нужна

Статистика зародилась как математическая дисциплина. Это выглядит довольно забавно — математика привыкла работать со строгими абстрактными понятиями: например, в геометрии линии не имеют толщины, а матанализ работает с понятиями бесконечно малых и бесконечно больших чисел. Даже физика, описывающая с помощью математики наш мир, сводит всё к абстракциям. И вот такую строгую, оторванную от реального мира науку, просят описать этот самый реальный мир со всеми его погрешностями и отклонениями. Как тебе такое, Фридрих Гаусс?

Но трудами великих, математика с этим справилась и вполне неплохо помогает решать важные задачи. Так врачи могут определить, какое из лекарств работает лучше, маркетологи — понять, что именно нравится людям, а учёные — открыть новую элементарную частицу или ответственный за заболевание ген!

Статистику можно использовать и в повседневной жизни. Одна из моих преподавателей с её помощью подобрала оптимальную цену для сдачи квартиры. Я сам хочу провести подробный анализ постов в своей группе и посмотреть, как люди отреагируют на разные тематики

Самые продвинутые области человеческого знания сегодня обязательно используют статистику. Вы могли слышать про искусственный интеллект или большой адронный коллайдер. Статистика необходима для работы и с тем, и с другим! Более того, в большинстве научных статей используется статистическая обработка данных. Учёные показали, что восприятие оптических иллюзий зависит от возраста? Будьте уверены, в этом замешана статистика

Давайте же разбираться, как работает эта дисциплина!

Генеральная совокупность и выборка

Статистика изучает объекты реального мира, которые мы измеряем опытным путём. И её часто интересуют конкретные числа, описывающие изучаемый объект. Например, маркетолога интересует, как выглядит среднестатистический клиент. Или, каков разброс трат в магазине. Чтобы понять, откуда берутся эти числа, нам сначала нужно поговорить о том, что такое генеральная совокупность и выборка

Генеральная совокупность — это вообще все объекты, обладающие интересным для нас признаком! Например, для маркетолога — это все его клиенты, а для кардиолога — все пациенты с заболеваниями сердца. Изучая генеральную совокупность, мы сможем с огромной точностью описать все её параметры: среднего клиента, самое частое значение или их разброс. Это самый надёжный для статистики метод! Который, правда, почти не используется. И на это есть причины:

• Большой объём. Иногда объектов для изучения слишком много, что делает их изучение дорогим или невозможным. Например, было бы интересно узнать средний рост людей на Земле. Но ещё интереснее было бы найти человека, готового их всех измерить

• Недоступность. Порой все объекты вообще недоступны нам для изучения. Очень бы хотелось узнать побольше про динозавров! Но большинство из них уже давно открыло своими короткими лапками ворота в мир иной и нам приходится делать выводы только по имеющимся останкам

• Бессмысленность. Иногда изучение всех объектов может просто не иметь смысла. Представьте, например, что вы исследуете процент брака таблеток, выпускаемых заводом. Для того, чтобы изучить состав таблетки нужно её разрушить. «Брака не выявлено!» говорите вы директору завода, разрушив всю партию. «Спасибо тебе, друг, большое!» говорит вам ни один директор

Поэтому нам нужно как-то судить о генеральной совокупности по её части. Такая часть называется выборкой. Если выборка хорошая и отлично соответствует картине в целом, она называется репрезентативной

Представьте, что у вас нет микроволновки, но вам нужно разогреть себе на обед макарошки. Приходится делать это по старинке — в сковороде на плите

Можно просто подождать достаточно времени и все макарошки гарантированно будут тёплыми. Но кушать хочется уже сейчас! Нужно определить, подогрелась ли еда, попробовав часть: ведь сказать «Холодновато», съев их все не имеет смысла

Теперь, как бы вас ни пугал этот термин, вы заинтересованы в репрезентативности выборки. Но как выбрать макарошки так, чтобы они хорошо отразили картину в целом?

Например, можно попробовать их из разных частей сковородки. Это будет называться простым случайным отбором. Так мы удостоверимся, что часть макарошек не будет холодной из-за неравномерного прогревания. Ещё больше улучшить точность оценки можно, выделив группы. Например, у нас могут иметься макароны разного размера или куски мяса. Попробовав случайные объекты из разных групп, мы проведём то, что называется стратометрическим отбором. Страты или кластеры — просто способ назвать группы понаучнее

Есть и другие методы, но их мы оставим. Для изучения основ этого хватит, к тому же уже пора приступать к поглощению генеральной совокупности!

А отличный пример нерепрезентативной выборки я приводил здесь

Спасибо за чтение! Это первая образовательная рубрика для меня, поэтому очень важна обратная связь: пишите пожелания, советы и критику в комментариях. А если интересны посты про образование и науку, заглядывайте ко мне в ВК и телеграм

Показать полностью 4

[моё] Статистика Математика Научпоп Образование Наука Макароны Человек наук Длиннопост

Vladimir98

5 лет назад

Лига образования

Немного о лжи и статистике⁠⁠

Я уже писал о том, как нечестные люди могут пользоваться статистикой, чтобы вводить в заблуждение:

Как лгать с помощью статистики

Как лгать с помощью статистики — часть 2

Но на этом хитрости маркетологов не закончились, поэтому перед вами третья часть

Немного о лжи и статистике Статистика, Наука, Маркетинг, Математика, Ложь, График, Корреляция, Человек наук, Длиннопост

Корреляция значит связь?

Если вы не изучали этот вопрос подробно, подумайте, как вы воспринимаете термин корреляция? Его часто используют для того, чтобы показать связь величин. Но правда в том, что корреляция не подразумевает причинно-следственную связь. Она показывает, что две величины изменяются похоже. Связаны ли они, можно только предполагать или доказывать другими методами

Например, представим, что в неком исследовании была выявлена сильная корреляция между временем, проводимым школьниками за видеоиграми, и уровнем их агрессивности. Значит, видеоигры ведут к агрессии?

Нет, не значит! Из одной только корреляции сделать такой вывод нельзя. Можно только сделать несколько предположений:

1. Видеоигры приводят к агрессивному поведению

2. Агрессивные школьники чаще играют в видеоигры — это также может быть справедливо

3. Существует третий фактор, не учтённый в исследовании. Например, дети со строгими родителями могут быть более агрессивными, а дома прятаться в мире видеоигр

4. Связи между параметрами нет, а сильная корреляция — результат случайности

Существуют даже подборки абсурдных корреляций, чтобы показать, что из них не следует причинно-следственная связь. Вот, например, данные по расходам США на науку, космос и технологии в сравнении с уровнем суицидов от удушения. Корреляция 99%

В самом коэффициенте корреляции ничего лживого нет, это чистая математика. Все проблемы появляются при интерпретации его людьми

Скрытие малой выборки за процентами

Хорошая статистика часто требует большого количества наблюдений. Бесполезно делать выводы, основываясь на 2-3 или даже 10 случаях. Но если ваша цель — не строгая научная работа, а суровый маркетинг, то этим можно пренебречь. Но говорить в рекламе, что ваша зубная паста улучшила состояние зубов 3 из 4 человек, не очень эффективно. Зато 75% звучит гораздо лучше!

Такую уловку просто определить, если цифры уж очень круглые: 75, 80, 95 процентов. Но может быть сложнее, если выборка состояла из менее красивого числа — например, шести наблюдений

Маркетинговые графики

Все приёмы, описанные мной в этом и предыдущих постах легко раскусываются людьми, понимающими, как работает статистика. Но они не являются явной ложью: лишь затруднением интерпретации (как отсчёт оси y не с нуля из первого поста) или ошибкой интерпретации, намеренной или случайной. Но мне довелось побывать на бизнес-тренинге, но котором я услышал то, что заставило мои брови поползти на лоб, натянув кожу так, что руки поднялись писать этот пост. Цитата:

Если вы показываете график с доходом вашей компании, то линию через точки можно провести по разному. Можно сделать это плавно или заставить выглядеть чуть выгоднее. А в самом конце, где точки заканчиваются, будет эффектно провести линию вверх, добавив стрелку, чтобы показать, насколько значимым будет ваш рост!

Я даже не мог подумать о такой уловке раньше, потому что это идёт в разрез с миром вокруг меня. В науке за такой график выступающего самого порвут на гистограмму, даже на студенческой конференции. Но на тренинге дальше я ещё не раз наблюдал подобную визуализацию от других людей. Такие вот дела

Если интересны посты об образовании и науке, заглядывайте в мою группу ВК и канал телеграм

Показать полностью 4

[моё] Статистика Наука Маркетинг Математика Ложь График Корреляция Человек наук Длиннопост

Vladimir98

5 лет назад

Лига образования

Как лгать с помощью статистики — часть 2⁠⁠

Продолжаем разбирать, как можно ввести в заблуждение людей, некорректно используя статистику. Предыдущий пост

Выбор среднего

Часто в новостях и рекламе можно услышать слово «среднестатистический». Но что такое среднее? Существует среднее арифметическое, среднее геометрическое, среднее гармоническое и список можно продолжать! А неподходящий (случайно или осознанно) выбор среднего может существенно исказить результаты

Рассмотрим такой пример. Пусть у нас имеются три человека: бабушка Елена Анатольевна с пенсией 8000, сисадмин Вася с зарплатой 40000 и миллионер Павел Умнов, зарабатывающий в месяц ровно миллион

Как лгать с помощью статистики — часть 2 Статистика, Математика, Маркетинг, График, Наука, Научпоп, Человек наук, Инфографика, Длиннопост

Если мы попросту вычислим среднее арифметическое, сложив их зарплаты и поделив на 3, то получим, что оно равно 350 тысяч рублей! Осталось обрадовать этой новостью бабушку

На логарифмической шкале эти значения даже не выглядят слишком далёкими друг от друга. Красная линия — среднее арифметическое

Для таких случаев лучше подходит такое среднее, как медиана. Это значение, которое делит все наши данные на две равные части (по количеству). Медианным значением для этого примера была бы зарплата сисадмина Васи — 40000. До неё и после неё находится одинаковое количество людей (по одному). Тогда Васю мы могли бы назвать человеком со среднестатистической зарплатой, всех получающих менее Васи — с небольшим достатком, больше — богатыми

Однако, с помощью медианы можно было бы наоборот скрыть очень выдающиеся (в большую или меньшую сторону) значения

Сложение нескладываемого

Вспомните пятибалльную систему оценивания в школе. Представьте, что семиклассник Данил написал диктант на 5, а его одноклассник Леонардо решил написать его справа налево и получил двойку. Делим 5 на 2 и получаем, что Данил написал диктант в 2,5 раза лучше! Верно?

Неверно. Баллы — это придуманная номинальная переменная, которая выражает цифрами словесные оценки отлично, хорошо и так далее. «Неудовлетворительно» ровно в 2,5 раза хуже, чем «отлично»?

Таким образом, считать средние баллы по оценкам или для каких-нибудь тестов математически не имеет смысла

Предвзятая выборка

По данным интернет-голосования 100% людей пользуются интернетом

Ещё до всякой статистики можно солгать, если неправильно собрать данные. Классический пример — президентская гонка США 1948 года: Дьюи против Трумана. Газета Chicago Tribune сразу после закрытия избирательных участков провела опрос, обзвонив огромное количество людей. А по результатам, предсказывающим оглушительный успех Дьюи выпустила газету с заголовком «ДЬЮИ ПОБЕЖДАЕТ ТРУМАНА». На фото — смеющийся Труман, победитель выборов 1948 года, с этой самой газетой в руках

Что пошло не так? Газета обзвонила достаточное для выборки число избирателей, причём действительно случайных. Неверным был лишь сам подход — телефон в то время не был доступен небогатому населению, основная масса которого и составляла поддержку Трумана

Ещё одним примером являются зарплаты выпускников, обещаемые вузами. В США дело доходило даже до судов — выпускники утверждали, что данные по зарплатам искусственно завышены. Но дело совершенно в другом: просто данными о своём заработке с вузом делятся только люди, довольные им

Ищу зарплату гендиректора по гибкому графику без опыта работы

«Наглядная» визуализация

Есть тысяча и один способ приукрасить данные. Например, наглядно их визуализировать. Это может помочь чтению скучных графиков, а если сделать это с долей хитрости, то и более выгодно их преподнести

Вот график потребления количества пива в США в миллионах баррелей и доли компании Schlitz. Он действительно впечатляет!

Но приведём этот график в более строгий вид: отобразим данные точками и начнём ось y от нуля:

Уже не кажется таким внушительным. При изображении точек графика в виде бочек, люди визуально воспринимают не верхушки бочек, а их объём. А при увеличении стороны бочки в 2 раза объём увеличивается в 8 раз! С таким размахом помогает начинающаяся со 100 ось y

Вот ещё один пример. Замечательная инфографика, которая показывает сколько денег тратится на борьбу с заболеваниями и смертность от них

Идея великолепна. Однако присмотритесь внимательнее к цифрам. Цена при оранжевом круге примерно в 2 раза меньше, чем при розовом. Но розовый круг больше в 4 раза!

Авторы предпочли сделать зависимым от цены радиус круга. Но мы визуально воспринимаем вовсе не радиус, а площадь фигуры! А формула площади круга зависит от радиуса квадратично

Ещё лучше эту инфографику можно сделать, если расположить одинаковые болезни на одной линии. Так выглядит исправленная версия:

Визуализация не только более правдоподобна, но и явно доносит мысль: некоторые болезни не так опасны, сколько денег на них тратится, а борьба с другими финансируется недостаточно

Пример качественной визуализации

На графике размер армии Наполеона. Крайняя правая точка — Москва, откуда начинается отступление, показанное чёрной полосой. К графику отступления также привязан график времени и температуры. Крайне наглядно!

Поиграться с моделью

После двух статей на эту тему вот вам задачка: скажите, что не так с этим графиком?

Если интересны посты про науку, заглядывайте в мою группу ВК и канал телеграм

Показать полностью 10

[моё] Статистика Математика Маркетинг График Наука Научпоп Человек наук Инфографика Длиннопост

106

Посты не найдены

1 2 3