Гистограмма частот
Обзор 3х способов: вручную, Пакетом анализа, стандартной диаграммой (с версии 2016).
***
В статистическом анализе часто требуется построить график, отображающий частоту элементов в выборке. Также такой график позволяет узнать, пригодны ли измерения для последующего анализа, и если пригодны, то какой именно анализ позже следует использовать. Наиболее распространен анализ данных при нормальном распределении в выборке. Нормальное распределение (очень упрощенно) — это когда большинство значений в ряду приближены к среднему значению, а остальные значения встречаются тем реже, чем ближе они к минимальному или максимальному значению ряда. Графически это можно представить так:
***Для тех, кто знаком со статистическими исследованиями, сразу прошу прощения за элементарность в объяснении и картинках. Мне бы не хотелось здесь «грузить» читателя, незнакомого со статистикой, расчетами стандартных отклонений, правилами 6-ти сигм и т.д., поэтому стараюсь здесь описывать ситуацию максимально простыми терминами.
То есть, график нормального распределения должен напоминать колокол с вершиной в центре. Перекосы на графике в сторону минимального или максимального значения обычно означают проблему: неверно настроен прибор, выпускающий деталь, неверно работает измерительный прибор и т.д. Либо же (если речь не идет об измерениях) перекосы могут означать ненормальное распределение, что значит, к данным надо применять уже другие исследования.
Это была «матчасть» вкратце :)
Практический пример
Теперь перейдем к задаче в Excel.
Допустим, есть ряд данных с измерениями (всего 56 измерений). Допустим, это измерения длины детали, которую вытачивает станок. Эталонная длина детали — 50 мм. Но в реальности длина деталей отличается от эталона:
Требуется построить график частот для просмотра и анализа отклонений.
Решение. Часть 1. Строим интервалы частот
Для начала следует определить, сколько интервалов частот имеет смысл сделать. На самом деле, их может быть любое количество, желательно, не менее 6, но и не слишком много. Для 56 измерений я возьму 9 интервалов. Размер каждого интервала рассчитаем по формуле
=(МАКС.знач.-МИН.знач)/КОЛИЧЕСТВО интервалов:
Далее строим список интервалов от минимального до максимального значения через этот найденный промежуток. Первая точка — минимальное значение ряда, каждая следующая — через найденный промежуток, последняя точка — максимальная точка ряда+небольшой запас, иначе максимальная точка не будет учтена при расчете частот. Итого получается 10 точек (тут маленькое видео, чтоб было понятно):
По поводу последней точки: ее нужно увеличить небольшим запасом, хотя бы на 0,01, чтобы максимальная точка тоже учитывалась при дальнейшем расчете частот:
После определения интервалов можно поступить 2 способами: самостоятельно рассчитать частоты и построить график, или воспользоваться пакетом анализа и с его помощью построить график. Начну со способа «все сделать самостоятельно».
Часть 2. Способ 1, самостоятельный
Используя функцию ЧАСТОТА, распределим значения по интервалам. Гифка с действиями:
2. Строим гистограмму получившихся частот. Я воспользовалась кнопкой Быстрый анализ:
Если хочется, диаграмму можно настроить для наглядности. Я добавила подписи данных, уменьшила боковой зазор и изменила цвет:
Как видим, наша диаграмма напоминает колокол, значит, исходные данные соответствуют нормальному распределению.
Часть 2. Способ 2, Пакет анализа
Имея список интервалов, построить гистограмму распределения частот можно с помощью Пакета анализа. Пакет анализа — это надстройка, входящая в Excel, но по умолчанию не включенная.
Чтобы активировать надстройку, надо перейти в Параметры Excel, выбрать Надстройки - Перейти и установить флаг Пакет анализа. Команда Анализ данных будет добавлена на вкладку Данные:
Теперь, чтобы построить диаграмму, выполняем:
Анализ данных — Гистограмма — ОК.
Входной интервал — диапазон исходных значений, Интервал карманов — диапазон интервалов, указываем также Выходной интервал — место, куда будет размещен результат анализа, и устанавливаем флаг Вывод графика:
Пакет анализа не только построит гистограмму, но и представит таблицу частот в указанном расположении. Результаты при этом полностью совпадут с теми, что ранее строили самостоятельно.
Часть 3. Способ последний, самый новый
Счастливым обладателям Excel 2016 и выше даже интервалы считать не надо: в этих версиях диаграмма частот появилась как стандартная, достаточно только иметь ряд данных для анализа:
Распределение по интервалам при этом произойдет автоматически, но если необходимо, количество интервалов можно изменить. Подписи горизонтальной оси содержат сразу охват интервала, например, [49,36 49,72], что значит, интервал 49,36-49,72. Для изменения количества интервалов нужно открыть настройки горизонтальной оси и задать там для интервалов либо длину, либо их количество. Я выставила 9, как и в других случаях:
И вот мы снова получили гистограмму частот (полностью совпадает с предыдущими), но уже без таблицы.
Как и какие диаграммы надо строить
Частые вопросы про диаграммы - какой тип диаграммы выбрать в каких случаях и как правильно настраивать диаграммы, чтобы получить хорошую понятную визуализацию? Попробую в понятных слайдах рассказать основные принципы построения диаграмм.
Какой тип диаграммы выбрать?
Если данные содержат сравнительную характеристику, подойдет гистограмма или линейчатая диаграмма. Если категорий данных немного, не более 7, гистограмма будет смотреться лучше, если более 7 – лучше использовать линейчатую диаграмму.
Аналогично есть разграничение по подписям на оси. Длинные подписи на горизонтальной оси поворачиваются или частично скрываются, что затрудняет их чтение. Если так получилось, независимо от количества категорий данных лучше использовать линейчатую диаграмму.
Для отражения данных в динамике, то есть изменения их во времени, подойдет гистограмма и график – тоже в зависимости от количества данных. Немного данных – менее 5 – гистограмма, более 5 – график.
Круговую или кольцевую диаграммы можно использовать только для визуализации долевого соотношения, но и то, если в данных менее 8 категорий. Если категорий больше, лучше снова использовать линейчатую диаграмму.
И все эти правила на общей схеме:
Правила настройки диаграмм:
1. Располагать временную ось горизонтально и слева направо. Это логичный ожидаемый вариант расположения данных:
2. Не загромождать диаграмму ненужными или дублирующимися сведениями. Ненужные элементы также затрудняют понимание диаграммы:
3. Не раскрашивать диаграмму "веселыми" цветами. Избыток цвета на диаграмме отвлекает от понимания информации, лучше, когда диаграммы представлены в монохромных цветах или в нескольких сочетающихся цветах:
4. Не использовать объемные типы диаграмм. Мода на объемы давно прошла, особой красоты в объемах нет, а восприятию мешает. Всякая другая "красота" - эффекты, тени перспектива - тоже желательно использовать минимально или воздержаться:
5. Добавлять подписи данных. Числовые оси не так информативны, как подписи. Следует всегда добавлять подписи данных и по возможности скрывать ось значений. Также не стоит подписывать ось, если в этом нет особой необходимости:
6. В линейчатых диаграммах использовать сортировку. Так как линейчатые диаграммы хорошо отображают большое количество данных, лучше для данных применить сортировку, так будет проще сравнивать значения. Наиболее значимый ряд (например, наибольший) можно выделить другим цветом:
7. Комбинировать типы диаграмм (можно по разным осям), если данные различны по смыслу. Например, на картинке видно, что ряд Выручка – это гистограмма, а ряд Прибыльность – график. При этом, Выручка измеряется в тысячах, а Прибыльность – в процентах. Если такие данные строить по одной оси, сравнительного анализа не получится, здесь требуется разделение по осям:
Главная задача диаграммы - облегчить понимание контента: пришел, увидел, победил все понял. Если диаграмму приходится долго рассматривать, чтобы понять, о чем здесь вообще? - это плохая диаграмма. Не делайте такие, делайте хорошие диаграммы!
Диаграмма
Для тех кто не поймёт, попросите кого-нибудь в комментариях объяснить ибо мне похуй и лень.
Воздушные коридоры сегодня (ровно как и времён холодной войны)
Воздушные коридоры сегодня (ровно как и времён холодной войны)
Libération: авиакомпании возвращаются к воздушным коридорам времён холодной войны
Из-за взаимных санкций России и Запада для западных авиакомпаний оказалось закрыто небо над Россией и Белоруссией. В итоге рейсы между Европой и Азией удлинились на несколько часов, что сказывается в том числе на их стоимости, пишет Libération. Автор статьи отмечает, что прежде так облетали Россию разве что во времена холодной войны.
Последствия ситуации вокруг Украины ощущаются и в небе, пишет Libération. С конца февраля был отменён ряд перелётов и даже маршрутов, которые проходят над Россией и Белоруссией. Но, как отмечает автор статьи, изменились в целом воздушные коридоры планеты, так что некоторые перелёты теперь увеличились на много часов, что сказывается на времени работы персонала в воздухе и на стоимости перелёта. Прежде подобная ситуация была во времена холодной войны, когда самолёты западных авиакомпаний облетали СССР стороной.
Например, полёт из Стамбула в Москву раньше занимал меньше трёх часов, а сейчас — почти четыре. Самолёт из Тель-Авива теперь вместо трёх с половиной часов летит пять с половиной. У них есть два варианта изменения маршрута: или через Польшу, или через Грузию, Каспийское море и Казахстан. Второй воздушный коридор сейчас считается одним из самых загруженных.
Но хуже ситуация с межконтинентальными рейсами. Например, рейс Finnair из Хельсинки в Токио большую часть времени летел над Россией. Теперь же он летит в противоположную сторону, над Северным полюсом и Аляской. Разница составляет шесть с половиной часов. В Finnair пока отменяют полёты такого рода, объясняют, что не могут осуществить пассажирские перевозки по прежним направлениям, перестраивают работу на азиатском направлении. До пандемии у этой компании половина доходов шла от перелётов между Азией и Европой.
Всего, по подсчётам экспертов, из-за санкций изменились маршруты как минимум у 21 компании. При этом Путин подписал указ, который позволяет российским авиакомпаниям пользоваться взятыми в лизинг самолётами.
Помимо проблем для пассажиров, эти изменения несут в себе и сложности для сотрудников авиакомпаний, а также рост стоимости полётов, в частности, из-за топлива. Так, эксперт, с которым общался автор статьи, посчитал, что только из-за топлива в среднем три дополнительных часа в небе будут обходиться авиакомпаниям в $16 тыс. для самолёта типа Airbus SE A350-900.
Автор статьи отмечает, что такие дополнительные издержки приведут к тому, что целесообразность сохранения маршрутов окажется под вопросом. Как минимум авиакомпании собираются повышать тарифы.
Сотрудники авиакомпаний уже сильно пострадали за время пандемии, и теперь их беспокоит будущее ещё больше. Так, Finnair рассчитывает сократить от 100 до 180 пилотов и от 150 до 380 членов экипажа.
И в ближайшее время ситуация вряд ли исправится, пишет Libération.
Оригинал новости ИноТВ:
https://russian.rt.com/inotv/2022-03-20/Libration-aviakompan...
https://www.liberation.fr/international/invasion-russe-en-uk...
Сможете найти на картинке цифру среди букв?
Справились? Тогда попробуйте пройти нашу новую игру на внимательность. Приз — награда в профиль на Пикабу: https://pikabu.ru/link/-oD8sjtmAi