Сообщество - Статистика
Добавить пост

Статистика

790 постов 3 071 подписчик

Популярные теги в сообществе:

О Филдере с элементами статистики на Pandas

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

О Филдере

Филдер прибыл в России из Японии в 2007 году. Его я купил 26 сентября 2016 года с пробегом 227392 км. за 320 000 рублей. По факту я третий владелец.

До меня предыдущий владелец в 2015 году выполнял капитальный ремонт двигателя (менял поршневые, маслосъемные кольца, цепь ГРМ с роликами и натяжителями).

Остановлюсь на основных технических характеристиках Филдера.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

В целом отзывы о Филдере с моей стороны только положительные, значительных (существенных) поломок не случалось, однако без них никуда:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Сам Филдер надежный, безотказный, вместительный с большим багажником, теплый, одним словом семейный автомобиль.

Однако не могу оставить без внимания и самый большой недостаток Филдера, так это его «масложор», который не возможно вылечить ни промывками, ни присадками, проверил на своем опыте. «Масложор» связан с тем, что поршня на двигателе 1ZZ-FE имеют всего на всего лишь 4 узких отверстия для сгона масла и когда они закоксовываются, выходит «масложор», что считаю конструктивной недоработкой или системным просчетом!

У Филдера случился масложор в октябре 2019 года на пробеге 262282 км. (обнаружил 14 октября 2019 года, что уровень масла на щупе отсутствует).

С этого времени расход масла только увеличивался, однако я его (расход) пытался вылечить присадками, промывками, раскоксовками и все это у меня растянулось на целых 4 года!

Одним словом, ездил на Филдере, как и основная часть автолюбителей – в багажнике возил «доливку» масла.

Демонстрирую свою статистику, как я менял, доливал масло и присадки в двигатель Филдеру до капитального ремонта:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем значительный разбег по количеству доливания масла

29 октября 2023 года на пробеге в 310756 км. «масложор» у Филдера я решил капитальным ремонтом двигателя и на этом моменте я решил не останавливаться, так как писал об этом ранее (сайт: DRIVE2.RU, название: «Капитальный ремонт двигателя», дата: 29.10.2023 г., ссылка: (https://www.drive2.ru/l/659958765902113804/).

15 ноября 2023 года после капитального ремонта, я продолжил ездить на Филдере, но в условиях обкатки двигателя, в щадящем режиме (пробег 310756 км.).

Предлагаю на этом нам остановиться и рассмотреть возможные изменения в будущем.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем планомерное увеличение пробега

Элементы статистики

А теперь переходим к работе со статистическими данными, сформированным из моих наблюдений за период с 26 октября  2016 года по 30 декабря 2023 года.

Цель исследования: Прогнозирование стоимости бензина на основе выбранных факторов.

Задачи исследования:

Провести корреляционный анализ между стоимостью бензина и различными факторами, которые приведены в настоящей статье.

Оценить значимость коэффициентов регрессии и адекватность модели с использованием статистических тестов.

Построить регрессионную модель для прогнозирования стоимости бензина на основе выбранных значимых переменных.

Итак, приступим…

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Открываем датасет

Названия столбцов:

Date_Tomsk – дата;

Odo_km - показания одометра;

Price_G_Drive_95 – цена 1 л. бензина марки G-Drive 95;

Fuel_litres – количество литров за 1 заправку;

Price_rub_max – сумма за 1 заправку;

Full_tank – полный бак (1 – полный бак, 0 – не полный бак);

Mean_on_100km – средний расход бензина на 100 км.;

Weather_Tomsk_mean – средняя температура воздуха в Томске;

Autostart_Falder – срабатывание автозапуска по температуре двигателя (1 – двигатель заводился, 0 – двигатель не заводился).

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Смотрим описательную статистику

Проводим корреляционный анализ данных:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Смотрим количественную корреляцию Пирсона

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Наблюдаем тепловую карту с концентрацией значений

По результатам корреляционного анализа я решил оставить только значимые наблюдения, такие как:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Теперь переходим к множественной регрессии (OLS (Ordinary Least Squares)) из основных значимых показателей: Price_G_Drive_95, Odo_km, Price_rub_max, Fuel_litres, Weather_Tomsk_mean.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Результаты множественной регрессии

В результате мы наблюдаем следующие значимые значения:

Dep. Variable - исследуемая зависимая переменная Intercept (Price_G_Drive_95);

No. Observations - количество наблюдений (338);

Df Model - количество факторов включенных в модель (4);

R-квадрат (коэффициент детерминации) близкий к 1 указывает на высокую предсказательную способность модели;

Prob (F-statistic) - p-value (традиционно, если p-значение меньше 0,05, то нулевая гипотеза отвергается) нашей модели очень маленькое и равняется 2.84e-268 (это экспоненциальная запись, в данном случае число будет равно 2.84 умножить на 10 в степени -268, что эквивалентно очень малому числу, близкому к нулю), что говорит также о высокой адекватности нашей модели;

t - статистика Стьюдента для проверки значимости коэффциента в данном случае не обязательна, так как у нас есть величина p-value (P>|t|), если p-value больше чем 0.05, тогда мы примем нулевую гипотезу о том, что этот коэффициент можно обнулить, а если p-value меньше чем альфа, а в нашем случае она сильно меньше, следовательно мы выносим решение о том, что эти коэффициенты значимы и в модели они нужны.

А теперь мы двигаемся дальше и проведем анализ статистической значимости GLM (Generalized Linear Model), создав нашу модель.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Результаты статистической значимости

Мы видим, что все наши коэффициенты (Intercept (Price_G_Drive_95), Odo_km, Price_rub_max, Fuel_litres и Weather_Tomsk_mean) имеют статистическую значимость (P>|t| < 0.05) и это означает, что все они влияют на зависимую переменную на статистически значимый уровень.

Dep. Variable: Price_G_Drive_95 - зависимая переменная, которую мы хотим предсказать;

Model Family: Binomial - семейство модели, которое используется для предсказания бинарных зависимых переменных;

No. Observations - количество наблюдений (338).

Таким образом, проведенный анализ поможет нам обоснованно сделать регрессионную модель для прогнозирования стоимости бензина, но об этом чуть позже..

И в завершении мы остановимся на наблюдениях за ежегодным удорожанием бензина марки G-Drive 95 в г. Томске и его прогнозе.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем изменения указанных показателей

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Данные сформированы на основе моих покупок с использованием топливной карты клиента

Ниже приведу общий тренд увеличения цены на бензин с незначительными колебаниями в течение периода с 2017 по 2023 год.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Данные сформированы на основе моих покупок с использованием топливной карты клиента

Из представленных данных мы видим, что цена на бензин увеличивались с 37.80 руб. в 2017 году до 48.45 руб. в 2021 году, после чего произошло незначительное снижение до 47.95 руб. в 2022 году, а затем снова увеличились до 51.25 руб. в 2023 году.

Суммарный прирост цен за весь период с 2017 г. по 2023 г. составил 13.45 руб.

Представляю вам на обозрение и саму регрессионную модель для прогнозирования стоимости бензина на основе выбранных переменных:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

В свою регрессионную модель я подставил средние значения, полученные ранее по результатам проведенного анализа:

Odo_km = 311761 (пробег на сейчас);

Price_rub_max = 1230 (средний чек);

Fuel_litres = 21.5 (в среднем заправляю);

Weather_Tomsk_mean = 1.9 (средняя температура).

ПРОГНОЗ цены на бензин марки G-Drive 95 в г. Томске составляет: 53.01 руб. за 1 л.

Дата и время окончания написания работы: 12.02.2024 г., 14:43 час.

Свою кропотливую работу я представил на обозрение в целях получения фидбека.

Спасибо за внимание.

Показать полностью 18

Че там по Биг Маку в 2024

Дорогие любители статистики, предлагаю взглянуть на обновленный показатель Индекса Биг Мака от The Economist в 2024.

Топ 3 дорогих:

Швейцария - 7.1 CHF - $8.11
Норвегия - 75 NOK - $7.1
Уругвай - 275 UYU - $7.01

Топ 3 дешевых:

Тайвань - 75 TW$ - $2.39
Индонезия - 38 000 IDR - $2.43
Индия - 215 INR - $2.59

Наши c вашими:

Украина - 110 UAH - $2.93
Россия (Биг Хит) - 206 RUB - $2.25 - *Нет в списке the Economist

Источник цен - the Economist
Источник цены Биг Хит - Яндекс.Еда

Такие дела. Держите напоследок один интересный факт про Биг Мак: есть такой чел - Дон Горске, который съел 32,672 (на 2022 год) Биг Маков за свою жизнь. Мужику сейчас 70 - жив, цел, орел. Так что газуйте братья.

Если хотите больше интересной статистики, приглашаю в Телеграм.

Че там по Биг Маку в 2024 Статистика, Экономика, Деньги, Юмор, Мемы, Telegram (ссылка), Перевел сам
Показать полностью 1

Самые дорогие спортивные империи мира в 2024 году: рейтинг Forbes

Список «Самых ценных спортивных империй мира в 2024 году» возглавляет Liberty Media, группа, владеющая Формулой-1

Liberty Media

Стоимость: $18.22 млрд
В сравнении с прошлым годом: -12%

Владеет: Formula 1, Overtime Sports, F1 Arcade, Drone Racing League, Kroenke Arena Co., Meyer Shank Racing

Kroenke Sports & Entertainment

Стоимость: $15.59 млрд
В сравнении с прошлым годом : +22%

Владеет: Los Angeles Rams, Denver Nuggets, Arsenal FC, Colorado Avalanche, Colorado Rapids, Altitude Sports & Entertainment, Colorado Mammoth

Fenway Sports Group

Стоимость: $12.95 млрд
В сравнении с прошлым годом : +25%

Владеет: Liverpool FC, Boston Red Sox, Pittsburgh Penguins, NESN, Bienes Raíces, Roush Fenway Keselowski Racing, Fenway Sports Management

Jerry Jones

Стоимость: $12.80 млрд
В сравнении с прошлым годом : +13%

Владеет: Dallas Cowboys, The Star, Legends, GameSquare Esports

Harris Blitzer Sports & Entertainment

Стоимость: $11.86 млрд
В сравнении с прошлым годом : +155%

Владеет: Philadelphia 76ers, Washington Commanders, New Jersey Devils, Joe Gibbs Racing, Youth Sports, HBSE Ventures, Utica Comets, Crystal Palace, Elevate Sports Ventures, New Meta Entertainment

Самые дорогие спортивные империи мира в 2024 году: рейтинг Forbes Спорт, НХЛ, Статистика, Сравнение, NBA, Английская Премьер-лига, Формула, Рейтинг, Длиннопост

Источник

Показать полностью 1

Если спросят "Зачем Мне Высшее Образование"

источник

Рождаемость VS смертность в России (1992-2022)

Всего за данный период рождаемость превысила смертность только в 2013 году (+24013), 2014 году (+30336) и 2015 году (+32038). Смертность превышала рождаемость более чем на 900 тыс. в 1999 году (-929627), 2000 году (-958532), 2001 году (-943252) и 2002 году (-935305).

Источник

Источник

Показать полностью

Топ-8 стран по количеству туристов посетивших Мальдивы в 2023 году

Топ-8 стран по количеству туристов посетивших Мальдивы в 2023 году Мальдивы, Туристы, Русские туристы, Статистика, Сравнение, Скриншот
Показать полностью 1

Количество активных сим-карт большой четверки операторов России (2005-2022)

Tele2 обошел «Билайн» по числу абонентов.

Лидером по размеру клиентской базы мобильного бизнеса в России по состоянию на конец 2022 года является МТС (80 миллионов абонентов), второе место занимает "Мегафон" - 75,3 миллиона абонентов, следует из отчетов компаний.

По итогам 2022 года число абонентов (активных sim-карт) мобильной связи в России по предварительным данным составило 256 млн.

Показать полностью

Результаты опроса по зарплатам

Закончил обработку результатов позавчерашнего опроса. Сразу скажу делал с душой, но на скорую руку)

Ссылка на пост с опросом

Ссылка на диск с результатами в CSV и Excel

Немного выводов в самом начале. Пользователи Пикабу достаточно обеспеченные люди. То есть не только 49.5, но и зарплаты по 150 тысяч тут норма.

Опрос стартовал примерно в 10 утра по дальневосточному времени и длился сутки. Всего опрос прошло 5 669 человек. Есть что улучшить, об этом в выводах в конце поста, возможно будет улучшенная версия, но я не обещаю)

Disclaimer. Обработку результатов я делал в экселе, руками, максимально просто и тупо. Поэтому на научную достоверность не претендую. Цель была получить представление в целом.

Теперь непосредственно данные. Первая часть, обзор всех данных целиком.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Данные по всей выборке

Поскольку я ориентировался на максимальную заработную по Росстату (верхние 10% в среднем 145 000р) я решил ограничить верх суммой 210 000р или более. Это был промах, людей с доходом, превышающим этот потолок, оказалось 16% и полная картина не раскрывалась. С такими вводными опрос прошло 3 678 человек.

После этого я поднял планку до 310 000р или более, это тоже оказалось недостаточно, но стало уже лучше. С новыми вводными опрос прошло 1991 человек.

Снизу распределение дохода, ось Y в процентах. Видно синий пик для первой половины опроса и красный для второй.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Распределение дохода по всей выборке

На следующем рисунке, я сделал аппроксимацию "на глазок", на точность не претендует вообще, но можно понять для будущих опросов, что верхнюю границу нужно поднимать, хотя бы до 500к.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Распределение дохода по всей выборке

Тут можно сделать промежуточные выводы и отметить, что медианная зарплата по всей выборке находится в интервале 90 000р - 120 000р.

Вторая часть отчёта. Тут я отделил верхние 20% по доходам и нижние 20%. Почему именно 20%? Это хорошо легло на выборку. Ещё я подписал рисунки как бедные/богатые, сейчас понимаю что звучит грубовато, но прошу простить. Долго переделывать.

Итак, нижние 20% по доходам.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Нижние 20%

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Нижние 20%

Медианная зарплата по нижним 20% находится в интервале 30 000р - 50 000р.

Верхние 20% по доходам.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Верхние 20%

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Верхние 20%

Медианная зарплата по верхним 20% находится где то чуть за границей измерения в 310 000р или больше. Точнее не сказать.

И третья часть отчёта. Тут я исключил из общей выборки города с населением больше 1 млн. человек и находящиеся в ЦФО и СЗФО. Другими словами Санкт-Петербург и Москву, и, вероятно, Воронеж, да простит он меня.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Без МСК и СБП

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Без МСК и СПБ

Можно отметить что картина изменилась не сильно. Медианный доход опустился до диапазона 70 000р - 90 000р.

Теперь юбилейная часть про мандаринки.

Результаты опроса по зарплатам Опрос, Зарплата, Аналитика, Статистика Пикабу, Длиннопост

Мандаринки

Выводы по опросу.

По результатам, честно скажу, был удивлён. Я ожидал увидеть тут уровень выше среднего, но не на столько. С другой стороны разрыв между бедными и богатыми, я не смог посчитать коэффициент Джини, в экселе как то не шло, а матлаб доставать было лениво. Но видно что разрыв большой.

Ещё мне понравилось что большинство людей работает не более 50 часов в неделю, переработки есть, но разумные.

Ну и на счёт вопроса о репрезентативности выборки, применительно ко всей стране, я бы ответил негативно.

По самому опросу было много замечаний и предложений. Самое важное что стоит учесть на будущее:

  1. Надо делать вопрос по доходу открытым, что бы опрашиваемый сам вводил данные в окошко, это упростит анализ.

  2. Надо ввести отдельный пункт для тех кто находится в одном регионе, но работает удалённо на другой.

  3. Аналогично пункту 2, но работает на иностранного работодателя.

  4. Можно добавить вопросы для тех, кто и находится и работает за границей.

  5. Убрать из типа занятости самозанятость, ИП и ООО как отдельный пункт, поскольку они подходят ко всему. Вместо этого ввести пункт административный персонал, наёмный управляющий, что то такое.

  6. Так же подумать над сферами деятельности, в частности: торговля, банковская сфера, финансы, спортивная сфера, можно выделить общепит отдельно и т.д.

Ещё отмечу что по данным не заметно какого то слаженного вброса, я надеюсь мы прошли ниже радара тега политика. Хотя тут как с анекдотом что в Вилларибо меряли линейкой, а в Виллабаджо проводили опрос.

Ещё раз всем спасибо за участие.

Показать полностью 10
Отличная работа, все прочитано!