KidiHoel

Пикабушник
поставил 1 плюс и 0 минусов
108 рейтинг 2 подписчика 0 подписок 8 постов 0 в горячем

Анализ новостных лент на основе RSS парсинга

12.04.2024 г. я продолжил RSS парсинг популярных новостных лент в России. По результатам наблюдал такую картинку...

Анализ новостных лент на основе RSS парсинга Новости, Парсинг, Rss, Политика, Томск, Наблюдение
Анализ новостных лент на основе RSS парсинга Новости, Парсинг, Rss, Политика, Томск, Наблюдение

Облако слов...

Показать полностью 1

Проверка пропуска в Северск через чат-бот

В продолжении ранее сказанного, предлагаю заинтересованным лицам дополнительно ознакомится с возможностями чат-бота...

Проверка пропуска в Северск через чат-бот Северск, Зато Северск, Проверка документов, Пропуск, Пропускной режим, Город, Чат-бот, Бот, Новости, Томск

Демонстрация работы бота...

Проверка пропуска в Северск через чат-бот Северск, Зато Северск, Проверка документов, Пропуск, Пропускной режим, Город, Чат-бот, Бот, Новости, Томск

Демонстрация работы бота...

Показать полностью 1

Проверка пропуска в Северск

Полезная информация для жителей, работников и гостей ЗАТО Северск Томской области!

Получить информацию о пропуске на въезд в город возможно, как на сайте

https://зато-северск.рф/entrance/front/index

так и через чат-бот в Телеграмме

https://t.me/ZATOonBot

Видеообзор на чат-бот...

В данном видео играет музыка от автора: Amathole от Joezi & Lizwi...

Проверка пропуска в Северск Наблюдение, Зато Северск, Пропуск, Пропускной режим, Telegram, Бот, Северск, Помощь, Въезд, Видео, Вертикальное видео

QR-код ссылка на чат-бот

Считаю, что данный пост будет кому-нибудь полезным...

Показать полностью 1

О Филдере с элементами статистики на Pandas

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

О Филдере

Филдер прибыл в России из Японии в 2007 году. Его я купил 26 сентября 2016 года с пробегом 227392 км. за 320 000 рублей. По факту я третий владелец.

До меня предыдущий владелец в 2015 году выполнял капитальный ремонт двигателя (менял поршневые, маслосъемные кольца, цепь ГРМ с роликами и натяжителями).

Остановлюсь на основных технических характеристиках Филдера.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

В целом отзывы о Филдере с моей стороны только положительные, значительных (существенных) поломок не случалось, однако без них никуда:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Сам Филдер надежный, безотказный, вместительный с большим багажником, теплый, одним словом семейный автомобиль.

Однако не могу оставить без внимания и самый большой недостаток Филдера, так это его «масложор», который не возможно вылечить ни промывками, ни присадками, проверил на своем опыте. «Масложор» связан с тем, что поршня на двигателе 1ZZ-FE имеют всего на всего лишь 4 узких отверстия для сгона масла и когда они закоксовываются, выходит «масложор», что считаю конструктивной недоработкой или системным просчетом!

У Филдера случился масложор в октябре 2019 года на пробеге 262282 км. (обнаружил 14 октября 2019 года, что уровень масла на щупе отсутствует).

С этого времени расход масла только увеличивался, однако я его (расход) пытался вылечить присадками, промывками, раскоксовками и все это у меня растянулось на целых 4 года!

Одним словом, ездил на Филдере, как и основная часть автолюбителей – в багажнике возил «доливку» масла.

Демонстрирую свою статистику, как я менял, доливал масло и присадки в двигатель Филдеру до капитального ремонта:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост
О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем значительный разбег по количеству доливания масла

29 октября 2023 года на пробеге в 310756 км. «масложор» у Филдера я решил капитальным ремонтом двигателя и на этом моменте я решил не останавливаться, так как писал об этом ранее (сайт: DRIVE2.RU, название: «Капитальный ремонт двигателя», дата: 29.10.2023 г., ссылка: (https://www.drive2.ru/l/659958765902113804/).

15 ноября 2023 года после капитального ремонта, я продолжил ездить на Филдере, но в условиях обкатки двигателя, в щадящем режиме (пробег 310756 км.).

Предлагаю на этом нам остановиться и рассмотреть возможные изменения в будущем.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем планомерное увеличение пробега

Элементы статистики

А теперь переходим к работе со статистическими данными, сформированным из моих наблюдений за период с 26 октября  2016 года по 30 декабря 2023 года.

Цель исследования: Прогнозирование стоимости бензина на основе выбранных факторов.

Задачи исследования:

Провести корреляционный анализ между стоимостью бензина и различными факторами, которые приведены в настоящей статье.

Оценить значимость коэффициентов регрессии и адекватность модели с использованием статистических тестов.

Построить регрессионную модель для прогнозирования стоимости бензина на основе выбранных значимых переменных.

Итак, приступим…

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Открываем датасет

Названия столбцов:

Date_Tomsk – дата;

Odo_km - показания одометра;

Price_G_Drive_95 – цена 1 л. бензина марки G-Drive 95;

Fuel_litres – количество литров за 1 заправку;

Price_rub_max – сумма за 1 заправку;

Full_tank – полный бак (1 – полный бак, 0 – не полный бак);

Mean_on_100km – средний расход бензина на 100 км.;

Weather_Tomsk_mean – средняя температура воздуха в Томске;

Autostart_Falder – срабатывание автозапуска по температуре двигателя (1 – двигатель заводился, 0 – двигатель не заводился).

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Смотрим описательную статистику

Проводим корреляционный анализ данных:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Смотрим количественную корреляцию Пирсона

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Наблюдаем тепловую карту с концентрацией значений

По результатам корреляционного анализа я решил оставить только значимые наблюдения, такие как:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Теперь переходим к множественной регрессии (OLS (Ordinary Least Squares)) из основных значимых показателей: Price_G_Drive_95, Odo_km, Price_rub_max, Fuel_litres, Weather_Tomsk_mean.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Результаты множественной регрессии

В результате мы наблюдаем следующие значимые значения:

Dep. Variable - исследуемая зависимая переменная Intercept (Price_G_Drive_95);

No. Observations - количество наблюдений (338);

Df Model - количество факторов включенных в модель (4);

R-квадрат (коэффициент детерминации) близкий к 1 указывает на высокую предсказательную способность модели;

Prob (F-statistic) - p-value (традиционно, если p-значение меньше 0,05, то нулевая гипотеза отвергается) нашей модели очень маленькое и равняется 2.84e-268 (это экспоненциальная запись, в данном случае число будет равно 2.84 умножить на 10 в степени -268, что эквивалентно очень малому числу, близкому к нулю), что говорит также о высокой адекватности нашей модели;

t - статистика Стьюдента для проверки значимости коэффциента в данном случае не обязательна, так как у нас есть величина p-value (P>|t|), если p-value больше чем 0.05, тогда мы примем нулевую гипотезу о том, что этот коэффициент можно обнулить, а если p-value меньше чем альфа, а в нашем случае она сильно меньше, следовательно мы выносим решение о том, что эти коэффициенты значимы и в модели они нужны.

А теперь мы двигаемся дальше и проведем анализ статистической значимости GLM (Generalized Linear Model), создав нашу модель.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Результаты статистической значимости

Мы видим, что все наши коэффициенты (Intercept (Price_G_Drive_95), Odo_km, Price_rub_max, Fuel_litres и Weather_Tomsk_mean) имеют статистическую значимость (P>|t| < 0.05) и это означает, что все они влияют на зависимую переменную на статистически значимый уровень.

Dep. Variable: Price_G_Drive_95 - зависимая переменная, которую мы хотим предсказать;

Model Family: Binomial - семейство модели, которое используется для предсказания бинарных зависимых переменных;

No. Observations - количество наблюдений (338).

Таким образом, проведенный анализ поможет нам обоснованно сделать регрессионную модель для прогнозирования стоимости бензина, но об этом чуть позже..

И в завершении мы остановимся на наблюдениях за ежегодным удорожанием бензина марки G-Drive 95 в г. Томске и его прогнозе.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

На представленном графике мы наблюдаем изменения указанных показателей

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Данные сформированы на основе моих покупок с использованием топливной карты клиента

Ниже приведу общий тренд увеличения цены на бензин с незначительными колебаниями в течение периода с 2017 по 2023 год.

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

Данные сформированы на основе моих покупок с использованием топливной карты клиента

Из представленных данных мы видим, что цена на бензин увеличивались с 37.80 руб. в 2017 году до 48.45 руб. в 2021 году, после чего произошло незначительное снижение до 47.95 руб. в 2022 году, а затем снова увеличились до 51.25 руб. в 2023 году.

Суммарный прирост цен за весь период с 2017 г. по 2023 г. составил 13.45 руб.

Представляю вам на обозрение и саму регрессионную модель для прогнозирования стоимости бензина на основе выбранных переменных:

О Филдере с элементами статистики на Pandas Статистика, Наблюдение, Бензин, Авто, Длиннопост

В свою регрессионную модель я подставил средние значения, полученные ранее по результатам проведенного анализа:

Odo_km = 311761 (пробег на сейчас);

Price_rub_max = 1230 (средний чек);

Fuel_litres = 21.5 (в среднем заправляю);

Weather_Tomsk_mean = 1.9 (средняя температура).

ПРОГНОЗ цены на бензин марки G-Drive 95 в г. Томске составляет: 53.01 руб. за 1 л.

Дата и время окончания написания работы: 12.02.2024 г., 14:43 час.

Свою кропотливую работу я представил на обозрение в целях получения фидбека.

Спасибо за внимание.

Показать полностью 18

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы

15.12.2023 г. я запарсил данные с популярного сайта о продажах 1-й, 2-х и 3-х комнатных квартир в новых домах и на вторичном рынке в г. Томске (Кировский, Советский, Ленинский и Октябрьский районы) по состоянию на 15.12.2023 г. и создал соответствующий датафрейм с 1182 объектами наблюдения.

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

Датафрейм с объектами наблюдения

После обработки полученного датафрейма, я убрал дисперсию (осталось 1138 объектов) и решил оставить следующие столбцы для анализа:
floor - этаж
floors_count – высота дома
rooms_count - количество комнат
total_meters – площадь квартиры
price_per_m2 – стоимость 1 кв.м.
price – стоимость квартиры на 15.12.2023 г.
district – район г. Томска
residential_complex – название микрорайона

Посмотрим о количестве квартир, выставленных на продажу в г. Томске на 15.12.2023 г.

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

|  Кировский 213  |  Советский   289  |  Ленинский 251  |   Октябрьский 385

Считаю необходимым включить в исследовательскую часть информацию о совершенных преступлениях за 2021 год - май 2023 года в разрезе по районам г. Томска и области (информация получена с официального сайта Прокуратуры Томской области).

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост
Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

Смотрим количественную связь

*
floor/float – этаж/ количество квартир
rooms_count – количество комнат в квартире/количество объявлений
district/float – район г. Томска/количество квартир
residential_complex – название микрорайона/количество объявлений
author - автор объявления

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

Смотрим связь целевого показателя price и категориальных признаков

*
district – район г. Томска
float – количество продаваемых квартир
price – стоимость квартиры на 15.12.2023 г.
price_per_m2 – стоимость 1 кв.м.
total_meters – площадь квартиры
author_type – тип автора
residential_complex – название микрорайона

Из представленных данных мы видим следующее:

- в Кировском районе г. Томска 198 авторов в 47 микрорайонах продают 213 квартир со средней стоимостью 6 млн. 455 тыс. рублей (стоимость 1 кв.м составляет 121 тыс. 603 рубля), средней площадью 53,2 кв.м, где меньше всего совершается преступлений;

- в Советском районе г. Томска 271 автор в 55 микрорайонах продает 289 квартир со средней стоимостью 6 млн. 612 тыс. рублей (стоимость 1 кв.м составляет 115 тыс. 887 рублей), средней площадью 55,9 кв.м;

- в Ленинском районе г. Томска 251 автор в 51 микрорайоне продает 251 квартиру со средней стоимостью 5 млн. 816 тыс. рублей (стоимость 1 кв.м составляет 110 тыс. 508 рублей), средней площадью 52,8 кв.м;

- в Октябрьском районе г. Томска 385 авторов в 96 микрорайонах продают 385 квартир со средней стоимостью 6 млн. 236 тыс. рублей (стоимость 1 кв.м составляет 111 тыс. 132 рубля), средней площадью 55 кв.м, где больше всего совершается преступлений.

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

Связь целевого показателя rent с количественным показателем площади

Стоимость квартир в г. Томске на 15.12.2023 г. + выводы Недвижимость, Томск, Наблюдение, Длиннопост

Описательные статистики (describe)

count – количество наблюдений по каждой переменной, объем выборки фиксированный
mean – среднее значение
std (standard deviation) – стандартное отклонение
min – минимальное значение
25% - 25 процентилей
50% -50 процентилей (медиана)
75% -75 процентилей
max – максимальное значение

Резюмируя изложенное, в среднем мы видим, что в г. Томске чаще всего продается двухкомнатная квартира на вторичном рынке, общей площадью 52,45 кв.м, расположенная в девятиэтажном многоквартирном жилом доме на четвертом этаже, стоимостью 5 млн. 500 тыс. рублей (цена за 1 кв.м. 110 тыс. 973 руб.).

Показать полностью 6

RSS парсинг новостных лент после...

14.12.2023 г. после онлайн-трансляции прямой линии Президента России, я выполнил RSS парсинг популярных новостных лент в России.
По результатам частотного анализа полученного текста в виде слов (более 448 тыс. слов) при помощи:
- визуализации в трехмерном пространстве;
- построения круговой диаграммы;
- визуализации тепловой карты;
- построения столбчатой диаграммы;
- визуализации в виде облака слов;
- построения точечной диаграммы частоты слов,
наблюдал такую картинку...

P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

RSS парсинг популярных новостных лент в России

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 15 полученных слов в трехмерном пространстве

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 23 полученных слов в виде круговой диаграммы

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 7 полученных слов при помощи тепловой карты Heatmap

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 59 полученных слов в виде столбчатой диаграммы

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 59 полученных слов в виде облака

RSS парсинг новостных лент после... Новости, Политика, Rss, Парсинг, Длиннопост

Визуализация популярности 59 полученных слов при помощи точечной диаграммы частоты слов на Scatter Plot

Показать полностью 7

Продолжаем анализ новостных лент на основе RSS парсинга

12.12.2023 г. я продолжил RSS парсинг популярных новостных лент в России. По результатам частотного анализа полученного текста при помощи построения столбчатой и круговой диаграмм, а также визуализации в трехмерном пространстве, наблюдал такую картинку...

P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!

Продолжаем анализ новостных лент на основе RSS парсинга Новости, Политика, Парсинг, Rss, Длиннопост

RSS парсинг популярных новостных лент в России

Продолжаем анализ новостных лент на основе RSS парсинга Новости, Политика, Парсинг, Rss, Длиннопост

Визуализация популярности 75 полученных слов в виде столбчатой диаграммы

Продолжаем анализ новостных лент на основе RSS парсинга Новости, Политика, Парсинг, Rss, Длиннопост

Визуализация популярности 25 полученных слов в виде круговой диаграммы

Продолжаем анализ новостных лент на основе RSS парсинга Новости, Политика, Парсинг, Rss, Длиннопост

Визуализация популярности 15 полученных слов в трехмерном пространстве

Показать полностью 4

RSS парсинг новостных лент

10.12.2023 г. по результатам RSS парсинга популярных новостных лент в России и частотного анализа полученного текста при помощи закона Ципфа, а также визуализации слов в виде облака, наблюдал такую картинку...

P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!

RSS парсинг новостных лент Новости, Парсинг, Rss, Политика

RSS парсинг популярных новостных лент в России

RSS парсинг новостных лент Новости, Парсинг, Rss, Политика

Закон Ципфа иллюстрирует частотность распределения полученных слов

RSS парсинг новостных лент Новости, Парсинг, Rss, Политика

Визуализация популярности полученных слов в виде облака

Показать полностью 2
Отличная работа, все прочитано!