Анализ новостей на основе RSS парсинга
4 поста
12.04.2024 г. я продолжил RSS парсинг популярных новостных лент в России. По результатам наблюдал такую картинку...
Облако слов...
В продолжении ранее сказанного, предлагаю заинтересованным лицам дополнительно ознакомится с возможностями чат-бота...
Демонстрация работы бота...
Демонстрация работы бота...
Полезная информация для жителей, работников и гостей ЗАТО Северск Томской области!
Получить информацию о пропуске на въезд в город возможно, как на сайте
https://зато-северск.рф/entrance/front/index
так и через чат-бот в Телеграмме
https://t.me/ZATOonBot
Видеообзор на чат-бот...
В данном видео играет музыка от автора: Amathole от Joezi & Lizwi...
QR-код ссылка на чат-бот
Считаю, что данный пост будет кому-нибудь полезным...
О Филдере
Филдер прибыл в России из Японии в 2007 году. Его я купил 26 сентября 2016 года с пробегом 227392 км. за 320 000 рублей. По факту я третий владелец.
До меня предыдущий владелец в 2015 году выполнял капитальный ремонт двигателя (менял поршневые, маслосъемные кольца, цепь ГРМ с роликами и натяжителями).
Остановлюсь на основных технических характеристиках Филдера.
В целом отзывы о Филдере с моей стороны только положительные, значительных (существенных) поломок не случалось, однако без них никуда:
Сам Филдер надежный, безотказный, вместительный с большим багажником, теплый, одним словом семейный автомобиль.
Однако не могу оставить без внимания и самый большой недостаток Филдера, так это его «масложор», который не возможно вылечить ни промывками, ни присадками, проверил на своем опыте. «Масложор» связан с тем, что поршня на двигателе 1ZZ-FE имеют всего на всего лишь 4 узких отверстия для сгона масла и когда они закоксовываются, выходит «масложор», что считаю конструктивной недоработкой или системным просчетом!
У Филдера случился масложор в октябре 2019 года на пробеге 262282 км. (обнаружил 14 октября 2019 года, что уровень масла на щупе отсутствует).
С этого времени расход масла только увеличивался, однако я его (расход) пытался вылечить присадками, промывками, раскоксовками и все это у меня растянулось на целых 4 года!
Одним словом, ездил на Филдере, как и основная часть автолюбителей – в багажнике возил «доливку» масла.
Демонстрирую свою статистику, как я менял, доливал масло и присадки в двигатель Филдеру до капитального ремонта:
На представленном графике мы наблюдаем значительный разбег по количеству доливания масла
29 октября 2023 года на пробеге в 310756 км. «масложор» у Филдера я решил капитальным ремонтом двигателя и на этом моменте я решил не останавливаться, так как писал об этом ранее (сайт: DRIVE2.RU, название: «Капитальный ремонт двигателя», дата: 29.10.2023 г., ссылка: (https://www.drive2.ru/l/659958765902113804/).
15 ноября 2023 года после капитального ремонта, я продолжил ездить на Филдере, но в условиях обкатки двигателя, в щадящем режиме (пробег 310756 км.).
Предлагаю на этом нам остановиться и рассмотреть возможные изменения в будущем.
На представленном графике мы наблюдаем планомерное увеличение пробега
Элементы статистики
А теперь переходим к работе со статистическими данными, сформированным из моих наблюдений за период с 26 октября 2016 года по 30 декабря 2023 года.
Цель исследования: Прогнозирование стоимости бензина на основе выбранных факторов.
Задачи исследования:
Провести корреляционный анализ между стоимостью бензина и различными факторами, которые приведены в настоящей статье.
Оценить значимость коэффициентов регрессии и адекватность модели с использованием статистических тестов.
Построить регрессионную модель для прогнозирования стоимости бензина на основе выбранных значимых переменных.
Итак, приступим…
Открываем датасет
Названия столбцов:
Date_Tomsk – дата;
Odo_km - показания одометра;
Price_G_Drive_95 – цена 1 л. бензина марки G-Drive 95;
Fuel_litres – количество литров за 1 заправку;
Price_rub_max – сумма за 1 заправку;
Full_tank – полный бак (1 – полный бак, 0 – не полный бак);
Mean_on_100km – средний расход бензина на 100 км.;
Weather_Tomsk_mean – средняя температура воздуха в Томске;
Autostart_Falder – срабатывание автозапуска по температуре двигателя (1 – двигатель заводился, 0 – двигатель не заводился).
Смотрим описательную статистику
Проводим корреляционный анализ данных:
Смотрим количественную корреляцию Пирсона
Наблюдаем тепловую карту с концентрацией значений
По результатам корреляционного анализа я решил оставить только значимые наблюдения, такие как:
Теперь переходим к множественной регрессии (OLS (Ordinary Least Squares)) из основных значимых показателей: Price_G_Drive_95, Odo_km, Price_rub_max, Fuel_litres, Weather_Tomsk_mean.
Результаты множественной регрессии
В результате мы наблюдаем следующие значимые значения:
Dep. Variable - исследуемая зависимая переменная Intercept (Price_G_Drive_95);
No. Observations - количество наблюдений (338);
Df Model - количество факторов включенных в модель (4);
R-квадрат (коэффициент детерминации) близкий к 1 указывает на высокую предсказательную способность модели;
Prob (F-statistic) - p-value (традиционно, если p-значение меньше 0,05, то нулевая гипотеза отвергается) нашей модели очень маленькое и равняется 2.84e-268 (это экспоненциальная запись, в данном случае число будет равно 2.84 умножить на 10 в степени -268, что эквивалентно очень малому числу, близкому к нулю), что говорит также о высокой адекватности нашей модели;
t - статистика Стьюдента для проверки значимости коэффциента в данном случае не обязательна, так как у нас есть величина p-value (P>|t|), если p-value больше чем 0.05, тогда мы примем нулевую гипотезу о том, что этот коэффициент можно обнулить, а если p-value меньше чем альфа, а в нашем случае она сильно меньше, следовательно мы выносим решение о том, что эти коэффициенты значимы и в модели они нужны.
А теперь мы двигаемся дальше и проведем анализ статистической значимости GLM (Generalized Linear Model), создав нашу модель.
Результаты статистической значимости
Мы видим, что все наши коэффициенты (Intercept (Price_G_Drive_95), Odo_km, Price_rub_max, Fuel_litres и Weather_Tomsk_mean) имеют статистическую значимость (P>|t| < 0.05) и это означает, что все они влияют на зависимую переменную на статистически значимый уровень.
Dep. Variable: Price_G_Drive_95 - зависимая переменная, которую мы хотим предсказать;
Model Family: Binomial - семейство модели, которое используется для предсказания бинарных зависимых переменных;
No. Observations - количество наблюдений (338).
Таким образом, проведенный анализ поможет нам обоснованно сделать регрессионную модель для прогнозирования стоимости бензина, но об этом чуть позже..
И в завершении мы остановимся на наблюдениях за ежегодным удорожанием бензина марки G-Drive 95 в г. Томске и его прогнозе.
На представленном графике мы наблюдаем изменения указанных показателей
Данные сформированы на основе моих покупок с использованием топливной карты клиента
Ниже приведу общий тренд увеличения цены на бензин с незначительными колебаниями в течение периода с 2017 по 2023 год.
Данные сформированы на основе моих покупок с использованием топливной карты клиента
Из представленных данных мы видим, что цена на бензин увеличивались с 37.80 руб. в 2017 году до 48.45 руб. в 2021 году, после чего произошло незначительное снижение до 47.95 руб. в 2022 году, а затем снова увеличились до 51.25 руб. в 2023 году.
Суммарный прирост цен за весь период с 2017 г. по 2023 г. составил 13.45 руб.
Представляю вам на обозрение и саму регрессионную модель для прогнозирования стоимости бензина на основе выбранных переменных:
В свою регрессионную модель я подставил средние значения, полученные ранее по результатам проведенного анализа:
Odo_km = 311761 (пробег на сейчас);
Price_rub_max = 1230 (средний чек);
Fuel_litres = 21.5 (в среднем заправляю);
Weather_Tomsk_mean = 1.9 (средняя температура).
ПРОГНОЗ цены на бензин марки G-Drive 95 в г. Томске составляет: 53.01 руб. за 1 л.
Дата и время окончания написания работы: 12.02.2024 г., 14:43 час.
Свою кропотливую работу я представил на обозрение в целях получения фидбека.
Спасибо за внимание.
15.12.2023 г. я запарсил данные с популярного сайта о продажах 1-й, 2-х и 3-х комнатных квартир в новых домах и на вторичном рынке в г. Томске (Кировский, Советский, Ленинский и Октябрьский районы) по состоянию на 15.12.2023 г. и создал соответствующий датафрейм с 1182 объектами наблюдения.
Датафрейм с объектами наблюдения
После обработки полученного датафрейма, я убрал дисперсию (осталось 1138 объектов) и решил оставить следующие столбцы для анализа:
floor - этаж
floors_count – высота дома
rooms_count - количество комнат
total_meters – площадь квартиры
price_per_m2 – стоимость 1 кв.м.
price – стоимость квартиры на 15.12.2023 г.
district – район г. Томска
residential_complex – название микрорайона
Посмотрим о количестве квартир, выставленных на продажу в г. Томске на 15.12.2023 г.
| Кировский 213 | Советский 289 | Ленинский 251 | Октябрьский 385
Считаю необходимым включить в исследовательскую часть информацию о совершенных преступлениях за 2021 год - май 2023 года в разрезе по районам г. Томска и области (информация получена с официального сайта Прокуратуры Томской области).
Смотрим количественную связь
*
floor/float – этаж/ количество квартир
rooms_count – количество комнат в квартире/количество объявлений
district/float – район г. Томска/количество квартир
residential_complex – название микрорайона/количество объявлений
author - автор объявления
Смотрим связь целевого показателя price и категориальных признаков
*
district – район г. Томска
float – количество продаваемых квартир
price – стоимость квартиры на 15.12.2023 г.
price_per_m2 – стоимость 1 кв.м.
total_meters – площадь квартиры
author_type – тип автора
residential_complex – название микрорайона
Из представленных данных мы видим следующее:
- в Кировском районе г. Томска 198 авторов в 47 микрорайонах продают 213 квартир со средней стоимостью 6 млн. 455 тыс. рублей (стоимость 1 кв.м составляет 121 тыс. 603 рубля), средней площадью 53,2 кв.м, где меньше всего совершается преступлений;
- в Советском районе г. Томска 271 автор в 55 микрорайонах продает 289 квартир со средней стоимостью 6 млн. 612 тыс. рублей (стоимость 1 кв.м составляет 115 тыс. 887 рублей), средней площадью 55,9 кв.м;
- в Ленинском районе г. Томска 251 автор в 51 микрорайоне продает 251 квартиру со средней стоимостью 5 млн. 816 тыс. рублей (стоимость 1 кв.м составляет 110 тыс. 508 рублей), средней площадью 52,8 кв.м;
- в Октябрьском районе г. Томска 385 авторов в 96 микрорайонах продают 385 квартир со средней стоимостью 6 млн. 236 тыс. рублей (стоимость 1 кв.м составляет 111 тыс. 132 рубля), средней площадью 55 кв.м, где больше всего совершается преступлений.
Связь целевого показателя rent с количественным показателем площади
Описательные статистики (describe)
count – количество наблюдений по каждой переменной, объем выборки фиксированный
mean – среднее значение
std (standard deviation) – стандартное отклонение
min – минимальное значение
25% - 25 процентилей
50% -50 процентилей (медиана)
75% -75 процентилей
max – максимальное значение
Резюмируя изложенное, в среднем мы видим, что в г. Томске чаще всего продается двухкомнатная квартира на вторичном рынке, общей площадью 52,45 кв.м, расположенная в девятиэтажном многоквартирном жилом доме на четвертом этаже, стоимостью 5 млн. 500 тыс. рублей (цена за 1 кв.м. 110 тыс. 973 руб.).
14.12.2023 г. после онлайн-трансляции прямой линии Президента России, я выполнил RSS парсинг популярных новостных лент в России.
По результатам частотного анализа полученного текста в виде слов (более 448 тыс. слов) при помощи:
- визуализации в трехмерном пространстве;
- построения круговой диаграммы;
- визуализации тепловой карты;
- построения столбчатой диаграммы;
- визуализации в виде облака слов;
- построения точечной диаграммы частоты слов,
наблюдал такую картинку...
P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!
RSS парсинг популярных новостных лент в России
Визуализация популярности 15 полученных слов в трехмерном пространстве
Визуализация популярности 23 полученных слов в виде круговой диаграммы
Визуализация популярности 7 полученных слов при помощи тепловой карты Heatmap
Визуализация популярности 59 полученных слов в виде столбчатой диаграммы
Визуализация популярности 59 полученных слов в виде облака
Визуализация популярности 59 полученных слов при помощи точечной диаграммы частоты слов на Scatter Plot
12.12.2023 г. я продолжил RSS парсинг популярных новостных лент в России. По результатам частотного анализа полученного текста при помощи построения столбчатой и круговой диаграмм, а также визуализации в трехмерном пространстве, наблюдал такую картинку...
P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!
RSS парсинг популярных новостных лент в России
Визуализация популярности 75 полученных слов в виде столбчатой диаграммы
Визуализация популярности 25 полученных слов в виде круговой диаграммы
Визуализация популярности 15 полученных слов в трехмерном пространстве
10.12.2023 г. по результатам RSS парсинга популярных новостных лент в России и частотного анализа полученного текста при помощи закона Ципфа, а также визуализации слов в виде облака, наблюдал такую картинку...
P.S. данная информация носит исключительно информационный характер, не является офертой или публичной офертой в соответствии с положениями ст. ст. 435, 437 ГК РФ!
RSS парсинг популярных новостных лент в России
Закон Ципфа иллюстрирует частотность распределения полученных слов
Визуализация популярности полученных слов в виде облака