Ответ на пост «Дело Долиной»2
Есть у меня интересное про цены на недвижимость. Лет 6-7 назад я уже создавал систему для оценки недвижимости, которая была куплена одним из федеральных застройщиков из топ-а. И вот недавно поступил запрос на разработку аналогичной системы, но конкретно под оценку новостроек. Просчитывать шахматку квартир и т.д.
Ниже упрощенное представление моего отчета для потенциального клиента и для себя чисто.
Собираем данные с ЦИАН, Авито, ДомКлик. Вторичку и новостройки.
Москва и Московская область рассматриваются совместно, из-за своей структуры на карте.
Деление на сегменты
Вторичка делится в среднем на 86 кластеров.
Новостройки - на 31 кластер.
Вторичка + новостройки делится на 102 кластера.
Спред между вторичкой и новостройками внутри одного и того же кластера (в процентах к стоимости вторички).
От 12% до 71% в различных кластерах.
Разница в спреде внутри одного кластера никак не коррелируется по параметрам с другими кластерами. По крайней мере с достоверной точностью.
Распределение не нормируется. Среднее – 32%, взвешенное – 24%.
Точность оценки при делении выборки 90/10. 90 обучающей / 10 для проверки. Сначала делал предикт, потом очищал. Выхлопы за 3 сигма не учитывал. Отклонения фактической стоимости от оценочной, в процентах:
Обучение на вторичке, оценка вторички: -5,2 … +4,7
Обучение на общей, оценка вторички: -6,7 … +5,1
Обучение на общей, оценка новостроек: -12,1 … +8,6
Обучение на новостройках, оценка новостроек: -10,3 … +8,7
Оценочная стоимость в среднем оказывается ниже фактической.
Во вторичке: в 57% случаев.
В новостройках: в 67% случаев.
Если кратно, то совершенно неприемлемые результаты оценки. Это лучшая совокупность моделей из всех рассмотренных вариантов и комбинаций разных подходов. На что обратил внимание:
Чем длительнее срок пребывания на рынке (на площадках), тем меньше отклонение, но всё равно сильно за рамками прежних оценок моих.
Точных цифр не сохранил, но если делать оценку только на тех объектах, которые на рынке более или равно 2 месяцам, то точность повышается.
Крупные агентства недвижимости и застройщики выкладывают различные объекты на различных площадках. Не деактивируют с последующей новой активацией одного и того же объявления, а просто удаляют и публикуют заново. Видимо, чтобы невозможно было отследить поведение конкретного объекта на рынке.
Для новостроек никакие ухищрение не работают от слова совсем.
Для новостроек добавлял и убирал различные параметры окружения, вводил/выводил данные по рынку с тех же дом.рф или СберИндекса. НИЧЕГО не работает.
Итог по оценке новостроек. Или я совсем сильно что-то не понимаю, или цены рисуются по наитию и не зависят просто ни от чего. Никаких паттернов я не смог выявить. Которые бы работали приемлемо хотя бы на половине кластеров. Про большую часть я вообще молчу.
Также стояла вторая задача для прогноза скорости выбывания с рынка по стоимости / оценка оптимальной стоимости для определенной скорости вымывания объектов.
Рассмотрел:
Модель Кокса
Random Survival Forest.
DeepSurv. (нейро версия модели Кокса).
Gradient Boosting Survival Trees.
DeepHit.
Ни один из подходов не дал вменяемых результатов. Деление делал по отбивке 2 месяца. Данные с возрастом от 2 месяцев для обучения, остальные данные для предсказания на "будущее". 1 / 2 месяца. 1 / 2 / 3 ... 9 недель.
По чисто временным рядам сходимость с фактом есть. Если чисто поведение рынка предсказывать. До 3 месяцев включительно очень хорошие результаты. Но этого мало.
Выводы:
Рынок на текущий момент АБСОЛЮТНО не прогнозируемый.
Цены на новостройки нарисованы и не имеют никакого отношения к чему-либо вообще.
Цены на вторичку тоже, мягко говоря, не всегда адекватны. Но связаны, скорее всего, с тем, что люди просто выкидывают на рынок свои квартиры по заведомо завышенным ценам в расчете на "а вдруг продастся".
P.S. Раньше такой фигни не было )










