Математика недвижимости. Покупка недвижимости. Фейки
Не секрет что на различного рода агрегаторах объявлений о продаже недвижимости много фейковых объявлений. Их размещают недобросовестные риэлторы в надежде получить ваш звонок, чтобы потом вам всучить тот объект который вы не выбирали. При Этом это создает проблемы и для реальных продавцов недвижимости т.к. покупатели не находят их объявления в силу того что агрегаторы выдают много шума- фейковых объявлений. Начиная с этого поста, я запускаю серию публикаций как отфильтровать фейки и оставить только то что реально есть на рынке. Статья содержит некое количество математики, но она довольно простая. Если вы хотите посмотреть как изложенные в статьях методы работают в живую, свяжитесь со мной.
Итак начинаем. Первый метод. Работа с локальной областью, которую выбирает пользователь.
Постановка задачи:
Пользователь выбирает тип объекта (дома, квартиры) рисует полигон на карте, система отвечает на вопрос:
«Насколько цена этого объявления подозрительно низкая относительно локального рынка внутри этой области?»
Именно это и есть риск объявления в диапазоне от 0 до 1, будем считать 0 выглядит нормально по цене или дорого, 1 — аномально дешево для своей зоны. Данное предположение имеет смысл т.к. фейки как правило сильно дешевле сопоставимых объектов чтобы заполучить ваш контакт.
Формируем локальный рынок и рассчитываем базовые метрики:
Сначала формируем локальный рынок (внутри полигона): берем объявления, которые:
попали географически внутрь полигона,
имеют координаты,
имеют цену за м²,
соответствуют выбранному типу недвижимости.
Получаем набор цен за м² в выбранной области, в рамках этой модели это и есть «локальный рынок», с которым сравниваем каждое объявление.Далее мы считаем «рыночные ориентиры» по группе - различные метрики в частности:
медиана (median) — центральная цена,
перцентили (p10, p25, p75, p90) — границы распределения,
MAD(Median Absolute Deviation) — устойчивый разброс цен вокруг медианы.
Примитивное объяснение:
медиана — «середина» списка цен,
MAD — «типичное отклонение от середины».
Далее постараемся математически определить риск объявления
Рассчитываем компоненты риска объявления:
Риск объявления который состоит из трех компонент:
Компонент A: насколько цена ниже медианы:
Где
price_per_m2 - цена квадратного метра выбранного объявления.
median - цена медианного квадратного метра
если ratio ≈ 1 или выше — риск почти 0, чем ниже ratio, тем выше риск. Это главный вклад в риск.
Компонент B: насколько далеко цена от центра по разбросу (z через MAD)
Дальше z пропускается через сигмоиду ( фактически нормализуем ее в интервале от 0 до 1). И получаем если цена сильно ниже медианы, риск растет к 1, если сильно выше, риск падает к 0.
Компонент C: место в распределении (процентиль)
Считаем, на каком «уровне» цена:
дешевые объекты — низкий процентиль, дорогие — высокий процентиль.
Риск по этому компоненту:
Рассчитываем общий риск объявления:
Объединяем наши компоненты устанавливая эвристически веса следующим образом:
после чего нормализуем риск в интервале от 0 до 1.
Можем также добавить шкалу риска и ее интерпретацию:
0–20 (Низкий риск)
Коротко: Цена близка к типичному уровню в выбранной области. Объявление по цене за м² находится в нормальном диапазоне для объектов этого типа внутри вашего полигона.
21–40 (Умеренный риск)
Коротко: Есть небольшое отклонение от локального рынка. Цена за м² немного ниже среднерыночного уровня по выбранной зоне. Это не аномалия, но стоит проверить детали объекта.
41–60 (Повышенный риск)
Коротко: Цена заметно ниже рынка в этой области. Объявление дешевле значительной части похожих объектов внутри полигона. Рекомендуется внимательная проверка условий сделки и состояния объекта.
61–80 (Высокий риск)
Коротко: Сильное отклонение вниз от локальной цены. Цена за м² существенно ниже типичной для выбранной зоны и типа недвижимости. Высока вероятность скрытых факторов, влияющих на стоимость.
81–100 (Критический риск)
Коротко: Аномально низкая цена относительно выбранного рынка.
Важные замечания и ограничения:
Этот риск — не «обман/не обман», а именно ценовая аномальность относительно выбранного полигона. То есть система оценивает: «Насколько объект дешевле локального рынка?», а не юридическую чистоту или физическое состояние объекта.
Кроме этого модель не учитывает такие важные моменты как различные классы недвижимости (элит, бизнес, эконом), а также репутацию автора (занимался ли он публикацией фейков).
В дальнейших публикациях я освещу еще ряд моделей которые позволяют оценить объявления, продавца, а также сам рынок недвижимости той или иной локации.

























