

Оценка стоимости недвижимости на основе больших данных
https://doi.org/10.32609/0042-8736-2022-12-118-136
Аннотация
Рассматриваются применение данных официальной статистики и онлайнпорталов по продаже недвижимости, а также алгоритмы машинного обучения для оценки стоимости квартир вторичного рынка жилья Москвы. Для этого осуществлен сбор и проведена обработка данных портала ЦИАН с помощью технологии веб-скрейпинга и портала «Реформа ЖКХ». Для оценки объектов недвижимости были рассмотрены алгоритмы машинного обучения Elastic Net, Random Forest и Gradient Boosting, а для интерпретации результатов black-box алгоритмов использовался подход на основе вектора Шепли. Результаты работы показали, что применение black-box алгоритмов при оценке стоимости квартир вторичного рынка жилья Москвы в рассматриваемом периоде позволяет получить более точные оценки как в разрезе ценовых сегментов, так и по выборке в целом. При этом наилучшую точность дает метод Gradient Boosting. Интерпретация результатов модели с помощью вектора Шепли показала, что положительное влияние на цену оказывают общая площадь, год постройки, высота потолков, дизайнерский ремонт и евроремонт, а также монолитная технология строительства. Отрицательное влияние на цену оказывают количество этажей в доме, возможность ипотеки и отсутствие ремонта. Разработанная методология может быть применена в страховании недвижимости, ипотечном кредитовании, определении кадастровой стоимости недвижимости и других областях.
Об авторах
М. О. МамедлиРоссия
Мамедли Мариам Октаевна, кандидат экономических наук, младший научный сотрудник Международной лаборатории макроэкономического анализа
Москва
А. В. Умнов
Россия
Умнов Андрей Викторович, ведущий эксперт Центра валидации моделей сервисных блоков и экосистемы
Москва
Список литературы
1. Балаш В., Балаш О., Харламов А. (2011). Эконометрический анализ геокодированных данных о ценах на жилую недвижимость // Прикладная эконометрика. № 22. C. 62—77.
2. Гончаров Г., Натхов Т. (2020). Текстуальный анализ ценообразования на рынке московской жилой недвижимости // Экономический журнал ВШЭ. № 1. C. 101—116. https://doi.org/10.17323/1813-8691-2020-24-1-101-116
3. Лейфер Л., Черная Е. (2020). Массовая оценка объектов недвижимости на основе технологий машинного обучения. Анализ точности различных методов на примере определения рыночной стоимости квартир // Имущественные отношения в Российской Федерации. № 3. C. 32—42. [
4. Ожегов Е., Косолапов Н., Позолотина Ю. (2017). О взаимосвязи между стоимостью жилья и характеристиками близлежащих школ // Прикладная эконометрика. № 47. C. 28—48.
5. Bischl B. et al. (2021). Hyperparameter optimization: Foundations, algorithms, best practices and open challenges. Unpublished manuscript. https://doi.org/10.48550/arXiv.2107.05847
6. Breiman L. (2001). Random forests. Machine Learning, Vol. 45, pp. 5—32. https://doi.org/10.1023/A:1010933404324
7. Friedman J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, Vol. 29, No. 5, pp. 1189—1232. https://doi.org/10.1214/aos/1013203451
8. Friedman J. H. (2002). Stochastic gradient boosting. Computational Statistics & Data Analysis, Vol. 38, No. 4, pp. 367—378. https://doi.org/10.1016/S0167-9473(01)00065-2
9. Johannemann J., Hadad V., Athey S., Wager S. (2019). Sufficient representations for categorical variables. Unpublished manuscript. https://doi.org/10.48550/arXiv.1908.09874
10. Loberto M., Luciani A., Pangallo M. (2018). The potential of big housing data: Аn application to the Italian real-estate market. Bank of Italy Working Paper, No. 1171. https://doi.org/10.2139/ssrn.3176962
11. Merrick L., Taly A. (2020). The explanation game: Explaining machine learning models using Shapley values. In: A. Holzinger, P. Kieseberg, A. Tjoa, E. Weippl (eds.). Machine learning and knowledge extraction. Cham: Springer, pp. 17—38. https:// doi.org/10.1007/978-3030-57321-8_2
12. Moosavi V. (2017). Urban data streams and machine learning: A case of Swiss real estate market. Unpublished manuscript. https://doi.org/10.48550/arXiv.1704.04979
13. Myttenaere A., Golden B., Grand B., Rossi F. (2017). Mean absolute percentage error for regression models. Neurocomputing, Vol. 192, pp. 38—48. https://doi.org/10.1016/j.neucom.2015.12.114
14. Nguyen T. (2019). Faster feature selection with a dropping forward-backward algorithm. Unpublished manuscript. https://doi.org/10.48550/arXiv.1910.08007
15. Tchuente D., Nyawa S. (2022). Real estate price estimation in French cities using geocoding and machine learning. Annals of Operations Research, Vol. 308, pp. 571—608. https://doi.org/10.1007/s10479-021-03932-5
16. Zou H., Hastie T. (2005). Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society Series B, Vol. 67, No. 2, pp. 301—320. https://doi.org/10.1111/j.1467-9868.2005.00503.x
Дополнительные файлы
Рецензия
Для цитирования:
Мамедли М.О., Умнов А.В. Оценка стоимости недвижимости на основе больших данных. Вопросы экономики. 2022;(12):118-136. https://doi.org/10.32609/0042-8736-2022-12-118-136
For citation:
Mamedli M.O., Umnov A.V. Real estate valuation based on big data. Voprosy Ekonomiki. 2022;(12):118-136. (In Russ.) https://doi.org/10.32609/0042-8736-2022-12-118-136