Москва
+7-929-527-81-33
Вологда
+7-921-234-45-78
Вопрос юристу онлайн Юридическая компания ЛЕГАС Вконтакте

Корректировка модели множественной линейной регрессии в задачах массовой оценки недвижимого имущества

Обновлено 13.04.2025 06:39

 

Авторы анализируют проблему снижения ошибок в задачах массовой оценки. Рассматривают способ корректировки результатов модели множественной линейной регрессии, применяя распространенный в машинном обучении метод кросс-валидации. Исходный датасет разбивают на три множества - обучающее, верифицирующее и тестовое. На первом множестве подбираются коэффициенты модели, на втором - корректируются предсказания модели, на третьем - проверяется их качество после корректировки. На примере данных рынка недвижимости Ленинградской области показывают, что предложенная корректировка позволяет уменьшить величину стандартного отклонения предсказаний модели.

 

Ключевые слова: множественная линейная регрессия в оценке, ошибки в задачах массовой оценки, корректировка результатов массовой оценки, множественная линейная регрессия как метод машинного обучения.

 

The authors analyze the problem of reducing errors in mass appraisal tasks. They consider a method for adjusting the results of a multiple linear regression model using the cross-validation method common in machine learning. The original dataset is divided into three sets - training, verification and testing. On the first set, the model coefficients are selected, on the second - the model predictions are adjusted, on the third - their quality is checked after adjustment. Using the example of data from the real estate market of the Leningrad Region, they show that the proposed adjustment allows to reduce the value of the standard deviation of the model predictions.

 

Key words: multiple linear regression in assessment, errors in mass assessment problems, correction of mass assessment results, multiple linear regression as a machine learning method.

 

В задачах кадастровой оценки объектов недвижимости методами массовой оценки часто применяются регрессионные модели различного вида. В работах [1 - 3] было показано, что цены на рынке недвижимости, как правило, хорошо описываются логарифмически нормальным законом распределения. В статье [4] отмечалось, что такому же закону распределения часто подчиняются площади объектов. Характер распределения цен на рынке недвижимости указывает на то, что аддитивные модели вида часто дают неудовлетворительные результаты, так как для ошибок не выполняются условия теоремы Гаусса-Маркова. Здесь x1, x2, x3, ..., xn - независимые переменные, V - цена объекта, E(V) - оценка рыночной стоимости, - случайная ошибка модели.

При логарифмически нормальном распределении цен на рынке недвижимости намного лучший результат дают мультипликативные модели следующего вида. (1).

В этом случае ошибки не только подчиняются условиям теоремы Гаусса-Маркова, но и часто нормально распределены, что является более сильным условием. В частности, модель вида (1) давно и успешно применяется Санкт-Петербургским государственным бюджетным учреждением "Кадастровая оценка" (см. [5]).

При применении модели множественной линейной регрессии вида (1) в кадастровой оценке актуальной является проверка качества модели с применением бутстрепа и кроссвалидации. Для этих целей исходные множества могут быть разделены на обучающее и тестовое. В этом случае модель множественной линейной регрессии является одним из применимых в оценке алгоритмов машинного обучения (обучение с учителем).

Следует отметить, что получение оценок коэффициентов модели (1) по методу наименьших квадратов для математического ожидания E(V) - это оценка логарифма рыночной стоимости по среднему значению. Применение модели (1) как обучающей к тестовому множеству приводит к завышению предсказаний в области нижних значений диапазона логарифмов цен тестового множества и занижению предсказаний в области верхних значений диапазона логарифмов цен (см., например, [6]). Результаты представленных в настоящий статьи расчетов показывают, что с помощью дополнительной корректировки можно уменьшить такие расхождения и снизить ошибки модели. Мы разделяем исходный датасет на обучающее, валидационное и тестовое множества. На обучающем множестве мы строим модель вида (2), на валидационном - настраиваем корректировку, на тестовом - проверяем результат первых двух действий.

Рассмотрим пример. Исходные данные предоставлены государственным бюджетным учреждением Ленинградской области "Ленкадоценка" и извлечены из открытых источников. В состав датасета входят 5 347 свободных земельных участков с назначением "индивидуальное жилое строительство" в Ленинградской области, выставлявшихся на продажу в 2022 году (перед последней кадастровой оценкой по состоянию на 1 января 2023 года). Данные содержат цены предложений, корректировкам не подвергались, но имеют расширенный аналитиками бюджетного учреждения набор ценообразующих факторов. Часть ценообразующих факторов в представленном наборе данных оказались малозначимыми и были исключены из модели (подобные исследования несложно проводятся методами факторного анализа, который не является предметом настоящей статьи). Для построения обучающей модели отобраны следующие факторы:

x1 - площадь, кв. м;

x2 - наличие электроснабжения;

x3 - наличие водоснабжения;

x4 - наличие газоснабжения;

x5 - дистанция до федеральной автодороги, м;

x6 - дистанция до Санкт-Петербурга, м;

x7 - дистанция до районного центра, м;

x8 - дистанция до полигона твердых бытовых отходов, м;

x9 - численность населения населенного пункта, чел.;

x10 - наличие магазина;

x11 - наличие общеобразовательного учреждения.

В состав ценообразующих факторов входят ранговые, бинарные и вещественные переменные. Вещественные переменные прологарифмированы и входят в модель множественной линейной регрессии в логарифмированном виде, то есть для вещественных переменных xi в модели (1) fi(xi) = ln(xi). Модель имеет вид.

Переменные x2, x3, x4, x10, x11 - бинарные, x9 представлена в виде ранговой с пятью рангами и переведена в пять бинарных переменных x12, x13, x14, x15, x16.

Окончательно модель принимает следующий вид (2) или.

Мультипликаторы вида (i = 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16) принимают значения, если xi = 1 (признак есть) или = 1, если xi = 0 (признака нет). Каждый мультипликатор вида - это коэффициент, означающий штраф или премию за наличие признака i. Перевод ранговых факторов в бинарные уже предлагался в публикациях по оценке (см., например, [7]), но до сих пор не получил широкого распространения (незаслуженно, по мнению авторов настоящей статьи).

Исходный датасет разбит на три множества - обучающее (train - 3 208 объектов), валидационное (validation - 1 069 объектов) и тестовое (test - 1 070 объектов).

 

Методика настройки модели и ее корректировка

 

Шаг 1

Построим модель вида (2) на обучающем множестве (на тренировочных данных). Такая модель может быть построена с применением библиотечной функции lm() статистического пакета R, что дает нам коэффициенты формулы (2), необходимые для определения расчетной рыночной стоимости (расчетной цены). Введем обозначения:

- LNH = ln(VH) - логарифм наблюденных значений цены;

- LNp = ln(Vp) - логарифм расчетной цены (иначе - логарифм оценки рыночной стоимости) по модели вида (2).

На рисунке 1 точками показано соотношение между значениями LNH и LNp для обучающего множества, а пунктиром - идеальное соответствие данных модели (на остальных рисунках аналогично, если не указано иное).

На обучающем множестве получены следующие характеристики модели вида (2):

- MSE = 0,168, R2 = 0,671, MAE = 0,34, где MSE (Mean Squared Error) - среднеквадратичная ошибка, MAE (Mean Absolut Error) - средняя абсолютная ошибка.

На рисунке 1 можно заметить, что для облака рассеяния значений LNH и LNp существует линейный тренд, не совпадающий с линией точных предсказаний (биссектрисой первого координатного угла).

Шаг 2

Построим аналогичное облако рассеяния на валидационном множестве. На рисунке 2 показано соотношение между значениями LNH и LNp для валидационного множества.

На валидационном множестве получены следующие характеристики модели вида (2):

- MSE = 0,144, R2 = 0,717, MAE = 0,304;

- коэффициенты линейного тренда - k = 0,72, b = 1,865.

Уравнение линейного тренда - V = kLNH + b, уравнение биссектрисы - V = LNH. Каждое предсказанное значение LNp отклоняется от линии тренда на LNp - kLNH - b. А мы хотели бы, чтобы уклонение LNp от линии тренда было бы, как от биссектрисы. В статье [8] предложен способ корректировки с помощью поворота системы координат на угол, составляющий разницу между линией тренда и биссектрисой первого координатного угла (с предварительным переносом начала координат в точку их пересечения и последующим возвратом в исходные размерности). Здесь мы предлагаем другой способ корректировки, не затрагивающий горизонтальную координату. Нетрудно видеть, что точка пересечения линии тренда V = kLNH + b и биссектрисы имеет координаты. Пусть и, тогда в системе координат точка пересечения находится в нуле и корректировка линии тренда на биссектрису равна. Пусть - координаты произвольной точки облака рассеяния на рисунке 2. Таким образом, расчетная формула для корректировки результатов модели множественной линейной регрессии, полученная на обучающем множестве, имеет следующий вид. (3)

На рассматриваемом валидационном множестве скорректированные оценки равны.

Отметим, что полученная корректировка не зависит от координаты LNH, то есть для проведения корректировки не надо знать истинное значение цены (и ее логарифма). На рисунке 3 показано соотношение значений LNH и для валидационного множества.

На валидационном множестве получены характеристики модели вида (2), скорректированной по формуле (3): MSE = 0,103, R2 = 0,83, MAE = 0,256.

Шаг 3

Последовательно применяем к тестовому множеству результат обучения модели множественной линейной регрессии на тренировочных данных и результат корректировки, полученный на валидационных данных. На рисунке 4 показано соотношение значений LNH и LNp для тестового множества.

На тестовом множестве получены следующие характеристики модели вида (2): MSE = 0,158, R2 = 0,71, MAE = 0,32.

Применяем корректировку по формуле (3) с коэффициентами k = 0,72 и b = 1,865, полученными на валидационном множестве. На рисунке 5 показано соотношение значений LNH и для тестового множества.

На тестовом множестве получены характеристики модели вида (2), скорректированной по формуле (3): MSE = 0,111, R2 = 0,826, MAE = 0,27.

Корректировка позволила снизить дисперсию ошибки модели с 0,168 до 0,111, при этом R2 изменился с 0,671 до 0,826. Таким образом, для любого объекта с известным набором ценообразующих факторов и неизвестным значением цены может быть определена оценка рыночной стоимости по модели множественной линейной регрессии на обучающем множестве и применена корректировка, рассчитанная с применением коэффициентов тренда, полученных на валидационном множестве. Тестовое множество служит для проверки модели на данных с известными ценами.

 

Выводы

 

При больших выборках при оценке недвижимого имущества (например при кадастровой оценке) модель множественной линейной регрессии с удовлетворительными характеристиками качества может рассматриваться как один из методов машинного обучения. Объем исходных данных должен позволять разделение на обучающее, тестовое и при необходимости валидационное множества.

Модель множественной линейной регрессии может приводить к отклонениям предсказанных значений от наблюдаемых в сторону завышения результата в левой области диапазона целевой переменной и к занижению результата в правой области диапазона целевой переменной. Предложенная в статье корректировка результата позволяет снизить стандартное отклонение ошибки модели.