Решить задачу на машинное обучение
Вам предстоит предсказать цену жилой недвижимости в г. Москва. Задача заключается в разработке модели машинного обучения, которая определит цену объектов недвижимости по различным признакам недвижимости. Это задание поможет вам освоить основные принципы работы с регрессионными моделями.
Условие задачи
Вам предоставлены два набора данных: train.csv и test.csv. Набор данных test.csv будет использоваться для финального тестирования модели.
train.csv: содержит данные для обучения модели. Каждая строка представляет собой информацию об одном объекте недвижимости с ценой (price).
test.csv: содержит данные для тестирования модели, где необходимо предсказать цену объектов недвижимости. Тестовый набор также содержит поле index, которое не является признаком и служит исключительно для идентификации записей в финальном файле предсказаний.
Задача
Разработайте модель машинного обучения, используя библиотеки классического ML (например, sklearn, Logistic Regression, Random Forest, CatBoost или XGBoost.
Обучите модель на данных из train.csv, используя колонку price в качестве целевой переменной.
Используйте обученную модель для предсказания цены для данных из test.csv.
Сохраните предсказания в файл submission.csv в следующем формате:
Файл должен содержать два столбца:
index (значения индекса из test.csv)
price — предсказанные значения
Описание признаков
index – уникальный идентификатор записи. Используется для связи с исходными данными.
apartment_type – Тип квартиры (например, студия, однокомнатная, двухкомнатная).
metro_station – Ближайшая станция метро.
minutes_to_metro – Время пешком до ближайшей станции метро.
region – Регион расположения квартиры.
number_of_rooms – Количество комнат в квартире.
area – Общая площадь квартиры.
living_area – Жилая площадь квартиры.
kitchen_area – Площадь кухни.
floor – Этаж, на котором расположена квартира.
number_of_floors – Общее количество этажей в доме.
renovation – Наличие и тип ремонта.
Формат файла submission.csv
Файл должен содержать два столбца:
index — изначальные значения индекса из test.csv
price — предсказанные значения в виде положительного числа
Критерии оценки
Итоговый результат будет рассчитан на основе метрики MAPE на скрытых тестовых данных.