В МТУСИ разработали эффективную модель прогнозирования спроса на товары
Сотрудники кафедры МКиИТ факультета «Информационные технологии» МТУСИ д.т.н., профессор Юрий Леохин и к.т.н., доцент Тимур Фатхулин предложили модификацию модели градиентного усиления, использующую способ корректировки расчета градиента с помощью оценок аномальности образцов набора данных методом леса изоляции.
Предметная область розничных продаж характеризуется наличием множества различных шумов и аномалий в данных. Применение методов машинного обучения при прогнозировании таких данных приводит к снижению точности прогнозов и возникновению эффекта переобучения. Несмотря на настройку имеющихся параметров в существующих алгоритмах градиентного усиления, данная проблема сохраняется и приводит к необходимости дополнительных доработок для построения более точных прогнозов.
Для решения этой проблемы сотрудники МТУСИ разработали модель машинного обучения (МО), в которой применяется модифицированный подход корректировки градиента путем взвешивания образцов данных. Это может быть использовано как непосредственно в указанной предметной области, так и в других прикладных задачах, связанных с необходимостью повышения точности метода градиентного усиления на аномальных и зашумленных данных. В качестве базового метода для модификации был выбран метод градиентного усиления деревьев решений, реализованный алгоритмом XGBoost. В исследованиях алгоритм XGBoost показал свою эффективность при прогнозировании на нескольких датасетах продаж по сравнению с остальными алгоритмами МО, что выразилось в оптимальном сочетании скорости работы, точности прогнозов и гибкости настроек. Данные для обучения были взяты из датасетов открытой платформы «Kaggle».
Взвешивание образцов выборки по аномальности позволило улучшить обучение алгоритма XGBoost, а кластеризация данных - учесть специфику данных продаж, в то время как использование кросс-валидации дало возможность сделать результаты обучения более стабильными. Все это повысило точность прогнозирования, что является неотъемлемым преимуществом настоящей разработки. В перспективе разработанная модель позволит значительно упростить прогнозирование спроса на отдельные виды товаров и повысить доходы компаний ретейлеров.