Я пытаюсь использовать случайную лесную регрессию в scikits-learn. Проблема в том, что я получаю очень высокую ошибку теста:
train MSE, 4.64, test MSE: 252.25.
Вот как выглядят мои данные: (синий: реальные данные, зеленый: прогноз):
Я использую 90% для обучения и 10% для тестирования. Это код, который я использую после попытки нескольких комбинаций параметров:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
Каковы возможные стратегии для улучшения моей подгонки? Есть ли что-то еще, что я могу сделать, чтобы извлечь основную модель? Мне кажется невероятным, что после стольких повторений одного и того же паттерна модель ведет себя так плохо с новыми данными. Есть ли у меня какая-то надежда на то, чтобы соответствовать этим данным?
Ответы:
Я думаю, что вы используете неправильный инструмент; если весь ваш X эквивалентен индексу, вы в основном имеете некоторую выборочную функцию и пытаетесь ее экстраполировать. Машинное обучение - это все о интерполяции истории, поэтому неудивительно, что в этом случае оно дает впечатляющий провал.е: R → R
Что вам нужно, это анализ временных рядов (то есть извлечение тренда, анализ спектра и авторегрессия или остальное HMM) или физика (то есть размышление о том, существует ли ODE, способное произвести такой выход, и попытка согласовать его параметры с помощью сохраняющихся величин).
источник
g
илиr
) и 2 функции (index
(временные) иanimal
). Исходя из этих данных, я могу подобрать несколько моделей, которые могут придать больший или меньший вес характеристике 1 или 2 (или равны обеим). Перекрестная проверка (при условии достаточного количества данных) должна привести к модели с признаком 2 (животное), имеющим меньшее значение. Я вижу, что моя модель соответствует данным, но я все еще думаю, что я должен быть в состоянии извлечь модель, которая следует этому шаблону (потому что поведение не изменилось) с достаточно большим пространством модели.Самая большая проблема заключается в том, что деревья регрессии (и алгоритмы на их основе, такие как случайные леса) предсказывают кусочно-постоянные функции, давая постоянное значение для входных данных, попадающих под каждый лист. Это означает, что при экстраполяции вне своей обучающей области они просто предсказывают то же значение, что и для ближайшей точки, в которой у них были обучающие данные. @mbq правильно, что есть специальные инструменты для изучения временных рядов, которые, вероятно, будут лучше, чем обычные методы машинного обучения. Тем не менее, случайные леса особенно плохи для этого примера, и там другие общие методы ML, вероятно, будут работать намного лучше, чем вы видите. SVM с нелинейными ядрами - одна из опций, которая приходит на ум. Поскольку ваша функция имеет периодическую структуру, это также предполагает работу в частотной области,
источник
Это пример учебника для перебора данных, модель очень хорошо справляется с обученными данными, но разрушается при любых новых тестовых данных. Это одна из стратегий для решения этой проблемы: Проведите десятикратную перекрестную проверку данных тренировки для оптимизации параметров.
Шаг 1. Создайте функцию минимизации MSE, используя оптимизацию NM. Пример можно увидеть здесь: http://glowingpython.blogspot.de/2011/05/curve-fitting-using-fmin.html
Шаг 2. В рамках этой функции минимизации цель состоит в том, чтобы уменьшить MSE. Чтобы сделать это, создайте десятикратное разделение данных, где новая модель будет изучена в 9 раз, а протестирована - в 10 раз. Этот процесс повторяется десять раз, чтобы получить MSE на каждом сгибе. Агрегированный MSE возвращается как результат цели.
Шаг 3. fmin в python сделает итерации за вас. Проверьте, какие гиперпараметры необходимы для точной настройки (n_estimators, max_features и т. Д.) И передайте их в fmin.
Результатом будут лучшие гиперпараметры, которые уменьшат вероятность перенастройки.
источник
Некоторые предложения:
nearest maximum
. Не знаю, это может сработать, а может и нет, вы можете знать, только если вы проверяете это :)источник
источник
Прочитав вышеуказанный пост, я хочу дать другой ответ.
Для моделей на основе дерева, таких как случайный лес, они не могут экстраполировать значение за пределы обучающего набора. Так что, я не думаю, что это более подходящая проблема, но неправильная стратегия моделирования.
Итак, что мы можем сделать для прогнозирования временных рядов с помощью древовидной модели?
Возможный способ состоит в том, чтобы объединить его с линейной регрессией: сначала определите тренд по временному ряду (или моделируйте тренд с помощью линейной регрессии), затем смоделируйте невязку с деревьями (невязки ограничены, поэтому модели дерева могут с этим справиться).
Кроме того, существует древовидная модель в сочетании с линейной регрессией, которая может экстраполировать, называемая кубистической, она выполняет линейную регрессию на листе.
источник
Если вы просто хотите предсказать в пределах графика, то простая рандомизация наблюдений до разделения набора данных должна решить проблему. Тогда это становится проблемой интерполяции от проблемы экстраполяции как показано.
источник