Случайные леса работают путем создания множества деревьев решений, где каждое дерево создается с использованием начальной загрузки исходных обучающих данных (выборка как входных переменных, так и наблюдений).
Можно ли применить аналогичный процесс для линейной регрессии? Создайте k моделей линейной регрессии, используя случайную выборку начальной загрузки для каждой из k регрессий
Каковы причины НЕ создавать модель, подобную «случайной регрессии»?
Благодарю. Если я что-то недопонимаю, пожалуйста, дайте мне знать.
a_0 + a_1 * x_1 + ... + a_d * x_d
полученная в результате усредненная линейная функция (после начальной загрузки) все еще имеет ту же линейную функциональную форму, что и та, с которой вы начинаете (то есть «базовый учащийся»).Ответы:
Я частично не согласен с настоящими ответами, потому что методология, основанная на случайном лесе, вводит дисперсию (CART, основанную на загрузочных выборках + метод случайных подпространств), чтобы сделать их независимыми. Если у вас есть ортогональные деревья, то среднее их предсказаний (во многих случаях) будет лучше, чем предсказание среднего дерева (из-за неравенства Дженсена). Несмотря на то, что у CART есть заметные льготы, когда этот метод подвергается лечению, эта методология определенно применима к любой модели, и линейные модели не являются исключением. Вот пакет R, который именно то, что вы ищете. В нем представлен хороший учебник о том, как их настраивать и интерпретировать, а также библиография по теме: случайные обобщенные линейные модели .
источник
Чтобы описать ответ @ ziggystar на языке машинного обучения: идея методов агрегации при начальной загрузке (например, случайных лесов) состоит в том, чтобы приспособить многие модели с низким смещением и высокой дисперсией к данным с некоторым элементом «случайности» или «нестабильности». В случае случайных лесов нестабильность добавляется путем начальной загрузки и выбора случайного набора функций для разделения каждого узла дерева. Усредняя по этим шумным, но с низким уклоном, деревья смягчают высокую дисперсию любого отдельного дерева.
В то время как деревья регрессии / классификации представляют собой модели с низким смещением и высокой дисперсией, модели линейной регрессии, как правило, противоположны - «с высоким смещением и низкой дисперсией». Таким образом, проблема, с которой часто сталкиваются линейные модели, заключается в уменьшении смещения, а не уменьшении дисперсии. Агрегация начальной загрузки просто не предназначена для этого.
Дополнительная проблема заключается в том, что при обычной загрузке начальная загрузка может не обеспечивать достаточной «случайности» или «нестабильности». Я ожидал бы, что дерево регрессии будет более чувствительным к случайности выборок начальной загрузки, поскольку каждый лист обычно содержит только несколько точек данных. Кроме того, деревья регрессии могут быть стохастически выращены путем разбиения дерева на случайное подмножество переменных в каждом узле. Смотрите этот предыдущий вопрос, почему это важно: почему случайные леса разбиты на основе m случайных объектов?
Все это, как говорится, вы можете использовать начальную загрузку на линейных моделях [LINK] , и это может быть очень полезно в определенных контекстах. Однако мотивация сильно отличается от методов агрегации при начальной загрузке.
источник
И вот почему не так привлекательно делать «случайные» вещи с линейными моделями, как с деревьями решений:
Большое дерево решений, созданное из большой выборки, с большой вероятностью может соответствовать данным, и метод случайного леса борется с этим эффектом, полагаясь на голосование множества небольших деревьев.
Линейная регрессия, с другой стороны, является моделью, которая не очень склонна к переоснащению и, таким образом, не повредит обучению ее на полной выборке в начале. И даже если у вас много переменных-регрессоров, вы можете применить другие методы, такие как регуляризация, для борьбы с переоснащением.
источник
источник