Может ли метод случайного леса применяться к линейным регрессиям?

14

Случайные леса работают путем создания множества деревьев решений, где каждое дерево создается с использованием начальной загрузки исходных обучающих данных (выборка как входных переменных, так и наблюдений).

Можно ли применить аналогичный процесс для линейной регрессии? Создайте k моделей линейной регрессии, используя случайную выборку начальной загрузки для каждой из k регрессий

Каковы причины НЕ создавать модель, подобную «случайной регрессии»?

Благодарю. Если я что-то недопонимаю, пожалуйста, дайте мне знать.

regression predictive-models ensemble стог
источник

При начальной загрузке агрегирующих деревьев общая функция регрессии становится все более сложной с каждым добавляемым деревом. С другой стороны, при начальной загрузке агрегирующих линейных функций формы a_0 + a_1 * x_1 + ... + a_d * x_dполученная в результате усредненная линейная функция (после начальной загрузки) все еще имеет ту же линейную функциональную форму, что и та, с которой вы начинаете (то есть «базовый учащийся»).

Андре Хольцнер

1

@ Андре Хольцнер - то, что вы говорите, правда, но, но, но ... но делать этот случайный форрест на самом деле является формой регуляризации, подобной классу риджинга. Я расскажу вам секрет: дерево регрессии на самом деле является линейной моделью - класс, похожий на сплайны. Если надеть мою байесовскую шляпу, случайный регулятивный регуляризатор, скорее всего, будет приблизительно соответствовать априорным элементам «шип и плита», используемым в байесовском контексте.

вероятностная

@probabilityislogic, можешь объяснить?

Саймон Куанг,

Вы можете думать о деревьях как о линейной модели

.

является матрицей проекта, указывающей, какому терминальному узлу принадлежит каждое наблюдение для дерева

, а

является соответствующим вектором предсказаний терминальных узлов. Любое дерево может быть описано таким образом - выбор дерева эквивалентен стандартному выбору линейной модели в пространстве

- я думаю, что существует

возможных конфигураций «терминального узла» (где

- размер обучающей выборки).

y = Z_{t} θ_{t} + e

$y=Z_t\theta_t+e$

Z_{t}

$Z_t$

t

$t$

θ_{t}

$\theta_t$

Z_{t}

$Z_t$

2^{n}

$2^n$

n

$n$

вероятностная логика

5

Я частично не согласен с настоящими ответами, потому что методология, основанная на случайном лесе, вводит дисперсию (CART, основанную на загрузочных выборках + метод случайных подпространств), чтобы сделать их независимыми. Если у вас есть ортогональные деревья, то среднее их предсказаний (во многих случаях) будет лучше, чем предсказание среднего дерева (из-за неравенства Дженсена). Несмотря на то, что у CART есть заметные льготы, когда этот метод подвергается лечению, эта методология определенно применима к любой модели, и линейные модели не являются исключением. Вот пакет R, который именно то, что вы ищете. В нем представлен хороший учебник о том, как их настраивать и интерпретировать, а также библиография по теме: случайные обобщенные линейные модели .

JEquihua
источник

14

Чтобы описать ответ @ ziggystar на языке машинного обучения: идея методов агрегации при начальной загрузке (например, случайных лесов) состоит в том, чтобы приспособить многие модели с низким смещением и высокой дисперсией к данным с некоторым элементом «случайности» или «нестабильности». В случае случайных лесов нестабильность добавляется путем начальной загрузки и выбора случайного набора функций для разделения каждого узла дерева. Усредняя по этим шумным, но с низким уклоном, деревья смягчают высокую дисперсию любого отдельного дерева.

В то время как деревья регрессии / классификации представляют собой модели с низким смещением и высокой дисперсией, модели линейной регрессии, как правило, противоположны - «с высоким смещением и низкой дисперсией». Таким образом, проблема, с которой часто сталкиваются линейные модели, заключается в уменьшении смещения, а не уменьшении дисперсии. Агрегация начальной загрузки просто не предназначена для этого.

Дополнительная проблема заключается в том, что при обычной загрузке начальная загрузка может не обеспечивать достаточной «случайности» или «нестабильности». Я ожидал бы, что дерево регрессии будет более чувствительным к случайности выборок начальной загрузки, поскольку каждый лист обычно содержит только несколько точек данных. Кроме того, деревья регрессии могут быть стохастически выращены путем разбиения дерева на случайное подмножество переменных в каждом узле. Смотрите этот предыдущий вопрос, почему это важно: почему случайные леса разбиты на основе m случайных объектов?

Все это, как говорится, вы можете использовать начальную загрузку на линейных моделях [LINK] , и это может быть очень полезно в определенных контекстах. Однако мотивация сильно отличается от методов агрегации при начальной загрузке.

Алекс Уильямс
источник

Спасибо за ссылки и ответ. Если метод случайности полезен для моделей с низким смещением и высокой дисперсией, существуют ли какие-либо методологии для работы с моделями противоположного типа: «высокий уклон, низкая дисперсия»?

Рик

Если вы используете модель с низким смещением и высокой дисперсией, такие методики, как пакетирование, могут уменьшить дисперсию при небольшом увеличении смещения. Если у вас высокое смещение, низкая дисперсия, используйте модель с более низким смещением и более высокой дисперсией - например, полиномиальную регрессию или более общие методы ядра.

Джо

10

$k$ $k$

И вот почему не так привлекательно делать «случайные» вещи с линейными моделями, как с деревьями решений:

Большое дерево решений, созданное из большой выборки, с большой вероятностью может соответствовать данным, и метод случайного леса борется с этим эффектом, полагаясь на голосование множества небольших деревьев.

Линейная регрессия, с другой стороны, является моделью, которая не очень склонна к переоснащению и, таким образом, не повредит обучению ее на полной выборке в начале. И даже если у вас много переменных-регрессоров, вы можете применить другие методы, такие как регуляризация, для борьбы с переоснащением.

ziggystar
источник

0

$k$

X_{1}, X_{2}, . . ., X_{n} \sim B e (p)

$X_1, X_2, ..., X_n \sim Be(p)$

p

$p$

1 - p

$1-p$

θ = 1_{{p > 0}}

$\theta = 1_{\{p > 0\}}$

X_{i} = 1

$X_i = 1$

θ = 1

$\theta = 1$

θ

$\theta$

θ

$\theta$

{В я a s}_{б a грамм грамм я N грамм} знак равно п р о б (я N a б о о T s T р a п s a м п L е {Икс}_{(1)} знак равно,,, знак равно {Икс}_{(N)} знак равно 0) > 0,

${\rm Bias}_{\rm\ bagging} = {\rm Prob(in\ a\ bootstrap\ sample\ X_{(1)} = ... = X_{(n)} = 0)} > 0,$

θ = 1

$\theta = 1$

Станс - Восстановить Монику
источник

Может ли метод случайного леса применяться к линейным регрессиям?

Ответы: