Случайный лес не может переодеться?

10

Я читал литературу, которую случайные леса не могут перегонять. Хотя это звучит замечательно, кажется слишком хорошим, чтобы быть правдой. Можно ли для ВЧ переодеться?

screechOwl
источник
5
Если это может соответствовать, это может соответствовать. С точки зрения RF, подумайте о том, что происходит, если в вашем лесу недостаточно деревьев (скажем, ваш лес - это одно дерево, чтобы эффект был очевиден). Есть больше проблем, чем этот, но это наиболее очевидно.
Марк Клазен
Я только что ответил на другой поток в RF, что он может легко переопределить, если количество предикторов велико.
horaceT

Ответы:

7

Случайный лес может перегонять. Я уверен в этом. Обычно подразумевается, что модель не подходит, если вы используете больше деревьев.

Попробуйте, например, оценить модель со случайным лесом. Вы получите почти нулевую ошибку обучения, но ошибочную ошибку прогнозаy=log(x)+ϵ

Donbeo
источник
Случайный лес принципиально уменьшает дисперсию, как он может соответствовать? Возможно, @Donbeo может быть из-за того, что модели дерева решений не очень хорошо работают при экстраполяции. Допустим, для аномальной переменной-предиктора DT может дать неправильный прогноз.
Итачи
Одним из явных признаков переоснащения является то, что остаточная дисперсия слишком сильно уменьшается . Что же вы пытаетесь навязать своим первым замечанием?
whuber
В компромиссе между отклонениями и отклонениями, когда мы пытаемся уменьшить отклонения, мы компенсируем отклонения. Так что если x = 80, то y = 100, а x = 81 - y = -100. Это было бы переоснащение . Разве не подходит для того, чтобы иметь высокую дисперсию. @whuber Я предположил, что переоснащение только из-за высокой дисперсии. Я не понимаю, как уменьшение остаточной дисперсии приводит к переоснащению. Не могли бы вы поделиться какой-нибудь бумагой для меня, чтобы читать дальше.
Итачи
2
Это не требует никакой бумаги! Вы можете попробовать это сами. Возьмите небольшой простой двумерный набор данных, такой как и любую коллекцию соответствующих вы хотите создать. Используя наименьшие квадраты (потому что это направлено на уменьшение дисперсии невязок), ряд моделей для . Каждый шаг будет уменьшать дисперсию, пока на последнем шаге дисперсия не станет равной нулю. В какой-то момент, почти все согласятся, модели начали переписывать данные. xi=1,2,,10yiy=β0+β1x+β2x2++βkxkk=0,1,,9
whuber
@whuber Я думаю, вы упускаете из виду, что такое «уменьшение дисперсии». Случайный лес (и мешки в целом) не уменьшают дисперсию остатков, но дисперсию ваших прогнозов. Так что в вашем примере каждый шаг, о котором вы говорите, увеличивает УВЕЛИЧЕНИЕ :)
Davide ND