Случайные Леса показывают смещение предсказания?

12

Я думаю, что это простой вопрос, хотя причины, почему или почему нет, могут и не быть. Причина, по которой я спрашиваю, состоит в том, что я недавно написал свою собственную реализацию RF, и, хотя она работает хорошо, она работает не так, как я ожидал (на основе набора данных о конкурсе Kaggle Photo Quality Prediction , победных баллов и некоторых последующая информация о том, какие методы были использованы).

Первое, что я делаю в таких обстоятельствах, - это ошибка прогнозирования графика для моей модели, поэтому для каждого заданного значения прогнозирования я определяю среднее отклонение (или отклонение) от правильного целевого значения. Для моего РФ я получил этот участок:

Значение прогноза в зависимости от смещения от правильного целевого значения

Мне интересно, является ли это обычно наблюдаемой моделью смещения для RF (если нет, то это может быть что-то конкретное для набора данных и / или моей реализации). Я, конечно, могу использовать этот график для улучшения прогнозов, используя его для компенсации смещения, но мне интересно, есть ли более фундаментальная ошибка или недостаток в самой модели RF, которая требует устранения. Спасибо.

== ДОБАВЛЕНИЕ ==

Мое первоначальное расследование в этой записи блога Случайный лесной уклон - Обновление

redcalx
источник
2
Это может быть особенностью ваших данных; Вы пытались запустить другую реализацию RF на том же наборе данных, чтобы увидеть, воспроизводит ли он этот эффект?

Ответы:

4

далеко не эксперт. Это просто размышления младшего статистика, который занимался разными, но слабо аналогичными проблемами. Мой ответ может быть вне контекста.)

Учитывая прогнозируемую новую выборку и оракула, который имеет доступ к гораздо большему обучающему набору, тогда, возможно, «лучшим» и наиболее честным прогнозом будет сказать: «Я предсказываю с вероятностью 60%, что это относится к классу красных, а не Синий класс ".

Я приведу более конкретный пример. Представьте, что в нашем очень большом тренировочном наборе есть большой набор образцов, очень похожих на наш новый образец. Из них 60% синие и 40% красные. И, кажется, нечего отличать блюз от красного. В таком случае очевидно, что 60% / 40% - это единственный прогноз, который может сделать здравомыслящий человек.

Конечно, у нас нет такого оракула, вместо этого у нас много деревьев. Простые деревья решений не способны делать эти 60% / 40% прогнозы, и, следовательно, каждое дерево будет делать дискретный прогноз (красный или синий, ничего между ними). Поскольку этот новый образец попадает только на красную сторону поверхности принятия решения, вы обнаружите, что почти все деревья предсказывают красный, а не синий. Каждое дерево претендует на то, чтобы быть более уверенным, чем оно есть, и оно начинает давить в сторону предвзятого предсказания.

Проблема в том, что мы склонны неверно истолковывать решение из одного дерева. Когда одно дерево помещает узел в класс Red, мы не должны интерпретировать это как прогноз 100% / 0% от дерева. (Я не просто говорю, что мы «знаем», что это, вероятно, плохой прогноз. Я говорю что-то более сильное, то есть мы должны быть осторожны, мы интерпретируем это как предсказание дерева). Я не могу кратко рассказать о том, как это исправить. Но можно позаимствовать идеи из областей статистики о том, как построить более «нечеткие» расщепления внутри дерева, чтобы побудить одно дерево быть более честным в отношении его неопределенности. Тогда должна быть возможность осмысленно усреднить прогнозы из леса деревьев.

Надеюсь, это немного поможет. Если нет, я надеюсь узнать из любых ответов.

Аарон МакДейд
источник
Нечеткие расколы, понял, в духе экстремального ВЧ (но, возможно, не настолько экстремального?). Я попробую это, поскольку ваше объяснение имеет смысл для меня. Спасибо.
Redcalx
[Случайный лес - Мысли о проблеме смещения] ( the-locster.livejournal.com/134241.html ) «Тогда ключ (я думаю) заключается в том, чтобы использовать неравномерную рандомизацию [порога разделения], чтобы множество всех точки разделения, когда объединены, воссоздают y = f (x), и приближаются к прекрасному представлению y = f (x), поскольку число DT в RF стремится к бесконечности. "
Redcalx
Разве прогнозы 60/40% не будут обрабатываться деревом регрессии? Доверие будет соотношение классов в разделе листа (для учебного набора). Возможно, это может / было расширено, чтобы иметь дело со статистической силой
Alter
3

Да. Большинство деревьев имеют уклон в хвостах. Увидеть:

Как следует реализовывать разбиения дерева решений при прогнозировании непрерывных переменных?

«Одна потенциальная проблема с деревьями заключается в том, что они имеют тенденцию плохо вписываться в хвосты. Подумайте о терминальном узле, который фиксирует низкий диапазон тренировочного набора. Он будет прогнозировать, используя среднее значение этих тренировочных уставок, которое всегда будет недооцениваться. результат (так как это среднее).

topepo
источник
Я не думаю, что этот комментарий относится к случайным лесам
Зак
Я полагаю, что эталонная реализация случайных лесов прекращается с ~ 5 наблюдениями в узлах, когда переменная ответа непрерывна. Это все равно внесло бы небольшое смещение, если бы переменная расщепления также была непрерывной. Похоже на то, почему LOESS часто выглядит лучше, чем центрированная скользящая средняя на краях поддержки ...
Shea Parkes