Я думаю, что это простой вопрос, хотя причины, почему или почему нет, могут и не быть. Причина, по которой я спрашиваю, состоит в том, что я недавно написал свою собственную реализацию RF, и, хотя она работает хорошо, она работает не так, как я ожидал (на основе набора данных о конкурсе Kaggle Photo Quality Prediction , победных баллов и некоторых последующая информация о том, какие методы были использованы).
Первое, что я делаю в таких обстоятельствах, - это ошибка прогнозирования графика для моей модели, поэтому для каждого заданного значения прогнозирования я определяю среднее отклонение (или отклонение) от правильного целевого значения. Для моего РФ я получил этот участок:
Мне интересно, является ли это обычно наблюдаемой моделью смещения для RF (если нет, то это может быть что-то конкретное для набора данных и / или моей реализации). Я, конечно, могу использовать этот график для улучшения прогнозов, используя его для компенсации смещения, но мне интересно, есть ли более фундаментальная ошибка или недостаток в самой модели RF, которая требует устранения. Спасибо.
== ДОБАВЛЕНИЕ ==
Мое первоначальное расследование в этой записи блога Случайный лесной уклон - Обновление
источник
Ответы:
(Я далеко не эксперт. Это просто размышления младшего статистика, который занимался разными, но слабо аналогичными проблемами. Мой ответ может быть вне контекста.)
Учитывая прогнозируемую новую выборку и оракула, который имеет доступ к гораздо большему обучающему набору, тогда, возможно, «лучшим» и наиболее честным прогнозом будет сказать: «Я предсказываю с вероятностью 60%, что это относится к классу красных, а не Синий класс ".
Я приведу более конкретный пример. Представьте, что в нашем очень большом тренировочном наборе есть большой набор образцов, очень похожих на наш новый образец. Из них 60% синие и 40% красные. И, кажется, нечего отличать блюз от красного. В таком случае очевидно, что 60% / 40% - это единственный прогноз, который может сделать здравомыслящий человек.
Конечно, у нас нет такого оракула, вместо этого у нас много деревьев. Простые деревья решений не способны делать эти 60% / 40% прогнозы, и, следовательно, каждое дерево будет делать дискретный прогноз (красный или синий, ничего между ними). Поскольку этот новый образец попадает только на красную сторону поверхности принятия решения, вы обнаружите, что почти все деревья предсказывают красный, а не синий. Каждое дерево претендует на то, чтобы быть более уверенным, чем оно есть, и оно начинает давить в сторону предвзятого предсказания.
Проблема в том, что мы склонны неверно истолковывать решение из одного дерева. Когда одно дерево помещает узел в класс Red, мы не должны интерпретировать это как прогноз 100% / 0% от дерева. (Я не просто говорю, что мы «знаем», что это, вероятно, плохой прогноз. Я говорю что-то более сильное, то есть мы должны быть осторожны, мы интерпретируем это как предсказание дерева). Я не могу кратко рассказать о том, как это исправить. Но можно позаимствовать идеи из областей статистики о том, как построить более «нечеткие» расщепления внутри дерева, чтобы побудить одно дерево быть более честным в отношении его неопределенности. Тогда должна быть возможность осмысленно усреднить прогнозы из леса деревьев.
Надеюсь, это немного поможет. Если нет, я надеюсь узнать из любых ответов.
источник
Да. Большинство деревьев имеют уклон в хвостах. Увидеть:
Как следует реализовывать разбиения дерева решений при прогнозировании непрерывных переменных?
«Одна потенциальная проблема с деревьями заключается в том, что они имеют тенденцию плохо вписываться в хвосты. Подумайте о терминальном узле, который фиксирует низкий диапазон тренировочного набора. Он будет прогнозировать, используя среднее значение этих тренировочных уставок, которое всегда будет недооцениваться. результат (так как это среднее).
источник