Я использую пакет randomForest в R для разработки модели случайного леса, чтобы попытаться объяснить непрерывный результат в «широком» наборе данных с большим количеством предикторов, чем выборок.
В частности, я подгоняю одну модель RF, позволяющую процедуре выбрать из набора ~ 75 переменных предиктора, которые я считаю важными.
Я проверяю, насколько хорошо эта модель предсказывает фактический результат для зарезервированного набора тестирования, используя подход, опубликованный здесь ранее , а именно:
... или в R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Но теперь у меня есть дополнительные ~ 25 предикторных переменных, которые я могу добавить. При использовании набора ~ 100 предикторов R² выше. Я хочу проверить это статистически, иными словами, при использовании набора из ~ 100 предикторов модель значительно лучше тестирует данные, чем модель, подходящая с использованием ~ 75 предикторов. То есть, R2 при тестировании модели RF подходит для полного набора данных значительно выше, чем R² при тестировании модели RF на сокращенном наборе данных.
Это важно для меня, чтобы проверить, потому что это пилотные данные, и получить эти 25 дополнительных предикторов было дорого, и мне нужно знать, должен ли я платить за измерение этих предикторов в более широком последующем исследовании.
Я пытаюсь придумать какой-то подход к пересэмплингу / перестановке, но ничего не приходит в голову.
источник
Дополнительный вариант заключается в том, чтобы использовать все релевантные возможности выбора, что бы указывало на то, какие атрибуты могут быть значительно полезны для классификации - таким образом, эти дорогие атрибуты стоят своей цены. Это можно сделать, например, с помощью RF-обертки Boruta .
источник
Вы можете думать с точки зрения практической значимости, а не статистической значимости (или оба). С достаточным количеством данных вы можете найти статистически значимые вещи, которые не окажут реального влияния на ваше использование. Я помню, как однажды анализировал модель, в которой 5-сторонние взаимодействия были статистически значимыми, но когда прогнозы из модели, включающие все до 5-сторонних взаимодействий, сравнивались с прогнозами из модели, включающими только 2-сторонние взаимодействия и основные эффекты самая большая разница была менее 1 человека (ответом было количество людей, и все интересные значения были вдали от 0). Таким образом, сложность не стоила того. Итак, посмотрите на различия в ваших прогнозах, чтобы увидеть, достаточно ли этих различий, чтобы оправдать дополнительные расходы, если нет, то зачем вообще искать статистическую значимость? Если различия достаточно велики, чтобы оправдать стоимость, если они реальны, то я поддерживаю другие предположения о перекрестной проверке.
источник
Этот метод также может быть расширен для работы в рамках перекрестной проверки (а не только разбиения выборки, как показано выше).
источник
Поскольку вы уже используете
randomForest
после перекрестной проверки, возможно, вы выберете вычисление выбранного соответствия значений важности предиктора.источник
Я вижу, что этот вопрос был задан давно; однако ни один ответ не указывает на существенные недостатки и недоразумения в этом вопросе.
Пожалуйста, обратите внимание:
Вы утверждаете, что R ^ 2 = ESS / TSS = 1 - RSS / TSS. Это верно только в линейном контексте. Равенство TSS = RSS + ESS выполняется только в линейной регрессии с перехватом. Таким образом, вы не можете использовать эти определения для случайных лесов взаимозаменяемо. Вот почему RMSE и аналогичные являются более типичными функциями потерь.
Что более важно для статистических целей: R ^ 2 следует за неизвестным распределением (также в линейной установке). Это означает, что проверка гипотезы со статистической значимостью с использованием R ^ 2 не так проста. Перекрестная проверка, как упомянул Зак , является хорошим выбором.
Что касается ответа пользователя 88 : перекрестная проверка с помощью критерия Уилкоксона является допустимым подходом. В недавней статье для сравнения различных методов и алгоритмов используются критерий Уилкоксона со знаковыми рангами и тесты Фридмана.
источник