Важность функции через случайный лес и линейную регрессию различны

9

Применил Лассо для ранжирования функций и получил следующие результаты:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Обратите внимание, что набор данных имеет 3 метки. Ранжирование функций для разных ярлыков одинаково.

Затем применил случайный лес к тому же набору данных:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Обратите внимание, что рейтинг сильно отличается от рейтинга, созданного Лассо.

Как интерпретировать разницу? Означает ли это, что базовая модель по своей природе является нелинейной?

аксонов
источник
Ранг функции на самом деле не переводится между различными классификаторами. Чтобы проверить, является ли модель нелинейной, см. Здесь, например: stats.stackexchange.com/questions/35893/…
Alex R.
1
Значения функций являются лишь предположением, основанным на «эвристике». Они могут быть ненадежными время от времени. Обычно я доверяю случайному лесу больше, чем Лассо.
Геренюк

Ответы:

6

Таким образом, ваш запрос представляет собой сравнение линейной регрессии с важностью переменных, полученных из модели случайного леса.

р2

Другой популярный подход - усреднение по порядку (LMG, 1980). LMG работает так:

  • SSa/SSTоTaLр2a
  • a,б,сб,a,сб,с,a
  • Найти среднее значение получастичных корреляций для каждого из этих порядков. Это среднее по заказам.

Алгоритм случайного леса подходит для нескольких деревьев, каждое дерево в лесу строится путем случайного выбора различных объектов из набора данных. Узлы каждого дерева создаются путем выбора и разделения для достижения максимального уменьшения дисперсии. При прогнозировании на тестовом наборе данных выходные данные отдельных деревьев усредняются для получения окончательного результата. Каждая переменная переставляется среди всех деревьев, и вычисляется разность ошибок выборки до и после перестановки. Переменные с наибольшей разницей считаются наиболее важными, а переменные с более низкими значениями менее важны.

Метод подгонки модели к данным обучения сильно отличается для модели линейной регрессии по сравнению с моделью случайного леса. Но обе модели не содержат структурных связей между переменными.

Относительно вашего запроса о нелинейности зависимой переменной: Лассо - это, по сути, линейная модель, которая не сможет дать хорошие прогнозы для лежащих в основе нелинейных процессов по сравнению с древовидными моделями. Вы должны быть в состоянии проверить это, проверив производительность моделей с помощью набора тестов в стороне. Если случайный лес работает лучше, базовый процесс может быть нелинейным. В качестве альтернативы, вы можете включить эффекты взаимодействия переменных и переменные более высокого порядка, созданные с использованием a, b и c, в модель лассо и проверить, работает ли эта модель лучше по сравнению с лассо только с линейной комбинацией a, b и c. Если это так, то основной процесс может быть нелинейным.

Ссылки:

Сандип С. Сандху
источник