Я пытался использовать значения функций из случайных лесов, чтобы выполнить эмпирический выбор объектов для задачи регрессии, в которой все объекты являются категориальными и многие из них имеют много уровней (порядка 100-1000). Учитывая, что горячее кодирование создает фиктивную переменную для каждого уровня, значения функций относятся к каждому уровню, а не к каждому элементу (столбцу). Каков хороший способ агрегирования этих важных функций?
Я думал о суммировании или получении средней важности для всех уровней функции (вероятно, первая будет смещена в сторону тех функций с большим количеством уровней). Есть ли какие-либо ссылки на этот вопрос?
Что еще можно сделать, чтобы уменьшить количество функций? Я знаю о группе Лассо, не мог найти ничего простого в использовании для scikit-learn.
Ответы:
Это зависит от того, как вы их горячо кодируете. Многие автоматизированные решения для этого будут называть все преобразованные логические значения шаблоном так, чтобы категориальная переменная, называемая «буквой», со значениями AZ заканчивалась следующим образом:
буква_A, буква_B, буква_C, буква_D, ....
Если после того, как вы выяснили важность функции, у вас есть массив функций и связанный вес / важность, я бы проанализировал массив и, возможно, суммировал веса важности функции для всего, что начинается с «буквы%».
источник