Я стал чем-то вроде нигилистов, когда дело доходит до переменных уровней ранжирования (в контексте многомерных моделей всех видов).
Часто в ходе моей работы меня просят либо помочь другой команде составить рейтинг с переменной степенью важности, либо создать рейтинг с переменной степенью важности из моей собственной работы. В ответ на эти запросы я задаю следующие вопросы
Зачем вам этот рейтинг важности переменной? Что вы надеетесь извлечь из этого? Какие решения вы хотели бы принять, используя его?
Ответы, которые я получаю, почти всегда попадают в одну из двух категорий
- Я хотел бы знать важность различных переменных в моей модели для прогнозирования ответа.
- Я хотел бы использовать его для выбора функций, удаляя переменные низкой важности.
Первый ответ тавтологический (я хотел бы, чтобы рейтинг изменчивости важности, потому что я хотел бы, чтобы рейтинг изменчивости важности). Я должен предположить, что эти рейтинги заполняют психологическую потребность при использовании результатов многомерной модели. Мне трудно это понять, так как ранжирование переменных «важность» в отдельности, по-видимому, неявно отвергает многомерную природу рассматриваемой модели.
Второй ответ по существу сводится к неофициальной версии обратного отбора , статистические грехи которого хорошо документированы в других частях CrossValidated.
Я также борюсь с плохо определенной природой ранжирования значимости. Кажется, нет единого мнения о том, какую базовую концепцию должен измерять рейтинг, придавая им особый вкус. Есть много способов присвоить оценку важности или рейтинг, и они обычно страдают от недостатков и предостережений:
- Они могут сильно зависеть от алгоритма, как при ранжировании по важности в случайных лесах и gbms.
- Они могут иметь чрезвычайно высокую дисперсию, радикально изменяющуюся из-за возмущений к базовым данным.
- Они могут сильно пострадать от корреляции во входных предикторах.
Итак, из всего сказанного, мой вопрос заключается в том, каковы некоторые статистически обоснованные варианты использования рейтингов переменной важности или каков убедительный аргумент (либо статистику, либо непрофессионалу) о бесполезности такого желания? Я заинтересован как в общих теоретических аргументах, так и в тематических исследованиях, в зависимости от того, что будет более эффективным в изложении сути.
источник
glmnet
доступно?Ответы:
Я утверждал, что значение переменной является скользкой концепцией , как этот вопрос. Тавтологический первый тип ответа, который вы получаете на свой вопрос, и нереалистичные надежды тех, кто будет интерпретировать результаты переменной важности с точки зрения причинности, как отмечает @DexGroves, не требуют особых разработок.
Однако, по справедливости тем, кто использовал бы обратный отбор, даже Фрэнк Харрелл допускает это как часть стратегии моделирования. На странице 97 его Стратегии регрессионного моделирования , 2-е издание (аналогичное утверждение приведено на странице 131 соответствующих примечаний к курсу ):
Однако это ограниченное потенциальное использование обратного выбора - это шаг 13, последний шаг перед окончательной моделью (шаг 14). Это приходит хорошо после решающих первых шагов:
По моему опыту, люди часто хотят обойти шаг 2 и позволить какой-то автоматизированной процедуре заменить интеллектуальное применение предметных знаний. Это может привести к тому, что акцент будет сделан на переменную важность.
Полная модель шага 14 Харрелла сопровождается 5 дальнейшими шагами проверки и корректировки, с последним шагом:
Как отмечалось в других ответах, существуют проблемы практичности, стоимости и простоты, которые входят в практическое применение результатов моделирования. Например, если я разрабатываю новый биомаркер рака, который улучшает прогнозирование, но стоит 100 000 долларов за тест, может быть трудно убедить страховщиков или правительство заплатить за тест, если он не будет впечатляюще полезным. Поэтому для кого-то не лишено смысла сосредоточиться на «наиболее важных» переменных или упростить точную модель до модели, которая несколько менее точна, но проще или дешевле в реализации.
Но этот выбор переменных и упрощение модели должны быть предназначены для конкретной цели , и я думаю, что здесь возникают трудности. Проблема аналогична оценке схем классификации исключительно на основе процента правильно классифицированных случаев. Точно так же, как разные ошибки классификации могут иметь разные затраты, разные схемы упрощения модели могут иметь разные затраты, которые сбалансированы с ожидаемыми выгодами.
Поэтому я думаю, что проблема, на которой должен сосредоточиться аналитик, заключается в возможности надежно оценить и проиллюстрировать эти затраты и выгоды с помощью процедур статистического моделирования, а не слишком беспокоиться об абстрактной концепции статистической достоверности как таковой. Например, на страницах 157-8 примечаний к классу Харрелла, связанных выше, приведен пример использования начальной загрузки для показа капризов ранжирующих предикторов в наименьших квадратах; аналогичные результаты можно найти для наборов переменных, выбранных LASSO.
Если этот тип изменчивости в выборе переменных не мешает конкретному практическому применению модели, это нормально. Задача состоит в том, чтобы оценить, к какому количеству и типу неприятностей приведет это упрощение.
источник
Это совершенно анекдотично, но я нашел переменную важность полезной для выявления ошибок или слабых мест в GBM.
Переменная важность дает вам вид огромного поперечного сечения модели, который было бы трудно получить иначе. Переменные, расположенные выше в списке, видят большую активность (другой вопрос - важны они или нет). Часто плохо ведущий себя предиктор (например, что-то прогнозное или фактор высокой мощности) будет стрелять наверх.
Если есть большое различие между важностью переменной интуиции и важностью переменной GBM, обычно есть некоторые ценные знания, которые необходимо получить, или ошибка.
Я бы добавил третий ответ на вопрос «почему ты спрашиваешь меня об этом?» вопрос, который «потому что я хочу понять, что является причиной моего ответа». Eep.
источник
Переменные значения важности играют определенную роль в прикладном деловом мире всякий раз, когда есть необходимость расставить приоритеты для потенциально большого количества входов в процесс, любой процесс. Эта информация обеспечивает руководство с точки зрения целенаправленной стратегии для решения проблемы, переходящей от самого важного к наименее важному, например, к снижению себестоимости процесса, учитывая, что переменные являются эффективными, а не фиксированными, или структурные факторы не подвержены манипуляциям. В конце дня это должно привести к каким-либо тестам A / B.
Однако, на ваш взгляд, Мэтт, как и в случае любого порядкового ранжирования, незначительные нюансы или различия между переменными могут быть неоднозначными или неясными, что умаляет их полезность.
источник
Я полностью согласен с вами с теоретической точки зрения. Но с практической точки зрения переменная важность очень полезна.
Давайте рассмотрим пример, в котором страховая компания хочет сократить количество вопросов в вопроснике, определяющих риск их клиентов. Чем сложнее вопросник, тем меньше вероятность того, что клиенты купят свою продукцию. По этой причине они хотят уменьшить менее полезные вопросы при поддержании уровня количественной оценки риска. Решение часто заключается в том, чтобы использовать переменную важность, чтобы определить, какие вопросы должны быть удалены из вопросника (и иметь «более или менее» один и тот же прогноз относительно профиля риска потенциального клиента).
источник