Тест случайной перестановки для выбора функции

9

Меня смущает анализ перестановок для выбора функций в контексте логистической регрессии.
Не могли бы вы дать четкое объяснение теста случайной перестановки и как он применяется к выбору функции? Возможно, с точным алгоритмом и примерами.

Наконец, как это можно сравнить с другими методами усадки, такими как лассо или LAR?

Ugo
источник
5
Вы имеете в виду что-то вроде, например, где записи одного столбца матрицы проекта переставляются, фиксируя ответ и другие ковариаты фиксированными? Если у вас есть конкретная ссылка, которую вы используете, может быть полезно перечислить ее.
кардинал
Я думаю, что эта ссылка citeseerx.ist.psu.edu/viewdoc/… относится к правильной технике. В настоящее время я пытаюсь связаться с лектором, который рассказал мне об этом методе ...
Уго
Не удалось связаться с ним (Дональд Геман)
Уго
2
в вашем вопросе есть неясные моменты, которые вы можете уточнить. В связанной статье есть довольно четкое описание алгоритма. Хотите спросить что-то конкретное об этом алгоритме? Является ли идея выбора функции путем вычисления предельных значений, которую вы хотите объяснить? Кроме того, вы должны поставить под сомнение определение 2 в документе. Это неподдерживаемое утверждение, которое может быть рабочим предположением, но небольшие предельные p-значения в общем случае не подразумевают актуальность. Кстати, LAR выполняет линейную регрессию и не предназначен для двоичных ответов. pp
NRH

Ответы:

10

(У меня не так много времени, поэтому я отвечу кратко, а потом расскажу позже)

Скажем, мы рассматриваем проблему двоичной классификации и имеем обучающий набор из выборок класса 1 и n выборок класса 2. Тест перестановки для выбора функции рассматривает каждую функцию в отдельности. Тестовая статистика θ , такая как прирост информации или нормализованная разница между средними значениями, рассчитывается для объекта. Данные для объекта затем случайным образом переставляются и делятся на два набора, один из которых имеет размер m, а другой - размер n . Затем тестовая статистика θ p рассчитывается на основе этого нового раздела pmnθmnθpp, В зависимости от вычислительной сложности задачи, это затем повторяется для всех возможных разбиений объекта на два набора порядка и n или их случайное подмножество.mn

Теперь, когда мы установили распределение по , мы вычислим p-значение, по которому наблюдаемая тестовая статистика θ возникла из случайного разбиения признака. Нулевая гипотеза состоит в том, что выборки из каждого класса происходят из одного и того же базового распределения (функция не имеет значения).θpθ

Этот процесс повторяется для всех объектов, и затем подмножество объектов, используемых для классификации, можно выбрать двумя способами:

  • особенности с самыми низкими значениями р-N
  • Все функции с p-значением <ϵ
benhamner
источник