В логит-модели есть ли более умный способ определить влияние независимой порядковой переменной, чем использовать фиктивные переменные для каждого уровня?
logistic
logit
ordinal-data
fgregg
источник
источник
Ответы:
Чтобы добавить к ответу @ dmk38, «любой набор баллов дает действительный тест, при условии, что он составлен без учета результатов эксперимента. Если набор баллов плохой, то это сильно искажает числовую шкалу, которая действительно лежит в основе В соответствии с упорядоченной классификацией, тест не будет чувствительным. Поэтому оценки должны отражать лучшее понимание того, каким образом была построена и использована классификация ». (Cochran, 1954, процитировано Agresti, 2002, pp. 88-89). Другими словами, обработка упорядоченного фактора как численно оцениваемой переменной является просто проблемой моделирования. Если это имеет смысл, это будет влиять только на то, как вы интерпретируете результат, и не существует определенного практического правила о том, как выбрать наилучшее представление для порядковой переменной.
Рассмотрим следующий пример употребления алкоголя у матери и наличия или отсутствия врожденных пороков развития (Agresti, Анализ данных по категориям , таблица 3.7 с.89):
В этом конкретном случае мы можем смоделировать результат, используя логистическую регрессию или простую таблицу ассоциаций. Давайте сделаем это в R:
Обычная статистика (12,08, p = 0,016751) или LR (6,20, p = 0,184562) (с 4 df) не учитывает упорядоченные уровни потребления алкоголя.χ2
Обрабатывая обе переменные как порядковые с одинаково распределенными баллами (это не влияет на двоичные переменные, такие как порок развития, и мы выбираем базовую линию как 0 = отсутствует), мы могли бы проверить линейно-линейную связь. Давайте сначала построим разобранную версию этой таблицы непредвиденных обстоятельств:
Затем мы можем проверить линейную связь, используя
что дает с . Обратите внимание, что эта статистика является просто корреляцией между двумя сериями оценок (которые Агрести назвал ), которая легко вычисляется какχ2( 1 ) = 1,83 р = 0,1764 M2= ( n - 1 ) r2
Как видно, не так много доказательств четкой связи между этими двумя переменными. Как и в случае с Agresti, если мы решим перекодировать уровни алкоголя как {0,0.5,1.5,4,7}, то есть использовать средние значения для гипотетической непрерывной шкалы с последним показателем, являющимся несколько чисто произвольным, то мы заключим В большей степени влияние алкоголя у матери на развитие врожденных пороков развития:
дает тестовую статистику 6,57 со связанным значением р 0,01037.
Есть альтернативные схемы кодирования, в том числе midranks (в этом случае, мы падаем назад к Спирмену вместо Пирсона ) , что обсуждается на Agresti, но я надеюсь , что вы поймать общую идею здесь: Лучше всего , чтобы выбрать результаты , которые фактически отражают разумные меры расстояния между смежными категориями вашей порядковой переменной и равного расстояния часто являются хорошим компромиссом (при отсутствии теоретического обоснования).ρ р
Используя подход GLM, мы будем действовать следующим образом. Но сначала проверьте, как Алкоголь закодирован в R:
Это простой неупорядоченный фактор (
"factor"
), следовательно, номинальный предиктор. Теперь, вот три модели, в которых мы рассматриваем Алкоголь как номинальный, порядковый или непрерывный предиктор.В последнем случае подразумевается шкала равных интервалов, а интерпретируется как @ dmk38: она отражает влияние увеличения содержания алкоголя на единицу на результат через ссылку logit, то есть увеличение вероятности наблюдения за уродством (по сравнению с отсутствием уродства, то есть отношения шансов) составляет . Тест Вальда не является значимым на обычном уровне 5%. В этом случае матрица проектирования включает в себя только 2 столбца: первый - это постоянный столбец из 1 для пересечения, второй - числовое значение (от 1 до 5) для предиктора, как в простой линейной регрессии. В целом, эта модель проверяет линейное влияние алкоголя на результат (по логит-шкале).β^ ехр( θ^) = exp( 0,228 ) = 1,256
Однако в двух других случаях (
mod1
иmod2
) мы получаем разные выходные данные, потому что матрица проектирования, используемая для моделирования предиктора, отличается, что можно проверить с помощью:Мы можем видеть, что соответствующая матрица проектированияк - 1
mod1
включает в себя фиктивные переменные для уровней алкоголя (0 всегда является базовой линией) после термина перехвата в первом столбце, тогда как в случае у нас есть четыре столбца эффектов с контрастным кодированием (после столбца 1 для перехвата). Коэффициент для категории «3-5» оценивается в 1,03736 , а в 0,01633 - ниже . Обратите внимание, что AIC и другие основанные на вероятности меры остаются, однако, идентичными между этими двумя моделями.mod2
mod1
mod2
Вы можете попытаться присвоить новые оценки Алкоголю и посмотреть, как это повлияет на прогнозируемую вероятность порока развития.
источник
совершенно нормально использовать категориальный предиктор в регрессионной модели логита (или OLS), если уровни являются порядковыми. Но если у вас есть причина считать каждый уровень дискретным (или если ваша категориальная переменная является номинальной, а не порядковой), то в качестве альтернативы фиктивному кодированию вы также можете использовать ортогональное контрастное кодирование. Для очень полной и доступной дискуссии см. Judd, CM, McClelland, GH & Ryan, CS. Анализ данных: подход сравнения моделей, Edn. Второй. (Рутледж / Тейлор и Фрэнсис, Нью-Йорк, Нью-Йорк; 2008), или просто Google "контрастное кодирование"
источник