Логистическая регрессия против хи-квадрата в таблицах сопряженности 2x2 и Ix2 (однофакторный - двоичный ответ)?

10

Я пытаюсь понять использование логистической регрессии в таблицах сопряженности 2x2 и Ix2. Например, используя это в качестве примера

введите описание изображения здесь

В чем разница между использованием критерия хи-квадрат и логистической регрессией? Как насчет таблицы с несколькими номинальными коэффициентами (таблица Ix2), например:

введите описание изображения здесь

Существует аналогичный вопрос здесь - но ответ в основном , что хи-квадрат может обрабатывать MXN таблицы, но мой вопрос , что specificalyl когда есть двоичный результат и один номинальный коэффициент. (Связанный поток также ссылается на этот поток , но это касается нескольких переменных / факторов).

Если это всего лишь один фактор (т.е. нет необходимости контролировать другие переменные) с двоичным ответом, то в чем состоит различие в выполнении логистической регрессии?

L Xandor
источник
+1 за вопрос, но вам нужно облегчить копирование и вставку данных для работы с ним.
Антони Пареллада
2
См. Почему мои p-значения отличаются между выходом логистической регрессии, тестом хи-квадрат и доверительным интервалом для ИЛИ? , Критерий хи-квадрат Пирсона для ассоциации - это всего лишь критерий оценки нулевой гипотезы о том, что все склоны равны нулю. Соответствующий критерий отношения правдоподобия асимптотически эквивалентен. Как говорит @Kodiologist, сферы применения логистической регрессии шире, чем проверка того, что все наклоны равны нулю.
Scortchi - Восстановить Монику

Ответы:

12

В конечном итоге это яблоки и апельсины.

Логистическая регрессия - это способ моделирования номинальной переменной как вероятностного результата одной или нескольких других переменных. Подгонка модели логистической регрессии может сопровождаться проверкой, существенно ли отличаются коэффициенты модели от 0, вычислением доверительных интервалов для коэффициентов или проверкой того, насколько хорошо модель может предсказывать новые наблюдения.

Тест χ² независимости является критерием значимости конкретного , которая проверяет нулевую гипотезу , что два номинальных переменные являются независимыми.

Следует ли вам использовать логистическую регрессию или тест χ², зависит от вопроса, на который вы хотите ответить. Например, тест χ² может проверить, не является ли необоснованным полагать, что зарегистрированная политическая партия человека независима от его расы, тогда как логистическая регрессия может вычислить вероятность того, что человек с данной расой, возрастом и полом принадлежит каждой политической партии ,

Kodiologist
источник
Спасибо. Не могли бы вы привести пример различных типов вопросов, на которые вы можете ответить разными методами? Существуют ли какие-либо конкретные ресурсы, которые вы можете порекомендовать для понимания различных вопросов, на которые можно ответить двумя способами?
L Xandor
Я добавил примеры к своему ответу. Что касается вашего второго вопроса, Википедия - хорошее место для начала. Кроме того, в большинстве вводных учебников по прикладной статистике упоминается как критерий независимости χ², так и логистическая регрессия.
Кодиолог
Спасибо. Мне все еще неясно, какая разница в конкретном случае таблицы смежности 2x2? Чи-квадрат будет проверять, не зависит ли результат от вариаций фактора, но что здесь делает логистическая регрессия? Я понимаю, что LR полезен для выполнения прогнозов, основанных на ряде факторов, но когда дело доходит до простого 2x2, я не уверен, в чем разница (но он явно используется) ... не могли бы вы (или кто-либо другой) использовать 2x2 Таблица стресс / рефлюкс в исходном посте как конкретный пример того, как они будут использоваться по-разному? Это единственный фактор, который меня больше всего интересует
L Xandor 22.10.15
или раса / политическая партия работает так же хорошо, как пример, но когда вы затем используете логистическую регрессию, вы используете несколько факторов, и я могу видеть, насколько это полезно там ... но что мне особенно трудно понять, так это почему используйте LR (или как это отличается) в случае одного фактора. Если оба метода используются для изучения отношений между расой и политической партией, в чем разница между ци-квадратом и логистической регрессией?
L Xandor
В случае примера стресса и рефлюкса вы можете использовать логистическую регрессию, чтобы проверить, значительно ли стресс влияет на вероятность рефлюкса, или вы можете рассчитать доверительный интервал для отношения шансов, выражающего этот эффект. Одним из способов, которым это концептуально отличается от теста χ², является то, что стресс или рефлюкс истолковывается как зависимая переменная. Но в любом случае логистическая регрессия может считаться излишней для таблицы непредвиденных обстоятельств 2 на 2.
Kodiologist