Логистическая регрессия с двоичными зависимыми и независимыми переменными

14

Целесообразно ли делать логистическую регрессию, когда зависимые и независимые переменные являются двоичными? например, зависимая переменная равна 0 и 1, а предикторы - это переменные с контрастным кодом -1 и 1?

вышеперечисленное
источник

Ответы:

6

Нет причин не делать этого, но есть две предостерегающие мысли:

  1. Внимательно следите, во время анализа чего есть что. В крупных проектах легко потеряться и получить ошибочные результаты.

  2. Если вы решите сообщать о регрессионных оценках, а не о коэффициентах шансов, сделайте вашу схему кодирования понятной в своем отчете , чтобы читатели не создавали неточных ИЛИ самостоятельно, предполагая, что они оба были закодированы как 0,1.

Может показаться простым, но я видел, как обе проблемы превращаются в опубликованные статьи.

фомиты
источник
Так что тогда было бы также уместно разделить файл данных на 6 отдельных случаев и провести отдельные сравнения в каждом наборе данных с предикторами с ограниченным кодированием?
выше
Я, честно говоря, не уверен, что вы просите об этом втором бите. Можете ли вы объяснить, чего вы хотите достичь?
Fomite
У меня есть набор данных с 3 между и 4 в предметных условиях. Я хотел бы протестировать каждый эффект, но одна регрессия со всеми взаимодействиями пропускает много интересующей меня информации. Вместо этого я бы разделил данные по условию на отдельные наборы данных и запустил бы фокусированные логистические регрессии для каждого набора данных с контрастом. коды, кодирующие различия, которые меня интересуют.
выше
Более подробную информацию о том, как я кодирую
выше
11

Для ясности: термин «двоичный» обычно зарезервирован только для кодирования 1 против 0. Более общее слово, подходящее для любого двухзначного кодирования, является «дихотомическим». Дихотомические предикторы, конечно, приветствуются для логистической регрессии, как и для линейной регрессии, и, поскольку они имеют только 2 значения, не имеет значения, вводить их как факторы или как ковариаты.

ttnphns
источник
5

Обычно это помогает интерпретации, если вы кодируете свои предикторы 0-1, но кроме этого (и отмечая, что это не требуется), в этом нет ничего плохого. Существуют и другие подходы (на основе таблиц сопряженности), но, если я правильно помню, они оказываются эквивалентными (в некоторой форме) логистической регрессии.

Итак, вкратце: я не вижу причин не делать этого.

Ник Саббе
источник
Благодарность! И если у меня есть 3 предиктора с контрастным кодированием, и я кодирую их все 0-1, то они не будут ортогональными. Например, у меня есть 4 категории, и мои три кода: L1: 1, -1,0,0, L2: 0,1, -1,0, L3: 0,0,1, -1. это проблема?
выше
Ваш пример L-матрицы (L1, L2, L3) - это повторяющиеся контрасты, при которых каждая категория сравнивается со следующей категорией. Ни эти предикторы контраста не являются ортогональными, ни двоичными (кодируются как 0-1). На самом деле их значения: 0,75 против -25 (1-я переменная), .5 против -.5 (2-я переменная), .25 против -.75 (3-я переменная)
ttnphns
3

Кроме того, если у вас есть более двух предикторов, то, скорее всего, возникнет проблема мультиколлинеарности даже для логистической или множественной регрессии. Тем не менее, нет никакого вреда в использовании логистической регрессии со всеми двоичными переменными (т. Е. С кодом (0,1)).

любовь-статистика
источник