Регрессия для категориальных независимых переменных и непрерывно зависимых

20

Я просто понял, что у меня всегда работала проблема регрессии, где независимые переменные всегда были числовыми. Могу ли я использовать линейную регрессию в случае, когда все независимые переменные являются категориальными?

famargar
источник

Ответы:

24

Просто немного семантики и поясним:

  • зависимая переменная == исход == " " в формулах регрессии, таких как y = β_0 + β_1x_1 + β_2x_2 + ... + β_kx_ky = β 0 + β 1 x 1 + β 2 x 2 + . , , + β k x kyy=β0+β1x1+β2x2+...+βkxk
  • независимая переменная == предиктор == одна из " xk " в формулах регрессии, таких как y=β0+β1x1+β2x2+...+βkxk

Таким образом, в большинстве ситуаций тип регрессии зависит от типа зависимой, исходной или переменной y . Например, линейная регрессия используется, когда зависимая переменная является непрерывной, логистическая регрессия, когда зависимая является категориальной с 2 ​​категориями, и многочленная (n) регрессия, когда зависимая является категориальной с более чем 2 категориями. Предикторами могут быть все что угодно (номинальное или порядковое категориальное, или непрерывное, или сочетание) .

(Примечание ниже может быть излишним для вас, но я все равно добавлю его)

Тем не менее, обратите внимание, что большинство программного обеспечения требует, чтобы вы перекодировали категориальные предикторы в двоичную числовую систему . Это просто означает кодирование пола до 0 для женщин и 1 для мужчин или наоборот. Для категориальных переменных с более чем 2 уровнями вам необходимо перекодировать их в фиктивные переменные где - это количество уровней, и эти фиктивные переменные содержат 0 или 1, когда они находятся в соответствующей категории. Таким образом, каждый человек (образец) должен быть представлен наличием 1 для фиктивной переменной, частью которой он / она является, и 0 для остальных или 0 для всех манекенов, когда он / она является частью контрольной группы.лL1L

IWS
источник
Благодарю. как я пишу в заголовке вопроса, зависимая переменная является непрерывной. Поэтому я воспринимаю ваш ответ как «вы можете использовать линейную регрессию, если вы делаете фиктивное кодирование». Пожалуйста, поправьте меня, если я ошибаюсь.
famargar
да, это то, что я говорил.
IWS
2
Я вижу, что вы отредактировали вопрос, чтобы добавить второй вопрос, и разместили аналогичный вопрос здесь: stats.stackexchange.com/questions/267137/… . Кроме того, я бы спросил, что вы имеете в виду, сглаживая свои прогнозы, или что вы имеете в виду, предсказывая дискретные значения. AFAIK линейная регрессия даст вам среднее значение непрерывной зависимости, основанной на ваших переменных предиктора (через формулу регрессии). Пожалуйста, уточните
IWS
1
Я удалил второй вопрос, поскольку вы полностью ответили на исходный. Чтобы ответить на ваш вопрос, если я добавлю новых «событий» ( ) в модель, я получу разных значений , которые все примут одно из четырех регрессионных значений. Я предполагаю, что говорю, что если бы категориальные переменные были на самом деле порядковыми, я бы хотел ввести некоторое (логит?) Сглаживание между значениями. x i n ynxiny
famargar
1
В случае порядковой переменной всегда можно предположить, что она «достаточно непрерывна», чтобы использовать ее, как если бы она была непрерывным предиктором (просто не используя фиктивные переменные, а вводя переменную как числовую версию). Однако, если вы делаете это, и у вас есть только несколько уровней, вы устанавливаете прямую линию (таким образом, предполагая линейность) только через несколько точек (поэтому обратите внимание, что количество уровней здесь важно). Шкала Лайкерта является хорошим примером переменной, используемой таким образом, что, к сожалению, создает проблемы в различных случаях.
IWS