Я должен сделать бинарную логистическую регрессию с большим количеством независимых переменных. Большинство из них являются двоичными, но некоторые из категориальных переменных имеют более двух уровней.
Как лучше всего справиться с такими переменными?
Например, для переменной с тремя возможными значениями я предполагаю, что необходимо создать две фиктивные переменные. Затем, в пошаговой процедуре регрессии, лучше проверить обе фиктивные переменные одновременно или проверить их по отдельности?
Я буду использовать SPSS, но не очень хорошо помню, так: как SPSS справляется с этой ситуацией?
Кроме того, для порядковой категориальной переменной, хорошо ли использовать фиктивные переменные, которые воссоздают порядковый масштаб? (Например, используя три фиктивные переменные для порядковой переменной с 4 состояниями, укажите 0-0-0
уровень, 1-0-0
Для уровня, 1-1-0
Для уровняи 1-1-1
для уровня, Вместо того , чтобы 0-0-0
, 1-0-0
, 0-1-0
и 0-0-1
для 4 уровней.)
источник
Ответы:
На веб-сайте UCLA есть куча отличных учебных пособий для каждой процедуры с разбивкой по типу программного обеспечения, с которым вы знакомы. Проверьте аннотированный вывод SPSS: логистическая регрессия - переменная SES, которую они упоминают, является категориальной (а не двоичной). SPSS автоматически создаст переменные индикатора для вас. Также есть страница, посвященная категориальным предикторам в регрессии с SPSS, на которой есть конкретная информация о том, как изменить кодировки по умолчанию, и страница, относящаяся к логистической регрессии .
источник
Логистическая регрессия - довольно гибкий метод. Он может легко использовать в качестве независимых переменных категориальные переменные. Большинство программ, использующих логистическую регрессию, должны позволять вам использовать категориальные переменные.
В качестве примера, скажем, одна из ваших категориальных переменных - это температура, разделенная на три категории: холодная / мягкая / горячая. Как вы предлагаете, вы можете интерпретировать это как три отдельных фиктивных переменных, каждая из которых имеет значение 1 или 0. Но программное обеспечение должно позволить вам использовать одну категориальную переменную вместо текстового значения cold / mild / hot. И регрессия логита будет выводить коэффициент (или постоянную) для каждого из трех температурных условий. Если один из них не имеет значения, программное обеспечение или пользователь могут легко его удалить (после наблюдения t stat и p value).
Основным преимуществом группировки категорийных переменных переменных в одну категориальную переменную является эффективность модели. Один столбец в вашей модели может обрабатывать столько категорий, сколько необходимо для одной категориальной переменной. Если вместо этого вы используете фиктивную переменную для каждой категории категориальной переменной, ваша модель может быстро вырасти, чтобы иметь многочисленные столбцы, которые являются лишними, учитывая упомянутую альтернативу.
источник
Насколько я понимаю, хорошо использовать фиктивную переменную для категориальных / номинальных данных, в то время как для порядковых данных мы можем использовать кодирование 1,2,3 для разных уровней. Для фиктивной переменной мы будем кодировать 1, если это верно для конкретной записи, и 0 в противном случае. Также фиктивные переменные будут на 1 меньше, чем нет. Из уровней, например, в двоичном коде, мы имеем 1. Наблюдение всех «0» в фиктивной переменной автоматически сделает 1 для некодированной фиктивной переменной.
источник