У меня есть набор данных, который содержит как категориальные переменные, так и непрерывные переменные. Мне посоветовали преобразовать категориальные переменные как двоичные переменные для каждого уровня (т. Е. A_level1: {0,1}, A_level2: {0,1}) - я думаю, некоторые назвали это «фиктивными переменными».
С учетом вышесказанного, будет ли вводить в заблуждение центрирование и масштабирование всего набора данных с новыми переменными? Кажется, что я бы потерял значение «вкл / выкл» переменных.
Если это вводит в заблуждение, означает ли это, что я должен центрировать и масштабировать непрерывные переменные отдельно, а затем повторно добавить его в мой набор данных?
ТИА.
categorical-data
data-transformation
centering
user2300643
источник
источник
Ответы:
При построении фиктивных переменных для использования в регрессионном анализе каждая категория в категориальной переменной, кроме одной, должна получить двоичную переменную. Таким образом, вы должны иметь, например, A_level2, A_level3 и т. Д. Одна из категорий не должна иметь двоичную переменную, и эта категория будет служить справочной категорией. Если вы не пропустите ни одну из категорий, ваш регрессионный анализ не будет работать должным образом.
Если вы используете SPSS или R, я не думаю, что масштабирование и центрирование всего набора данных, как правило, будут проблемой, поскольку эти программные пакеты часто интерпретируют переменные только с двумя уровнями как факторы, но это может зависеть от конкретных используемых статистических методов. , В любом случае, нет смысла масштабировать и центрировать двоичные (или категориальные) переменные, поэтому вам следует только центрировать и масштабировать непрерывные переменные, если вы должны это сделать.
источник
Если вы используете R и масштабируете фиктивные переменные или переменные, имеющие 0 или 1, по шкале только от 0 до 1, тогда значения этих переменных не будут изменены, остальные столбцы будут масштабированы.
источник
Смысл центрирования в регрессии состоит в том, чтобы сделать перехват более интерпретируемым. То есть, если вы подразумеваете, что центрируете все переменные в вашей регрессионной модели, то пересечение (называемое константой в выходных данных SPSS) равно общему среднему значению для вашей выходной переменной. Что может быть удобно при интерпретации окончательной модели.
Что касается центрирования фиктивных переменных, я только что разговаривал с моим профессором о том, как центрировать фиктивные переменные в регрессионной модели (в моем случае это многоуровневая модель с рандомизированным блочным дизайном с 3 уровнями), и мой вывод о том, что это означает центрирование фиктивные переменные фактически не изменяют интерпретацию коэффициентов регрессии (за исключением того, что решение полностью стандартизировано). Обычно в регрессии нет необходимости интерпретировать фактическое среднее значение по центру на уровне единицы - только коэффициенты. И это по существу не меняется - по большей части. Она сказала, что она немного меняется, потому что она стандартизирована, что для чайников не так интуитивно понятно.
Предостережение: это было мое понимание, когда я покинул кабинет своего профессора. Я мог, конечно, ошибиться.
источник