Является ли хорошей практикой стандартизировать ваши данные в регрессии с панельными / продольными данными?

16

В общем, я стандартизирую свои независимые переменные в регрессиях, чтобы правильно сравнить коэффициенты (таким образом, они имеют одинаковые единицы: стандартные отклонения). Однако с панельными / продольными данными я не уверен, как мне следует стандартизировать мои данные, особенно если я оцениваю иерархическую модель.

Чтобы понять, почему это может быть потенциальной проблемой, предположим, что у вас есть особей, измеренных по периодам t = 1 , , T, и вы измерили зависимую переменную, y i , t и одну независимую переменную x i , t , Если вы выполняете полную регрессию пула, тогда можно стандартизировать ваши данные следующим образом: x . z = ( x - среднее ( x ) ) / sd ( xi=1,,nt=1,,Tyi,txi,t , так как он не изменит t-статистику. С другой стороны, если вы подходите к нерегулярной регрессии, т. Е. По одной регрессии для каждого человека, то вам следует стандартизировать данные только по отдельным лицам, а не по всему набору данных (в коде R):x.z=(xmean(x))/sd(x)

for (i in 1:n) {
  for ( t in 1:T) x.z[i] =  (x[i,t] - mean(x[i,]))/sd(x[i,]) 
}

Однако, если вы подходите к простой иерархической модели с различным перехватом по отдельным лицам, то вы используете оценку усадки, т. Е. Вы оцениваете модель между объединенной и не объединенной регрессией. Как мне стандартизировать мои данные? Используя все данные как объединенную регрессию? Использование только отдельных лиц, как в случае без пула?

Маноэль Галдино
источник

Ответы:

10

Я не вижу, чтобы стандартизация была хорошей идеей в обычной регрессии или в продольной модели. Это затрудняет получение прогнозов и не решает проблему, которая обычно требует решения. А что если у вас есть и х 2 в модели. Как вы стандартизируете х 2 ? Что если в модели есть непрерывная переменная и двоичная переменная? Как вы стандартизируете двоичную переменную? Конечно, не из-за стандартного отклонения, из-за которого переменные с низкой распространенностью приобретают большую важность.xx2x2

В общем, лучше всего интерпретировать эффекты модели по первоначальной шкале .x

Фрэнк Харрелл
источник
@Frank Harrell - хорошие замечания о проблемах, связанных с условиями, которые вы наметили, но если у вас есть все непрерывные переменные с разными масштабами, то не является ли стандартизация единственным способом сравнения уклонов?
DQdlM
1
@ Франц, я полагаю, это зависит от того, какой тип моделей вы используете, но стандартизация переменных-предикторов часто бывает полезна. Центрирование их означает, что перехват становится интерпретируемым как средний прогнозируемый результат, и относительная важность различных предикторов становится более очевидной. Я обычно оставляю двоичные предикторы в покое, но иногда стоит рассмотреть другие варианты масштабирования. Наконец, в некоторых случаях наличие предикторов с сильно отличающимися стандартными отклонениями может привести к проблемам вычислений / сходимости.
Майкл Бишоп
2
р2χ2
1
Если у вас есть бинарные переменные, не стандартизируйте их, только непрерывные. См. Эту статью Гельмана (< stat.columbia.edu/~gelman/research/published/standardizing7.pdf >), предлагающую деление переменных на два стандартных отклонения. В любом случае, это помогает достичь сходимости, если вы подходите по байесовской модели.
Маноэль Гальдино
xx2
0

Существует альтернатива стандартизации для приведения переменных, измеренных в разных шкалах, к одной и той же метрике. Он называется «Пропорция максимального масштабирования» (POMS), и он не смешивается с многомерными распределениями, как это имеет место в z-преобразовании.

Тодд Литтл явно рекомендует POMS вместо z-стандартизации в своей книге по моделированию продольных структурных уравнений. Z-преобразование сопряжено с дополнительными проблемами при работе с продольными данными, см. Здесь: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4569815/

user142548
источник