Если вы хотите оценить простую модель, такую как
и вместо истинного вы наблюдаете ее только с некоторой ошибкой которая такова, что коррелирую с и , если вы регресс
вашей оценок является
Y я ~ Y я = Y я + ν я Х ε ~ У я = α + & beta ; Х я + ε я & beta ; & beta ;
Yi=α+βXi+ϵi
YiY˜i=Yi+νiXϵY˜i=α+βXi+ϵi
ββˆ= Co v ( Y~я, Xя)Ва г ( хя)= Co v ( Yя+ νя, Xя)Ва г ( хя)= Co v ( α + βИкся+ ϵя+ νя, Xя)Ва г ( хя)= Co v ( α , Xя)Ва г ( хя)+ βСo v ( Xя, Xя)Ва г ( хя)+ Co v ( ϵя, Xя)Ва г ( хя)+ Co v ( νя, Xя)Ва г ( хя)= βВа г ( хя)Ва г ( хя)= β
потому что ковариация между случайная величина и константа ( ) равны нулю, а также ковариации между
X_i и
\ epsilon_i, \ nu_i, поскольку мы предполагали, что они некоррелированы.
αИксяεя, νя
Итак, вы видите, что ваш коэффициент постоянно оценивается. Единственное беспокойство заключается в том, что дает вам дополнительный термин в ошибке, который снижает мощность ваших статистических тестов. В очень плохих случаях такой погрешности измерения в зависимой переменной вы можете не найти значительного эффекта, даже если он действительно существует. Как правило, инструментальные переменные не помогут вам в этом случае, потому что они имеют тенденцию быть даже более неточными, чем OLS, и они могут помочь только с ошибкой измерения в пояснительной переменной.Y~я= Yя+ νя= α + βИкся+ ϵя+ νя
Регрессионный анализ отвечает на вопрос: «Какое среднее значение Y для тех, кто дал значения X?» или, что то же самое, "Сколько, по прогнозам, Y изменит НА СРЕДНЕМ, если мы изменим Х на одну единицу?" Случайная ошибка измерения не изменяет средние значения переменной или средние значения для подмножеств отдельных лиц, поэтому случайная ошибка в зависимой переменной не будет смещать оценки регрессии.
Допустим, у вас есть данные о росте по выборке особей. Эти высоты очень точно измерены, точно отражая истинный рост каждого человека. В пределах выборки среднее значение для мужчин составляет 175 см, а для женщин - 162 см. Если вы используете регрессию, чтобы рассчитать, насколько пол предсказывает рост, вы оцените модель
Если для женщин задано значение 0, а для мужчин - 1, то является средним значением для женщины или 162 см. Коэффициент регрессии показывает, насколько высота изменяется НА СРЕДНЕМ, когда вы меняете на одну единицу (от 0 до 1). равно 13, потому что люди, чье значение равно 0 (женщины), имеют средний рост 162 см, в то время как люди, чье значение равно 1 (мужчины), имеют средний рост 175 см; оценивает среднюю разницу между ростом мужчин и женщин, которая составляет 13 см. ( отражает разницу в росте внутри пола.)βCONSTANT β & beta ; G Е Н Д Е Р G E N D E R & beta ; Р Е С Я Д У лGENDER β GENDER GENDER β RESIDUAL
Теперь, если вы случайно добавите -1 см или +1 см к истинному росту каждого, что произойдет? Лица, чей фактический рост, скажем, 170 см, теперь будут сообщаться как 169 или 171 см. Тем не менее, среднее значение выборки или любой подвыборки не изменится. Те, чей фактический рост составляет 170 см, будут в среднем иметь 170 см в новом, ошибочном наборе данных, женщины - в среднем 162 см и т. Д. Если вы повторно запустите регрессионную модель, указанную выше, с использованием этого нового набора данных, (ожидаемое) значение не изменится, потому что средняя разница между мужчинами и женщинами все еще составляет 13 см, независимо от погрешности измерения. (Стандартная ошибка будет больше, чем раньше, потому что дисперсия зависимой переменной теперь больше.)ββ β
Если есть ошибка измерения в независимой переменной, а не в зависимой переменной, будет смещенной оценкой. Это легко понять, если рассмотреть пример высоты. Если в переменной есть случайная ошибка измерения , некоторые мужчины будут ошибочно закодированы как женщины и наоборот. Результатом этого является уменьшение видимых гендерных различий в росте, потому что перемещение мужчин в женскую группу увеличит среднее значение для женщин, а перемещение женщин в мужскую группу уменьшит среднее значение для мужчин. При ошибке измерения в независимой переменной будет ниже несмещенного значения 13 см. G E N D E R ββ GENDER β
Хотя для простоты я использовал категориальную независимую переменную ( ), та же логика применима к непрерывным переменным. Например, если вы используете непрерывную переменную, такую как рост при рождении, для прогнозирования роста взрослого, ожидаемое значение будет одинаковым независимо от количества случайных ошибок в измерениях роста взрослого.βGENDER β
источник