Интерпретация бета при наличии нескольких категориальных переменных

18

Я понимаю концепцию, что является средним значением, когда категориальная переменная равна 0 (или является контрольной группой), давая конечную интерпретацию того, что коэффициент регрессии - это разница в среднем двух категорий. Даже при> 2 категориях я бы предположил, что каждая объясняет разницу между средним значением этой категории и ссылкой.β^0β^

Но что, если в модель с несколькими переменными будет добавлено больше переменных? Теперь, что означает пересечение, учитывая, что для него нет смысла быть средним для ссылки двух категориальных переменных? Примером может быть, если пол (M (ref) / F) и раса (белый (ref) / черный) были в модели. Является ли средним значением только для белых мужчин? Как можно интерпретировать любые другие возможности?β^0

В качестве отдельного примечания: служат ли контрастные утверждения способом исследования изменения эффекта? Или просто увидеть эффект ( ) на разных уровнях?β^

Renee
источник
В качестве терминологического примечания «многомерный» означает несколько переменных ответа , а не несколько переменных предиктора (см. Здесь ). Кроме того, я не слежу за твоим последним вопросом.
gung - Восстановить Монику
Спасибо за это разъяснение. Получение правильного языка важно для меня! Полагаю, я просто не могу понять, почему операторы контрастности используются вообще, поскольку всегда можно просто установить переменную-ссылку на ту, с которой контрастирует?
Рене
1
Я полагаю, вы могли бы просто переоснастить модель с разными эталонными уровнями. Я не уверен, что это удобнее. С помощью контрастов вы также можете указать набор ортогональных контрастов или теоретически подразумеваемый контраст (A против комбинации B & C) для тестирования.
gung - Восстановить Монику

Ответы:

19

Вы правы в интерпретации бета-версий, когда существует одна категориальная переменная с К уровнями. Если бы было несколько категориальные переменные (и не было член взаимодействия), отсекаемый отрезок ( β 0 ) представляет собой среднее из группы , которая составляет опорный уровень для обеих (всех) категориальных переменных. Используя ваш пример сценария, рассмотрите случай, когда нет взаимодействия, тогда бета-версии: β^0

  • β^0: среднее белых мужчин
  • β^FемaLе: наразницумежду средним самок и самцов среднее
  • β^ВLaсК:разностьмежду средним значением черных и белых среднее

Мы также можем думать об этом с точки зрения того, как рассчитать различные групповые средства:

Икс¯WчасяTе MaLеsзнак равноβ^0Икс¯WчасяTе FемaLеsзнак равноβ^0+β^FемaLеИкс¯ВLaсК MaLеsзнак равноβ^0+β^ВLaсКИкс¯ВLaсК FемaLеsзнак равноβ^0+β^FемaLе+β^ВLaсК

Если бы у вас был член взаимодействия, он был бы добавлен в конце уравнения для чернокожих женщин. (Интерпретация такого термина взаимодействия довольно запутанна, но я прохожу его здесь: Интерпретация термина взаимодействия .)


Обновление : чтобы прояснить мои моменты, давайте рассмотрим стандартный пример, закодированный в R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

введите описание изображения здесь

Средство yдля этих категориальных переменных:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Мы можем сравнить различия между этими средствами с коэффициентами из подобранной модели:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

В этой ситуации следует признать, что без термина взаимодействия мы предполагаем параллельные линии. Таким образом, Estimateдля (Intercept)означает среднее значение белых мужчин. EstimateДля SexFemaleразницы между средним самок и средними самцами. EstimateДля RaceBlackразницы между средним черных и средним белыми. Опять же, поскольку модель без термина взаимодействия предполагает, что эффекты строго аддитивны (линии строго параллельны), среднее значение черных женщин - это среднее значение белых мужчин плюс разница между средним значением для женщин и средним для мужчин плюс разница между средним у черных и у белых.

Gung - Восстановить Монику
источник
Спасибо! Очень ясно и полезно. В конце вы упоминаете условия взаимодействия. Если кто-то использует термин взаимодействия, то как это меняет бета-версии (имеется в виду новые бета-версии из модели терминов взаимодействия)? Я знаю, что значение p для термина взаимодействия важно, но имеет ли термин взаимодействия бета осмысленную интерпретацию? Еще раз спасибо за вашу помощь!
Рене
1
β^FемaLеИкс¯WчасяTе MaLеИкс¯WчасяTе FемaLе
Имеет смысл. Спасибо! & это изменено от модели без члена взаимодействия из-за члена взаимодействия, смягчающего основной эффект? Имеется в виду, что если нет взаимодействия, то главный эффект эффекта теоретически будет таким же?
Рене
Если бы эффект взаимодействия был точно равен 0 (до бесконечных десятичных разрядов) не только в популяции, но и в вашей выборке, бета-версии основного эффекта были бы одинаковыми в модели без / с членом взаимодействия.
gung - Восстановить Монику
1
@ hans0l0, это было бы лучше в качестве нового вопроса, чем информации, скрытой здесь в комментариях; Вы можете сослаться на это для контекста. Вкратце, это среднее значение контрольных уровней, когда все непрерывные переменные равны = 0.
gung - Восстановить Монику
6

β^0β^

Если мы немного расширим ваш пример, включив третий уровень в категорию расы (скажем, азиатский ), и выберем белых в качестве эталона, то у вас будет:

  • β^0знак равноИкс¯WчасяTе
  • β^ВLaсКзнак равноИкс¯ВLaсК-Икс¯WчасяTе
  • β^AsяaNзнак равноИкс¯AsяaN-Икс¯WчасяTе

β^

  • Икс¯AsяaNзнак равноβ^AsяaN+β^0

К сожалению, в случае нескольких категориальных переменных правильная интерпретация для перехвата уже не так ясна (см. Примечание в конце). Когда есть n категорий, каждая с несколькими уровнями и одним опорным уровнем (например, « Белый» и « Мужской» в вашем примере), общая форма для перехвата:

β^0знак равноΣязнак равно1NИкс¯рееереNсе,я-(N-1)Икс¯,
Икс¯рееереNсе,я среднее значение эталонного уровня i-й категориальной переменной,
Икс¯ среднее значение всего набора данных

β^

Если мы вернемся к вашему примеру, мы получим:

  • β^0знак равноИкс¯WчасяTе+Икс¯MaLе-Икс¯
  • β^ВLaсКзнак равноИкс¯ВLaсК-Икс¯WчасяTе
  • β^AsяaNзнак равноИкс¯AsяaN-Икс¯WчасяTе
  • β^FемaLезнак равноИкс¯FемaLе-Икс¯MaLе

β^

β^β^0, β^ВLaсК, β^AsяaNβ^FемaLе

Числовой Пример

Позвольте мне позаимствовать у @Gung стандартный числовой пример:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Мы можем сравнить эти цифры с результатами регрессии:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0

β^0знак равноИкс¯WчасяTе+Икс¯MaLе-Икс¯
1.5 + 5.333333 - 6.166667
# 0.66666

Обратите внимание на выбор контраста

β^

β^соNTр,sUмβ^соNTр,sUм

  • β^0соNTр,sUмзнак равноИкс¯
  • β^ясоNTр,sUмзнак равноИкс¯я-Икс¯

Если мы вернемся к предыдущему примеру, вы получите:

  • β^0соNTр,sUмзнак равноИкс¯
  • β^WчасяTесоNTр,sUмзнак равноИкс¯WчасяTе-Икс¯
  • β^ВLaсКсоNTр,sUмзнак равноИкс¯ВLaсК-Икс¯
  • β^AsяaNсоNTр,sUмзнак равноИкс¯AsяaN-Икс¯
  • β^MaLесоNTр,sUмзнак равноИкс¯MaLе-Икс¯
  • β^FемaLесоNTр,sUмзнак равноИкс¯FемaLе-Икс¯

β^соNTр,sUм

GL
источник