Я понимаю концепцию, что является средним значением, когда категориальная переменная равна 0 (или является контрольной группой), давая конечную интерпретацию того, что коэффициент регрессии - это разница в среднем двух категорий. Даже при> 2 категориях я бы предположил, что каждая объясняет разницу между средним значением этой категории и ссылкой.
Но что, если в модель с несколькими переменными будет добавлено больше переменных? Теперь, что означает пересечение, учитывая, что для него нет смысла быть средним для ссылки двух категориальных переменных? Примером может быть, если пол (M (ref) / F) и раса (белый (ref) / черный) были в модели. Является ли средним значением только для белых мужчин? Как можно интерпретировать любые другие возможности?
В качестве отдельного примечания: служат ли контрастные утверждения способом исследования изменения эффекта? Или просто увидеть эффект ( ) на разных уровнях?
Ответы:
Вы правы в интерпретации бета-версий, когда существует одна категориальная переменная сk уровнями. Если бы было несколько категориальные переменные (и не было член взаимодействия), отсекаемый отрезок ( β 0 ) представляет собой среднее из группы , которая составляет опорный уровень для обеих (всех) категориальных переменных. Используя ваш пример сценария, рассмотрите случай, когда нет взаимодействия, тогда бета-версии: β^0
Мы также можем думать об этом с точки зрения того, как рассчитать различные групповые средства:
Икс¯Вт ч я т е М л е с Икс¯Вт ч я т е Р е м л е с Икс¯B l a c k M a l e s Икс¯B l a c k F e m a l e s = β^0= β^0+ β^F e m a l e= β^0+ β^B l a c k= β^0+ β^F e m a l e+ β^B l a c k
Если бы у вас был член взаимодействия, он был бы добавлен в конце уравнения для чернокожих женщин. (Интерпретация такого термина взаимодействия довольно запутанна, но я прохожу его здесь: Интерпретация термина взаимодействия .)
Обновление : чтобы прояснить мои моменты, давайте рассмотрим стандартный пример, закодированный в
R
.Средство
y
для этих категориальных переменных:Мы можем сравнить различия между этими средствами с коэффициентами из подобранной модели:
В этой ситуации следует признать, что без термина взаимодействия мы предполагаем параллельные линии. Таким образом,
Estimate
для(Intercept)
означает среднее значение белых мужчин.Estimate
ДляSexFemale
разницы между средним самок и средними самцами.Estimate
ДляRaceBlack
разницы между средним черных и средним белыми. Опять же, поскольку модель без термина взаимодействия предполагает, что эффекты строго аддитивны (линии строго параллельны), среднее значение черных женщин - это среднее значение белых мужчин плюс разница между средним значением для женщин и средним для мужчин плюс разница между средним у черных и у белых.источник
Если мы немного расширим ваш пример, включив третий уровень в категорию расы (скажем, азиатский ), и выберем белых в качестве эталона, то у вас будет:
К сожалению, в случае нескольких категориальных переменных правильная интерпретация для перехвата уже не так ясна (см. Примечание в конце). Когда есть n категорий, каждая с несколькими уровнями и одним опорным уровнем (например, « Белый» и « Мужской» в вашем примере), общая форма для перехвата:
Если мы вернемся к вашему примеру, мы получим:
Числовой Пример
Позвольте мне позаимствовать у @Gung стандартный числовой пример:
Мы можем сравнить эти цифры с результатами регрессии:
Обратите внимание на выбор контраста
Если мы вернемся к предыдущему примеру, вы получите:
источник