Все ли термины взаимодействия нуждаются в отдельных терминах в регрессионной модели?

68

Я на самом деле рецензирую рукопись, где авторы сравнивают 5-6 моделей логит-регрессии с AIC. Тем не менее, некоторые модели имеют термины взаимодействия без включения отдельных ковариатных терминов. Имеет ли когда-нибудь смысл делать это?

Например (не относится к моделям logit):

M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)

У меня всегда было впечатление, что если у вас есть термин взаимодействия X1 * X2, вам также нужен X1 + X2. Поэтому с моделями 1 и 2 все будет в порядке, а с моделями 3-5 будет проблематично (даже если AIC ниже). Это верно? Это правило или более руководство? У кого-нибудь есть хорошая ссылка, которая объясняет причины этого? Я просто хочу убедиться, что не ошибаюсь в обзоре.

Спасибо за любые мысли, Дэн

djhocking
источник
8
+1, я думаю, что это действительно хороший вопрос. Вы также можете проверить этот предыдущий вопрос, который охватывает большую часть той же территории. Ответы там действительно отличные.
gung - Восстановить Монику
Много хороших ответов уже. Была статья Риндскопфа о некоторых случаях, когда вам не нужны основные эффекты. (Также см. Этот )
Питер Флом - Восстановите Монику
3
AFAIK: в R's lm (), :для взаимодействий, как в A: B. И *для обоих основных эффектов и взаимодействий, так что A * B = A + B + A: B. Так что, если (!) Авторы статьи следуют этой нотации, я не думаю, что в какой-либо из моделей отсутствуют основные эффекты?
Жубарб
Кроме того, та же логика, что и в текущих ответах, применима к взаимодействиям более высокого порядка (например, вам нужны все двусторонние взаимодействия, если вы включаете трехсторонние)
Питер Флом - Восстановите Монику

Ответы:

38

yixizi

yi=β0+β1xizi+ε

xizi

(xix¯)(ziz¯)=xizixiz¯zix¯+x¯z¯

Итак, вы можете видеть, что основные эффекты были вновь введены в модель.

Я привел здесь эвристический аргумент, но это представляет практическую проблему. Как отмечено в Faraway (2005) на стр. 114, аддитивное изменение в масштабе изменяет логический вывод модели, когда основные эффекты исключаются из модели, тогда как этого не происходит, когда включаются члены более низкого порядка. Обычно нежелательно, чтобы произвольные вещи, такие как смещение местоположения, вызывали фундаментальное изменение в статистическом выводе (и, следовательно, в выводах вашего запроса), что может случиться, когда вы включаете полиномиальные члены или взаимодействия в модель без эффектов более низкого порядка.

xizixi,ziai=xizi

yi=α0+α1ai+εi

ai

макрос
источник
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the modelДобавка изменение предикторов обычно изменяется т их основных эффектов (младшие члены) даже в полной модели. Это общее соответствие (R ^ 2), которое сохраняется (но не сохраняется при аддитивном изменении в модели с некоторыми основными эффектами, отброшенными). Это то, что ты хотел сказать?
ttnphns
Да, правильно @ttnphns - спасибо за указание на это - я немного изменил свой ответ, чтобы отразить это.
Макрос
28

Все ответы до сих пор, по-видимому, упускают очень простой момент: выбранная вами функциональная форма должна быть достаточно гибкой, чтобы охватить функции, которые являются научно значимыми. Модели 2-5 налагают нулевые коэффициенты на некоторые термины без научного обоснования. И даже если это научно обоснованно, Модель 1 остается привлекательной, потому что вы могли бы также проверить нулевые коэффициенты, а не навязывать их.

Ключ в понимании того, что означают ограничения. Типичное предостережение о том, что следует избегать моделей 3-5, заключается в том, что в большинстве приложений навязываемые ими допущения научно неправдоподобны. Модель 3 предполагает, что X2 влияет только на наклон dY / dX1, но не на уровень. Модель 4 предполагает, что X1 влияет только на наклон dY / dX2, но не на уровень. И Модель 5 предполагает, что ни X1, ни X2 не влияют на уровень, а только dY / dX1 или dY / dX2. В большинстве приложений эти предположения не кажутся разумными. Модель 2 также накладывает нулевой коэффициент, но все же имеет некоторые достоинства. Это дает наилучшее линейное приближение к данным, которое во многих случаях удовлетворяет научной цели.

Тристан
источник
5
(+1) Это все правда, но оригинальный плакат, казалось, описывал ситуацию, когда авторы пытались сделать выбор модели, и некоторые из их моделей-кандидатов были теми, которые не включали взаимодействия - поэтому их мотивация руководствовалась AIC а не чем-то существенным (что всегда опасно, но, видимо, они это сделали). Если вы руководствуетесь чем-то существенным, то структура модели должна быть продиктована этим. Но, когда вы руководствуетесь статистическими критериями, отсутствие основных эффектов может иметь плохие свойства, как я указал в своем ответе.
Макрос
16

x1x2может быть [0, 0, 0, 1] или [1, -1, -1, 1], в зависимости от используемой схемы кодирования. Я считаю, что возможна ситуация, когда только взаимодействие является «значимым» с одной схемой кодирования, но все термины являются «значимыми» с использованием другой схемы. Это подразумевает, что значимые интерпретирующие решения будут приниматься на основе произвольного решения о кодировании, которое, фактически, ваше программное обеспечение могло принять для вас без вашего ведома. Я признаю, что это небольшой вопрос, но это еще одна причина, по которой обычно не стоит сохранять только взаимодействие (и, конечно же, не выбирать подмножество предикторов на основе p-значений).

Gung - Восстановить Монику
источник
1
Тестирование значимости для основных категориальных эффектов не менее инвариантно. Группа может значительно отличаться от контрольной группы при кодировании лечения, но не от эффекта «большого среднего» при кодировании контраста.
probislogic
10

Поскольку вы просматриваете статью, вы можете предложить авторам обсудить проблему иерархии моделей и обосновать свое отклонение от нее.

Вот несколько ссылок:

  1. Nelder JA. Выбор терминов в моделях поверхности отклика - насколько силен принцип слабой наследственности? Американский статистик. 1998; 52: 315-8. http://www.jstor.org/pss/2685433 . Доступ 10 июня 2010 г.

  2. Peixoto JL. Выбор иерархической переменной в моделях полиномиальной регрессии. Американский статистик. 1987; 41: 311-3. http://www.jstor.org/pss/2684752 . Доступ 10 июня 2010 г.

  3. Peixoto JL. Свойство хорошо сформулированных моделей полиномиальной регрессии. Американский статистик. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Доступ 10 июня 2010 г.

Я обычно следую иерархии, но в некоторых ситуациях отступаю от нее. Например, если вы тестируете износ шин в зависимости от пробега на нескольких разных скоростях, ваша модель может выглядеть следующим образом:

глубина протектора = перехват + пробег + пробег * скорость

но не имеет физического смысла включать основной эффект скорости, потому что шина не знает, какая скорость будет на ноль миль.

(С другой стороны, вы все равно можете проверить эффект скорости, поскольку это может указывать на то, что эффекты «обкатки» различаются на разных скоростях. С другой стороны, еще лучший способ обработки обкатки - это получить данные с нуля и с очень малым пробегом, а затем проверить на нелинейность. Обратите внимание, что удаление термина «перехват» можно рассматривать как особый случай нарушения иерархии.)

Я также повторю то, что кто-то сказал выше, потому что это очень важно: авторам необходимо убедиться, что они знают, центрирует ли их программное обеспечение данные. Приведенная выше модель шины становится физически бессмысленной, если программное обеспечение заменяет пробег на (пробег - среднее значение пробега).

Те же самые вещи имеют отношение к исследованиям фармацевтической стабильности (упоминаются тангенциально в «Модели стабильности для последовательного хранения», Эмиль М. Фридман и Сэм С. Шум, AAPS PharmSciTech, том 12, № 1, март 2011 года, DOI: 10.1208 / s12249-010-9558-х).

Эмиль Фридман
источник
1
спасибо, это отличный ответ, который поможет мне объяснить это людям, которые не разбираются в статистике.
Джоккинг
1
+1 Хотелось бы, чтобы можно было слить ответы на ТАК. Это с принятым ответом выше, формирует идеальный ответ.
Жубарб
9

У меня был реальный случай, который иллюстрирует это. В данных одной из переменных представлены group0-контроль и 1-обработка. Другой предиктор представлен time periodс 0 до лечения и 1 после лечения. Взаимодействие было основным представляющим интерес параметром, измеряющим эффект лечения, разница после лечения в группе лечения выше любого эффекта времени, измеренного в контрольной группе. Основной эффект отgroupизмеряли разницу в 2 группах перед любой обработкой, чтобы она могла легко быть 0 (в рандомизированном эксперименте она должна быть 0, этой не было). 2-й основной эффект измеряет разницу между периодами времени до и после в контрольной группе, где лечение не проводилось, поэтому также имеет смысл, что оно может быть равно 0, а член взаимодействия не равен нулю. Конечно, это зависит от того, как вещи были закодированы, и другое кодирование изменило бы значения, и имеет ли смысл взаимодействие без основных эффектов. Поэтому имеет смысл подогнать взаимодействие без основных эффектов в конкретных случаях.

Грег Сноу
источник
Итак, вы имеете в виду, что все зависит от целей вашего исследования или на основе ваших параметров?
Бен
1
@Ben, это может зависеть как от того, как вы параметризовали свои переменные (в моем примере переключение 0/1 на 1/0 для любой переменной изменит интерпретацию), так и на какие вопросы вы пытаетесь ответить, и какие предположения вы хотите сделать ,
Грег Сноу,
Y=B0+B1X+B2Z+B3XZ2008+yeardummies
X & Z - непрерывные переменные, Z - рейтинг регулирования. 2008 год считается 1 и 0 для других лет. так что это похоже на то, если я возьму наблюдения 2008 года без взаимодействия. Я читал о слабом и сильном принципе наследственности, но не совсем понял
Бен
1
@Ben, безусловно, можно соответствовать приведенной выше модели, которая в основном говорит, что вы думаете, что есть (или может быть) взаимодействие в 2008 году, но не в любой другой год. Если у вас есть для этого основания, то я думаю, что модель в порядке. Но это достаточно необычное предположение, что вам, вероятно, придется оправдать это любой аудитории.
Грег Сноу,
B1X
B1X
7

Я согласен с Питером. Я думаю, что правило это фольклор. Почему мы можем представить себе ситуацию, когда две переменные будут влиять на модель только из-за взаимодействия. Аналогия в химии состоит в том, что два химических вещества полностью инертны сами по себе, но при смешивании вызывают взрыв. Математические / статистические тонкости, такие как инвариантность, не имеют ничего общего с реальной проблемой реальных данных. Я просто думаю, что когда нужно рассмотреть множество переменных, нужно провести очень много испытаний, если вы собираетесь посмотреть на все основные эффекты и большинство, если не на все взаимодействия первого порядка. Мы также почти никогда не смотрим на взаимодействия второго порядка, даже в небольших экспериментах только с несколькими переменными. Мысль заключается в том, что чем выше порядок взаимодействия, тем меньше вероятность того, что будет реальный эффект. Так что не Рассмотрим взаимодействия первого или второго порядка, если основной эффект отсутствует. Возможно, хорошее правило, но неукоснительно следовать ему означает игнорировать исключения, и ваша проблема может быть исключением.

Майкл Черник
источник
8
p
1
Я, вероятно, неправильно сказал, что инвариантность не имеет отношения к реальному миру. Я предполагал, что некоторые математические результаты могут не соответствовать конкретной практической проблеме. В качестве примера оценки методом наименьших квадратов являются максимальным правдоподобием при нормальных предположениях об ошибке, и по теореме Гаусса-Маркова это минимальная дисперсия, несмещенная в более слабых условиях, но я бы не стал ее использовать, когда в данных присутствуют выбросы. Точно так же должно ли свойство, такое как инвариантность, исключать, включая взаимодействие, когда имеет смысл сказать с медицинской точки зрения, что это произойдет без основных эффектов?
Майкл Черник
6

[пытаясь ответить на часть первоначального вопроса, который в большинстве ответов кажется не раскрытым: «следует ли доверять AIC, как критерию выбора модели?»]

AIC следует использовать скорее как руководство, чем как правило, которое следует воспринимать как Евангелие.

Эффективность AIC (или BIC или любого подобного «простого» критерия для выбора модели) сильно зависит от алгоритма обучения и проблемы.

Подумайте об этом следующим образом: цель термина «сложность (количество факторов)» в формуле AIC проста: избежать выбора моделей, которые пересекаются. Но простота AIC очень часто не в состоянии охватить реальную сложность самой проблемы. Вот почему существуют другие практические приемы, позволяющие избежать чрезмерного соответствия: например, перекрестная проверка или добавление условия регуляризации.

Когда я использую SGD (стохастический градиентный спуск) в режиме онлайн для выполнения линейной регрессии на наборе данных с очень большим количеством входов, я считаю, что AIC является ужасным предиктором качества модели, поскольку он чрезмерно наказывает сложные модели с большим количеством терминов. Существует много ситуаций из реальной жизни, в которых каждый термин имеет крошечный эффект, но в совокупности большое количество из них дает убедительные статистические доказательства результата. Критерии выбора моделей AIC и BIC отвергли бы эти модели и предпочли бы более простые, хотя более сложные из них превосходят.

В конце концов, это ошибка обобщения (грубо говоря, из производительности образца). AIC может дать вам некоторое представление о качестве модели в некоторых относительно простых ситуациях. Просто будьте осторожны и помните, что реальная жизнь чаще, чем нет, сложнее, чем простая формула.

arielf
источник