Я на самом деле рецензирую рукопись, где авторы сравнивают 5-6 моделей логит-регрессии с AIC. Тем не менее, некоторые модели имеют термины взаимодействия без включения отдельных ковариатных терминов. Имеет ли когда-нибудь смысл делать это?
Например (не относится к моделям logit):
M1: Y = X1 + X2 + X1*X2
M2: Y = X1 + X2
M3: Y = X1 + X1*X2 (missing X2)
M4: Y = X2 + X1*X2 (missing X1)
M5: Y = X1*X2 (missing X1 & X2)
У меня всегда было впечатление, что если у вас есть термин взаимодействия X1 * X2, вам также нужен X1 + X2. Поэтому с моделями 1 и 2 все будет в порядке, а с моделями 3-5 будет проблематично (даже если AIC ниже). Это верно? Это правило или более руководство? У кого-нибудь есть хорошая ссылка, которая объясняет причины этого? Я просто хочу убедиться, что не ошибаюсь в обзоре.
Спасибо за любые мысли, Дэн
regression
modeling
interaction
aic
djhocking
источник
источник
:
для взаимодействий, как в A: B. И*
для обоих основных эффектов и взаимодействий, так что A * B = A + B + A: B. Так что, если (!) Авторы статьи следуют этой нотации, я не думаю, что в какой-либо из моделей отсутствуют основные эффекты?Ответы:
Итак, вы можете видеть, что основные эффекты были вновь введены в модель.
Я привел здесь эвристический аргумент, но это представляет практическую проблему. Как отмечено в Faraway (2005) на стр. 114, аддитивное изменение в масштабе изменяет логический вывод модели, когда основные эффекты исключаются из модели, тогда как этого не происходит, когда включаются члены более низкого порядка. Обычно нежелательно, чтобы произвольные вещи, такие как смещение местоположения, вызывали фундаментальное изменение в статистическом выводе (и, следовательно, в выводах вашего запроса), что может случиться, когда вы включаете полиномиальные члены или взаимодействия в модель без эффектов более низкого порядка.
источник
additive change in scale changes the inference (the t -statistics) for all but the highest order terms when any lower order terms are left out of the model
Добавка изменение предикторов обычно изменяется т их основных эффектов (младшие члены) даже в полной модели. Это общее соответствие (R ^ 2), которое сохраняется (но не сохраняется при аддитивном изменении в модели с некоторыми основными эффектами, отброшенными). Это то, что ты хотел сказать?Все ответы до сих пор, по-видимому, упускают очень простой момент: выбранная вами функциональная форма должна быть достаточно гибкой, чтобы охватить функции, которые являются научно значимыми. Модели 2-5 налагают нулевые коэффициенты на некоторые термины без научного обоснования. И даже если это научно обоснованно, Модель 1 остается привлекательной, потому что вы могли бы также проверить нулевые коэффициенты, а не навязывать их.
Ключ в понимании того, что означают ограничения. Типичное предостережение о том, что следует избегать моделей 3-5, заключается в том, что в большинстве приложений навязываемые ими допущения научно неправдоподобны. Модель 3 предполагает, что X2 влияет только на наклон dY / dX1, но не на уровень. Модель 4 предполагает, что X1 влияет только на наклон dY / dX2, но не на уровень. И Модель 5 предполагает, что ни X1, ни X2 не влияют на уровень, а только dY / dX1 или dY / dX2. В большинстве приложений эти предположения не кажутся разумными. Модель 2 также накладывает нулевой коэффициент, но все же имеет некоторые достоинства. Это дает наилучшее линейное приближение к данным, которое во многих случаях удовлетворяет научной цели.
источник
источник
Поскольку вы просматриваете статью, вы можете предложить авторам обсудить проблему иерархии моделей и обосновать свое отклонение от нее.
Вот несколько ссылок:
Nelder JA. Выбор терминов в моделях поверхности отклика - насколько силен принцип слабой наследственности? Американский статистик. 1998; 52: 315-8. http://www.jstor.org/pss/2685433 . Доступ 10 июня 2010 г.
Peixoto JL. Выбор иерархической переменной в моделях полиномиальной регрессии. Американский статистик. 1987; 41: 311-3. http://www.jstor.org/pss/2684752 . Доступ 10 июня 2010 г.
Peixoto JL. Свойство хорошо сформулированных моделей полиномиальной регрессии. Американский статистик. 1990; 44: 26-30. http://www.jstor.org/pss/2684952 . Доступ 10 июня 2010 г.
Я обычно следую иерархии, но в некоторых ситуациях отступаю от нее. Например, если вы тестируете износ шин в зависимости от пробега на нескольких разных скоростях, ваша модель может выглядеть следующим образом:
глубина протектора = перехват + пробег + пробег * скорость
но не имеет физического смысла включать основной эффект скорости, потому что шина не знает, какая скорость будет на ноль миль.
(С другой стороны, вы все равно можете проверить эффект скорости, поскольку это может указывать на то, что эффекты «обкатки» различаются на разных скоростях. С другой стороны, еще лучший способ обработки обкатки - это получить данные с нуля и с очень малым пробегом, а затем проверить на нелинейность. Обратите внимание, что удаление термина «перехват» можно рассматривать как особый случай нарушения иерархии.)
Я также повторю то, что кто-то сказал выше, потому что это очень важно: авторам необходимо убедиться, что они знают, центрирует ли их программное обеспечение данные. Приведенная выше модель шины становится физически бессмысленной, если программное обеспечение заменяет пробег на (пробег - среднее значение пробега).
Те же самые вещи имеют отношение к исследованиям фармацевтической стабильности (упоминаются тангенциально в «Модели стабильности для последовательного хранения», Эмиль М. Фридман и Сэм С. Шум, AAPS PharmSciTech, том 12, № 1, март 2011 года, DOI: 10.1208 / s12249-010-9558-х).
источник
У меня был реальный случай, который иллюстрирует это. В данных одной из переменных представлены
group
0-контроль и 1-обработка. Другой предиктор представленtime period
с 0 до лечения и 1 после лечения. Взаимодействие было основным представляющим интерес параметром, измеряющим эффект лечения, разница после лечения в группе лечения выше любого эффекта времени, измеренного в контрольной группе. Основной эффект отgroup
измеряли разницу в 2 группах перед любой обработкой, чтобы она могла легко быть 0 (в рандомизированном эксперименте она должна быть 0, этой не было). 2-й основной эффект измеряет разницу между периодами времени до и после в контрольной группе, где лечение не проводилось, поэтому также имеет смысл, что оно может быть равно 0, а член взаимодействия не равен нулю. Конечно, это зависит от того, как вещи были закодированы, и другое кодирование изменило бы значения, и имеет ли смысл взаимодействие без основных эффектов. Поэтому имеет смысл подогнать взаимодействие без основных эффектов в конкретных случаях.источник
Я согласен с Питером. Я думаю, что правило это фольклор. Почему мы можем представить себе ситуацию, когда две переменные будут влиять на модель только из-за взаимодействия. Аналогия в химии состоит в том, что два химических вещества полностью инертны сами по себе, но при смешивании вызывают взрыв. Математические / статистические тонкости, такие как инвариантность, не имеют ничего общего с реальной проблемой реальных данных. Я просто думаю, что когда нужно рассмотреть множество переменных, нужно провести очень много испытаний, если вы собираетесь посмотреть на все основные эффекты и большинство, если не на все взаимодействия первого порядка. Мы также почти никогда не смотрим на взаимодействия второго порядка, даже в небольших экспериментах только с несколькими переменными. Мысль заключается в том, что чем выше порядок взаимодействия, тем меньше вероятность того, что будет реальный эффект. Так что не Рассмотрим взаимодействия первого или второго порядка, если основной эффект отсутствует. Возможно, хорошее правило, но неукоснительно следовать ему означает игнорировать исключения, и ваша проблема может быть исключением.
источник
[пытаясь ответить на часть первоначального вопроса, который в большинстве ответов кажется не раскрытым: «следует ли доверять AIC, как критерию выбора модели?»]
AIC следует использовать скорее как руководство, чем как правило, которое следует воспринимать как Евангелие.
Эффективность AIC (или BIC или любого подобного «простого» критерия для выбора модели) сильно зависит от алгоритма обучения и проблемы.
Подумайте об этом следующим образом: цель термина «сложность (количество факторов)» в формуле AIC проста: избежать выбора моделей, которые пересекаются. Но простота AIC очень часто не в состоянии охватить реальную сложность самой проблемы. Вот почему существуют другие практические приемы, позволяющие избежать чрезмерного соответствия: например, перекрестная проверка или добавление условия регуляризации.
Когда я использую SGD (стохастический градиентный спуск) в режиме онлайн для выполнения линейной регрессии на наборе данных с очень большим количеством входов, я считаю, что AIC является ужасным предиктором качества модели, поскольку он чрезмерно наказывает сложные модели с большим количеством терминов. Существует много ситуаций из реальной жизни, в которых каждый термин имеет крошечный эффект, но в совокупности большое количество из них дает убедительные статистические доказательства результата. Критерии выбора моделей AIC и BIC отвергли бы эти модели и предпочли бы более простые, хотя более сложные из них превосходят.
В конце концов, это ошибка обобщения (грубо говоря, из производительности образца). AIC может дать вам некоторое представление о качестве модели в некоторых относительно простых ситуациях. Просто будьте осторожны и помните, что реальная жизнь чаще, чем нет, сложнее, чем простая формула.
источник