Имеет ли смысл добавлять в модель квадратный член, но не линейный?

57

У меня есть (смешанная) модель, в которой один из моих предикторов априори должен быть только квадратично связан с предиктором (из-за экспериментальных манипуляций). Следовательно, я хотел бы добавить только квадратичный член в модель. Две вещи не дают мне этого сделать:

  1. Я думаю, что я читал кое-что, что вы должны всегда включать полином низшего порядка при подборе полиномов высшего порядка. Я забыл, где я его нашел, и в литературе, на которую я смотрел (например, Faraway, 2002; Fox, 2002), я не могу найти хорошего объяснения.
  2. Когда я добавляю оба, линейный и квадратный член, оба значимы. Когда я добавляю только один из них, они не значимы. Однако линейное отношение предиктора и данных не интерпретируется.

В контексте моего вопроса используется, в частности, смешанная модель lme4, но я хотел бы получить ответы, которые могли бы объяснить, почему это так или почему нехорошо включать многочлен более высокого порядка, а не многочлен более низкого порядка.

При необходимости я могу предоставить данные.

Хенрик
источник
5
Я думаю, что ответы на этот вопрос могут быть полезны.
6
Да, я согласен с прокрастинатором, и вопросы взаимодействия по сути одинаковы. У нас есть несколько высоко оцененных вопросов по теме. В дополнение к предложению Pro см. Также Нужны ли всем терминам взаимодействия их отдельные термины в регрессионной модели? и что, если взаимодействие уничтожит мои прямые эффекты в регрессии? ,
Энди У
Спасибо за напоминание на эти вопросы. Из приведенных ответов видно, что это хорошая стратегия, если у вас есть хорошие априорные причины включать только квадратичный термин, а не ошибаться. Остается вопрос о масштабируемости (см. Stats.stackexchange.com/a/27726/442 ). Должен ли я центрировать свою переменную перед подгонкой, когда используется только квадратный термин?
Хенрик
1
@Henrik - мой ответ в опубликованной вами ссылке касался того, как вывод модели зависит от произвольных сдвигов в значениях предикторов (таких как среднее центрирование) - нежелательно иметь предметное заключение, зависящее от чего-то столь произвольного, поэтому мой ответ на ваш вопрос «нет» по той же причине.
Макро
2
Вопрос квадратичного и линейного достаточно концептуально отличается от взаимодействий, которые, я думаю, не следует считать дубликатами.
gung - Восстановить Монику

Ответы:

66

1. Зачем включать линейный термин?

Интересно отметить, что квадратичные отношения могут быть записаны двумя способами:

y=a0+a1x+a2x2=a2(xb)2+c

(где, приравнивая коэффициенты, находим и ). Значение соответствует глобальному экстремуму отношения (геометрически оно определяет вершину параболы).a 2 b 2 + c = a 0 x = b2a2b=a1a2b2+c=a0x=b

Если вы не включите линейный член , возможности уменьшатся доa1x

y=a0+a2x2=a2(x0)2+c

(где теперь, очевидно, и предполагается, что модель содержит постоянный член ). То есть вы заставляете .c=a0a0b=0

В свете этого вопрос № 1 сводится к тому, уверены ли вы, что глобальный экстремум должен возникнуть при . Если да, то вы можете смело опустить линейный член . В противном случае вы должны включить его.x=0a1x

2. Как понимать изменения в значении, когда термины включены или исключены?

Это подробно обсуждается в соответствующей теме на https://stats.stackexchange.com/a/28493 .

В данном случае значение указывает на наличие кривизны в отношении, а значение указывает на то, что отличен от нуля: похоже, вам нужно включить оба термина (а также, конечно, константу).a2a1b

Whuber
источник
1
Спасибо, что. Отличный ответ. Так что, если я центрирую теоретический экстремум на 0 (на самом деле это минимум), я буду в порядке, пропуская линейный член. Это на самом деле приводит к очень значимому квадратичному предиктору (без линейного).
Хенрик,
если и линейные, и квадратичные члены переменной коррелируют, могу ли я включить оба из них в модель или я должен исключить один (который, как я полагаю, должен быть квадратичным)?
МТАО
@Teresa Нет общей причины исключать коррелированные термины в регрессии. (Если бы это было так, подавляющее большинство когда-либо созданных регрессионных моделей были бы в беде!) Очень сильно коррелированные термины, которые вместе не вносят ничего значимого в соответствие модели по сравнению с любым из этих терминов, могут быть сведены к подмножеству этих терминов.
whuber
@ whuber, большое спасибо! Также для модели логистической регрессии я использовал отношение шансов для оценки величины эффекта, но только с линейными членами. Могу ли я использовать один и тот же подход и интерпретировать результаты одинаково, когда у меня линейный и квадратичный характер?
Мтао
Не совсем. Причина в том, что вы не можете отдельно изменить линейные и квадратичные члены. Вы должны учитывать, как изменится ответ, когда вы немного измените исходную переменную.
whuber
22

@whuber дал действительно отличный ответ здесь. Я просто хочу добавить небольшой приветственный комментарий. В вопросе говорится, что «линейное отношение предиктора и данных не интерпретируется». Это намекает на общее недоразумение, хотя я обычно слышу его на другом конце («какова интерпретация квадратного [кубического и т. Д.] Термина?»).

Когда у нас есть модель с несколькими различными ковариатами, каждому бета [термину] обычно может быть предоставлена ​​своя интерпретация. Например, если:

GPA^college=β0+β1GPAhighschool+β2class rank+β3SAT,

(Средний балл означает средний балл;
ранг - это порядок среднего балла учащегося относительно других учащихся той же средней школы; &
SAT означает «тест на учебную способность» - стандартный общенациональный тест для студентов, поступающих в университет)

тогда мы можем назначить отдельные интерпретации для каждого бета / термина. Например, если средний балл ученика старшей школы был на 1 балл выше - при прочих равных условиях - мы ожидаем, что их средний балл колледжа будет балла выше. β1

Однако важно отметить, что не всегда допустимо толковать модель таким образом. Один очевидный случай - когда есть взаимодействие между некоторыми из переменных, так как было бы невозможно для отдельного члена отличаться и все еще иметь постоянное значение - по необходимости, член взаимодействия также изменился бы. Таким образом, когда есть взаимодействие, мы не интерпретируем основные эффекты, а только простые эффекты , как это хорошо понятно.

Ситуация с властными терминами прямо аналогична, но, к сожалению, не очень понятна. Рассмотрим следующую модель: (В этой ситуации, . Предназначена для представления прототипичный непрерывного ковариативным) Это не возможно для до изменения без изменяющимися также, и наоборот. Проще говоря, когда в модели есть полиномиальные термины, различные термины, основанные на одном и том же лежащем в основе ковариате, не допускаются в отдельных интерпретациях. ( , , и т.д.) термин не имеет никакого самостоятельного значения. Тот факт, что

y^=β0+β1x+β2x2
xxx2x2xx17pПолиномиальный термин «сила» «значительный» в модели указывает на наличие «изгибов» в функции, относящейся к и . К сожалению, но неизбежно, что, когда кривизна существует, интерпретация становится более сложной и, возможно, менее интуитивной. Чтобы оценить изменение в при изменении , нам нужно использовать исчисление. Производная от вышеуказанной модели: которая представляет собой мгновенную скорость изменения ожидаемого значения при изменении , при прочих равных условиях. Это не так чисто, как интерпретация самой топовой модели; Важно отметить, что мгновенная скорость измененияp1xyy^x
dydx=β1+2β2x
yxy зависит от уровня с которого оценивается изменениеx . Кроме того, скорость изменения является мгновенной скоростью; то есть оно само непрерывно изменяется в течение интервала от до . Это просто природа криволинейных отношений. yxoldxnew
Gung - Восстановить Монику
источник
1
Отличный ответ! Это напоминает мне несколько превосходных ответов, которые предоставил пользователь chl для интерпретации эффектов взаимодействия . В этом ответе он дает ссылки на статьи. Каковы лучшие методы определения эффектов взаимодействия? , И дает замечательный пример графического отображения взаимодействия с использованием коплотов в этом ответе. Возможно ли взаимодействие между двумя непрерывными переменными? ,
Энди У
1
На ответ Ганга я просто хочу сказать, что статистическое моделирование включает шум, который может скрыть детали в модели полиномиальной регрессии. Я думаю, что центральный вопрос, который поднял Билл Хубер, был серьезным, потому что в одной формулировке отсутствует линейный термин, а в другой - с квадратичным. Сила кривизны в сигнале диктует необходимость члена более высокого порядка, но в действительности ничего не говорит нам и о необходимости линейного члена.
Майкл Черник
7

Ответ @ whuber выше направлен на то, чтобы указать, что опускание линейного члена - это «обычная» квадратичная модель, равносильно тому, чтобы сказать: «Я абсолютно уверен, что экстремум находится в ».x=0

Тем не менее, вам также необходимо проверить, есть ли у используемого вами программного обеспечения "гоча". Некоторые программы могут автоматически центрировать данные при подборе полинома и проверке его коэффициентов, если вы не отключите центрирование полинома. Таким образом, он может соответствовать уравнению, которое выглядит примерно так: где - среднее значение ваших s. Это заставило бы экстремум быть в . ˉ х х х = ˉ хY=b0+b2(xx¯)2x¯xx=x¯

Ваше утверждение о том, что как линейные, так и квадратичные термины являются значимыми при их вводе, требует некоторого пояснения. Например, SAS может сообщить об испытании типа I и / или типа III для этого примера. Тип I тестирует линейное перед добавлением квадратичного. Тип III проверяет линейное с квадратичным в модели.

Эмиль Фридман
источник
2
Это разумный момент, но только потому, что данные были центрированы до создания , не означает, что вы можете быть «абсолютно уверены, что экстремум находится в ». Сказать это сейчас равносильно тому, чтобы сказать «экстремум в » раньше . В любом случае вы делаете ставку на непредвзятость вашей модели на вашу способность указать значение x экстремума с бесконечной точностью. Разница между тестами типа I и типа III также является потенциально интересным дополнением, но, с другой стороны, они будут отличаться только в том случае, если & коррелируют, т. Е. Если бы не было центрирования . х = 0 х = ˉ х х х 2x2x=0x=x¯xx2
gung - Восстановить Монику
С другой стороны, вы можете ссылаться на вклады пользователей, указав их имя пользователя, возможно с символом «at». Например, в этом случае, «@ whuber ответ правильный по цели ...» (настроение, с которым я согласен.)
gung - Восстановить Монику
1
Спасибо, Эмиль, за то, что поделились этими напоминаниями: им обоим стоит помнить.
whuber
3

Brambor, Clark and Golder (2006) (который поставляется с интернет-приложением ) имеют четкое представление о том, как понимать модели взаимодействия и как избежать распространенных ошибок, в том числе о том, почему вы должны (почти) всегда включать термины более низкого порядка ( «учредительные термины») в моделях взаимодействия.

Аналитики должны включать все определяющие термины при определении моделей мультипликативного взаимодействия, за исключением очень редких случаев. Под учредительными терминами мы подразумеваем каждый из элементов, составляющих термин взаимодействия. [..]

Тем не менее, читатель должен отметить, что модели мультипликативного взаимодействия могут принимать различные формы и могут включать квадратные члены, такие как или члены взаимодействия более высокого порядка, такие как . Независимо от того, какую форму принимает термин взаимодействия, должны быть включены все учредительные термины. Таким образом, следует включать, когда членом взаимодействия является а , , , , и следует включать, когда членом взаимодействия является . X Z J X X 2 X Z J X Z X J Z J X Z JX2XZJXX2XZJXZXJZJXZJ

Невыполнение этого требования может привести к заниженной модели, что приведет к искаженным оценкам. Это может привести к ошибочным выводам.

Если это так и соотносится с (или ), как это будет происходить практически в любых социальных науках, то исключение учредительного члена приведет к смещенным (и противоречивым) оценкам , и . Хотя это не всегда признается как таковой, это прямой случай пропущенного переменного смещения (Greene 2003, pp. 148–149).X Z X Z β 0 β 1 β 3ZXZXZβ0β1β3

landroni
источник