Я хочу включить термин и его квадрат (переменные предиктора) в регрессию, потому что я предполагаю, что низкие значения положительно влияют на зависимую переменную, а высокие значения оказывают отрицательное влияние. должен захватить эффект более высоких значений. Поэтому я ожидаю, что коэффициент будет положительным, а коэффициент будет отрицательным. Помимо , я также включаю другие переменные предиктора.
Я читал в некоторых сообщениях здесь, что это хорошая идея, чтобы центрировать переменные в этом случае, чтобы избежать мультиколлинеарности. При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?
Должен ли я центрировать обе переменные по отдельности (в среднем), или я должен центрировать только а затем взять квадрат или я должен центрировать только х 2 и включить исходный х ?
Это проблема, если является переменной подсчета?
Чтобы не считать переменной-счетчиком, я подумал о том, чтобы разделить ее на теоретически определенную площадь, например, на 5 квадратных километров. Это должно быть немного похоже на расчет плотности точек.
Однако я боюсь, что в этой ситуации мое первоначальное предположение о знаке коэффициентов больше не будет выполнено, как, например, когда и x ² = 4
= 0,4 км 2
но затем будет меньшепотому что х 2 = ( 2 / 5 ) 2 = 0,16 .
Ответы:
Ваш вопрос на самом деле состоит из нескольких подвопросов, которые я постараюсь ответить на меру моего понимания.
Учитывая и хx - это способ сделать это, но уверены ли вы, что ваш тест убедителен? Сможете ли вы сделать что-то полезное для всех возможных результатов регрессии? Я думаю, что постановка вопроса ясно заранее может помочь, и постановка похожих и связанных вопросов также может помочь. Например, вы можете рассмотреть порог х, для которого наклоны регрессии различны. Это можно сделать с помощьюпеременных модератора. Если разные наклоны (при наложении одного и того же перехвата) совместимы, то у вас нет разницы, в противном случае вы предоставили себе четкий аргумент в пользу их различия.x2 x
Я думаю, что этот вопрос не следует смешивать с первым вопросом и тестом, и я боюсь сосредоточиться вокруг илиx заранее может повлиять на результаты. Я бы посоветовал не центрироваться, по крайней мере, на первом этапе. Помните, что вы, вероятно, не умрете от мультиколлинеарности, многие авторы утверждают, что это просто эквивалентно работе с меньшим размером выборки (здесьиздесь).x2
Да, будет, но это будет сильно зависеть от первых двух пунктов, поэтому я бы посоветовал вам обратиться к одной вещи за раз. Я не вижу причин, по которым регрессия не будет работать без этого преобразования, поэтому я бы посоветовал вам пока игнорировать это. Также обратите внимание, что путем деления на общий элемент вы меняете масштаб, при котором , но есть совершенно разные способы взглянуть на него, как я писал выше, в котором этот порог рассматривается более явным образом.x2=x
источник
В целом, центрирование может помочь уменьшить мультиколлинеарность, но «вы, вероятно, не умрете от мультиколлинеарности» (см. Ответ predrofigueira).
Самое главное, чтобы центрирование было значимым, часто требуется центрирование. В простой модели перехват определяется как ожидаемый результат для x = 0 . Если значение x, равное нулю, не имеет смысла, ни itercept не имеет значения. Часто полезно расположить переменную x вокруг ее среднего значения; в этом случае предиктор имеет форму ( x i - ˉ x ), а точка пересечения α является ожидаемым результатом для субъекта, значение которого на x iYя= α + βИкся+ ε х = 0 Икс Икс ( хя- х¯) α Икся равно среднемуИкс¯ .
В таких случаях вы должны центрировать а затем квадрат. Вы не можете центрировать x и x 2 по отдельности, потому что вы регрессируете результат для «новой» переменной ( x i - ˉ x ) , поэтому вы должны возвести в квадрат эту новую переменную. Что может означать центрирование х 2 ?Икс Икс Икс2 ( хя- х¯) Икс2
Вы можете центрировать переменную count, если ее среднее значение имеет смысл , но вы можете просто масштабировать ее. Например, если и «2» могут быть базовой линией, вы можете вычесть 2: ( x i - 2 ) = - 1 , 0 , 1 , 2 , 3 . Перехват становится ожидаемым результатом для субъекта, значение которого на x iх = 1 , 2 , 3 , 4 , 5 ( хя- 2 ) = - 1 , 0 , 1 , 2 , 3 Икся равно «2», эталонному значению.
Что касается деления, нет проблем: ваши оценочные коэффициенты будут больше! Гельман и Хилл , §4.1, приводят пример:
Один дюйм составляет миллиметра, поэтому 51 - 1300 / 25,4 . Один дюйм составляет 1,6 е - 5 эмилей, поэтому 81000000 - 1300 / 1,6 е - 5 . Но эти три уравнения полностью эквивалентны.+25,4 51 1300 / 25,4 1,6 е - 5 81000000 1300 / 1,6 е - 5
источник
Хотя я ценю отношение других к центрированию и интерпретации коэффициентов, то, что вы здесь описали, является просто линейным эффектом. Другими словами, то, что вы описали, не указывает на необходимость проверки квадрата х .
источник