Я работаю на моделях линейной регрессии и задаюсь вопросом, каковы условия удаления термина «перехват».
Сравнивая результаты двух разных регрессий, где один имеет перехват, а другой нет, я замечаю, что функции без перехвата намного выше. Существуют ли определенные условия или предположения, которым я должен следовать, чтобы убедиться, что удаление термина перехвата является действительным?
regression
linear-model
r-squared
intercept
analyticsPierce
источник
источник
Ответы:
Самый короткий ответ: никогда , если вы не уверены, что ваше линейное приближение процесса генерирования данных (модель линейной регрессии) по каким-либо теоретическим или иным причинам вынуждено пройти исходную точку . Если нет, то другие параметры регрессии будут смещены, даже если перехват статистически незначим (странно, но это так, обратитесь, например , к « Вводной эконометрике Брукса» ). Наконец, как я часто объясняю своим студентам, оставляя термин «перехват», вы гарантируете, что остаточный термин равен нулю.
Для вашего случая двух моделей нам нужно больше контекста. Может случиться, что линейная модель здесь не подходит. Например, вам нужно сначала записать преобразование, если модель является мультипликативной. При экспоненциально растущих процессах может случиться так, что для модели без пересечения «намного» выше.р2
Просмотрите данные, протестируйте модель с помощью теста RESET или любого другого теста линейной спецификации, это может помочь проверить, верна ли моя догадка. И построение моделей с самым высоким является одним из последних статистических свойств, которые меня действительно беспокоят, но это приятно представить людям, которые не очень хорошо знакомы с эконометрикой (есть много грязных трюков, чтобы сделать определение близко к 1 :)).р2
источник
Удаление перехвата - это другая модель, но есть множество примеров, где это законно. Ответы до сих пор подробно обсуждали пример, где истинный перехват равен 0. Я остановлюсь на нескольких примерах, где нас может заинтересовать нетипичная параметризация модели.
Пример 1: Модель в стиле ANOVA. Для категориальных переменных мы обычно создаем двоичные векторы, кодирующие членство в группах. Стандартная модель регрессии параметризована как фиктивные векторы intercept + k - 1. Перехват кодирует ожидаемое значение для «эталонной» группы или пропущенного вектора, а оставшиеся векторы проверяют разницу между каждой группой и эталоном. Но в некоторых случаях может быть полезно иметь ожидаемое значение каждой группы.
Пример 2: случай стандартизированных данных. В некоторых случаях можно работать со стандартизованными данными. В этом случае перехват равен 0 по замыслу. Я думаю, что классическим примером этого были модели структурного уравнения старого типа или фактор, который работал только на ковариационных матрицах данных. В приведенном ниже случае, вероятно, будет хорошей идеей оценить перехват в любом случае, если только отбросить дополнительную степень свободы (которую вы действительно должны были потерять в любом случае, потому что было оценено среднее значение), но есть несколько ситуаций, когда Конструкция означает, что может быть 0 (например, некоторые эксперименты, в которых участники присваивают рейтинги, но вынуждены выдавать равные положительные и отрицательные стороны).
Пример 3. Многомерные модели и скрытые перехваты. Этот пример во многом похож на первый. В этом случае данные были сложены так, что две разные переменные теперь находятся в одном длинном векторе. Вторая переменная кодирует информацию о том
y
, принадлежит ли вектор ответа ,mpg
илиdisp
. В этом случае, чтобы получить отдельные перехваты для каждого результата, вы подавляете общий перехват и включаете оба фиктивных вектора для измерения. Это своего рода многомерный анализ. Обычно это не делается с помощьюlm()
потому что вы повторили меры и, вероятно, должны учитывать невосприимчивость. Однако есть несколько интересных случаев, когда это необходимо. Например, при попытке выполнить посреднический анализ со случайными эффектами, чтобы получить полную ковариационную матрицу дисперсии, вам нужно оценивать обе модели одновременно, что можно сделать путем суммирования данных и некоторого умного использования фиктивных векторов.Я не утверждаю, что перехваты, как правило, должны быть удалены, но хорошо быть гибким.
источник
Здесь есть хорошие ответы. Две маленькие вещи:
источник
Вы не должны отбрасывать перехват, независимо от того, вероятно ли вы когда-либо видеть все объясняющие переменные, имеющие значения ноль.
Там хороший ответ на очень похожий вопрос здесь .
Если вы удалите перехват, то все другие оценки будут смещены. Даже если истинное значение перехвата приблизительно равно нулю (это все, что вы можете сделать из ваших данных), вы будете возиться с уклонами, если заставите его быть точно равным нулю.
UNLESS - вы измеряете что-то с помощью очень четкой и очевидной физической модели, которая требует, чтобы пересечение было нулевым (например, у вас есть высота, ширина и длина прямоугольной призмы в качестве объясняющих переменных, а переменная отклика - это объем с некоторой ошибкой измерения). Если вашей переменной ответа является значение дома, вам определенно нужно оставить перехват в.
источник
Хорошо, так что вы изменили вопрос много
Вы можете пропустить перехват, когда вы знаете, что это 0. Вот и все. И нет, вы не можете сделать это, потому что это не значительно отличается от 0, вы должны знать, что это 0, или ваши остатки смещены. И, в этом случае, это 0, так что это не будет иметь никакого значения, если вы пропустите это ... поэтому, никогда не пропускайте это.
источник
Большинство моделей множественной регрессии содержат постоянный член (т. Е. Перехват), поскольку это гарантирует, что модель будет беспристрастной, т. Е. Среднее значение остатков будет точно равно нулю. (Коэффициенты в регрессионной модели оцениваются методом наименьших квадратов, т. Е. Сводится к минимуму среднеквадратическая ошибка. Теперь среднеквадратичная ошибка равна дисперсии ошибок плюс квадрат их среднего значения: это математическая идентичность. Изменение значение константы в модели изменяет среднее значение ошибок, но не влияет на дисперсию, поэтому, если сумма квадратов ошибок должна быть минимизирована, константа должна быть выбрана так, чтобы среднее значение ошибок было равно нулю. )
В простой регрессионной модели константа представляет Y-точку пересечения линии регрессии в нестандартной форме. В модели множественной регрессии константа представляет значение, которое было бы предсказано для зависимой переменной, если бы все независимые переменные были одновременно равны нулю - ситуация, которая не может быть физически или экономически значимой. Если вас не особенно интересует, что произойдет, если все независимые переменные будут одновременно равны нулю, тогда вы обычно оставляете константу в модели независимо от ее статистической значимости. В дополнение к тому, что ошибки выборки несмещены, наличие константы позволяет линии регрессии «искать свой собственный уровень» и обеспечивать наилучшее соответствие данным, которые могут быть только локально линейными.
Однако в редких случаях вы можете исключить постоянную из модели. Это опция подбора модели в процедуре регрессии в любом программном пакете, и ее иногда называют регрессией через источник, или для краткости RTO. Обычно это будет сделано только в том случае, если:
Примером случая (1) может служить модель, в которой все переменные - зависимые и независимые - представляют первые различия других временных рядов. Если вы регрессируете первое различие Y на первое различие X, вы прямо прогнозируете изменения в Y как линейную функцию изменений в X без привязки к текущим уровням переменных. В этом случае может быть разумным (хотя и не обязательно) предполагать, что Y должен быть неизменным в среднем всякий раз, когда X не изменяется, то есть, что Y не должен иметь тенденцию к росту или понижению при отсутствии каких-либо изменений в уровень Х.
Примером случая (2) может быть ситуация, в которой вы хотите использовать полный набор переменных сезонных индикаторов - например, вы используете квартальные данные и хотите включить переменные Q1, Q2, Q3 и Q4, представляющие аддитив сезонные эффекты. Таким образом, Q1 может выглядеть как 1 0 0 0 1 0 0 0 ..., Q2 будет выглядеть как 0 1 0 0 0 1 0 0 ... и так далее. Вы не можете использовать все четыре из них и константу в одной и той же модели, поскольку Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. , , , , что совпадает с постоянным членом. То есть пять переменных Q1, Q2, Q3, Q4 и CONSTANT не являются линейно независимыми: любая из них может быть выражена как линейная комбинация остальных четырех. Технической предпосылкой для подбора модели линейной регрессии является то, что независимые переменные должны быть линейно независимыми; в противном случае коэффициенты наименьших квадратов не могут быть определены однозначно,
Предупреждение: R-квадрат и F-статистика не имеют того же значения в модели RTO, как в обычной регрессионной модели, и они не рассчитываются одинаково всеми программами. Смотрите эту статью для некоторых предостережений. Вы не должны пытаться сравнивать R-квадрат между моделями, которые включают и не включают постоянный член, хотя это нормально для сравнения стандартной ошибки регрессии.
Обратите внимание, что термин «независимый» используется (по крайней мере) тремя различными способами на жаргоне регрессии: любая отдельная переменная может называться независимой переменной, если она используется в качестве предиктора, а не предиката. Группа переменных является линейно независимой, если ни одна из них не может быть выражена в точности как линейная комбинация других. Пара переменных называется статистически независимой, если они не только линейно независимы, но и совершенно неинформативны по отношению друг к другу. В регрессионной модели вы хотите, чтобы ваша зависимая переменная была статистически зависимой от независимых переменных, которые должны быть линейно (но не обязательно статистически) независимы между собой.
источник
Полный пересмотр моих мыслей. Действительно, отказ от перехвата вызовет проблему смещения.
Рассматривали ли вы центрирование ваших данных таким образом, чтобы перехват имел какое-то значение и не объясняли, как некоторые (необоснованные) значения могут давать отрицательные значения? Если вы откорректируете все три объясняющие переменные, вычтя среднее значение sqrft, средний размер лота и среднее значение ванны, то в точке пересечения теперь будет отображаться значение (дома?) Со средним значением sdrft, lotize и baths.
Это центрирование не изменит относительные отношения независимых переменных. Таким образом, подгонка модели к центрированным данным покажет, что ванны незначительны. Установите модель без ванны в комплекте. Вы все равно можете получить большое значение p для перехвата, но оно должно быть включено, и у вас будет модель вида y = a + b (sqrft) + c (lotize size).
источник
Я просто потратил некоторое время, отвечая на аналогичный вопрос, опубликованный кем-то другим, но он был закрыт. Здесь есть несколько отличных ответов, но ответ, который я предоставляю, немного проще. Это может быть больше подходит для людей, которые имеют слабое понимание регрессии.
Q1: Как мне интерпретировать перехват в моей модели?
В регрессионных моделях цель состоит в том, чтобы минимизировать количество необъяснимых отклонений в выходной переменной:
y = b0 + b1⋅x + ϵ
где y - это прогнозируемое значение вашей меры результата (например, log_blood_hg), b0 - это перехват, b1 - наклон, x - переменная предиктора, а ϵ - остаточная ошибка.
Пересечение (b0) - это прогнозируемое среднее значение y, когда все x = 0. Другими словами, это базовое значение y, прежде чем вы использовали какие-либо переменные (например, виды), чтобы дополнительно минимизировать или объяснить разницу в log_blood_hg ,
Добавляя наклон (который оценивает, как увеличение / уменьшение log_blood_hg на одну единицу изменяется с увеличением x на одну единицу, например, видов), мы добавляем к тому, что мы уже знаем о выходной переменной, которая является ее базовым значением (т.е. перехват), основанный на изменении другой переменной.
Q2: Когда уместно включать или не включать перехват, особенно в отношении того факта, что модели дают очень разные результаты?
Для простых моделей, подобных этой, никогда не уместно отбрасывать перехват.
Модели дают разные результаты, когда вы отбрасываете перехват, потому что вместо того, чтобы заземлять наклон в базовом значении Y, он вынужден проходить через начало y, которое равно 0. Поэтому наклон становится круче (то есть более мощным и значительным ) потому что вы провели линию через начало координат, а не потому, что она лучше сводит к минимуму дисперсию y. Другими словами, вы искусственно создали модель, которая минимизирует дисперсию y, удалив точку пересечения или начальную точку заземления для вашей модели.
Есть случаи, когда удаление перехвата является уместным, например, при описании явления с помощью 0-перехвата. Вы можете прочитать об этом здесь , а также узнать больше причин, почему удаление перехвата не является хорошей идеей.
источник
Вывод: НЕ ОСТАВЛЯЙТЕ ПЕРЕКЛЮЧЕНИЕ ИЗ МОДЕЛИ (если только вы действительно не знаете, что делаете).
Существуют также специальные модели, которые исключают перехват. Одним из примеров являются парные данные, исследования близнецов .
источник