Какова связь между R-квадратом и р-значением в регрессии?

17

tl; dr - для регрессии OLS, более высокий R-квадрат также подразумевает более высокое P-значение? В частности, для одной объясняющей переменной (Y = a + bX + e), но было бы также интересно узнать для n нескольких объясняющих переменных (Y = a + b1X + ... bnX + e).

Контекст - я выполняю регрессию OLS для ряда переменных и пытаюсь разработать наилучшую объяснительную функциональную форму, создав таблицу со значениями R-квадрата между линейными, логарифмическими и т. Д. Преобразованиями каждой объяснительной (независимой) переменной и ответная (зависимая) переменная. Это выглядит примерно так:

Имя переменной - линейная форма - --ln (переменная) --exp (переменная) - ... и т. Д.

Переменная 1 ------- R-квадрат ---- R-квадрат ---- R-квадрат -
... и т.д ...

Мне интересно, является ли R-квадрат уместным или P-значения были бы лучше. Предположительно, есть некоторые отношения, так как более значимые отношения подразумевают более высокую объяснительную силу, но не уверены, верно ли это в строгой форме.

econometricstatsquestion
источник
5
Также интересно: R ^ 2 полезен или опасен? ,
whuber

Ответы:

15

Ответ - нет, такой регулярной зависимости между и р-значением общей регрессии не существует, поскольку R 2 зависит как от дисперсии независимых переменных, так и от дисперсии невязок (к которой она обратно пропорциональна). пропорционально), и вы можете изменять дисперсию независимых переменных на произвольные величины.R2R2

В качестве примера рассмотрим любой набор многомерных данных где i индексирует случаи, и предположим, что набор значений первой независимой переменной { x i 1 } , имеет уникальный максимум x ∗, отделенный от второго по величине значения положительным значением ϵ((xi1,xi2,,xip,yi))i{xi1}xϵ . Применить нелинейное преобразование первой переменной, которое отправляет все значения меньше к диапазону [ 0 , 1 ] и отправляет сам x к некоторому большому значению M 1 . Для любого такого M это может быть сделано, например, подходящим (масштабированным) преобразованием Бокса-Кокса x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , поэтому мы не говорим о ничего странного или "патологического". Тогда как Мxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))Mрастет произвольно большим, приближается к 1 так близко, как вам угодно, независимо от того, насколько плохое совпадение, потому что дисперсия остатков будет ограничена, в то время как дисперсия первой независимой переменной асимптотически пропорциональна M 2 .R21M2


Вместо этого вы должны использовать тесты на пригодность (среди прочих методов), чтобы выбрать подходящую модель в своем исследовании: вам следует позаботиться о линейности подгонки и гомоскедастичности остатков. И не берите никаких p-значений из полученной регрессии на доверие: они окажутся почти бессмысленными после того, как вы прошли это упражнение, потому что их интерпретация предполагает, что выбор выражения независимых переменных не зависел от значений зависимая переменная вообще, что здесь очень не так.

Whuber
источник
10

Этот ответ не имеет прямого отношения к центральному вопросу; это не более чем дополнительная информация, которая слишком длинна для комментария.

Я указываю на это, потому что эконометрический вопрос, несомненно, встретит эту информацию или что-то подобное в какой-то момент (заявив, что и R 2FR2 являются связаны) и удивление , если информация , представленная в других ответах здесь неправильно - это не так - но я думаю , это платит, чтобы быть ясным о том, что происходит.

Существует связь при определенных обстоятельствах; если вы держите число наблюдений и количество предикторов, фиксированных для данной модели, фактически является монотонным в R 2 , посколькуFR2

F=R2/(k1)(1R2)/(Nk)

(Если вы разделите числитель и знаменатель на и вытяните константы из k , вы увидите, что 1 / F 1 / R 2 - 1, если вы держите N и k постоянными.)R2k1/F1/R21Nk

Поскольку для фиксированного df и p-значения являются монотонно связанными, R 2 и p- значение также являются монотонно связанными.FR2p

Но измените почти что-нибудь о модели, и эти отношения не сохраняются в изменившихся обстоятельствах.

Например, добавление точки делает больше, а удаление одной делает ее меньше, но выполнение может увеличить или уменьшить R 2 , так что похоже, что F и R 2 не обязательно движутся вместе, если Вы добавляете или удаляете данные. Добавление переменной уменьшает ( N - k ) / ( k - 1 ), но увеличивает R 2 (и наоборот), поэтому, опять же, R 2 не обязательно связан с(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 когда вы делаете это.F

Очевидно, что когда вы сравниваете и р -значение по моделям с различными характеристиками, эта связь не обязательно проводить, так как whuber доказана в случае нелинейных преобразований.R2p

Glen_b - Восстановить Монику
источник
Я не согласен с вами, но похоже, что вы отвечаете на другой вопрос, чем я. Потребовалось некоторое чтение, но я пришел к выводу, что вопрос заключается в том, какие отношения, если таковые имеются, имеют место между и R 2, когда (caeteris paribus) независимые переменные нелинейно преобразуются. Только когда эти переменные остаются неизменными - или, самое большее, линейно преобразованными между собой - мы можем вообще что-либо сказать о таких отношениях. Это часть того смысла, в котором я думаю, что ваш квалификатор «для данной модели» должен быть понят. pR2
whuber
Я отвечаю на другой вопрос; и я верю, что вы правильно поняли смысл. Я больше беспокоился о том, что такой вопрос, как тот, который я поднял, приведет к путанице, если не будет объяснен. Все ваши пункты верны, насколько я понимаю. (Теперь я на самом деле обеспокоен тем, что, возможно, мой ответ не служит для прояснения, как я надеялся, а просто запутывает проблему. Как вы думаете, есть ли подходящее изменение, которое могло бы помочь ему? Должен ли я удалить его?)
Glen_b
Я бы не хотел видеть это удаленным, Глен. Если вы намереваетесь внести изменения, подумайте о том, чтобы более четко указать, о каких аспектах этой проблемы вы пишете ( например , что именно вы подразумеваете под «данной моделью» и что вы имеете в виду о моделях с «различными характеристиками»). Это был дух (совместный, не критичный), в котором я предложил свой комментарий.
whuber
Я не чувствовал, что вы подвергаетесь критике - вы, кажется, проясняете ситуацию и ничего более - но необходимость в этом подчеркивает неадекватность в ответе, который меня беспокоил до того, как вы прокомментировали. Неопределенность «разных характеристик» заключается в том, что это довольно общая вещь - сильно различаться (я даже привожу примеры чего-то простого: удаление точки или добавление переменной, чтобы проиллюстрировать, как мало нужно изменить), может сделать эти монотонные отношения испаряться. Я подумаю о том, что еще могу сказать.
Glen_b
F
3

«Для регрессии МНК более высокий R-квадрат также подразумевает более высокое значение P? В частности, для одной объясняющей переменной (Y = a + bX + e)»

р2FT). Например, как объяснено в этом другом вопросе ( высокийр2 квадрат и высокий п-значение для простой линейной регрессии) for the simple linear regression with one covariate (and a constant), the relationship between t и R2 является:

|t|=R2(1-р2)(N-2)

Так что в этом случае, как только вы исправите Nчем выше R2 чем выше T статистика и ниже р-значение.

«но также было бы интересно узнать для n нескольких объясняющих переменных (Y = a + b1X + ... bnX + e)».

Ответ тот же, но вместо того, чтобы рассматривать только одну переменную, теперь мы смотрим на все переменные вместе - отсюда Fстатистика, как показал Glen_b. И здесь вы должны исправить обаNи количество параметров. Или, лучше сказать, исправить степень свободы.

Контекст - я выполняю регрессию OLS для ряда переменных и пытаюсь разработать лучшую объяснительную функциональную форму (...)

Итак, это на самом деле другая проблема. Если вы смотрите на лучшую объяснительную функциональную форму, вы должны также взглянуть на методы перекрестной проверки . Даже еслир2 является интересным для вашей проблемы (обычно это не так), поиск наилучшего соответствия в выборке может быть очень обманчивым - вы обычно хотите, чтобы ваши выводы обобщались из выборки, а правильная перекрестная проверка может помочь вам не перегружать ваши данные слишком много.

И здесь я предполагаю, что вам нужна «предсказательная» сила (поскольку вы говорите, что хотите найти «лучшую объяснительную функциональную форму»). Если вы хотите сделать причинный вывод, например, тор2 или другие прогнозирующие показатели производительности мало помогают без более структурного / существенного знания проблемы.

Carlos Cinelli
источник