tl; dr - для регрессии OLS, более высокий R-квадрат также подразумевает более высокое P-значение? В частности, для одной объясняющей переменной (Y = a + bX + e), но было бы также интересно узнать для n нескольких объясняющих переменных (Y = a + b1X + ... bnX + e).
Контекст - я выполняю регрессию OLS для ряда переменных и пытаюсь разработать наилучшую объяснительную функциональную форму, создав таблицу со значениями R-квадрата между линейными, логарифмическими и т. Д. Преобразованиями каждой объяснительной (независимой) переменной и ответная (зависимая) переменная. Это выглядит примерно так:
Имя переменной - линейная форма - --ln (переменная) --exp (переменная) - ... и т. Д.
Переменная 1 ------- R-квадрат ---- R-квадрат ---- R-квадрат -
... и т.д ...
Мне интересно, является ли R-квадрат уместным или P-значения были бы лучше. Предположительно, есть некоторые отношения, так как более значимые отношения подразумевают более высокую объяснительную силу, но не уверены, верно ли это в строгой форме.
источник
Ответы:
Ответ - нет, такой регулярной зависимости между и р-значением общей регрессии не существует, поскольку R 2 зависит как от дисперсии независимых переменных, так и от дисперсии невязок (к которой она обратно пропорциональна). пропорционально), и вы можете изменять дисперсию независимых переменных на произвольные величины.R2 R2
В качестве примера рассмотрим любой набор многомерных данных где i индексирует случаи, и предположим, что набор значений первой независимой переменной { x i 1 } , имеет уникальный максимум x ∗, отделенный от второго по величине значения положительным значением ϵ((xi1,xi2,…,xip,yi)) i {xi1} x∗ ϵ . Применить нелинейное преобразование первой переменной, которое отправляет все значения меньше к диапазону [ 0 , 1 ] и отправляет сам x ∗ к некоторому большому значению M ≫ 1 . Для любого такого M это может быть сделано, например, подходящим (масштабированным) преобразованием Бокса-Кокса x → a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , поэтому мы не говорим о ничего странного или "патологического". Тогда как Мx∗−ϵ/2 [0,1] x∗ M≫1 M x→a((x−x0)λ−1)/(λ−1)) M растет произвольно большим, приближается к 1 так близко, как вам угодно, независимо от того, насколько плохое совпадение, потому что дисперсия остатков будет ограничена, в то время как дисперсия первой независимой переменной асимптотически пропорциональна M 2 .R2 1 M2
Вместо этого вы должны использовать тесты на пригодность (среди прочих методов), чтобы выбрать подходящую модель в своем исследовании: вам следует позаботиться о линейности подгонки и гомоскедастичности остатков. И не берите никаких p-значений из полученной регрессии на доверие: они окажутся почти бессмысленными после того, как вы прошли это упражнение, потому что их интерпретация предполагает, что выбор выражения независимых переменных не зависел от значений зависимая переменная вообще, что здесь очень не так.
источник
Этот ответ не имеет прямого отношения к центральному вопросу; это не более чем дополнительная информация, которая слишком длинна для комментария.
Я указываю на это, потому что эконометрический вопрос, несомненно, встретит эту информацию или что-то подобное в какой-то момент (заявив, что и R 2F R2 являются связаны) и удивление , если информация , представленная в других ответах здесь неправильно - это не так - но я думаю , это платит, чтобы быть ясным о том, что происходит.
Существует связь при определенных обстоятельствах; если вы держите число наблюдений и количество предикторов, фиксированных для данной модели, фактически является монотонным в R 2 , посколькуF R2
(Если вы разделите числитель и знаменатель на и вытяните константы из k , вы увидите, что 1 / F ∝ 1 / R 2 - 1, если вы держите N и k постоянными.)R2 k 1/F∝1/R2−1 N k
Поскольку для фиксированного df и p-значения являются монотонно связанными, R 2 и p- значение также являются монотонно связанными.F R2 p
Но измените почти что-нибудь о модели, и эти отношения не сохраняются в изменившихся обстоятельствах.
Например, добавление точки делает больше, а удаление одной делает ее меньше, но выполнение может увеличить или уменьшить R 2 , так что похоже, что F и R 2 не обязательно движутся вместе, если Вы добавляете или удаляете данные. Добавление переменной уменьшает ( N - k ) / ( k - 1 ), но увеличивает R 2 (и наоборот), поэтому, опять же, R 2 не обязательно связан с(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 когда вы делаете это.F
Очевидно, что когда вы сравниваете и р -значение по моделям с различными характеристиками, эта связь не обязательно проводить, так как whuber доказана в случае нелинейных преобразований.R2 p
источник
Так что в этом случае, как только вы исправитеN чем выше р2 чем выше T статистика и ниже р-значение.
Ответ тот же, но вместо того, чтобы рассматривать только одну переменную, теперь мы смотрим на все переменные вместе - отсюдаF статистика, как показал Glen_b. И здесь вы должны исправить обаN и количество параметров. Или, лучше сказать, исправить степень свободы.
Итак, это на самом деле другая проблема. Если вы смотрите на лучшую объяснительную функциональную форму, вы должны также взглянуть на методы перекрестной проверки . Даже еслир2 является интересным для вашей проблемы (обычно это не так), поиск наилучшего соответствия в выборке может быть очень обманчивым - вы обычно хотите, чтобы ваши выводы обобщались из выборки, а правильная перекрестная проверка может помочь вам не перегружать ваши данные слишком много.
И здесь я предполагаю, что вам нужна «предсказательная» сила (поскольку вы говорите, что хотите найти «лучшую объяснительную функциональную форму»). Если вы хотите сделать причинный вывод, например, тор2 или другие прогнозирующие показатели производительности мало помогают без более структурного / существенного знания проблемы.
источник