понимание р-значения в множественной линейной регрессии

12

Что касается p-значения множественного линейного регрессионного анализа, введение с веб-сайта Minitab приведено ниже.

Значение p для каждого члена проверяет нулевую гипотезу о том, что коэффициент равен нулю (без эффекта). Низкое значение p (<0,05) означает, что вы можете отклонить нулевую гипотезу. Другими словами, предиктор с низким значением p, скорее всего, станет значимым дополнением к вашей модели, поскольку изменения в значении предиктора связаны с изменениями в переменной ответа.

Например, у меня есть результирующая модель MLR: . и выход показан ниже. Тогда можно рассчитать с помощью этого уравнения.yYзнак равно0,46753Икс1-0,2668Икс2+1,6193Икс3+4,5424Икс4+14,48Y

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

Основываясь на введении выше, нулевая гипотеза состоит в том, что коэффициент равен 0. Я понимаю, что коэффициент, например коэффициент , будет установлен в 0, а другой y будет вычислен как . Затем проводится парный t-тест для и , но p-значение этого t-теста составляет 6,9e-12, что не равно 0,1292 (p-значение коэффициента . y 2 = 0,46753 X 1 - 0,2668 X 2 + 1,6193 X 3 + 0 X 4 + 14,48 y y 2 X 4Икс4Y2знак равно0,46753Икс1-0,2668Икс2+1,6193Икс3+0Икс4+14,48YY2Икс4

Может ли кто-нибудь помочь в правильном понимании? Большое спасибо!

user2230101
источник
Можете ли вы показать результаты процедуры регрессии?
Аксакал
Ваше описание вычисления p-значения нестандартно. Как вы думаете, почему это должно быть вычислено так, как вы описываете? Значение p в выходных данных вычисляется из матрицы параметров Var-Cov. Если вы хотите запустить рестрикционный тест, как Wald, то вы не так описываете. Вам нужно будет переоценить модель с 3 переменными, получить логарифмическое правдоподобие и т. Д.
Аксакал
1
Согласно этому введению, у вас есть только одна «значимая» переменная - «перехват» - потому что только ее p-значение мало. Чтобы выйти за рамки наивной и вводящей в заблуждение практики в цитате, вам нужно больше узнать о множественной регрессии. Чтобы узнать, что можно узнать в этом отношении, рассмотрите возможность изучения соответствующих тем на нашем сайте .
whuber
2
Проверьте ответы на эти два вопроса: - stats.stackexchange.com/questions/5135/... и - stats.stackexchange.com/questions/126179/... Они помогли мне понять , как р-значения вычисляются, надеюсь , что вы найдете их также полезно.
Джакомо

Ответы:

7

Это неверно по нескольким причинам:

  1. Модель «без» X4 не обязательно будет иметь такие же оценки коэффициента для других значений. Установите уменьшенную модель и убедитесь сами.

  2. Y

  3. Статистический тест, который проводится для статистической значимости коэффициента, является t-тестом с одним образцом. Это сбивает с толку, поскольку у нас нет «выборки» из нескольких коэффициентов для X4, но мы имеем оценку распределительных свойств такой выборки с использованием центральной предельной теоремы. Среднее значение и стандартная ошибка описывают местоположение и форму такого предельного распределения. Если вы возьмете столбец «Est» и разделите на «SE» и сравните со стандартным нормальным распределением, это даст вам p-значения в 4-м столбце.

  4. Четвертый пункт: критика страницы помощи Minitab. Такой файл справки не может в параграфе суммировать годы статистической подготовки, поэтому мне не нужно спорить со всем этим. Но сказать, что «предиктор» является «важным вкладом», расплывчато и, вероятно, неправильно. Обоснование выбора переменных для включения в многомерную модель является тонким и основывается на научных рассуждениях, а не на статистическом выводе.

Adamo
источник
0

Ваша первоначальная интерпретация p-значений выглядит правильно, то есть только коэффициент пересечения имеет коэффициент, который значительно отличается от 0. Вы заметите, что оценка коэффициента для x4 все еще довольно высока, но есть достаточно ошибок, что она незначительна отличается от 0.

Ваш парный t-тест y1 и y2 показывает, что модели отличаются друг от друга. Этого следовало ожидать, в одной модели вы включили большой, но неточный коэффициент, который вносит значительный вклад в вашу модель. Нет оснований полагать, что значение p этих моделей, отличающихся друг от друга, должно быть таким же, как значение p коэффициента x4, отличного от 0.

Ядерный Ван
источник