Значение р-значений в регрессии

27

Когда я выполняю линейную регрессию в некоторых программных пакетах (например, Mathematica), я получаю p-значения, связанные с отдельными параметрами в модели. Например, результаты линейной регрессии, которая дает результат будут иметь p-значение, связанное с и одно с .ax+bab

  1. Что эти значения p индивидуально значат для этих параметров?

  2. Есть ли общий способ вычисления параметров для любой модели регрессии?

  3. Можно ли объединить значение p, связанное с каждым параметром, в значение p для всей модели?

Чтобы сохранить этот вопрос математическим по своей природе, я ищу только интерпретацию p-значений в терминах вероятностей.

Генри Б.
источник
Ответ Гэвина на вопрос, связанный с @cardinal, говорит об этом хорошо.
JM не является статистиком
6
@zyx, нет ничего сложного в вопросах ОП. Это очень распространенные вопросы, для которых, на мой взгляд, stats.SE более уместен - и к которым участники также более настроены. Math.SE и MO - отличные ресурсы для вероятностных вопросов, но гораздо меньше для статистических. Вопросы ОП гораздо больше склоняются к последним.
кардинал
@cardinal: я следил за stats.SE с начала публичной бета-версии. Из 4800+ вопросов на сегодняшний день я не смог найти тот, который спрашивает или отвечает на пункт 3 из OP, что странно, если это «очень распространенный» запрос. Также я не видел концептуально точных ответов на пункт 1 в тех немногих случаях, когда он возник. Я думаю, что эти вещи должны периодически публиковаться в math.SE и MO, чтобы привлечь внимание широкой аудитории, а не мигрировать в течение минут на stats.SE. Это не помешает также спросить о stat.SE , но превращение последнего в единственное место , где статистика может обсуждаться не полезно.
Zyx
Теперь есть переход от math.SE к stats.SE миграциям в meta.math.SE.
Zyx
(Некоторые комментарии, упомянутые выше, были потеряны при переносе. Они видны в исходном посте math.SE, связанном ниже со словами «мигрировал из ...»)
zyx

Ответы:

13
  1. Значение p для - это значение p в тесте гипотезы « α = 0 » (обычно двусторонний t- критерий). Значение p для b - это значение p в проверке гипотезы « β = 0 » (также обычно это двусторонний t- критерий), а также для любых других коэффициентов в регрессии. Вероятностные модели для этих тестов определяются моделью, принятой в модели линейной регрессии. Для линейной регрессии наименьших квадратов пара ( a , b ) следует двумерному нормальному распределению с центром в истинных значениях параметров ( α , βaα=0tbβ=0ta,bα,β), и проверка гипотезы для каждого коэффициента эквивалентна тестированию на наличие α = 0 (соответственно β = 0 ) на основе выборок из подходящего нормального распределения [одной переменной, т. е. распределения только a или b ]. Детали из которых нормальные распределения оказываются несколько сложным и включать в себя «степеней свободы» и «шляпы» матрицы (на основе нотации А для некоторых матриц , которые постоянно появляются в теории МНК регрессии).tα=0β=0abA^

  2. Да. Обычно это делается (и определяется) с помощью оценки максимального правдоподобия . Для линейной регрессии МНК и небольшого числа других моделей существуют точные формулы для оценки параметров по данным. Для более общих регрессий решения носят итеративный и числовой характер.

  3. Не напрямую. Значение p рассчитывается отдельно для теста всей модели, то есть для проверки гипотезы о том, что все коэффициенты (переменных предположительно действительно меняются), поэтому без учета коэффициента «постоянного члена», если есть один). Но это p-значение обычно не может быть рассчитано на основе знания p-значений коэффициентов.

ZYX
источник
2
В вашей точке (1.) кажется, что существует некоторая путаница между параметром и оценщиком . Значение связано с оценщиком, а не с параметром, и оценки являются двумерными нормальными, а не параметрами (которые, по крайней мере, в классической статистике считаются фиксированными). Кроме того, ваши комментарии в пункте (3.) могут привести к путанице, поскольку вполне возможно (и довольно часто), что некоторые из отдельных p- значений регрессионных оценок будут как большими, так и меньшими, чем объединенное p- значение из соответствующих F- тест. pppF
кардинал
@NRH: Извините, не могли бы вы уточнить свой предыдущий комментарий. Я не совсем понимаю (пока). :)
кардинал
@cardinal: кажется более точным сказать, что значение p связано с проверкой гипотезы. Параметры появляются в нулевой гипотезе теста, и пара (наблюдаемое значение оценки, альтернативная гипотеза) затем определяет значение p. Нулевые гипотезы должны быть описаны с использованием параметров, таких как α = 0, а не оценок a = 0, как это было [небрежно] сделано в исходном ответе, теперь отредактированном (спасибо за указание на ошибку). Тем не менее, якобы запутанное или отсутствующее различие «оценки являются двумерными нормальными, а не параметрами», было прямо указано в ответе.
Zyx
1
Извините, я просто не смог устоять. @zyx сделал комментарий к оригинальному сообщению по математике. Ответы на stat.SE часто были неточными. Я считаю, что многие ответы довольно точны, хотя иногда неточны в математическом плане. Это в природе вещей. Статистические вопросы и ответы не всегда могут быть сведены к точным математическим утверждениям. В особенности не сложные. Тем не менее, ответ, представленный здесь, не является ни особенно точным, ни точным, на мой взгляд.
NRH
3
Я думаю, что было бы неплохо, если бы тот, кто проголосовал против, предоставил пояснительный комментарий.
кардинал
1

Ваш первый вопрос: это зависит от выбранного вами программного обеспечения. На самом деле в этих сценариях часто используются два типа p-значений, оба обычно основаны на тестах отношения правдоподобия (есть и другие, но они, как правило, эквивалентны или, по крайней мере, мало отличаются по своим результатам).

Важно понимать , что все эти р-значения являются условно на (части) остальные параметры. Это означает: предполагая, что (некоторые из) других оценок параметров верны, вы проверяете, равен ли коэффициент для параметра нулю. Как правило, нулевая гипотеза для этих тестов состоит в том, что коэффициент равен нулю, поэтому, если у вас есть небольшое значение p, это означает (условно по значению других коэффициентов), что сам коэффициент вряд ли будет равен нулю.

Тип I тестирует нулевую оценку каждого коэффициента в зависимости от значения коэффициентов, стоящих перед ним в модели (слева направо). Тесты типа III (маржинальные тесты), тест на нулевое значение каждого коэффициента, зависящее от значения всех других коэффициентов.

Различные инструменты представляют разные значения p по умолчанию, хотя обычно у вас есть способы получить оба. Если у вас нет причин вне статистики включать параметры в некотором порядке, вы, как правило, будете интересоваться результатами испытаний типа III.

И наконец (в связи с вашим последним вопросом), с помощью теста отношения правдоподобия вы всегда можете создать тест для любого набора коэффициентов, условных для остальных. Это путь, если вы хотите проверить, чтобы несколько коэффициентов были равны нулю одновременно (в противном случае вы столкнетесь с некоторыми неприятными проблемами с несколькими тестами).

Ник Сабби
источник
Не могли бы вы уточнить условия, которые вы упомянули? В одномерной регрессии с предсказателями и перехватом, проверки гипотезы о линейной комбинации параметров г | = C ' & beta ; использование тестовой статистики т = ψ - ψ 0pψ=cβ ...t=ψ^ψ0σ^c(XX)1c
каракал
Здесь ψ = C ' β с β является вектор оценок параметров, и с вектором коэффициентов. X является разработка матрицы, а σ является остаточной стандартной ошибкой | | е | | 2 / ( n - ( p + 1 ) ) , где e - вектор невязок из предоставленной модели. Для теста одного параметра j, равного 0, c является jψ^=cβ^β^cXσ^||e||2/(n(p+1))ejcj-й единичный вектор, и . Я не вижу, где сравнения моделей играют роль для t . ψ0=0t
Каракал
Суть вопроса раскрыта, например, здесь . Помните, что анова - это просто частный случай регрессии. По сути, все сводится к следующему: если вы проводите тест на нулевую переменную (коэффициент) в модели с переменной B или без нее, вы можете получить разные результаты. Следовательно, результат зависит от вашей модели, данных (даже для значений переменной B) и, следовательно, от коэффициентов не в вашем тесте, а в вашей модели. Найти эту идею в математике может быть несколько сложнее :-)
Ник Сэбб
p1pcββjF=(SSerSSeu)/(dferdfeu)SSeu/dfeuSSerdfer||er||2u
Непрерывный регистр должен быть полностью эквивалентен дихотомической закодированной переменной 0-1.
Ник Сэбб