Когда я выполняю линейную регрессию в некоторых программных пакетах (например, Mathematica), я получаю p-значения, связанные с отдельными параметрами в модели. Например, результаты линейной регрессии, которая дает результат будут иметь p-значение, связанное с и одно с .
Что эти значения p индивидуально значат для этих параметров?
Есть ли общий способ вычисления параметров для любой модели регрессии?
Можно ли объединить значение p, связанное с каждым параметром, в значение p для всей модели?
Чтобы сохранить этот вопрос математическим по своей природе, я ищу только интерпретацию p-значений в терминах вероятностей.
probability
regression
Генри Б.
источник
источник
Ответы:
Значение p для - это значение p в тесте гипотезы « α = 0 » (обычно двусторонний t- критерий). Значение p для b - это значение p в проверке гипотезы « β = 0 » (также обычно это двусторонний t- критерий), а также для любых других коэффициентов в регрессии. Вероятностные модели для этих тестов определяются моделью, принятой в модели линейной регрессии. Для линейной регрессии наименьших квадратов пара ( a , b ) следует двумерному нормальному распределению с центром в истинных значениях параметров ( α , βa α=0 t b β=0 t a,b α,β ), и проверка гипотезы для каждого коэффициента эквивалентна тестированию на наличие α = 0 (соответственно β = 0 ) на основе выборок из подходящего нормального распределения [одной переменной, т. е. распределения только a или b ]. Детали из которых нормальные распределения оказываются несколько сложным и включать в себя «степеней свободы» и «шляпы» матрицы (на основе нотации А для некоторых матриц , которые постоянно появляются в теории МНК регрессии).t α=0 β=0 a b A^
Да. Обычно это делается (и определяется) с помощью оценки максимального правдоподобия . Для линейной регрессии МНК и небольшого числа других моделей существуют точные формулы для оценки параметров по данным. Для более общих регрессий решения носят итеративный и числовой характер.
Не напрямую. Значение p рассчитывается отдельно для теста всей модели, то есть для проверки гипотезы о том, что все коэффициенты (переменных предположительно действительно меняются), поэтому без учета коэффициента «постоянного члена», если есть один). Но это p-значение обычно не может быть рассчитано на основе знания p-значений коэффициентов.
источник
Ваш первый вопрос: это зависит от выбранного вами программного обеспечения. На самом деле в этих сценариях часто используются два типа p-значений, оба обычно основаны на тестах отношения правдоподобия (есть и другие, но они, как правило, эквивалентны или, по крайней мере, мало отличаются по своим результатам).
Важно понимать , что все эти р-значения являются условно на (части) остальные параметры. Это означает: предполагая, что (некоторые из) других оценок параметров верны, вы проверяете, равен ли коэффициент для параметра нулю. Как правило, нулевая гипотеза для этих тестов состоит в том, что коэффициент равен нулю, поэтому, если у вас есть небольшое значение p, это означает (условно по значению других коэффициентов), что сам коэффициент вряд ли будет равен нулю.
Тип I тестирует нулевую оценку каждого коэффициента в зависимости от значения коэффициентов, стоящих перед ним в модели (слева направо). Тесты типа III (маржинальные тесты), тест на нулевое значение каждого коэффициента, зависящее от значения всех других коэффициентов.
Различные инструменты представляют разные значения p по умолчанию, хотя обычно у вас есть способы получить оба. Если у вас нет причин вне статистики включать параметры в некотором порядке, вы, как правило, будете интересоваться результатами испытаний типа III.
И наконец (в связи с вашим последним вопросом), с помощью теста отношения правдоподобия вы всегда можете создать тест для любого набора коэффициентов, условных для остальных. Это путь, если вы хотите проверить, чтобы несколько коэффициентов были равны нулю одновременно (в противном случае вы столкнетесь с некоторыми неприятными проблемами с несколькими тестами).
источник