Я знаком с использованием нескольких линейных регрессий для создания моделей различных переменных. Однако мне было любопытно, используются ли когда-либо регрессионные тесты для проверки каких-либо базовых гипотез. Если да, то как будут выглядеть эти сценарии / гипотезы?
regression
hypothesis-testing
multiple-regression
cryptic_star
источник
источник
Ответы:
Вот простой пример. Я не знаю, знакомы ли вы с R, но, надеюсь, код достаточно понятен.
Теперь давайте посмотрим, как это выглядит:
Мы можем сосредоточиться на разделе «Коэффициенты» вывода. Каждый параметр, оцениваемый моделью, получает свой собственный ряд. Сама фактическая оценка указана в первом столбце. Во втором столбце перечислены стандартные ошибки оценок, то есть оценка того, сколько оценок «подпрыгнет» от выборки к выборке, если мы будем повторять этот процесс снова и снова и снова. Более конкретно, это оценка стандартного отклонения выборочного распределения оценки. Если мы разделим оценку каждого параметра на его SE, мы получим t-показатель , который указан в третьем столбце; это используется для проверки гипотез, в частности, для проверки того, является ли оценка параметра «значительно» отличной от 0. Последний столбец - этор-значение, связанное с этим т-баллом. Это вероятность найти оценочное значение, которое далеко или дальше от 0, если нулевая гипотеза была верна. Обратите внимание, что если нулевая гипотеза не верна, не ясно, что это значение говорит нам что-либо значимое вообще.
Если мы посмотрим назад и назад между таблицей коэффициентов и приведенным выше процессом генерации данных, мы увидим несколько интересных вещей. Перехват оценивается как -1,8, а его SE равен 27, тогда как истинное значение равно 15. Поскольку соответствующее значение p равно 0,95, оно не будет считаться «существенно отличающимся» от 0 ( ошибка типа II ), но тем не менее, оно находится в пределах одного SE от истинного значения. Таким образом, нет ничего ужасно экстремального в этой оценке с точки зрения истинного значения и количества, которое она должна колебаться; у нас просто недостаточно сил, чтобы отличить его от 0. Та же история более или менее справедлива для.21214 ≈ .2 и значение p является «очень значительным», это правильное решение.
x1
. Аналитики данных обычно говорят, что он даже не «незначительно значим», потому что его значение p> .10, однако это еще одна ошибка типа II. Оценкаx2
довольно точнаяx3
также нельзя отличить от 0, р = 0,62, другое правильное решение (х3 не отображается в процессе генерации данных выше). Интересно, что значение p больше, чем дляx1
, но меньше, чем для перехвата, оба из которых являются ошибками типа II. Наконец, если мы посмотрим ниже таблицы коэффициентов, то увидим F-значение для модели, которая является одновременным тестом. Этот тест проверяет, предсказывает ли модель в целом переменную ответа лучше, чем один шанс. Еще один способ сказать это, является ли или нет всеоценки следует считать невозможными для дифференциации от 0. Результаты этого теста показывают, что по крайней мере некоторые из оценок параметров не равны 0, другое правильное решение. Поскольку есть 4 теста, описанных выше, у нас не было бы защиты от проблемы множественных сравнений без этого. (Имейте в виду, что, поскольку p-значения являются случайными переменными - значимость чего-либо будет варьироваться от эксперимента к эксперименту, если бы эксперимент был повторен - возможно, что они несовместимы друг с другом. Это обсуждается на Резюме здесь: Значение коэффициентов в множественной регрессии: значимый t-критерий по сравнению с незначимой F-статистикой и противоположная ситуация здесь: как регрессия может быть значимой, но все предикторы должны быть незначительными, & здесь: F и t статистика в регрессии .) Любопытно, что в этом примере нет ошибок типа I. В любом случае, все 5 тестов, обсуждаемых в этом параграфе, являются тестами гипотез.Из вашего комментария, я полагаю, вы также можете спросить, как определить, является ли одна объясняющая переменная более важной, чем другая. Это очень распространенный вопрос, но довольно сложный. Представьте себе, что вы хотите предсказать потенциал успеха в спорте на основе роста и веса спортсмена и подумать, что важнее. Общая стратегия состоит в том, чтобы посмотреть, какой оценочный коэффициент больше. Однако эти оценки являются специфическими для единиц измерения, которые использовались: например, коэффициент для веса будет изменяться в зависимости от того, используются ли фунты или килограммы. Кроме того, не совсем ясно, как приравнивать / сравнивать фунты и дюймы, или килограммы и сантиметры. Одна из стратегий, которую используют люди, - это стандартизация(т. е. превратить в z-оценки) их данные в первую очередь. Тогда эти измерения в общих единицах (то есть, стандартные отклонения), а коэффициенты аналогичны r-показателям . Кроме того, можно проверить, больше ли один r-показатель, чем другой . К сожалению, это не вытащит вас из леса; если истинное r не равно точно 0, предполагаемое r в значительной степени определяется диапазоном используемых ковариатных значений. (Я не знаю , как легко будет распознать, но @ whuber отличного ответа здесь: Isр2 полезно или опасно , иллюстрирует этот момент; чтобы увидеть это, просто подумай о том, какг = г2--√ Таким образом, лучшее, что можно сказать, - это то, что изменчивость одной объясняющей переменной в пределах определенного диапазона важнее для определения уровня ответа, чем изменчивость в другой объясняющей переменной в пределах другого указанного диапазона.
источник
Основным тестом в регрессионных моделях является тест Full-Reduced. Здесь вы сравниваете две регрессионные модели, в полной модели содержатся все термины, а в сокращенном тесте есть подмножество этих терминов (уменьшенная модель должна быть вложена в полную модель). Затем тест проверяет нулевую гипотезу о том, что приведенная модель подходит точно так же, как и полная модель, и любое различие обусловлено случайностью.
Обычные распечатки из статистического программного обеспечения включают общий F-тест, это всего лишь тест Full-Reduced, где сокращенный тест является моделью только для перехвата. Они также часто печатают значение p для каждого отдельного предиктора, это всего лишь серия тестов модели с полным сокращением, в каждом из которых сокращенная модель не включает этот конкретный термин. Есть много способов использовать эти тесты, чтобы ответить на интересующие вопросы. Фактически, почти каждый тест, который преподается на вводном курсе статистики, может быть вычислен с использованием регрессионных моделей и теста Full-Reduced, и результаты будут идентичны во многих случаях и очень близко приближаются к нескольким другим.
источник