Почему мой R-квадрат такой низкий, когда моя t-статистика такая большая?

17

Я выполнил регрессию с 4 переменными, и все они очень статистически значимы, со значениями T и (я говорю потому что кажется неуместным включать десятичные дроби), которые очень высоки и явно значимы. Но тогда только 2284. Я неверно истолковываю здесь значения t, чтобы обозначать то, чем они не являются? Моя первая реакция при просмотре значений t состояла в том, что R ^ 2 будет довольно высоким, но, может быть, это высокое R ^ 2 ?7,9,2631R2R2R2

рукав моря
источник
1
Могу поспорить, твой умеренно большой, верно? n
Glen_b
@Glen_b да, около 6000.
Кайл
10
Тогда большая -статистика, связанная с малым , совершенно непримечательна. Поскольку стандартные ошибки уменьшаются как , отношения будут увеличиваться какtR21/ntn , в то время как будет стремиться оставаться постоянным с увеличением n . Почему тебя волнует, что такое R 2 ? Почему тебя волнует, каковы т-отношения? R2nR2
Glen_b

Ответы:

45

В t -значение и R2 используются для оценки очень разных вещей. Значения t используются для оценки точности вашей оценки βi , но R2 измеряет величину вариации вашей переменной отклика, объясненную вашими ковариатами. Предположим, вы оцениваете регрессионную модель с n наблюдениями,

Yi=β0+β1X1i+...+βkXki+ϵi

где ϵii.i.dN(0,σ2) , i=1,...,n .

Большие t (в абсолютном значении) приводят к отказу от нулевой гипотезы, что βi=0 . Это означает, что вы можете быть уверены, что правильно оценили знак коэффициента. Также, если |t|> 4 и у вас n>5 , то 0 не находится в доверительном интервале 99% для коэффициента. Значение t для коэффициента βi является разностью между оценкой βi^ и 0, нормированной стандартной ошибкой se{βi^} .

t=βi^se{βi^}

которая является просто оценкой, деленной на меру ее изменчивости. Если у вас достаточно большой набор данных, у вас всегда будут статистически значимые (большие) t . Это не обязательно означает, что ваши ковариаты объясняют большую часть различий в переменной ответа.

Как уже упоминалось в @Stat, R2 измеряет количество вариаций в вашей переменной ответа, объясняемое вашими зависимыми переменными. Чтобы узнать больше о R2 , перейдите в Википедию . В вашем случае оказывается, что у вас достаточно большой набор данных для точной оценки βi , но ваши ковариаты плохо справляются с объяснением и \ или прогнозированием значений ответа.

caburke
источник
1
(+1) С самого начала ясно, что это продуманное, информативное объяснение.
whuber
Хороший ответ. Я считаю, что термины «практическая значимость» и «статистическая значимость» часто помогают размышлять над этой проблемой.
Аарон - Восстановить Монику
3
Существует также простое преобразование между двумя статистиками: R2=t2t2+df
Джефф
7

Сказать то же самое, что и Caburke, но проще: вы очень уверены, что средний отклик, вызванный вашими переменными, не равен нулю. Но есть много других вещей, которых у вас нет в регрессии, которые вызывают скачок ответа.

generic_user
источник
0

Может ли быть так, что, хотя ваши предикторы имеют линейную тенденцию в терминах вашей переменной ответа (наклон значительно отличается от нуля), что делает значения t значимыми, но R в квадрате низок, потому что ошибки велики, что означает, что изменчивость в у вас большие данные и, следовательно, ваша регрессионная модель не подходит (прогнозы не так точны)?

Просто мои 2 цента.

Возможно, этот пост может помочь: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- ценности

Mel
источник
0

Несколько ответов даны близко, но все же неправильно.

«Значения t используются для оценки точности вашей оценки βi» - это то, что беспокоит меня больше всего.

Т-значение является просто показателем вероятности случайного появления. Большие средства вряд ли. Малый значит очень вероятно. Положительное и отрицательное значения не имеют для интерпретации вероятности.

«R2 измеряет количество вариаций в вашей переменной ответа, объясненной вашими ковариатами» правильно.

(Я бы прокомментировал, но пока не допускается этой платформой.)

Kevin
источник
2
Вы, кажется, пишете о t-значениях, как если бы они были p-значениями.
whuber
-4

Единственный способ справиться с маленьким квадратом R, проверить следующее:

  1. Ваш размер выборки достаточно велик? Если да, выполните шаг 2., но если нет, увеличьте размер выборки.
  2. Сколько ковариат вы использовали для оценки вашей модели? Если больше 1, как в вашем случае, решите проблему мультиколлинеарности ковариат или просто запустите регрессию снова и на этот раз без константы, известной как бета-ноль.

  3. Однако, если проблема все еще сохраняется, выполните пошаговую регрессию и выберите модель с высоким R в квадрате. Но что я не могу рекомендовать вам, потому что это вызывает уклон в ковариатах

katleho
источник