Как выбрать между различными скорректированными формулами ?

15

Я имею в виду скорректированные формулы R-квадрата, предложенные:

  • Иезекииль (1930), который, как мне кажется, в настоящее время используется в SPSS.

    Radjusted2=1(N1)(Np1)(1R2)
  • Олкин и Пратт (1958)

    рUNбяasеd2знак равно1-(N-3)(1-р2)(N-п-1)-2(N-3)(1-р2)2(N-п-1)(N-п+1)

При каких обстоятельствах (если таковые имеются) я должен предпочесть «скорректированный» вместо «беспристрастный» ?р2

Ссылки

  1. Иезекииль М. (1930). Методы корреляционного анализа . Джон Вили и сыновья, Нью-Йорк.
  2. Олькин И., Пратт Дж. В. (1958). Беспристрастная оценка некоторых коэффициентов корреляции. Анналы математической статистики , 29 (1), 201-211.
user1205901 - Восстановить Монику
источник

Ответы:

5

Не желая отдавать должное ответу @ttnphns, я хотел убрать ответ из комментариев (особенно учитывая, что ссылка на статью исчезла). Ответ Мэтта Краузе дает полезное обсуждение различия между и но не обсуждает решение о том, какую формулу использовать в любом конкретном случае.р2рadJ2рadJ2

Как я обсуждаю в этом ответе , Инь и Фан (2001) дают хороший обзор множества различных формул для оценки дисперсии населения, объясненных , которые все могут потенциально быть помечены как тип скорректированного .ρ2р2

Они выполняют моделирование для оценки того, какая из широкого диапазона скорректированных формул r-квадрата обеспечивает наилучшую несмещенную оценку для разных размеров выборки, и взаимосвязей предикторов. Они предполагают, что формула Пратта может быть хорошим вариантом, но я не думаю, что исследование было окончательным по этому вопросу.ρ2

Обновление: Раджу и др. (1997) отмечают, что скорректированные формулы различаются в зависимости от того, предназначены ли они для оценки скорректированных предположении фиксированных х или случайных х предикторов. В частности, формула Эзекиала предназначена для оценки в контексте фиксированного x, а формулы Олкина-Пратта и Пратта предназначены для оценки в контексте случайного x. Между формулами Олкина-Пратта и Пратта нет большой разницы. Предположения с фиксированной x совпадают с запланированными экспериментами, а предположения случайной x совпадают с предположением, что значения переменных-предикторов являются выборкой возможных значений, как это обычно бывает в наблюдательных исследованиях. Смотрите этот ответ для дальнейшего обсужденияр2р2ρ2ρ2, Также нет большой разницы между этими двумя типами формул, поскольку размеры выборки становятся умеренно большими (см. Здесь для обсуждения размера разницы ).

Краткое изложение правил большого пальца

  • Если вы предполагаете, что ваши наблюдения для переменных-предикторов являются случайной выборкой из совокупности, и вы хотите оценить для полной совокупности как предикторов, так и критерия (т. Е. Предположения случайного х), используйте формулу Олкина-Пратта (или формула Пратта).ρ2
  • Если вы предполагаете, что ваши наблюдения фиксированы или вы не хотите обобщать за пределы наблюдаемых вами уровней предиктора, то оцените по формуле Иезекииля.ρ2
  • Если вы хотите узнать о прогнозировании вне выборки, используя уравнение регрессии выборки, то вам следует изучить некоторую форму процедуры перекрестной проверки.

Ссылки

  • Раджу Н.С., Билгик Р., Эдвардс Дж. И Флер П.Ф. (1997). Обзор методологии: оценка достоверности и перекрестной достоверности населения и использование равных весов при прогнозировании. Прикладные психологические измерения, 21 (4), 291-305.
  • Инь, П. & Фан, X. (2001). Оценкаусадки R 2 при множественной регрессии: сравнение различных аналитических методов. Журнал экспериментального образования, 69 (2), 203-224. PDFр2
Джером англим
источник
13

р2р2р2р2р2

р2р2р2р2р2

Мэтт Краузе
источник
2
Спасибо, я обнаружил, что это очень четкое объяснение разницы между R-квадратом и скорректированным R-квадратом. Как вы думаете, как объективный R-квадрат вписывается в эту картину?
user1205901 - Восстановить Монику
5
Есть действительно различные формулы для оценки населения R ^ 2. Смотрите, например, studyforquals.pbworks.com/f/yin.pdf . Говорят, что «Скорректированный R ^ 2» Фишера (= Wherry's) слегка отрицательно смещен (он все еще зависит от размера выборки, но не зависит от количества предикторов), поэтому версия Олкина-Пратта, вероятно, несколько лучше.
ttnphns
1
@ttnphns, возможно, это должен быть ответ, а не комментарий. Мне кажется, что это касается исходного вопроса больше, чем этот ответ.
gung - Восстановить Монику
1
р2р2
1
@ttnphns, я согласен с Гунгом! Вы должны написать ответ и взять кредит. Кроме того, вы можете подтвердить, что я написал? JStor ведет себя странно сегодня и не позволяет мне читать оригинальную статью Олкина и Пратта.
Мэтт Краузе