В моей голове была некоторая путаница в отношении двух типов оценок популяционного значения коэффициента корреляции Пирсона.
A. Fisher (1915) показал, что для двумерной нормальной популяции эмпирическое значение является отрицательно смещенной оценкой ρ , хотя смещение может быть практически значительным только для небольшого размера выборки ( n < 30 ). Выборка r недооценивает ρ в том смысле, что она ближе к 0, чем ρ . ( За исключением , когда последний находится 0 или ± 1 , потому что тогда г является несмещенной.) Несколько практически несмещенные оценки из р был предложен, лучшим вариантом , вероятно , являетсяOlkin и Пратт (1958) исправлено :
Б. Говорят, что в регрессии наблюдается завышает соответствующую популяцию R-квадрата. Или, с простой регрессией, это значит, что r 2 переоценивает ρ 2 . Основываясь на этом факте, я видел много текстов , говоря , что г является положительно предвзятым по отношению к р , то есть абсолютное значение: г дальше от 0 , чем р (?, Что утверждение верно). В текстах говорится, что это та же проблема, что и переоценка параметра стандартного отклонения по значению его выборки. Существует много формул для «корректировки» наблюдаемого R 2.ближе к своему параметру населения, (1931) Wherry в является наиболее известным (но не самым лучшим). Корень такого скорректированного r 2 adj называется shrunken r :
Присутствуют две разные оценки . Совсем другое: первый раздувает r , второй раздувает r . Как их примирить? Где использовать / сообщить одно, а где - другое?
В частности, может ли быть правдой, что «уменьшенная» оценка тоже (почти) объективна, как и «непредвзятая», но только в другом контексте - в асимметричном контексте регрессии. Ибо, в регрессии OLS мы рассматриваем значения одной стороны (предиктора) как фиксированные, сопровождающие без случайной ошибки от выборки к выборке? (И чтобы добавить здесь, регрессия не нуждается в двумерной нормальности.)
Ответы:
Что касается смещения в корреляции: когда размеры выборки достаточно малы, чтобы смещение имело какое-либо практическое значение (например, n <30, которое вы предложили), то смещение, вероятно, будет наименьшим из ваших беспокойств, потому что неточность ужасна.
Что касается смещения R 2 в множественной регрессии, существует много различных корректировок, которые относятся к объективной оценке популяции по сравнению с объективной оценкой в независимой выборке одинакового размера. См. Инь, П. и Фан, Х. (2001). Оценка усадки R 2 при множественной регрессии: сравнение аналитических методов. Журнал экспериментального образования, 69, 203-224.
Современные методы регрессии также учитывают уменьшение коэффициентов регрессии и, как следствие, R 2 - например, эластичная сеть с перекрестной проверкой в k- кратном размере, см. Http://web.stanford.edu/~hastie/Papers/ asticnet.pdf .
источник
Я думаю, что ответ находится в контексте простой регрессии и множественной регрессии. В простой регрессии с одним IV и одним DV, R sq не имеет положительного смещения, и фактически может быть отрицательным смещением, если r отрицательно смещено. Но при множественной регрессии с несколькими IV, которые могут быть коррелированы сами по себе, R sq может быть положительно смещен из-за любого "подавления", которое может иметь место. Таким образом, я полагаю, что наблюдаемый R2 завышает соответствующую R-площадь популяции, но только при множественной регрессии.
источник
R sq is not positively biased, and in-fact may be negatively biased
Интересный. Вы можете показать это или дать ссылку? - Может ли наблюдаемая выборочная статистика Rsq в двумерной нормальной популяции быть отрицательно смещенной оценкой?