Shrunken

22

В моей голове была некоторая путаница в отношении двух типов оценок популяционного значения коэффициента корреляции Пирсона.

A. Fisher (1915) показал, что для двумерной нормальной популяции эмпирическое значение является отрицательно смещенной оценкой ρ , хотя смещение может быть практически значительным только для небольшого размера выборки ( n < 30 ). Выборка r недооценивает ρ в том смысле, что она ближе к 0, чем ρ . ( За исключением , когда последний находится 0 или ± 1 , потому что тогда г является несмещенной.) Несколько практически несмещенные оценки из р был предложен, лучшим вариантом , вероятно , являетсяrρn<30rρ0ρ0±1rρOlkin и Пратт (1958) исправлено :r

runbiased=r[1+1r22(n3)]

Б. Говорят, что в регрессии наблюдается завышает соответствующую популяцию R-квадрата. Или, с простой регрессией, это значит, что r 2 переоценивает ρ 2 . Основываясь на этом факте, я видел много текстов , говоря , что г является положительно предвзятым по отношению к р , то есть абсолютное значение: г дальше от 0 , чем р (?, Что утверждение верно). В текстах говорится, что это та же проблема, что и переоценка параметра стандартного отклонения по значению его выборки. Существует много формул для «корректировки» наблюдаемого R 2.R2r2ρ2rρr0ρR2ближе к своему параметру населения, (1931) Wherry в является наиболее известным (но не самым лучшим). Корень такого скорректированного r 2 adj называется shrunken r :Radj2radj2 r

rshrunk=±1(1r2)n1n2

Присутствуют две разные оценки . Совсем другое: первый раздувает r , второй раздувает r . Как их примирить? Где использовать / сообщить одно, а где - другое?ρrr

В частности, может ли быть правдой, что «уменьшенная» оценка тоже (почти) объективна, как и «непредвзятая», но только в другом контексте - в асимметричном контексте регрессии. Ибо, в регрессии OLS мы рассматриваем значения одной стороны (предиктора) как фиксированные, сопровождающие без случайной ошибки от выборки к выборке? (И чтобы добавить здесь, регрессия не нуждается в двумерной нормальности.)

ttnphns
источник
Интересно, сводится ли это к чему-то основанному на неравенстве Дженсена. Это, и двумерная нормальность, вероятно, является ошибочным предположением в большинстве случаев.
shadowtalker
1
Кроме того, мое понимание проблемы в Б. заключается в том, что регрессия является завышенной, поскольку подгонка регрессии может быть произвольно улучшена путем добавления предикторов. Это не похоже на ту же проблему, что и в A.r2
shadowtalker
Действительно ли верно, что является положительно смещенной оценкой ρ 2 для всех значений ρ ? Для двумерного нормального распределения это, по-видимому, не так для достаточно большого ρ . r2ρ2ρρ
NRH
Может ли смещение идти в противоположном направлении для квадрата оценки? Так , например, с более простой оценкой, это может быть показано , что для некоторых диапазонов & thetas ? Я думаю, что это будет трудно сделать, если θ = ρ , но, возможно, можно было бы найти более простой пример. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Энтони

Ответы:

1

Что касается смещения в корреляции: когда размеры выборки достаточно малы, чтобы смещение имело какое-либо практическое значение (например, n <30, которое вы предложили), то смещение, вероятно, будет наименьшим из ваших беспокойств, потому что неточность ужасна.

Что касается смещения R 2 в множественной регрессии, существует много различных корректировок, которые относятся к объективной оценке популяции по сравнению с объективной оценкой в ​​независимой выборке одинакового размера. См. Инь, П. и Фан, Х. (2001). Оценка усадки R 2 при множественной регрессии: сравнение аналитических методов. Журнал экспериментального образования, 69, 203-224.

Современные методы регрессии также учитывают уменьшение коэффициентов регрессии и, как следствие, R 2 - например, эластичная сеть с перекрестной проверкой в k- кратном размере, см. Http://web.stanford.edu/~hastie/Papers/ asticnet.pdf .

Фред Освальд
источник
1
Я не знаю, действительно ли это отвечает на вопрос
shadowtalker
1

Я думаю, что ответ находится в контексте простой регрессии и множественной регрессии. В простой регрессии с одним IV и одним DV, R sq не имеет положительного смещения, и фактически может быть отрицательным смещением, если r отрицательно смещено. Но при множественной регрессии с несколькими IV, которые могут быть коррелированы сами по себе, R sq может быть положительно смещен из-за любого "подавления", которое может иметь место. Таким образом, я полагаю, что наблюдаемый R2 завышает соответствующую R-площадь популяции, но только при множественной регрессии.

Dingus
источник
1
R sq is not positively biased, and in-fact may be negatively biasedИнтересный. Вы можете показать это или дать ссылку? - Может ли наблюдаемая выборочная статистика Rsq в двумерной нормальной популяции быть отрицательно смещенной оценкой?
ttnphns
Я думаю, что вы не правы. Не могли бы вы дать ссылку для поддержки вашей претензии?
Ричард Харди
Извините, но это было больше упражнение на мысль, поэтому у меня нет ссылок.
Дингус
Я отказался от комментария A выше, где Фишер показал, что в двумерной нормальной ситуации r является отрицательно смещенной оценкой rho. Если это так, разве из этого не следует, что R sq также отрицательно смещен?
Дингус
Возможно, это поможет в разговоре digitalcommons.unf.edu/cgi/…
Дингус