Shrunken

В моей голове была некоторая путаница в отношении двух типов оценок популяционного значения коэффициента корреляции Пирсона.

A. Fisher (1915) показал, что для двумерной нормальной популяции эмпирическое значение является отрицательно смещенной оценкой , хотя смещение может быть практически значительным только для небольшого размера выборки ( ). Выборка недооценивает в том смысле, что она ближе к чем . ( За исключением , когда последний находится или , потому что тогда является несмещенной.) Несколько практически несмещенные оценки из был предложен, лучшим вариантом , вероятно , является $r$ $\rho$ $n<30$ $r$ $\rho$ $0$ $\rho$ $0$ $\pm 1$ $r$ $\rho$ Olkin и Пратт (1958) исправлено : $r$

r_{unbiased} = r [1 + \frac{1 - r^{2}}{2 (n - 3)}]

$r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ]$

Б. Говорят, что в регрессии наблюдается завышает соответствующую популяцию R-квадрата. Или, с простой регрессией, это значит, что переоценивает . Основываясь на этом факте, я видел много текстов , говоря , что является положительно предвзятым по отношению к , то есть абсолютное значение: дальше от , чем (?, Что утверждение верно). В текстах говорится, что это та же проблема, что и переоценка параметра стандартного отклонения по значению его выборки. Существует много формул для «корректировки» наблюдаемого $R^2$ $r^2$ $\rho^2$ $r$ $\rho$ $r$ $0$ $\rho$ $R^2$ ближе к своему параметру населения, (1931) Wherry в является наиболее известным (но не самым лучшим). Корень такого скорректированного называется shrunken : $R_\text{adj}^2$ $r_\text{adj}^2$ $r$

r_{shrunk} = \pm \sqrt{1 - (1 - r^{2}) \frac{n - 1}{n - 2}}

$r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}}$

Присутствуют две разные оценки . Совсем другое: первый раздувает , второй раздувает . Как их примирить? Где использовать / сообщить одно, а где - другое? $\rho$ $r$ $r$

В частности, может ли быть правдой, что «уменьшенная» оценка тоже (почти) объективна, как и «непредвзятая», но только в другом контексте - в асимметричном контексте регрессии. Ибо, в регрессии OLS мы рассматриваем значения одной стороны (предиктора) как фиксированные, сопровождающие без случайной ошибки от выборки к выборке? (И чтобы добавить здесь, регрессия не нуждается в двумерной нормальности.)

correlation pearson-r unbiased-estimator estimators point-estimation ttnphns
источник

Интересно, сводится ли это к чему-то основанному на неравенстве Дженсена. Это, и двумерная нормальность, вероятно, является ошибочным предположением в большинстве случаев.

shadowtalker

Кроме того, мое понимание проблемы в Б. заключается в том, что регрессия

является завышенной, поскольку подгонка регрессии может быть произвольно улучшена путем добавления предикторов. Это не похоже на ту же проблему, что и в A.

r^{2}

$r^2$

shadowtalker

Действительно ли верно, что

является положительно смещенной оценкой

для всех значений

? Для двумерного нормального распределения это, по-видимому, не так для достаточно большого

r^{2}

$r^2$

ρ^{2}

$\rho^2$

ρ

$\rho$

ρ

$\rho$

NRH

Может ли смещение идти в противоположном направлении для квадрата оценки? Так , например, с более простой оценкой, это может быть показано , что

для некоторых диапазонов

? Я думаю, что это будет трудно сделать, если

, но, возможно, можно было бы найти более простой пример.

E [\hat{θ} - θ] < 0 < E [{\hat{θ}}^{2} - θ^{2}]

$E[\hat{\theta}-\theta] < 0 < E[\hat{\theta}^2-\theta^2]$

θ

$\theta$

θ = ρ

$\theta = \rho$

Энтони

Ответы:

Что касается смещения в корреляции: когда размеры выборки достаточно малы, чтобы смещение имело какое-либо практическое значение (например, n <30, которое вы предложили), то смещение, вероятно, будет наименьшим из ваших беспокойств, потому что неточность ужасна.

Что касается смещения R ² в множественной регрессии, существует много различных корректировок, которые относятся к объективной оценке популяции по сравнению с объективной оценкой в независимой выборке одинакового размера. См. Инь, П. и Фан, Х. (2001). Оценка усадки R ² при множественной регрессии: сравнение аналитических методов. Журнал экспериментального образования, 69, 203-224.

Современные методы регрессии также учитывают уменьшение коэффициентов регрессии и, как следствие, R ² - например, эластичная сеть с перекрестной проверкой в k- кратном размере, см. Http://web.stanford.edu/~hastie/Papers/ asticnet.pdf .

Фред Освальд
источник

Я не знаю, действительно ли это отвечает на вопрос

shadowtalker

Я думаю, что ответ находится в контексте простой регрессии и множественной регрессии. В простой регрессии с одним IV и одним DV, R sq не имеет положительного смещения, и фактически может быть отрицательным смещением, если r отрицательно смещено. Но при множественной регрессии с несколькими IV, которые могут быть коррелированы сами по себе, R sq может быть положительно смещен из-за любого "подавления", которое может иметь место. Таким образом, я полагаю, что наблюдаемый R2 завышает соответствующую R-площадь популяции, но только при множественной регрессии.

Dingus
источник

R sq is not positively biased, and in-fact may be negatively biasedИнтересный. Вы можете показать это или дать ссылку? - Может ли наблюдаемая выборочная статистика Rsq в двумерной нормальной популяции быть отрицательно смещенной оценкой?

ttnphns

Я думаю, что вы не правы. Не могли бы вы дать ссылку для поддержки вашей претензии?

Ричард Харди

Извините, но это было больше упражнение на мысль, поэтому у меня нет ссылок.

Дингус

Я отказался от комментария A выше, где Фишер показал, что в двумерной нормальной ситуации r является отрицательно смещенной оценкой rho. Если это так, разве из этого не следует, что R sq также отрицательно смещен?

Дингус

Возможно, это поможет в разговоре digitalcommons.unf.edu/cgi/…

Дингус