Почему стандартная ошибка пропорции, для данного n, наибольшая для 0.5?

10

Стандартная ошибка пропорции будет наибольшей, которая может быть для данного N, когда рассматриваемая пропорция составляет 0,5, и становится меньше, чем дальше пропорция от 0,5. Я могу понять, почему это так, когда я смотрю на уравнение для стандартной ошибки пропорции, но я не могу объяснить это дальше.

Есть ли объяснение помимо математических свойств формулы? Если так, то почему меньше неопределенности в отношении оценочных пропорций (для данного N), когда они приближаются к 0 или 1?

edstatsuser
источник

Ответы:

8

Предпосылки и терминология

Чтобы было совершенно ясно, что мы обсуждаем, давайте установим некоторые понятия и терминологию. Хорошей моделью для пропорций является двоичная урна: она содержит шары, окрашенные либо в серебро («успех»), либо в фуксию («провал»). Доля серебряных шариков в урне равна (но это не та пропорция, о которой мы будем говорить). p

Эта урна позволяет моделировать процесс Бернулли . Чтобы получить одно представление , тщательно перемешайте шарики и вслепую вытяните один, следя за его цветом. Чтобы получить дополнительные реализации, сначала восстановите коробку, вернув нарисованный мяч, затем повторите процедуру заранее определенное количество раз. Последовательность реализаций могут быть сведены на число его успехи, . Это случайная величина, свойства которой полностью определяются и . Распределение называется биномиальным распределением. (Экспериментальная, или «выборочная») пропорция - это отношениеX n p X ( n , p ) X / nnXnpX(n,p)X/n,

фигура

Эти цифры являются диаграммами распределения вероятностей для различных биномиальных пропорций . Наиболее примечательным является непротиворечивый паттерн, независимо от , в котором распределения становятся более узкими (и столбцы соответственно выше), когда перемещается от вниз.п р 1 / 2X/nnp1/2

Стандартное отклонение является стандартной ошибкой пропорции, упомянутой в вопросе. Для любого данного эта величина может зависеть только от . Давайте назовем это . Переключая роли шаров - назовите серебряные «неудачниками», а фуксии - «успехами» - легко увидеть, что . Таким образом, ситуация, когда то есть, должна быть особенной. Вопрос касается того, как изменяется при перемещении от сторону более экстремального значения, такого какn p se ( p ) se ( p ) = se ( 1 - p ) p = 1 - pX/nnpse(p)se(p)=se(1p)p=1pс ( р )p=1/2se(p)1 / 2 0p1/20,

Знание против понимания

Поскольку всем показывали подобные цифры в начале своего образования, все «знают» ширину графиков, которые измеряются с помощью должны уменьшаться по мере удаления от . Но это знание на самом деле просто опыт, тогда как вопрос требует более глубокого понимания. Такое понимание доступно из тщательного анализа биномиальных распределений, таких как «Авраам де Моивр», предпринятый около 300 лет назад. (Они были близки по духу тем, которые я представил в обсуждении центральной предельной теоремы .) Однако я думаю, что некоторые относительно простые соображения могут быть достаточными, чтобы подчеркнуть, что ширины должны быть самыми широкими вблизи .р 1 / 2 р = 1 / 2se(p)p1/2p=1/2

Простой интуитивный анализ

Ясно, что следует ожидать, что доля успехов в эксперименте будет близка к . Стандартная ошибка касается того, как далеко от этого ожидания мы можем разумно предположить, что фактический результат будет лежать. Предположим, без потери общности, что находится между и , что потребуется для увеличения от ? Как правило, около шаров, нарисованных в эксперименте, были серебряными и (следовательно) около были фуксиями. Чтобы получить больше серебряных шаров, некоторые из этихpX/np01/2X/nppn(1p)npnрезультаты фуксии должны были отличаться. Насколько вероятно, что этот шанс мог бы действовать таким образом? Очевидный ответ заключается в том, что когда мало, мы вряд ли собираемся нарисовать серебряный шар. Таким образом, наши шансы нарисовать серебряные шары вместо фуксии всегда низкие. Мы можем разумно надеяться, что по чистой случайности доля результатов фуксии могла бы отличаться, но кажется маловероятным, что многое другое изменилось бы. Таким образом, вполне вероятно, что не будет меняться намного больше, чем . Эквивалентно, не будет меняться намного больше, чем .ppXp×(1p)nX/np(1p)n/n=p(1p)

развязка

Таким образом появляется волшебная комбинация . p(1p) Это фактически решает вопрос: очевидно, что эта величина достигает максимума при и уменьшается до нуля при или . Это дает интуитивное, но в то же время количественное обоснование утверждений о том, что «одна крайность более ограничивающая, чем другая», или других подобных попыток описать то, что мы знаем.p=1/2p=0p=1

Тем не менее, не совсем правильное значение: оно лишь указывает путь, говоря нам , какое количество должно иметь значение для оценки распространения . Мы игнорировали тот факт, что удача также имеет тенденцию действовать против нас: так же, как некоторые из шаров фуксии могли быть серебряными, некоторые из серебряных шаров могли быть фуксиями. Учет всех возможностей строго может усложниться, но в результате вместо того, чтобы использовать в качестве разумного предела того, насколько может отклоняться от его ожидания , для правильного учета всех возможных результатов мы имеем взять квадратный кореньp(1p)Xp(1p)nXpn p(1p)n, (Для более подробного объяснения причин, пожалуйста, посетите ( https://stats.stackexchange.com/a/3904 .) Делая на , мы узнаем, что случайные изменения самой пропорции должны быть порядка что является стандартной ошибкой .nX/nх/нp(1p)n/n=p(1p)n,X/n

Whuber
источник
3

Рассмотрим функцию p (1-p) для 0 <= p <= 1. Используя исчисление, вы можете увидеть, что при p = 1/2 это 1/4, что является максимальным значением. Если вы видите, что это для бинома, связанного со стандартным отклонением оценки доли, которая является sqrt (p (1-p) / n), тогда p = 1/2 - максимум. Когда p = 1 или 0, стандартная ошибка равна 0, потому что вы всегда получите все 1 или все 0 соответственно. Таким образом, когда вы приближаетесь к 0 или 1, аргумент непрерывности говорит, что стандартная ошибка приближается к 0, когда p приближается к 0 или 1. На самом деле она монотонно уменьшается, когда p приближается к 0 или 1. Для больших n предполагаемая пропорция должна быть близка к фактической доля.

Майкл Р. Черник
источник
3
ФП уже отметил, что «я понимаю, почему это так, когда я смотрю на уравнение для стандартной ошибки пропорции». Поэтому я считаю, что они просят не анализа формулы , а скорее более глубокого понимания того, почему формула - какой бы она ни была - действительно должна быть максимизирована при . р = 1 / 2p(1p)p=1/2
whuber
1
@whuber Я ответил так же, как и я, потому что я вижу, что формула является фундаментальной для понимания того, почему дисперсия является наибольшей при p = 1/2 и очень маленькой, когда p близка к 0 или 1. Может быть, лучше сказать, что нет объяснения полностью лишены формулы.
Майкл Р. Черник
1

Биномиальное распределение имеет тенденцию быть примерно симметричны (при большом это примерно нормально ).n

Поскольку отношение должно быть между 0 и 1, неопределенность будет ограничена этими границами. Если среднее отношение не находится точно посередине, одна из этих границ будет более ограничивающей, чем другая.

Чтобы симметричная унимодальная кривая колокола с центром в точке соответствовала единичному интервалу, ее полуширина должна быть меньше . pmin[p,1p]

GeoMatt22
источник
Да, но другой предел будет менее ограничивающим! Почему два эффекта не отменяются?
whuber
@whuber Я спорил из симметрии (то есть в простом «большом » случае симметричная кривая колокола должна вписываться в интервал, поэтому ее полуширина ограничена более узкой стороной, )min [ p , 1 - p ]nmin[p,1p]
GeoMatt22