Интуитивно понятная причина, по которой информация Бинома о Фишере обратно пропорциональна

12

Меня смущает / поражает, что бином имеет дисперсию, пропорциональную . Эквивалентно, информация Фишера пропорциональна . Что является причиной этого? Почему информация о Фишере минимизируется при ? То есть, почему вывод наиболее сложен при ?p(1p)1p(1p)p=0.5p=0.5

Контекст:

Я работаю над калькулятором размера выборки, и формула для , необходимого размера выборки, представляет собой увеличивающийся коэффициент , результат оценки дисперсии при выводе.Np(1p)

Cam.Davidson.Pilon
источник
3
Дисперсия случайной величины Бернулли с параметром равна а биномиальная случайная величина, являющаяся суммой независимых случайных величин Бернулли, имеет дисперсию , которая является суммой дисперсий , Что касается того, почему , рассмотрим дисперсию как момент инерции относительно центра масс и при и соответственно. pp(1p)NNp(1p)N p(1p)p1p10
Дилип Сарватэ
Да, я сказал пропорционально , игнорировать . Можете ли вы остановиться на второй части, это кажется интересной перспективой. p(1p)N
Cam.Davidson.Pilon

Ответы:

13

Чтобы интуитивно увидеть, что дисперсия максимизируется при , возьмем равным (соответственно ). Тогда выборка из , вероятно, будет содержать много (соответственно ) и всего несколько (соответственно ). Там не так много вариаций.p=0.5p0.99p=0.01XBernoulli(p)1001

ocram
источник
Это правда. Возможно, я должен спросить: почему информация о Фишере минимизирована при ? p=0.5, т.е. почему вывод наиболее сложен при ? Я обновлю свой вопрос, чтобы отразить это. p=0.5
Cam.Davidson.Pilon
3
Опять же, очень интуитивно понятно: чем больше вариаций, тем больше информации вам нужно.
Октябрь
9

Вывод «труден» для 'в середине, потому что выборка с рядом с серединой согласуется с более широким диапазоном . Ближе к концам, это не может быть так далеко - из-за того, что концы являются «барьерами», за которые не может пройти .pp^pp

Тем не менее, я думаю, что интуиция легче, если рассматривать ее с точки зрения дисперсии.

Интуиция о том, что дисперсия бинома, большого в середине и малого на концах, довольно прямолинейна: вблизи конечных точек нет места для «распространения» данных. Рассмотрим маленьким - поскольку среднее значение близко к 0, вариация не может быть большой - для данных до среднего оно может быть настолько далеко от среднего.pp

Рассмотрим дисперсию выборочной пропорции в серии испытаний Бернулли. Здесь . Таким образом, удерживая фиксированным и варьируя , вариация будет намного меньше для около 0:Var(p^)=p(1p)/nnpp

Пропорция выборки в биномиальных выборках - здесь - случайная форма; синий регистр имеет среднее значение 0,03, черный - 0,5 (добавлено некоторое дрожание, поэтому точки не накапливаются слишком сильно и теряют детализацию) yвведите описание изображения здесь

Соответствующие вероятностные функции: введите описание изображения здесь

В каждом случае обратите внимание на линии, обозначающие среднее значение. Поскольку средняя линия становится более «зажатой» относительно барьера, точки ниже среднего могут быть лишь немного ниже.

В результате, точки выше среднего значения, как правило, не могут быть слишком далеко выше среднего (потому что в противном случае среднее значение сместится!). Около конечные точки на самом деле не "подталкивают" вверх так же, как это происходит, когда есть барьер.p=12

введите описание изображения здесь

В то же время мы видим, почему распределение должно быть искажено на концах; для того, чтобы случайная величина была хотя бы в какое-то время больше, чем выше среднего, соответственно, должна быть соответственно увеличена вероятность того, что она будет значительно ниже среднего значения. Этот надвигающийся барьер в 0 дает предел изменчивости и приводит к асимметрии.p^p

[Эта форма интуиции не говорит нам, почему она принимает эту точную функциональную форму, но она ясно дает понять, почему дисперсия должна быть небольшой вблизи концов и уменьшаться по мере приближения к конечным точкам.]

Glen_b - Восстановить Монику
источник
В результате, точки выше среднего значения, как правило, не могут быть слишком далеко выше среднего (потому что в противном случае среднее значение сместится!). В районе p = 12 конечные точки на самом деле не «подталкивают» вверх таким же образом. Слишком идеально. Это отличное объяснение.
Cam.Davidson.Pilon
7

Информация Фишера представляет собой дисперсию функции оценки. И это связано с энтропией. Для испытания Бернулли мы получаем один бит за каждое испытание. Так что эта информация Фишера имеет свойства, аналогичные энтропии Шеннона, как и следовало ожидать. В частности, энтропия имеет максимум в 1/2, а информация имеет минимум в 1/2.

Джеймс
источник
Ах, еще одна прекрасная перспектива. Я не думал об этом с энтропийной точки зрения!
Cam.Davidson.Pilon