Меня смущает / поражает, что бином имеет дисперсию, пропорциональную . Эквивалентно, информация Фишера пропорциональна . Что является причиной этого? Почему информация о Фишере минимизируется при ? То есть, почему вывод наиболее сложен при ?
Контекст:
Я работаю над калькулятором размера выборки, и формула для , необходимого размера выборки, представляет собой увеличивающийся коэффициент , результат оценки дисперсии при выводе.
variance
binomial
interpretation
Cam.Davidson.Pilon
источник
источник
Ответы:
Чтобы интуитивно увидеть, что дисперсия максимизируется при , возьмем равным (соответственно ). Тогда выборка из , вероятно, будет содержать много (соответственно ) и всего несколько (соответственно ). Там не так много вариаций.p=0.5 p 0.99 p=0.01 X∼Bernoulli(p) 1 0 0 1
источник
Вывод «труден» для 'в середине, потому что выборка с рядом с серединой согласуется с более широким диапазоном . Ближе к концам, это не может быть так далеко - из-за того, что концы являются «барьерами», за которые не может пройти .p p^ p p
Тем не менее, я думаю, что интуиция легче, если рассматривать ее с точки зрения дисперсии.
Интуиция о том, что дисперсия бинома, большого в середине и малого на концах, довольно прямолинейна: вблизи конечных точек нет места для «распространения» данных. Рассмотрим маленьким - поскольку среднее значение близко к 0, вариация не может быть большой - для данных до среднего оно может быть настолько далеко от среднего.p p
Рассмотрим дисперсию выборочной пропорции в серии испытаний Бернулли. Здесь . Таким образом, удерживая фиксированным и варьируя , вариация будет намного меньше для около 0:Var(p^)=p(1−p)/n n p p
Пропорция выборки в биномиальных выборках - здесь - случайная форма; синий регистр имеет среднее значение 0,03, черный - 0,5 (добавлено некоторое дрожание, поэтому точки не накапливаются слишком сильно и теряют детализацию)y
Соответствующие вероятностные функции:
В каждом случае обратите внимание на линии, обозначающие среднее значение. Поскольку средняя линия становится более «зажатой» относительно барьера, точки ниже среднего могут быть лишь немного ниже.
В результате, точки выше среднего значения, как правило, не могут быть слишком далеко выше среднего (потому что в противном случае среднее значение сместится!). Около конечные точки на самом деле не "подталкивают" вверх так же, как это происходит, когда есть барьер.p=12
В то же время мы видим, почему распределение должно быть искажено на концах; для того, чтобы случайная величина была хотя бы в какое-то время больше, чем выше среднего, соответственно, должна быть соответственно увеличена вероятность того, что она будет значительно ниже среднего значения. Этот надвигающийся барьер в 0 дает предел изменчивости и приводит к асимметрии.p^ p
[Эта форма интуиции не говорит нам, почему она принимает эту точную функциональную форму, но она ясно дает понять, почему дисперсия должна быть небольшой вблизи концов и уменьшаться по мере приближения к конечным точкам.]
источник
Информация Фишера представляет собой дисперсию функции оценки. И это связано с энтропией. Для испытания Бернулли мы получаем один бит за каждое испытание. Так что эта информация Фишера имеет свойства, аналогичные энтропии Шеннона, как и следовало ожидать. В частности, энтропия имеет максимум в 1/2, а информация имеет минимум в 1/2.
источник