Я знаю, что это может быть немного странно, статистически, но это моя проблема.
У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы количественно оценить изменчивость каждого диапазона, а также сравнить средние значения. У меня есть веские основания полагать, что распределение симметрично относительно среднего, и что данные будут иметь гауссово распределение. По этой причине я думаю, что могу оправдать использование средней точки распределения в качестве посредника для среднего значения, когда оно отсутствует.
То, что я хочу сделать, это восстановить распределение для каждого диапазона, а затем использовать его, чтобы обеспечить стандартное отклонение или стандартную ошибку для этого распределения. Единственная информация, которую я имею, - это максимальное и минимальное значение, наблюдаемое по выборке, и средняя точка в качестве посредника для среднего значения.
Таким образом, я надеюсь, что смогу рассчитать средневзвешенные значения для каждой группы, а также определить коэффициент вариации для каждой группы, основываясь на данных о диапазоне, которые у меня есть, и моих предположениях (о симметричном и нормальном распределении).
Я планирую использовать R, чтобы сделать это, так что любая помощь в коде также будет оценена.
источник
Ответы:
Совместная кумулятивная функция распределения для минимального и максимального x ( n ) для выборки n из гауссовского распределения со средним μ и стандартным отклонением σ равнаИкс( 1 ) Икс( н ) N μ σ
где является стандартным гауссовым CDF. Дифференцирование по & дает общую функцию плотности вероятностиx ( 1 ) x ( n )Φ(⋅) x(1) x(n)
где - стандартный гауссовский PDF. Взятие терминов log & drop, не содержащих параметров, дает функцию log-правдоподобияϕ ( ⋅ )
Это не очень удобно, но легко увидеть, что оно максимизируется независимо от значения , установив , то есть середина - первый член максимизируется, когда аргумент одного CDF является отрицательным аргументом другого; второе и третье слагаемые представляют собой совместную вероятность двух независимых нормальных переменных.ц = ц = х ( п ) + х ( 1 )σ μ=μ^=x(n)+x(1)2
Подстановка в логарифмическую вероятность и запись дает г=х(п)-х(1)ℓ(σ;х(1),х(п), μ )=(п-2)журнал[1-2Φ( - гμ^ r=x(n)−x(1)
Это выражение должно быть максимизировано численно (например,σ^ σ^=k(n)⋅r k n
optimize
изstat
пакета R ), чтобы найти . (Оказывается, что , где - это константа, зависящая только от кто-то более математически ловкий, чем я мог бы показать, почему.) сг =к(п)⋅гкпОценки бесполезны без сопутствующей меры точности. Наблюдаемая информация Фишера может быть оценена численно (например,
hessian
изnumDeriv
пакета R ) и использована для расчета приблизительных стандартных ошибок:я(σ)=-∂2ℓ(σ; μ )
Было бы интересно сравнить вероятность и оценки метода моментов для с точки зрения смещения (согласован ли MLE?), Дисперсии и среднеквадратичной ошибки. Существует также проблема оценки для тех групп, где выборочное среднее известно в дополнение к минимуму и максимуму.σ
источник
Вам необходимо связать диапазон со стандартным отклонением / дисперсией. Пусть будет средним значением, стандартное отклонение и будет диапазоном. Тогда для нормального распределения мы имеем, что % вероятностной массы лежит в пределах 3 стандартных отклонений от среднего. Это, как практическое правило, означает, что с очень высокой вероятностью,μ σ R=x(n)−x(1) 99.7
Вычитая второе из первого, получаем
Наличие значения для среднего значения и стандартного отклонения полностью характеризует нормальное распределение.
источник
Получить функцию распределения максимума нормального распределения просто (см. «P.max.norm» в коде). Из него (с некоторым исчислением) вы можете получить функцию квантиля (см. «Q.max.norm»).
Используя «Q.max.norm» и «Q.min.norm», вы можете получить медиану диапазона, связанного с N. Используя идею, представленную Алекосом Пападопулосом (в предыдущем ответе), вы можете вычислить sd.
Попробуй это:
источник