Как я могу рассчитать доверительный интервал среднего значения в ненормально распределенной выборке?
Я понимаю, что здесь часто используются методы начальной загрузки, но я открыт для других вариантов. В то время как я ищу непараметрическую опцию, если кто-то может убедить меня, что параметрическое решение является действительным, это было бы хорошо. Размер выборки> 400.
Если бы кто-то мог дать образец в R, это было бы очень ценно.
Ответы:
Прежде всего, я бы проверил, является ли среднее значение подходящим показателем для поставленной задачи. Если вы ищете «типичное / или центральное значение» перекошенного распределения, среднее может указывать на довольно нерепрезентативное значение. Рассмотрим лог-нормальное распределение:
Среднее значение (красная линия) довольно далеко от основной массы данных. Усеченное на 20% среднее (зеленое) и медианное (синее) ближе к «типичному» значению.
Результаты зависят от типа вашего «ненормального» распределения (была бы полезна гистограмма ваших фактических данных). Если он не перекошен, но имеет тяжелые хвосты, ваши CI будут очень широкими.
В любом случае, я думаю, что начальная загрузка действительно является хорошим подходом, поскольку она также может дать вам асимметричные CI.
R
Пакетsimpleboot
является хорошим началом:... дает вам следующий результат:
источник
kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877
s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197
2*s*qnorm(0.975)/sqrt(n) = 0.2678999
kappa*s/(6*n) = 0.00222779
kappa
источник
Попробуйте лог-нормальное распределение, рассчитав:
В итоге вы получите асимметричный доверительный интервал вокруг ожидаемого значения (которое не является средним значением необработанных данных).
источник