Я имею среднее значение 74,10 и стандартное отклонение 33,44 для выборки с минимальным 0 и максимальным 94,33.
Мой профессор спрашивает меня, как может означать, что плюс одно стандартное отклонение превышает максимум.
Я показал ей много примеров по этому поводу, но она не понимает. Мне нужна ссылка, чтобы показать ей. Это может быть любая глава или параграф из статистической книги, в которой конкретно говорится об этом.
standard-deviation
mean
references
bounds
maximum
Боюн Омуру
источник
источник
Ответы:
Конечно, среднее значение плюс один sd может превысить самое большое наблюдение.
Рассмотрим пример 1, 5, 5, 5 -
оно имеет среднее значение 4 и стандартное отклонение 2, поэтому среднее значение + sd равно 6, что на единицу больше максимума выборки. Вот расчет в R:
Это обычное явление. Это имеет место, когда есть множество высоких значений и хвост слева (то есть, когда есть сильная асимметрия слева и пик около максимума).
-
Та же самая возможность применима к распределению вероятностей, а не только к выборкам - среднее значение по совокупности плюс среднеквадратичное значение могут легко превышать максимально возможное значение
Вот пример плотности , которая имеет максимально возможное значение 1:бета ( 10 , 12)
В этом случае мы можем посмотреть на странице Википедии бета-дистрибутив, в котором говорится, что среднее значение:
и дисперсия:
(Хотя нам не нужно полагаться на Википедию, поскольку их довольно легко получить.)
Таким образом, для и мы имеем среднее значение и sd , то есть среднее значение + , больше, чем возможный максимум 1.β = 1α = 10 ≈0,9523≈0,0628≈1,0152β= 12 ≈ 0,9523 ≈ 0,0628 ≈ 1.0152
То есть легко можно получить значение mean + sd, которое не может рассматриваться как значение данных .
-
Для любой ситуации, когда режим был максимальным, асимметрия режима Пирсона должна быть только чтобы среднее + sd превышало максимум. Он может принимать любое значение, положительное или отрицательное, поэтому мы видим, что это легко возможно.<- 1
-
Тесно связанная проблема часто наблюдается с доверительными интервалами для биномиальной пропорции , где обычно используемый интервал, нормальный интервал аппроксимации может давать пределы за пределами .[ 0 , 1 ]
Например, рассмотрим 95,4% нормальный интервал аппроксимации для доли успешных испытаний в исследованиях Бернулли для населения (результаты равны 1 или 0, представляющим события успеха и неудачи соответственно), где 3 из 4 наблюдений равны « », а одно наблюдение - « ».01 0
Тогда верхний предел для интервала равенп^+ 2 × 14п^( 1 - р^)---------√= р^+ р^( 1 - р^)-------√= 0,75 + 0,433 = 1,183
Это просто выборочное среднее + обычная оценка sd для бинома ... и дает невозможное значение.
Обычная выборка sd для 0,1,1,1 равна 0,5, а не 0,433 (они отличаются, потому что биномиальная оценка ML стандартного отклонения соответствует делению дисперсии на а не на ) Но это не имеет значения - в любом случае среднее значение + sd превышает максимально возможную долю.пп-1п^( 1 - р^) N n - 1
Этот факт - то, что нормальный интервал аппроксимации для бинома может давать «невозможные значения», часто отмечается в книгах и статьях. Однако вы не имеете дело с биномиальными данными. Тем не менее проблема - это среднее значение + некоторое число стандартных отклонений не является возможным значением - аналогична.
-
В вашем случае, необычное значение «0» в вашей выборке делает sd большим, чем оно опускает среднее значение, поэтому среднее + sd высокое.
-
(Вместо этого вопрос был бы - по какой причине это было бы невозможно? - потому что, не зная, почему кто-то может подумать, что вообще существует проблема, к чему мы обращаемся?)
Логично, конечно, кто-то демонстрирует, что это возможно, приводя пример, где это происходит. Вы уже сделали это. Если нет объяснения, почему не должно быть иначе, что вы будете делать?
Если примера недостаточно, какое доказательство будет приемлемым?
На самом деле нет никакого смысла просто указывать на утверждение в книге, поскольку любая книга может сделать утверждение по ошибке - я вижу их все время. Нужно полагаться на прямую демонстрацию того, что это возможно, либо доказательство в алгебре (можно построить, например, из приведенного выше бета-примера *), либо числовой пример (который вы уже дали), который каждый может проверить для себя правду. ,
* whuber дает точные условия для бета-случая в комментариях.
источник
Согласно неравенству Чебышева, меньше чем k -2 баллов может быть больше чем k стандартных отклонений. Таким образом, для k = 1 это означает, что менее 100% ваших выборок могут быть на расстоянии более одного стандартного отклонения.
Более интересно посмотреть на нижнюю границу. Ваш профессор должен быть более удивлен, что есть пункты, которые примерно на 2,5 стандартных отклонения ниже среднего. Но теперь мы знаем, что только около 1/6 вашей выборки может быть 0.
источник
Суть проблемы может заключаться в том, что ваш дистрибутив не является нормальным дистрибутивом, который предполагает стандартное отклонение. Вероятно, ваше распределение осталось искаженным , поэтому сначала нужно преобразовать ваш набор в нормальное распределение, выбрав подходящую функцию преобразования, этот процесс называется преобразованием в нормальное состояние . Одним из таких кандидатов-кандидатов в вашем случае может быть зеркальное преобразование журнала. Как только ваш набор удовлетворяет критерию нормальности, вы можете принять стандартное отклонение. Затем использовать вашу 1 или 2σσ σ значения вы должны преобразовать их обратно в исходное пространство данных, используя обратную функцию преобразования. Я думаю, это то, на что намекал твой профессор.
источник
И мы хотим
Квадрат с обеих сторон, чтобы получить
источник