Стандартное отклонение совершенно неверно? Как вы можете рассчитать стандартное отклонение для высоты, количества и т. Д. (Положительные числа)?

13

Допустим, я вычисляю высоту (в см), и числа должны быть больше нуля.

Вот пример списка:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

В этом примере, согласно нормальному распределению, 99,7% значений должны быть в ± 3 раза больше стандартного отклонения от среднего. Однако даже в два раза стандартное отклонение становится отрицательным:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Тем не менее, мои цифры должны быть положительными. Поэтому они должны быть выше 0. Я могу игнорировать отрицательные числа, но сомневаюсь, что это правильный способ вычисления вероятностей с использованием стандартного отклонения.

Может ли кто-нибудь помочь мне понять, правильно ли я это использую? Или мне нужно выбрать другой метод?

Ну, если честно, математика это математика. Неважно, нормальное ли это распределение или нет. Если он работает с беззнаковыми числами, он должен работать и с положительными числами! Я ошибаюсь?

EDIT1: добавлена ​​гистограмма

Для большей ясности я добавил гистограмму моих реальных данных введите описание изображения здесь

EDIT2: некоторые значения

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Дон кодер
источник
28
Я думаю, что недоразумение здесь состоит в том, что распределение, которое может иметь только положительные числа, не является нормальным, поэтому правило 99,7%, которое вы заявляете, неприменимо. Во-вторых, из (типовой) формулы стандартного отклонения вы можете видеть, что нет никаких условий на положительные значения любого из исходных значений - так почему это должно быть неправильно? Может случиться так, что оно используется неправильно, но статистика в основном агностична и не должна применяться бездумно.
Момо
8
Красота 68-95-99.7 правило, @Momo, является то , что он действительно применяется даже многие явно ненормальные распределений. В этом случае 50% чисел находятся в пределах 1 сд от среднего, а 100% находятся в пределах 2 сд от среднего. Обратите внимание, что 68% точно приближается к 50%, а 95% точно приближается к 100% с точностью до отклонений, которые мы ожидаем от такого небольшого набора данных. Таким образом, этот пример иллюстрирует эмпирическое правило, хотя оно может быть немного неубедительным из-за его небольшого размера.
whuber
2
Я согласен. Позвольте мне исправить это так: «Правило 99,7%, которое вы заявляете, не обязательно применяется». Источник путаницы здесь, кажется, применяет это как нечто большее, чем эмпирическое правило, а не с точки зрения ваших нюансов «примерно в пределах отклонений, которые мы ожидаем». Последний комментарий ОП просто показывает это.
Момо
4
Следует ли изменить заголовок на что-то вроде «Как применить правило 68-95-99.7 к данным, которые должны быть положительными»? Я думаю, что это отражает больше духа вопроса. (Это не проблема с тем, как рассчитывается стандартное отклонение, о чем говорит заголовок, а с тем, как оно используется для нахождения вероятностей.)
Silverfish
4
Стандартное отклонение не является «неправильным». Что менее точно, так это обычные вещи, которых нет; пропорции вне заданного числа стандартных отклонений, подразумеваемых нормальностью, не всегда будут точными для других распределений. Для непрерывных унимодальных распределений, близких к 2 стандартным отклонениям, двусторонние интервалы часто довольно разумны, но в более отдаленных случаях хвостовые вероятности могут иметь очень высокие относительные ошибки.
Glen_b

Ответы:

23

Если ваши числа могут быть только положительными, то моделирование их как нормального распределения может быть нежелательным в зависимости от вашего варианта использования, поскольку нормальное распределение поддерживается для всех действительных чисел.

Возможно, вы хотели бы смоделировать высоту как экспоненциальное распределение, или, возможно, усеченное нормальное распределение?

λ

Кевин Ли
источник
10
Первое предложение в целом неверно: многие строго положительные величины часто могут быть аппроксимированы нормальным распределением. Если масса вероятности ниже 0 очень мала, это не имеет значения для всех практических целей. В данном конкретном случае это, безусловно, правильно.
COOLSerdash
13
-1 Этот ответ отражает широко распространенное (и очень пагубное) неправильное представление о том, что такое статистическая модель и что на самом деле означает моделирование данных с нормальным распределением. В самом деле, если бы мы поверили тому, что говорится в этом посте, то было бы «определенно неправильно» когда-либо приближать биномиальное распределение к нормальному распределению - но это исторически оригинальное и, вероятно, наиболее распространенное использование нормального распределения! (Правка: я удалил понижающее голосование, потому что вы изменили исходное утверждение на более правильное и полезное.)
whuber
4
Это зависит от того, что вы подразумеваете под «начальником». Часть стоимости модели заключается в том, что требуется для ее реализации. Если вы используете усеченную нормальную модель, вы, вероятно, посвятите себя множеству пользовательских численных расчетов вместо быстрых, простых и, возможно, великолепно точных аналитических расчетов. Другая цель модели - дать понимание : кто-то думает: «Если природа ведет себя, по крайней мере, примерно так, как эти предположения, то какие последствия могут быть получены из этих предположений?» Зачастую сделать такие выводы проще с помощью простого приближения.
whuber
2
@whuber: после «красиво точных» я мысленно добавил «неправильно». Сожалею. Конечно, также «но полезно» в коробке.
Стефан Коласса
2
Даже если данные состоят из нецелых значений?
Кевин Ли
19

«Как правильно применить 68-95-99.7 к моему делу?»

Следует только ожидать, что это практическое правило для покрытия будет применяться в точности, только если вы (1) смотрите на всю (бесконечную) совокупность или теоретическое распределение вероятностей , и (2) распределение является совершенно нормальным .

Если вы возьмете случайную выборку размером 20, даже из действительно нормального распределения, вы не всегда обнаружите, что 95% данных (19 из 20 элементов) находятся в пределах 2 (или 1,960) стандартных отклонений от среднего. На самом деле, не гарантируется, что 19 из 20 предметов будут находиться в пределах 1,960 стандартных отклонений населения от среднего значения, или что 19 из 20 предметов находятся в пределах 1,960 стандартных отклонений выборки от среднего значения по выборке.

Если вы возьмете выборку данных из дистрибутива, который распределен не совсем нормально, опять-таки не стоит ожидать, что правило 68-95-99.7 будет применяться в точности. Но это может быть достаточно близко к этому, особенно если размер выборки велик (практическое правило «охват 99,7%» может не иметь особого смысла при размере выборки ниже 1000), а распределение достаточно близко к норме. Теоретически, многие данные, такие как рост или вес, не могут быть получены из точно нормального распределения, или это может означать небольшую, но ненулевую вероятность того, что они будут отрицательными. Тем не менее, для данных с приблизительно симметричным и унимодальным распределением, где средние значения являются более распространенными и чрезвычайно высокие или низкие значения снижаются по вероятности, модель нормального распределения может быть адекватной для практических целей.Если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?

1/k2kстандартные отклонения от среднего. Это гарантирует, что по крайней мере 75% данных находятся в пределах двух стандартных отклонений от среднего, а 89% - в пределах трех стандартных отклонений. Но эти цифры являются теоретически гарантированным минимумом. Для многих распределений примерно в форме колокольчика вы обнаружите, что показатель покрытия с двумя стандартными отклонениями гораздо ближе к 95%, чем к 75%, и поэтому «практическое правило» из нормального распределения все еще полезно. С другой стороны, если ваши данные поступают из распределения, которое далеко не в форме колокола, вы можете найти альтернативную модель, которая лучше описывает данные и имеет другое правило покрытия.

(Единственное, что приятно в правиле 68-95-99.7, это то, что оно применяется к любому нормальному распределению, независимо от его параметров для среднего или стандартного отклонения. Аналогично, неравенство Чебышева применяется независимо от параметров или даже от распределения, хотя только дает нижние границы для покрытия. Но если вы применяете, например, усеченную нормальную или наклонную нормальную модель, то не существует простого эквивалента "68-95-99.7" покрытия, потому что это будет зависеть от параметров распределения .)

тарпон
источник
7

Может ли кто-нибудь помочь мне понять, правильно ли я это использую?

О, это легко. Нет, вы не используете это правильно.

Во-первых, вы используете довольно небольшой набор данных. Попытка выявить статистическое поведение из этого набора размеров, безусловно, возможна, но границы достоверности (гм) довольно велики. Для небольших наборов данных отклонения от ожидаемых распределений равны для курса, и чем меньше набор, тем больше проблема. Помните: «Закон средних разрешает не только самые невероятные совпадения, но и требует их».

Хуже того, конкретный набор данных, который вы используете, просто не очень похож на нормальное распределение. Подумайте об этом - со средним значением .498 у вас есть два образца ниже 0,1 и еще три при 0,748 или выше. Тогда у вас есть кластер из 3 точек между .17 и .22. Глядя на этот конкретный набор данных и утверждая, что это должно быть нормальное распределение, это довольно хороший пример прокрустовского аргумента. Это похоже на кривую звонка? Вполне возможно, что большая популяция будет следовать нормальному или измененному нормальному распределению, и больший размер выборки решит проблему, но я бы не стал на это ставить, особенно если не знать больше о населении.

Я говорю модифицированный нормальный, поскольку, как указал Кевин Ли, технически нормальное распределение включает в себя все действительные числа. Как также указывалось в комментариях к его ответу, это не мешает применять такое распределение в ограниченном диапазоне и получать полезные результаты. Как говорится, «Все модели ошибочны. Некоторые полезны».

Но этот конкретный набор данных просто не выглядит как вывод нормального распределения (даже в ограниченном диапазоне) - это особенно хорошая идея. Если ваши 10 точек данных выглядят как .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (среднее значение 0.500), вы бы приняли нормальное распределение?

Джеймс Мартин
источник
Я использовал случайные данные, чтобы объяснить свои потребности и проблемы
Дон Кодер
1
@DonCoder Случайные данные (если вы не настроили их каким-либо образом) будут соответствовать равномерному распределению, а не нормальному распределению.
Баррикартер
5
Случайные данные должны быть получены из некоторого распределения. Какой вы выбрали?
Питер Флом - Восстановить Монику
Я добавил гистограмму моих реальных данных
Дон Кодер
2

В одном из комментариев вы говорите, что использовали «случайные данные», но не говорите, из какого распределения. Если вы говорите о человеческих высотах, они примерно нормально распределены, но ваши данные дистанционно не соответствуют человеческим высотам - ваши - доли сантиметра!

И ваши данные не являются нормальными. Я предполагаю, что вы использовали равномерное распределение с границами 0 и 1. И вы создали очень маленькую выборку. Давайте попробуем с большим образцом:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

Итак, ни один из данных не превышает 2 sd от среднего значения, потому что это выходит за пределы данных. И часть в пределах 1 сд будет примерно 0,56.

Питер Флом - Восстановить Монику
источник
1

Часто, когда у вас есть ограничение на то, что все ваши выборки должны быть положительными, стоит взглянуть на логарифм ваших данных, чтобы увидеть, может ли ваше распределение быть аппроксимировано логарифмическим распределением.

rinspy
источник
1

Расчет стандартного отклонения относительно среднего. Можете ли вы применить стандартное отклонение к числам, которые всегда положительны? Абсолютно. Если бы вы добавили 1000 к каждому из значений в вашем наборе образцов, вы бы увидели то же значение стандартного отклонения, но у вас было бы больше места для дыхания выше нуля.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Однако добавление произвольной константы к вашим данным является поверхностным. При использовании стандартного отклонения для такого небольшого набора данных вам нужно ожидать неопределенного вывода. Рассмотрим стандартное отклонение как объектив камеры с автофокусировкой: чем больше времени (данных) вы дадите, тем четче будет изображение. Если после того, как вы отследите 1000000 точек данных, ваше среднее значение и стандартное отклонение останутся такими же, как и с 10, то я могу начать сомневаться в достоверности вашего эксперимента.

Ян Макдональд
источник
1

Ваша гистограмма показывает, что нормальное распределение не подходит. Вы можете попробовать логнормальный или что-то еще, что является асимметричным и строго положительным

Аксакал
источник
1

Суть в том, что многие из нас ленивы *, а с нормальным дистрибутивом работать с нами ленивым людям. Это легко сделать вычисления, используя нормальное распределение, и это имеет хорошую математическую основу. Таким образом, это «модель» для работы с данными. Эта модель часто работает на удивление хорошо, а иногда падает на лицо.

Совершенно очевидно, что ваши выборки не указывают на нормальное распределение в данных. Таким образом, решение вашей дилеммы состоит в том, чтобы выбрать другую «модель» и работать с другим дистрибутивом. Распределения Вейбулла могут быть по направлению, есть и другие.

  • ленив в том, чтобы не узнавать данные и выбирать лучшие модели, когда это необходимо.
ghellquist
источник
0

В основном вы используете данные Ratio, а не данные Interval. Географы проходят через это все время при расчете S / D для ежегодного количества осадков в конкретном месте (более 100 лет точек отбора проб, скажем, в Гражданском центре Лос-Анджелеса) или снегопада (более 100 лет образцов снегопадов на озере Биг-Беар). У нас могут быть только положительные числа, так оно и есть.

Джим Вудс
источник
0

В метеорологии распределение скоростей ветра выглядит очень похоже на это. По определению скорости ветра также неотрицательны.

Так что в вашем случае я бы определенно посмотрел на распределение Вейбулла .

boseki
источник
0

Вы начинаете с «согласно нормальному распределению», когда ваши данные явно не распределены нормально, это первая проблема. Вы говорите: «Неважно, нормальное распределение или нет». Что является абсолютной чепухой. Вы не можете использовать утверждения о нормально распределенных данных, если ваши данные не распределены нормально.

И вы неверно истолковали это утверждение. «99,7% должно быть в пределах трех стандартных отклонений». И 99,7% ваших данных действительно были в пределах трех стандартных отклонений. Еще лучше, это было 100% с двумя стандартными отклонениями. Так что утверждение верно .

gnasher729
источник