Допустим, я вычисляю высоту (в см), и числа должны быть больше нуля.
Вот пример списка:
0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981
Mean: 0.41138725956196015
Std: 0.2860541519582141
В этом примере, согласно нормальному распределению, 99,7% значений должны быть в ± 3 раза больше стандартного отклонения от среднего. Однако даже в два раза стандартное отклонение становится отрицательным:
-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468
Тем не менее, мои цифры должны быть положительными. Поэтому они должны быть выше 0. Я могу игнорировать отрицательные числа, но сомневаюсь, что это правильный способ вычисления вероятностей с использованием стандартного отклонения.
Может ли кто-нибудь помочь мне понять, правильно ли я это использую? Или мне нужно выбрать другой метод?
Ну, если честно, математика это математика. Неважно, нормальное ли это распределение или нет. Если он работает с беззнаковыми числами, он должен работать и с положительными числами! Я ошибаюсь?
EDIT1: добавлена гистограмма
Для большей ясности я добавил гистограмму моих реальных данных
EDIT2: некоторые значения
Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05
Ответы:
Если ваши числа могут быть только положительными, то моделирование их как нормального распределения может быть нежелательным в зависимости от вашего варианта использования, поскольку нормальное распределение поддерживается для всех действительных чисел.
Возможно, вы хотели бы смоделировать высоту как экспоненциальное распределение, или, возможно, усеченное нормальное распределение?
источник
«Как правильно применить 68-95-99.7 к моему делу?»
Следует только ожидать, что это практическое правило для покрытия будет применяться в точности, только если вы (1) смотрите на всю (бесконечную) совокупность или теоретическое распределение вероятностей , и (2) распределение является совершенно нормальным .
Если вы возьмете случайную выборку размером 20, даже из действительно нормального распределения, вы не всегда обнаружите, что 95% данных (19 из 20 элементов) находятся в пределах 2 (или 1,960) стандартных отклонений от среднего. На самом деле, не гарантируется, что 19 из 20 предметов будут находиться в пределах 1,960 стандартных отклонений населения от среднего значения, или что 19 из 20 предметов находятся в пределах 1,960 стандартных отклонений выборки от среднего значения по выборке.
Если вы возьмете выборку данных из дистрибутива, который распределен не совсем нормально, опять-таки не стоит ожидать, что правило 68-95-99.7 будет применяться в точности. Но это может быть достаточно близко к этому, особенно если размер выборки велик (практическое правило «охват 99,7%» может не иметь особого смысла при размере выборки ниже 1000), а распределение достаточно близко к норме. Теоретически, многие данные, такие как рост или вес, не могут быть получены из точно нормального распределения, или это может означать небольшую, но ненулевую вероятность того, что они будут отрицательными. Тем не менее, для данных с приблизительно симметричным и унимодальным распределением, где средние значения являются более распространенными и чрезвычайно высокие или низкие значения снижаются по вероятности, модель нормального распределения может быть адекватной для практических целей.Если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?
(Единственное, что приятно в правиле 68-95-99.7, это то, что оно применяется к любому нормальному распределению, независимо от его параметров для среднего или стандартного отклонения. Аналогично, неравенство Чебышева применяется независимо от параметров или даже от распределения, хотя только дает нижние границы для покрытия. Но если вы применяете, например, усеченную нормальную или наклонную нормальную модель, то не существует простого эквивалента "68-95-99.7" покрытия, потому что это будет зависеть от параметров распределения .)
источник
О, это легко. Нет, вы не используете это правильно.
Во-первых, вы используете довольно небольшой набор данных. Попытка выявить статистическое поведение из этого набора размеров, безусловно, возможна, но границы достоверности (гм) довольно велики. Для небольших наборов данных отклонения от ожидаемых распределений равны для курса, и чем меньше набор, тем больше проблема. Помните: «Закон средних разрешает не только самые невероятные совпадения, но и требует их».
Хуже того, конкретный набор данных, который вы используете, просто не очень похож на нормальное распределение. Подумайте об этом - со средним значением .498 у вас есть два образца ниже 0,1 и еще три при 0,748 или выше. Тогда у вас есть кластер из 3 точек между .17 и .22. Глядя на этот конкретный набор данных и утверждая, что это должно быть нормальное распределение, это довольно хороший пример прокрустовского аргумента. Это похоже на кривую звонка? Вполне возможно, что большая популяция будет следовать нормальному или измененному нормальному распределению, и больший размер выборки решит проблему, но я бы не стал на это ставить, особенно если не знать больше о населении.
Я говорю модифицированный нормальный, поскольку, как указал Кевин Ли, технически нормальное распределение включает в себя все действительные числа. Как также указывалось в комментариях к его ответу, это не мешает применять такое распределение в ограниченном диапазоне и получать полезные результаты. Как говорится, «Все модели ошибочны. Некоторые полезны».
Но этот конкретный набор данных просто не выглядит как вывод нормального распределения (даже в ограниченном диапазоне) - это особенно хорошая идея. Если ваши 10 точек данных выглядят как .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (среднее значение 0.500), вы бы приняли нормальное распределение?
источник
В одном из комментариев вы говорите, что использовали «случайные данные», но не говорите, из какого распределения. Если вы говорите о человеческих высотах, они примерно нормально распределены, но ваши данные дистанционно не соответствуют человеческим высотам - ваши - доли сантиметра!
И ваши данные не являются нормальными. Я предполагаю, что вы использовали равномерное распределение с границами 0 и 1. И вы создали очень маленькую выборку. Давайте попробуем с большим образцом:
Итак, ни один из данных не превышает 2 sd от среднего значения, потому что это выходит за пределы данных. И часть в пределах 1 сд будет примерно 0,56.
источник
Часто, когда у вас есть ограничение на то, что все ваши выборки должны быть положительными, стоит взглянуть на логарифм ваших данных, чтобы увидеть, может ли ваше распределение быть аппроксимировано логарифмическим распределением.
источник
Расчет стандартного отклонения относительно среднего. Можете ли вы применить стандартное отклонение к числам, которые всегда положительны? Абсолютно. Если бы вы добавили 1000 к каждому из значений в вашем наборе образцов, вы бы увидели то же значение стандартного отклонения, но у вас было бы больше места для дыхания выше нуля.
Однако добавление произвольной константы к вашим данным является поверхностным. При использовании стандартного отклонения для такого небольшого набора данных вам нужно ожидать неопределенного вывода. Рассмотрим стандартное отклонение как объектив камеры с автофокусировкой: чем больше времени (данных) вы дадите, тем четче будет изображение. Если после того, как вы отследите 1000000 точек данных, ваше среднее значение и стандартное отклонение останутся такими же, как и с 10, то я могу начать сомневаться в достоверности вашего эксперимента.
источник
Ваша гистограмма показывает, что нормальное распределение не подходит. Вы можете попробовать логнормальный или что-то еще, что является асимметричным и строго положительным
источник
Суть в том, что многие из нас ленивы *, а с нормальным дистрибутивом работать с нами ленивым людям. Это легко сделать вычисления, используя нормальное распределение, и это имеет хорошую математическую основу. Таким образом, это «модель» для работы с данными. Эта модель часто работает на удивление хорошо, а иногда падает на лицо.
Совершенно очевидно, что ваши выборки не указывают на нормальное распределение в данных. Таким образом, решение вашей дилеммы состоит в том, чтобы выбрать другую «модель» и работать с другим дистрибутивом. Распределения Вейбулла могут быть по направлению, есть и другие.
источник
В основном вы используете данные Ratio, а не данные Interval. Географы проходят через это все время при расчете S / D для ежегодного количества осадков в конкретном месте (более 100 лет точек отбора проб, скажем, в Гражданском центре Лос-Анджелеса) или снегопада (более 100 лет образцов снегопадов на озере Биг-Беар). У нас могут быть только положительные числа, так оно и есть.
источник
В метеорологии распределение скоростей ветра выглядит очень похоже на это. По определению скорости ветра также неотрицательны.
Так что в вашем случае я бы определенно посмотрел на распределение Вейбулла .
источник
Вы начинаете с «согласно нормальному распределению», когда ваши данные явно не распределены нормально, это первая проблема. Вы говорите: «Неважно, нормальное распределение или нет». Что является абсолютной чепухой. Вы не можете использовать утверждения о нормально распределенных данных, если ваши данные не распределены нормально.
И вы неверно истолковали это утверждение. «99,7% должно быть в пределах трех стандартных отклонений». И 99,7% ваших данных действительно были в пределах трех стандартных отклонений. Еще лучше, это было 100% с двумя стандартными отклонениями. Так что утверждение верно .
источник