У меня есть триангулированные трехмерные сетки. Статистика для областей треугольника:
- Мин 0,000
- Макс 2341,141
- Среднее 56,317
- Стандартное отклонение 98.720
Итак, означает ли это что-нибудь особенно полезное в отношении стандартного отклонения или предполагает наличие ошибок при его расчете, когда цифры работают, как указано выше? Районы, безусловно, далеки от нормального распределения.
И, как кто-то упомянул в одном из своих ответов ниже, меня поразило то, что потребовалось только одно SD из среднего значения, чтобы числа стали отрицательными и, таким образом, вышли за пределы правового поля.
Благодарность
distributions
mean
standard-deviation
Энди Дент
источник
источник
Ответы:
Ничто не говорит о том, что стандартное отклонение должно быть меньше или больше среднего. Учитывая набор данных, вы можете сохранить среднее значение таким же, но изменить стандартное отклонение на произвольную степень, добавляя / вычитая положительное число соответствующим образом .
Используя пример набора данных @ whuber из его комментария к вопросу: {2, 2, 2, 202}. Как утверждает @whuber: среднее значение равно 52, а стандартное отклонение равно 100.
Теперь возмущаем каждый элемент данных следующим образом: {22, 22, 22, 142}. Среднее значение по-прежнему составляет 52, но стандартное отклонение составляет 60.
источник
Конечно, это независимые параметры. Вы можете установить простые исследования в R (или другой инструмент, который вы предпочитаете).
Точно так же вы стандартизируете данные, которые вы просматриваете, вычитая среднее значение и деля на стандартное отклонение.
Редактировать И, следуя идее @ whuber, вот один набор бесконечных наборов данных, которые приближаются к вашим четырем измерениям:
источник
Я не уверен, почему @ Энди удивлен таким результатом, но я знаю, что он не одинок. Я также не уверен, что нормальность данных связана с тем фактом, что SD выше среднего. Довольно просто сгенерировать набор данных, который обычно распространяется в этом случае; действительно, стандартная нормаль имеет среднее значение 0, sd = 1. Было бы трудно получить нормально распределенный набор данных всех положительных значений с sd> mean; на самом деле, это не должно быть возможным (но это зависит от размера выборки и того, какой тест нормальности вы используете ... с очень маленькой выборкой происходят странные вещи)
Однако, как только вы удалите условие нормальности, как это сделал @Andy, нет причины, по которой sd должно быть больше или меньше среднего, даже для всех положительных значений. Единственный выброс сделает это. например
x <- runif (100, 1, 200) x <- c (x, 2000)
дает среднее значение 113 и SD 198 (в зависимости от семян, конечно).
Но большой вопрос, почему это удивляет людей.
Я не преподаю статистику, но мне интересно, как насчет того, как преподается статистика, делает это понятие распространенным.
источник
Просто добавив общую точку , что, с точки зрения исчисления, и ∫ х 2 F ( х ) г х связаны неравенством Иенсена , предполагая , что существуют оба интеграла, ∫ х 2 F ( х ) д х ≥ { ∫ x f ( x ) d x } 2
источник
Возможно, ОП удивляется, что среднее значение - 1 СО - отрицательное число (особенно там, где минимум равен 0).
Вот два примера, которые могут прояснить.
Предположим, у вас есть класс из 20 первоклассников, где 18 - 6 лет, 1 - 5, а 1 - 7. Теперь добавьте 49-летнего учителя. Средний возраст - 8,0, а стандартное отклонение - 9,402.
Вы можете подумать: одно стандартное отклонение для этого класса колеблется от -1,402 до 17,402 года. Вы можете быть удивлены, что SD включает отрицательный возраст, который кажется необоснованным.
Вам не нужно беспокоиться об отрицательном возрасте (или 3D-графики, размер которых меньше минимума 0,0). Интуитивно понятно, что у вас все еще есть две трети данных в пределах 1 SD от среднего значения. (На самом деле у вас есть 95% данных в пределах 2 SD от среднего.)
Когда данные получат ненормальное распределение, вы увидите удивительные результаты, подобные этому.
Второй пример В своей книге « Обманутый случайностью» Нассим Талеб проводит мысленный эксперимент стрелка с завязанными глазами, стреляющего в стену малой длины. Лучник может стрелять от +90 градусов до -90 градусов.
Время от времени лучник будет стрелять стрелой, параллельной стене, и никогда не попадет. Рассмотрим, как далеко стрелка не попадает в цель, как распределение чисел. Стандартное отклонение для этого сценария будет постоянным.
источник
R
источник
источник
По-видимому, вы подразумеваете, что вы подразумеваете интервал предсказания, который ограничивал бы появление новых наблюдений. Суть в том, что вы должны постулировать статистическое распределение, соответствующее тому факту, что ваши наблюдения (области треугольников) должны оставаться неотрицательными. Нормальный не поможет, но нормальный лог может быть просто нормальным. В практическом плане взять журнал наблюдаемых областей, вычислить среднее и стандартное отклонение, сформировать интервал прогнозирования с использованием нормального распределения и, наконец, оценить экспоненту для нижнего и верхнего пределов - преобразованный интервал прогнозирования не будет симметричным вокруг среднее и гарантированно не опустится ниже нуля. Это то, что я думаю, на самом деле имел в виду ФП.
источник
Фелипе Невински указывает на реальную проблему здесь. Нет смысла говорить в терминах нормального распределения, когда распределение явно не является нормальным распределением. Все положительные значения с относительно небольшим средним и относительно большим стандартным отклонением не могут иметь нормального распределения. Итак, задача состоит в том, чтобы выяснить, какой тип распределения соответствует ситуации. Оригинальный пост предполагает, что нормальное распределение (или некоторые такие) было явно на виду. В противном случае отрицательные числа не появятся. Регистрируйся нормально, Рэйли, Вейбулл приходит на ум ... Я не знаю, но удивляюсь, что может быть лучше в таком случае?
источник