Какова важность функции в статистике?

19

В моем классе исчисления мы столкнулись с функцией или «кривой колокола», и мне сказали, что она часто применяется в статистике.ex2

Из любопытства хочу спросить: действительно ли функция действительно важна в статистике? Если да, то что же такое что делает его полезным, и каковы некоторые из его применений? е - х 2ex2ex2

Я не мог найти много информации о функции в интернете, но после некоторого исследования я обнаружил связь между кривыми колокола в целом и тем, что называется нормальным распределением . Wikipedia страница связывает эти типы функций для применения статистики, с подсветкой со мной, что гласит:

«Нормальное распределение считается наиболее заметным распределением вероятностей в статистике. Для этого есть несколько причин: 1) Во-первых, нормальное распределение вытекает из центральной предельной теоремы, которая гласит, что в мягких условиях получается сумма большого числа случайных величин. из того же распределения распространяется примерно нормально, независимо от формы исходного распределения ".

Итак, если я соберу большой объем данных из какого-либо опроса или тому подобного, они могут быть равномерно распределены между такими функциями, как ? Функция является симметричной, так же как и ее симметрия, то есть ее полезность для нормального распределения, что делает ее такой полезной в статистике? Я просто размышляю.ex2

В общем, что делает полезным в статистике? Если нормальное распределение является единственной областью, то что делает уникальным или особенно полезным среди других функций гауссова типа в нормальном распределении? е - х 2ex2ex2

Zolani13
источник
Хорошо, чтобы начать, что следует читать «значит», а не «сумма».
Тристан
2
Сумма тоже. В конце концов, это просто среднее значение, умноженное на количество образцов.
Эрик
1
Цитата показывает, что ключевые слова для поиска включают «нормальное распределение». Выполнение этого поиска находит более 600 тем - в среднем по одной в день с момента запуска этого сайта. Короткое время просмотра этих хитов быстро поможет любому оценить роль «кривой колокола» в статистике.
whuber
4
От темы с верхним голосованием, связанной с нормальным распределением : «Каждый верит в экспоненциальный закон ошибок [т.е. нормальное распределение]: экспериментаторы, потому что они думают, что это может быть доказано математикой; и математики, потому что они полагают, что это имеет было установлено наблюдением ".
whuber
См. Ответы на мой вопрос «Каковы наиболее удивительные характеристики гауссовского распределения» stats.stackexchange.com/questions/4364/…
robin girard

Ответы:

12

Причиной того, что эта функция важна, действительно является нормальное распределение и его тесно связанный компаньон, центральная предельная теорема (у нас есть несколько хороших объяснений CLT в других вопросах здесь).

В статистике CLT обычно можно использовать для приблизительного расчета вероятностей, делая возможными такие заявления, как «мы на 95% уверены, что ...» (значение «на 95% уверенно» часто понимают неправильно, но это другой вопрос).

Функция является (масштабной версией) функции плотности нормального распределения. Если случайная величина может быть смоделирована с использованием нормального распределения, эта функция описывает, насколько вероятны различные возможные значения указанной величины. Результаты в регионах с высокой плотностью более вероятны, чем в регионах с низкой плотностью.exp((xμ)22σ2)

σ μ μ σ x = μ x μ σμ и - это параметры, которые определяют местоположение и масштаб функции плотности. Он симметричен относительно , поэтому изменение означает, что вы перемещаете функцию вправо или влево. определяет значение функции плотности в ее максимуме ( ) и как быстро она достигает 0, когда удаляется от . В этом смысле изменение меняет масштаб функции.σμμσx=μxμσ

Для конкретного выбора и плотность равна (пропорционально) . Это не особенно интересный выбор этих параметров, но он имеет преимущество в том, что дает функцию плотности, которая выглядит немного проще, чем все остальные.σ = 1 / μ=0 е - х 2σ=1/2ex2

С другой стороны, мы можем перейти от к любой другой нормальной плотности с помощью замены переменных . Причина, по которой ваш учебник говорит, что , а не , очень Важной функцией является то, что проще написать. х = и - μex2e-x2exp(-(x-μ)2x=uμ2σex2е-х2exp((xμ)22σ2)ex2

MånsT
источник
1
(+1) Первое предложение предпоследнего абзаца: я бы сказал , пропорционально вместо is .
кардинал
@cardinal: Спасибо, вы совершенно правы! Я отредактировал ответ.
MånsT
1
+1, мне очень нравится этот ответ. Одна вещь, на которую стоит обратить внимание, это то, что pdf нормалей обычно пишется с впереди. Причина в том, что общая площадь под кривой равна , но, поскольку типичным использованием pdf является определение вероятностей (сумма которых равна 1), это удобно для области под кривой, равной 1, и, таким образом, мы делим на сумму для достижения этого результата. Я думаю, что вы правы, что это было опущено из-за более простого внешнего вида. 12πσ22πσ2
gung - Восстановить Монику
3

Вы правы, нормальное распределение или гауссово - это масштабированное и смещенное , поэтому важность главным образом связана с тем фактом, что это по сути нормальное распределение.exp ( - x 2 )exp(x2)exp(x2)

А нормальное распределение важно главным образом потому, что («в условиях умеренной регулярности») сумма многих независимых и одинаково распределенных случайных величин приближается к норме, когда «многие» приближается к бесконечности.

Не все нормально распределено. Например, результаты вашего опроса могут не совпадать, по крайней мере, если ответы даже не в непрерывном масштабе, а что-то вроде целых чисел 1–5. Но среднее значение результатов обычно распределяется по повторным выборкам, поскольку среднее значение представляет собой просто масштабированную (нормализованную) сумму, а отдельные ответы не зависят друг от друга. Конечно, если предположить, что выборка достаточно велика, потому что, строго говоря, нормальность появляется только тогда, когда размер выборки становится бесконечным.

Как видно из примера, нормальное распределение может появиться в результате процесса оценки или моделирования, даже если данные обычно не распространяются. Поэтому нормальные распределения везде в статистике. В байесовской статистике многие апостериорные распределения параметров приблизительно нормальны или могут быть приняты за.

scellus
источник
Re: «нормальное распределение или гауссово - масштабированное и смещенное exp (-x ^ 2), поэтому важность exp (-x ^ 2) обусловлена ​​главным образом тем фактом, что это по сути нормальное распределение». - Плотность вероятности нормального распределения является функцией Гасса. Само нормальное распределение не является синонимом , как, кажется, указывает этот комментарий. ex2
Макро
Они не являются синонимами, спасибо за указание на это. (Мое намерение не было точным, просто понятным для не-статистики. Уже есть хороший точный ответ.)
scellus
-1

Одна версия CLT говорит нам, что распределение средних независимых одинаково распределенных случайных величин начнет выглядеть как нормальное распределение в форме колокола как количество переменных в сумме (n01/nn

Майкл Р. Черник
источник
Для комментариев к этому вопросу была создана чат-комната на chat.stackexchange.com/rooms/3720/… . Я удалил все (50!) Комментариев и заблокировал этот пост, чтобы предотвратить дальнейшее злоупотребление механизмом комментирования.
whuber