Должно ли «нормальное распределение» иметь среднее значение = медиана = режим?

17

Я спорил со своим профессором статистики на уровне выпускников о «нормальном распределении». Я утверждаю, что для истинного нормального распределения необходимо иметь среднее значение = медиана = мода, все данные должны содержаться под кривой колокола и быть абсолютно симметричными относительно среднего. Поэтому, технически, в реальных исследованиях практически НЕТ нормальных распределений, и мы должны называть их чем-то другим, возможно, «почти нормальным».

Она говорит, что я слишком придирчив, и, если уклон / эксцесс меньше 1,0, это нормальное распределение и снимают баллы на экзамене. Набор данных - это общее количество падений / год в случайной выборке из 52 домов престарелых, которая является случайной выборкой из большей популяции. Любое понимание?

Проблема:

ВОПРОС: 3. Вычислить показатели асимметрии и эксцесса для этих данных. Включите гистограмму с нормальной кривой. Обсудите ваши выводы. Распределяются ли данные нормально?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

а. Существует несколько режимов. Наименьшее значение показано

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Мой ответ:

Данные являются платикюртичными и имеют только небольшое положительное отклонение, и это НЕ нормальное распределение, потому что среднее значение, медиана и мода не равны, и данные не распределены равномерно вокруг среднего. В действительности практически нет данных, которые когда-либо были бы идеальным нормальным распределением, хотя мы можем обсуждать «приблизительно нормальные распределения», такие как рост, вес, температура или длина безымянного пальца взрослого в больших группах населения.

Ответ профессора:

Вы правы в том, что не существует абсолютно нормального распределения. Но мы не ищем совершенства. Нам нужно смотреть на данные в дополнение к гистограмме и показателям центральной тенденции. Что статистика асимметрии и эксцесса говорит вам о распределении? Поскольку они оба находятся между критическими значениями -1 и +1, эти данные считаются нормально распределенными.

Опоссум-Pie
источник
3
Я хотел бы знать точную формулировку вашего профессора. В принципе, нормальное распределение имеет среднее значение, медиану и моду, идентичные (но также как и многие другие распределения) и имеет асимметрию 0 и (так называемый избыток) эксцесс 0 (как и некоторые другие распределения). В лучшем случае распределение с (например) легкой асимметрией или эксцессом является приблизительно нормальным. Обратите внимание, что почти все реальные данные в лучшем случае приближаются к именованным распределениям в теоретическом зверинце.
Ник Кокс
22
Я не согласен с @ user2974951. В компании с каждым хорошим текстом, который я знаю, я совершенно счастлив думать, что у нормального распределения есть медиана и режим. И это широко применяется для непрерывных распределений, хотя я не сомневаюсь, что патологические контрпримеры могут быть идентифицированы.
Ник Кокс
4
Спасибо за конкретную деталь, которая показывает достоинства с обеих сторон, но я не оцениваю ни одного из вас. Тем не менее, я категорически не согласен с термином критические значения, который используется вашим профессором, поскольку пределы для асимметрии и эксцесса не имеют никакого значения, кроме того, что можно использовать эмпирические правила . В зависимости от того, что вы делаете с данными, асимметрия < 1 может сопровождаться желанием преобразовать данные, а асимметрия > 1 может сочетаться с оставлением данных, если они есть, и аналогично для эксцесса. ±1<1>1
Ник Кокс
6
Если мы серьезно позволим себе овладеть искусством придирки, мы должны заметить, что нет никаких отрицательных падений, и что падения являются дискретными, поэтому распределение де-факто не может быть нормальным. Это делает вопрос пустым в первую очередь. На более серьезной ноте, вопрос явно сфабрикованный пример, целью которого является проверка конкретных правил. В действительности, в зависимости от цели нашего исследования, может быть разумным или не предполагать нормальное распределение. По правде говоря, мы никогда не узнаем, поскольку у нас есть только образец.
Иоаннис
5
@ user2974951 Вы должны рассмотреть вопрос об удалении вашего первого комментария, так как вы не согласны с ним сейчас. До сих пор он обманул трех читателей, давая понять, что они согласны с этим!
whuber

Ответы:

25

Проблема с вашей беседой с профессором связана с терминологией, есть недоразумение, которое мешает донести потенциально полезную идею. В разных местах вы оба делаете ошибки.

Итак, первое, на что нужно обратить внимание: важно четко понимать, что такое дистрибутив .

Нормальное распределение - это конкретный математический объект, который можно рассматривать как модель для бесконечной совокупности значений. (Никакая конечная популяция не может иметь непрерывного распределения.)

В общих чертах, то, что делает это распределение (как только вы задаете параметры), определяет (через алгебраическое выражение) пропорцию значений совокупности, которая находится в любом данном интервале на реальной линии. Немного менее свободно, он определяет вероятность того, что одно значение из этой совокупности будет лежать в любом данном интервале.

Наблюдаемый образец не имеет нормального распределения; образец может (потенциально) быть взят из нормального распределения, если таковое существует. Если вы посмотрите на эмпирический cdf образца, он будет дискретным. Если вы сделаете это (как в гистограмме), у образца будет «частотное распределение», но это не нормальное распределение. Распределение может рассказать нам некоторые вещи (в вероятностном смысле) о случайной выборке из совокупности, и выборка может также рассказать нам кое-что о совокупности.

Разумная интерпретация фразы типа «нормально распределенная выборка» * - это «случайная выборка из нормально распределенной популяции».

* (Как правило, я стараюсь не говорить это сам по причинам, которые, как мы надеемся, достаточно ясны здесь; обычно мне удается ограничиться вторым типом выражения.)

Определив термины (хотя все еще немного свободно), давайте теперь рассмотрим вопрос более подробно. Я буду заниматься конкретными частями вопроса.

нормальное распределение нужно иметь среднее значение = медиана = мода

Это, безусловно, условие нормального распределения вероятностей, но не требование к выборке, взятой из нормального распределения; образцы могут быть асимметричными, среднее значение может отличаться от среднего и так далее. [Однако мы можем получить представление о том, насколько далеко друг от друга мы можем разумно ожидать, если выборка действительно будет получена из нормальной популяции.]

все данные должны содержаться под кривой колокола

Я не уверен, что означает «содержаться под» в этом смысле.

и совершенно симметрично вокруг среднего.

Нет; Вы говорите о данных здесь, и выборка из (определенно симметричной) нормальной популяции сама по себе не будет идеально симметричной.

Поэтому, технически, в реальных исследованиях практически НЕТ нормальных распределений,

Я согласен с вашим выводом, но рассуждения не верны; это не является следствием того факта, что данные не являются абсолютно симметричными (и т. д.); это тот факт, что население не совсем нормально .

если перекос / эксцесс меньше 1,0, это нормальное распределение

Если она сказала это именно так, она определенно ошибается.

Отклонение выборки может быть намного ближе к 0, чем это (принимая «меньше чем», чтобы означать в абсолютной величине не фактическое значение), и избыточный эксцесс образца также может быть намного ближе к 0, чем это (они могут даже, случайно или (возможно, будет почти точно равен нулю), и все же распределение, из которого была взята выборка, легко может быть явно ненормальным.

Мы можем пойти дальше - даже если бы мы волшебным образом знали, что асимметрия населения и эксцесс были точно такими же, как у нормального человека, это все равно само по себе не говорило бы, что население было нормальным или даже что-то близким к нормальному.

Набор данных - это общее количество падений / год в случайной выборке из 52 домов престарелых, которая является случайной выборкой из большей популяции.

Распределение численности населения никогда не бывает нормальным. Счетчики дискретны и неотрицательны, нормальные распределения непрерывны и по всей реальной линии.

Но мы действительно сосредоточены на неправильной проблеме здесь. Вероятностные модели - это просто модели . Давайте не будем путать наши модели с реальными вещами .

Вопрос не в том, являются ли данные нормальными? (они не могут быть), и даже "население, из которого данные были получены нормально?" (это почти никогда не будет так).

Более полезный вопрос для обсуждения: «Насколько сильно повлияет мой вывод, если я буду относиться к населению как к нормально распределенному?»

На этот вопрос также сложнее ответить, и он может потребовать значительно больше работы, чем просмотр нескольких простых диагностических сообщений.

Статистика выборки, которую вы показали, не особенно несовместима с нормой (вы могли бы видеть статистику, подобную этой или «хуже» не так уж и редко, если бы у вас были случайные выборки такого размера из нормальной популяции), но это само по себе не означает, что фактическая популяция из которого был взят образец, автоматически «достаточно близко» к нормальному для некоторой конкретной цели. Было бы важно рассмотреть цель (на какие вопросы вы отвечаете) и надежность используемых для этого методов, и даже в этом случае мы все еще можем быть не уверены, что это «достаточно хорошо»; иногда может быть лучше просто не предполагать, что у нас нет веских оснований предполагать априори (например, на основе опыта с подобными наборами данных).

это НЕ нормальное распределение

Данные - даже данные, взятые из нормальной популяции - никогда не имеют в точности свойств населения; только из этих цифр у вас нет достаточных оснований для вывода, что население здесь ненормальное.

С другой стороны, мы также не имеем достаточно веских оснований утверждать, что он «достаточно близок» к нормальному - мы даже не рассматривали цель предположения о нормальности, поэтому мы не знаем, к каким распределительным функциям он может быть чувствителен.

Например, если бы у меня было две выборки для ограниченного измерения, которое, как я знал, не было бы сильно дискретным (не в основном принимающим только несколько различных значений) и достаточно близким к симметричному, я мог бы быть относительно счастливым использовать две выборки t-критерий при небольшом размере выборки; это умеренно устойчиво к умеренным отклонениям от допущений (несколько устойчиво к уровню, не настолько устойчиво к мощности). Но я бы был гораздо осторожнее относиться к причинно-следственной нормальности, например, при тестировании равенства спреда, потому что лучший тест в этом предположении довольно чувствителен к предположению.

Поскольку они оба находятся между критическими значениями -1 и +1, эти данные считаются нормально распределенными ».

Если это действительно критерий, по которому кто-то решает использовать нормальную модель распределения, то это иногда приводит вас к довольно плохому анализу.

Значения этих статистических данных дают нам некоторые подсказки о населении, из которого была взята выборка, но это совсем не то же самое, что предполагать, что их значения в любом случае являются «безопасным руководством» для выбора анализа.


Теперь рассмотрим основную проблему с помощью еще более точной формулировки такого вопроса, как у вас:

Весь процесс просмотра образца для выбора модели чреват проблемами - это изменяет свойства любого последующего выбора анализа в зависимости от того, что вы видели! Например, для проверки гипотезы, ваши уровни значимости, p-значения и мощность не все, что вы бы выбрали / рассчитали , потому что эти вычисления основаны на анализе, не основанном на данных.

См., Например, Gelman and Loken (2014), « Статистический кризис в науке », американский ученый , том 102, номер 6, стр. 460 (DOI: 10.1511 / 2014.111.460), в котором обсуждаются проблемы, связанные с таким анализом, зависящим от данных.

Glen_b - Восстановить Монику
источник
Привет, Питер, извини, я даже не увидел твой пост там.
Glen_b
Этот разговор был перемещен в чат .
Glen_b
41

Вы упускаете суть и, вероятно, тоже «трудны», чего не ценят в отрасли. Она показывает вам игрушечный пример, чтобы научить вас оценивать нормальность набора данных, то есть сказать, происходит ли набор данных из нормального распределения . Просмотр моментов распределения является одним из способов проверки нормальности, например, тест Жарк Бера основан на такой оценке.

Да, нормальное распределение совершенно симметрично. Однако, если вы рисуете выборку из истинного нормального распределения, эта выборка, скорее всего, будет не совсем симметричной. Это точка, которую вы полностью упускаете. Вы можете проверить это очень легко сами. Просто сгенерируйте выборку из гауссовского распределения и проверьте его момент. Они никогда не будут совершенно "нормальными", несмотря на то, что таково истинное распределение.

Вот глупый пример Python. Я генерирую 100 выборок из 100 случайных чисел, затем получаю их средства и медианы. Я печатаю первый образец, чтобы показать, что среднее значение и медиана разные, а затем показываю гистограмму разницы между средним и средним. Вы можете видеть, что это довольно узко, но разница в принципе никогда не равна нулю. Обратите внимание, что числа действительно исходят из нормального распределения .

код:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

выходы: введите описание изображения здесь

PS

Теперь, следует ли считать пример из вашего вопроса нормальным или нет, зависит от контекста. В контексте того, чему вас учили в классе, вы ошибаетесь, потому что ваш профессор хотел выяснить, знаете ли вы тест по правилу большого пальца, который она вам дала, а именно: избыточный эксцесс должны быть в диапазоне от -1 до 1 ассортимент.

Лично я никогда не использовал это эмпирическое правило (я не могу назвать это тестом) и даже не знал, что оно существует. Очевидно, что некоторые люди в некоторых областях действительно используют это все же. Если бы вы включили описание набора данных в тест JB, это отклонил нормальность. Следовательно, вы не ошиблись, если предположили, что набор данных не является нормальным, конечно, но вы ошибаетесь в том смысле, что вы не применили ожидаемое от вас правило на основе того, чему его учили в классе.

Если бы я был тобой, я бы вежливо подошел к твоему профессору и объяснил бы себя, а также показал бы результаты теста JB. Я бы признал, что на основании ее теста мой ответ был, конечно, неверным. Если вы попытаетесь спорить с ней так, как вы спорите здесь, ваши шансы очень малы, чтобы вернуть точку в тесте, потому что ваши рассуждения о медианах, средствах и выборках слабы, это свидетельствует о недостаточном понимании выборки и совокупности. Если вы измените свою мелодию, то у вас будет дело.

Аксакал
источник
23
(+1) Именно в этом суть. Смешение случайной величины и выборки реализаций из этой случайной величины.
Сиань
15
T
Было бы справедливо сказать, что если бы ваши выборки были совершенно нормально распределены, это свидетельство того, что выборки не случайны?
JimmyJames,
@JimmyJames, 4 года назад в «Науке» была статья, в которой говорилось, что 20-минутный разговор с геем может изменить ваши чувства по отношению к геям. Оказывается, авторы составили свои данные опроса. Они были слишком ленивы и генерировали идеально гауссовский шум, и именно так их и поймали - см. «Неисправности в LaCour» (2014) Брукмана и др.
Аксакал
@Aksakal Я не уверен, что это то же самое, что я спрашиваю. В этом случае я думаю, что аргумент в этом случае заключался в том, что реальные данные никогда не бывают абсолютно нормальными. Я начинаю с вашего утверждения: «Однако, если вы возьмете образец из истинного нормального распределения, этот образец, скорее всего, будет не совсем симметричным». Если я выбираю случайным образом из идеального нормального распределения, я не ожидал бы, что каждая последующая точка данных окажется в том месте, где она должна быть, чтобы заполнить идеальную нормальную кривую. Для меня это очень похоже на случайный процесс отбора.
Джимми Джеймс
6

Учитель явно не в своей стихии и, вероятно, не должен преподавать статистику. Мне кажется хуже учить чему-то неправильному, чем вообще не учить этому.

Все эти проблемы можно легко устранить, если провести более четкое различие между «данными» и «процессом, создавшим данные». Данные предназначаются для процесса, который произвел данные. Нормальное распределение является моделью для этого процесса.

Нет смысла говорить о том, нормально ли распределяются данные. По одной причине данные всегда дискретны. По другой причине нормальное распределение описывает бесконечность потенциально наблюдаемых величин, а не конечный набор конкретных наблюдаемых величин.

Кроме того, ответ на вопрос «является ли процесс, который создал данные нормально распределенным процессом », также всегда «нет», независимо от данных. Две простые причины: (i) любые измерения, которые мы проводим, обязательно дискретны и округляются до некоторого уровня. (ii) совершенная симметрия, как и совершенный круг, не существует в наблюдаемой природе. Всегда есть недостатки.

В лучшем случае ответ на вопрос «что эти данные говорят вам о нормальности процесса генерирования данных» можно дать следующим образом: «эти данные соответствуют тому, что мы ожидаем увидеть, если бы данные действительно исходили из нормально распределенный процесс. " Этот ответ правильно не означает, что распределение нормальное.

Эти проблемы очень легко понять с помощью моделирования. Просто смоделируйте данные из нормального распределения и сравните их с существующими данными. Если данные являются счетчиками (0,1,2,3, ...), то, очевидно, нормальная модель неверна, потому что она не выдает числа типа 0,1,2,3, ...; вместо этого он создает числа с десятичными числами, которые продолжаются вечно (или, по крайней мере, настолько, насколько позволяет компьютер). Такое моделирование должно быть первым, что вы делаете, когда узнаете о нормальном вопросе. Тогда вы сможете более правильно интерпретировать графики и сводную статистику.

Питер Уэстфолл
источник
10
Я не понизил ваш ответ, но учту, что вы судите профессора по словам студента. Насколько вероятно, что ученик прав, а учитель неправ? Разве не более вероятно, что студент искажает своего профессора и контекст разговора?
Аксакал
Исходя из моего опыта и слов учеников, я бы сказал, что более вероятно, что учитель неправ. В университетах повсюду есть учителя с небольшим формальным образованием, которые преподают курсы, даже аспирантуру. Если бы аккредитующие агентства знали только правду!
Питер Уэстфолл
6
@ Опоссум-Пирог, я могу догадаться, что от тебя ожидают. Это, наверное, 101-й курс по статистике, так что вам нужно взглянуть на асимметрию и эксцесс. Если они не достаточно близки к 0 и 3, то вы говорите, что это не нормально. Это все. Фактически это то, что тест JB делает более формально. Смысл этого упражнения в том, чтобы вы помнили, что у Гаусса есть перекос 0 и эксцесс 3. Вы превращаете это глупое, но необходимое упражнение в философскую дискуссию.
Аксакал
2
Комментарий учителя «Поскольку они оба находятся между критическими значениями -1 и +1, эти данные считаются нормально распределенными», безусловно, либо показывает (i) отсутствие понимания или (ii) готовность обучать тому, что он / она знает ошибаться. Я не думаю, что это философская дискуссия, чтобы подвергнуть сомнению готовность учителя или педагогические методы.
Питер Уэстфолл
3
Язык "последовательности" хорош. Но, как отметил Поссум-Пай, учителя говорят ученикам, что «на основании этого теста / диагностики данные нормальные», что неверно по нескольким причинам. Учителя (психологические и другие) должны (i) отличить процесс генерирования данных от данных, (ii) сказать студентам, что нормальная и другие модели являются моделями для процесса генерирования данных, (iii) сказать им, что нормальное распределение всегда неверно как модель, независимо от диагностики, и (iv) сказать им, что цель упражнения - диагностировать степень ненормальности, а не отвечать да / нет. Затем объясните, почему это важно.
Питер Уэстфолл
4

Я инженер, поэтому в моем мире прикладная статистика - это то, что я вижу больше всего и получаю самую конкретную ценность. Если вы собираетесь работать в прикладном, то на практике вам необходимо прочно обосновать теорию: элегантно ли это, самолет должен летать, а не падать.

Когда я думаю об этом вопросе, то, как я к нему подхожу, как это делали многие из моих технических специалистов, заключается в том, чтобы подумать о том, «как он выглядит в реальном мире при наличии шума».

Второе, что я делаю, - это часто делаю симуляцию, которая позволяет мне разобраться с вопросом.

Вот очень краткое исследование:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Это дает в качестве вывода: введите описание изображения здесь

Примечание: будьте осторожны с осью X, потому что она масштабирована по логарифму, а не по шкале.

Я знаю, что среднее значение и медиана абсолютно одинаковы. Код говорит это. Эмпирическая реализация очень чувствительна к размеру выборки, и если нет действительно бесконечных выборок, то они никогда не смогут полностью соответствовать теории.

Вы можете подумать о том, охватывает ли неопределенность медианное значение предполагаемое среднее или наоборот. Если наилучшая оценка среднего значения находится в пределах 95% ДИ оценки для медианы, то данные не могут определить разницу. Данные говорят, что они одинаковы в теории. Если вы получите больше данных, то посмотрите, что там написано.

EngrStudent - Восстановить Монику
источник
1
Интересный график. Я бы подумал, что среднее значение вначале было бы больше среднего, учитывая средние выбросы погонь ... другими словами, красные полосы означают среднее значение, а зеленые - медианы. Чего мне не хватает?
Поссумный пирог
1
@ Possum-Pie Помните, что выбросы могут быть в любом направлении ... нормальное распределение имеет как левый, так и правый хвост!
Серебряная
2
@ Это довольно стандартная реализация боксплота.
Glen_b
1
@Glen_b Я видел много учебников, которые не учат использовать точки для выбросов, поэтому я могу понять, что кто-то не привык к ним. Но, по словам Хэдли , точки были там, даже когда Тьюки представил свой «схематический сюжет» в 1970 году.
Серебряная рыбка
1
Да, версия без выбросов в ней (основанная только на сводке из 5 чисел) по сути была бы сюжетом Мэри Спир (1952). (Обратите внимание, что в статье пропущены некоторые важные исторические предшественники коробочных сюжетов, до 1952 года)
Glen_b
4

В медицинской статистике мы только когда-либо комментируем формы и вид распределений. Тот факт, что ни одна дискретная конечная выборка не может быть нормальной, не имеет значения и педантичен. Я бы пометил вас неправильно за это.

Если дистрибутив выглядит «в основном» нормально, мы можем назвать его нормальным. Когда я описываю распределения для нестатистической аудитории, мне очень удобно называть что-то примерно нормальным, даже когда я знаю, что нормальное распределение не является базовой моделью вероятности, у меня возникает ощущение, что я бы встал на сторону вашего учителя здесь ... но мы У меня нет гистограммы или набора данных для проверки.

В качестве подсказки я бы очень внимательно прошел следующие проверки:

  • кто такие выбросы, сколько и каковы их ценности?
  • Являются ли данные бимодальными?
  • Кажется ли, что данные принимают искаженную форму, чтобы какое-то преобразование (например, бревно) лучше определяло «расстояние» между наблюдениями?
  • Есть ли явное усечение или нагромождение, чтобы анализы или лаборатории не смогли надежно определить определенный диапазон значений?
Adamo
источник
Кажется, в области, где так много математики, люди будут более строгими между тем, чтобы сказать что-то «нормальное распределение», имеющее определенные очень строгие коннотации, и словами, что это «почти нормально». Я бы никогда не сказал, что 1.932 - это 2., но я могу сказать, что это почти 2.
Поссум-пирог
1
"Неактуальный и педантичный"? Шутки в сторону? Я согласен с Поссум-Пирог. Я также никогда бы не сказал, что 1.932 - это то же самое, что и 2.0. Утверждение, что данные являются «нормальными», сбивает с толку все: от значения нормального распределения как модели процесса, который произвел данные, до реального факта, что нормальные распределения никогда точно не моделируют наши процессы. Всех нужно учить этому, когда они учатся нормальному распределению, чтобы не делать глупых заявлений.
Питер Уэстфолл
2
@PeterWestfall Я думаю, что отчасти проблема заключается в том, что «данные поступают из нормального распределения» почти никогда не являются буквально правдой, и даже если бы это было так, было бы невозможно доказать это окончательно. Таким образом, поскольку эта фраза вряд ли когда-либо будет в буквальном смысле слова правдой, вместо этого люди будут использовать «данные нормальные» в качестве удобного сокращения для обозначения «данные кажутся достаточно близкими к нормальным для практических целей» или «нормальное распределение является хорошим достаточно модели для нашего DGP ».
Серебряная
Так зачем учить тому, что плохо, когда так просто учить тому, что правильно?
Питер Уэстфолл
3
@PeterW Лингвистическая точка зрения не только об обучении, но и о том, как фраза используется (и предназначена для толкования) в повседневной жизни: «данные нормальны» почти никогда не означают «я точно знаю, что Население, из которого были взяты данные, является нормальным ", потому что это вряд ли когда-либо могло означать это. Было бы лучше , если бы люди говорили , что «данные кажется нормальным» или даже «выглядит данных normalish » (то есть , кажется , достаточно близко к нормальному , что мы не заботимся о его отклонении от нормальности) , но особенно в прикладной обстановке люди часто говорят , такие вещи.
Серебряная
2

Я думаю, что вы и ваш профессор говорите в другом контексте. Равенство среднего = медиана = мода является характеристикой теоретического распределения, и это не единственные характеристики. Нельзя сказать, что если для какого-либо распределения выше свойство hold, то распределение нормальное. Т-распределение также симметрично, но не нормально. Итак, вы говорите о теоретических свойствах нормального распределения, которые всегда верны для нормального распределения.

Ваш профессор говорит о распространении выборочных данных. Он прав, вы никогда не получите данные в реальной жизни, где вы найдете среднее = среднее значение = режим. Это просто из-за ошибки выборки . Точно так же маловероятно, что вы получите нулевой коэффициент асимметрии для выборочных данных и нулевой избыточный эксцесс. Ваш профессор просто дает вам простое правило, чтобы получить представление о распределении из выборочной статистики. Что не соответствует действительности (без получения дополнительной информации).

Neeraj
источник
3
Профессор, как говорят, женщина.
Ник Кокс
Почему вы не получаете среднее значение = median = mode в основном потому, что многие дистрибутивы действительно искажены! (Строго говоря, mean = median = mode возможен и с перекошенными дистрибутивами, несмотря на то, что говорят многие учебники.)
Ник Кокс,
1
Я не согласен с тем, что отсутствие равенства среднего значения / медианы / режима = ошибка выборки. Предположим, вы случайным образом отобрали 52 дома престарелых на случай падения. Дома 27, 34 и 52 хронически не укомплектованы и всегда имеют количество падений выше среднего. Эти дома толкают к хвосту и не из-за ошибки выборки.
Поссумный пирог
1
@ Possum Pie Данные здесь второстепенны, но вы даете разные сигналы в разных местах. Здесь вы говорите о нескольких домах престарелых, но в своем вопросе вы говорите «в доме престарелых». Неясность даже случайных деталей не помогает.
Ник Кокс
@ Ник Кокс Извините, я все уточнил. Количество падений / год в выборке из 52 домов престарелых
Поссум-Пай
1

Для практических целей такие процессы, как этот, обычно точно аппроксимируются нормальным распределением, и никто не поднимает брови.

Однако, если вы хотите быть педантичным, базовый процесс в этом случае не может быть нормально распределен, потому что он не может давать отрицательные значения (количество падений не может быть отрицательным). Я не удивлюсь, если это будет хотя бы бимодальное распределение со вторым пиком, близким к нулю.

Хонза Брабек
источник
Это бимодальный с режимами на 4 падения и 13 падений. О падениях с нуля не сообщается.
Поссумный пирог