Я спорил со своим профессором статистики на уровне выпускников о «нормальном распределении». Я утверждаю, что для истинного нормального распределения необходимо иметь среднее значение = медиана = мода, все данные должны содержаться под кривой колокола и быть абсолютно симметричными относительно среднего. Поэтому, технически, в реальных исследованиях практически НЕТ нормальных распределений, и мы должны называть их чем-то другим, возможно, «почти нормальным».
Она говорит, что я слишком придирчив, и, если уклон / эксцесс меньше 1,0, это нормальное распределение и снимают баллы на экзамене. Набор данных - это общее количество падений / год в случайной выборке из 52 домов престарелых, которая является случайной выборкой из большей популяции. Любое понимание?
Проблема:
ВОПРОС: 3. Вычислить показатели асимметрии и эксцесса для этих данных. Включите гистограмму с нормальной кривой. Обсудите ваши выводы. Распределяются ли данные нормально?
Statistics Number of falls N Valid 52 Missing 0 Mean 11.23 Median 11.50 Mode 4a
а. Существует несколько режимов. Наименьшее значение показано
Number of falls N Valid 52 Missing 0 Skewness .114 Std. Error of Skewness .330 Kurtosis -.961 Std. Error of Kurtosis .650
Мой ответ:
Данные являются платикюртичными и имеют только небольшое положительное отклонение, и это НЕ нормальное распределение, потому что среднее значение, медиана и мода не равны, и данные не распределены равномерно вокруг среднего. В действительности практически нет данных, которые когда-либо были бы идеальным нормальным распределением, хотя мы можем обсуждать «приблизительно нормальные распределения», такие как рост, вес, температура или длина безымянного пальца взрослого в больших группах населения.
Ответ профессора:
Вы правы в том, что не существует абсолютно нормального распределения. Но мы не ищем совершенства. Нам нужно смотреть на данные в дополнение к гистограмме и показателям центральной тенденции. Что статистика асимметрии и эксцесса говорит вам о распределении? Поскольку они оба находятся между критическими значениями -1 и +1, эти данные считаются нормально распределенными.
источник
Ответы:
Проблема с вашей беседой с профессором связана с терминологией, есть недоразумение, которое мешает донести потенциально полезную идею. В разных местах вы оба делаете ошибки.
Итак, первое, на что нужно обратить внимание: важно четко понимать, что такое дистрибутив .
Нормальное распределение - это конкретный математический объект, который можно рассматривать как модель для бесконечной совокупности значений. (Никакая конечная популяция не может иметь непрерывного распределения.)
В общих чертах, то, что делает это распределение (как только вы задаете параметры), определяет (через алгебраическое выражение) пропорцию значений совокупности, которая находится в любом данном интервале на реальной линии. Немного менее свободно, он определяет вероятность того, что одно значение из этой совокупности будет лежать в любом данном интервале.
Наблюдаемый образец не имеет нормального распределения; образец может (потенциально) быть взят из нормального распределения, если таковое существует. Если вы посмотрите на эмпирический cdf образца, он будет дискретным. Если вы сделаете это (как в гистограмме), у образца будет «частотное распределение», но это не нормальное распределение. Распределение может рассказать нам некоторые вещи (в вероятностном смысле) о случайной выборке из совокупности, и выборка может также рассказать нам кое-что о совокупности.
Разумная интерпретация фразы типа «нормально распределенная выборка» * - это «случайная выборка из нормально распределенной популяции».
* (Как правило, я стараюсь не говорить это сам по причинам, которые, как мы надеемся, достаточно ясны здесь; обычно мне удается ограничиться вторым типом выражения.)
Определив термины (хотя все еще немного свободно), давайте теперь рассмотрим вопрос более подробно. Я буду заниматься конкретными частями вопроса.
Это, безусловно, условие нормального распределения вероятностей, но не требование к выборке, взятой из нормального распределения; образцы могут быть асимметричными, среднее значение может отличаться от среднего и так далее. [Однако мы можем получить представление о том, насколько далеко друг от друга мы можем разумно ожидать, если выборка действительно будет получена из нормальной популяции.]
Я не уверен, что означает «содержаться под» в этом смысле.
Нет; Вы говорите о данных здесь, и выборка из (определенно симметричной) нормальной популяции сама по себе не будет идеально симметричной.
Я согласен с вашим выводом, но рассуждения не верны; это не является следствием того факта, что данные не являются абсолютно симметричными (и т. д.); это тот факт, что население не совсем нормально .
Если она сказала это именно так, она определенно ошибается.
Отклонение выборки может быть намного ближе к 0, чем это (принимая «меньше чем», чтобы означать в абсолютной величине не фактическое значение), и избыточный эксцесс образца также может быть намного ближе к 0, чем это (они могут даже, случайно или (возможно, будет почти точно равен нулю), и все же распределение, из которого была взята выборка, легко может быть явно ненормальным.
Мы можем пойти дальше - даже если бы мы волшебным образом знали, что асимметрия населения и эксцесс были точно такими же, как у нормального человека, это все равно само по себе не говорило бы, что население было нормальным или даже что-то близким к нормальному.
Распределение численности населения никогда не бывает нормальным. Счетчики дискретны и неотрицательны, нормальные распределения непрерывны и по всей реальной линии.
Но мы действительно сосредоточены на неправильной проблеме здесь. Вероятностные модели - это просто модели . Давайте не будем путать наши модели с реальными вещами .
Вопрос не в том, являются ли данные нормальными? (они не могут быть), и даже "население, из которого данные были получены нормально?" (это почти никогда не будет так).
Более полезный вопрос для обсуждения: «Насколько сильно повлияет мой вывод, если я буду относиться к населению как к нормально распределенному?»
На этот вопрос также сложнее ответить, и он может потребовать значительно больше работы, чем просмотр нескольких простых диагностических сообщений.
Статистика выборки, которую вы показали, не особенно несовместима с нормой (вы могли бы видеть статистику, подобную этой или «хуже» не так уж и редко, если бы у вас были случайные выборки такого размера из нормальной популяции), но это само по себе не означает, что фактическая популяция из которого был взят образец, автоматически «достаточно близко» к нормальному для некоторой конкретной цели. Было бы важно рассмотреть цель (на какие вопросы вы отвечаете) и надежность используемых для этого методов, и даже в этом случае мы все еще можем быть не уверены, что это «достаточно хорошо»; иногда может быть лучше просто не предполагать, что у нас нет веских оснований предполагать априори (например, на основе опыта с подобными наборами данных).
Данные - даже данные, взятые из нормальной популяции - никогда не имеют в точности свойств населения; только из этих цифр у вас нет достаточных оснований для вывода, что население здесь ненормальное.
С другой стороны, мы также не имеем достаточно веских оснований утверждать, что он «достаточно близок» к нормальному - мы даже не рассматривали цель предположения о нормальности, поэтому мы не знаем, к каким распределительным функциям он может быть чувствителен.
Например, если бы у меня было две выборки для ограниченного измерения, которое, как я знал, не было бы сильно дискретным (не в основном принимающим только несколько различных значений) и достаточно близким к симметричному, я мог бы быть относительно счастливым использовать две выборки t-критерий при небольшом размере выборки; это умеренно устойчиво к умеренным отклонениям от допущений (несколько устойчиво к уровню, не настолько устойчиво к мощности). Но я бы был гораздо осторожнее относиться к причинно-следственной нормальности, например, при тестировании равенства спреда, потому что лучший тест в этом предположении довольно чувствителен к предположению.
Если это действительно критерий, по которому кто-то решает использовать нормальную модель распределения, то это иногда приводит вас к довольно плохому анализу.
Значения этих статистических данных дают нам некоторые подсказки о населении, из которого была взята выборка, но это совсем не то же самое, что предполагать, что их значения в любом случае являются «безопасным руководством» для выбора анализа.
Теперь рассмотрим основную проблему с помощью еще более точной формулировки такого вопроса, как у вас:
Весь процесс просмотра образца для выбора модели чреват проблемами - это изменяет свойства любого последующего выбора анализа в зависимости от того, что вы видели! Например, для проверки гипотезы, ваши уровни значимости, p-значения и мощность не все, что вы бы выбрали / рассчитали , потому что эти вычисления основаны на анализе, не основанном на данных.
См., Например, Gelman and Loken (2014), « Статистический кризис в науке », американский ученый , том 102, номер 6, стр. 460 (DOI: 10.1511 / 2014.111.460), в котором обсуждаются проблемы, связанные с таким анализом, зависящим от данных.
источник
Вы упускаете суть и, вероятно, тоже «трудны», чего не ценят в отрасли. Она показывает вам игрушечный пример, чтобы научить вас оценивать нормальность набора данных, то есть сказать, происходит ли набор данных из нормального распределения . Просмотр моментов распределения является одним из способов проверки нормальности, например, тест Жарк Бера основан на такой оценке.
Да, нормальное распределение совершенно симметрично. Однако, если вы рисуете выборку из истинного нормального распределения, эта выборка, скорее всего, будет не совсем симметричной. Это точка, которую вы полностью упускаете. Вы можете проверить это очень легко сами. Просто сгенерируйте выборку из гауссовского распределения и проверьте его момент. Они никогда не будут совершенно "нормальными", несмотря на то, что таково истинное распределение.
Вот глупый пример Python. Я генерирую 100 выборок из 100 случайных чисел, затем получаю их средства и медианы. Я печатаю первый образец, чтобы показать, что среднее значение и медиана разные, а затем показываю гистограмму разницы между средним и средним. Вы можете видеть, что это довольно узко, но разница в принципе никогда не равна нулю. Обратите внимание, что числа действительно исходят из нормального распределения .
код:
выходы:
PS
Теперь, следует ли считать пример из вашего вопроса нормальным или нет, зависит от контекста. В контексте того, чему вас учили в классе, вы ошибаетесь, потому что ваш профессор хотел выяснить, знаете ли вы тест по правилу большого пальца, который она вам дала, а именно: избыточный эксцесс должны быть в диапазоне от -1 до 1 ассортимент.
Лично я никогда не использовал это эмпирическое правило (я не могу назвать это тестом) и даже не знал, что оно существует. Очевидно, что некоторые люди в некоторых областях действительно используют это все же. Если бы вы включили описание набора данных в тест JB, это отклонил нормальность. Следовательно, вы не ошиблись, если предположили, что набор данных не является нормальным, конечно, но вы ошибаетесь в том смысле, что вы не применили ожидаемое от вас правило на основе того, чему его учили в классе.
Если бы я был тобой, я бы вежливо подошел к твоему профессору и объяснил бы себя, а также показал бы результаты теста JB. Я бы признал, что на основании ее теста мой ответ был, конечно, неверным. Если вы попытаетесь спорить с ней так, как вы спорите здесь, ваши шансы очень малы, чтобы вернуть точку в тесте, потому что ваши рассуждения о медианах, средствах и выборках слабы, это свидетельствует о недостаточном понимании выборки и совокупности. Если вы измените свою мелодию, то у вас будет дело.
источник
Учитель явно не в своей стихии и, вероятно, не должен преподавать статистику. Мне кажется хуже учить чему-то неправильному, чем вообще не учить этому.
Все эти проблемы можно легко устранить, если провести более четкое различие между «данными» и «процессом, создавшим данные». Данные предназначаются для процесса, который произвел данные. Нормальное распределение является моделью для этого процесса.
Нет смысла говорить о том, нормально ли распределяются данные. По одной причине данные всегда дискретны. По другой причине нормальное распределение описывает бесконечность потенциально наблюдаемых величин, а не конечный набор конкретных наблюдаемых величин.
Кроме того, ответ на вопрос «является ли процесс, который создал данные нормально распределенным процессом », также всегда «нет», независимо от данных. Две простые причины: (i) любые измерения, которые мы проводим, обязательно дискретны и округляются до некоторого уровня. (ii) совершенная симметрия, как и совершенный круг, не существует в наблюдаемой природе. Всегда есть недостатки.
В лучшем случае ответ на вопрос «что эти данные говорят вам о нормальности процесса генерирования данных» можно дать следующим образом: «эти данные соответствуют тому, что мы ожидаем увидеть, если бы данные действительно исходили из нормально распределенный процесс. " Этот ответ правильно не означает, что распределение нормальное.
Эти проблемы очень легко понять с помощью моделирования. Просто смоделируйте данные из нормального распределения и сравните их с существующими данными. Если данные являются счетчиками (0,1,2,3, ...), то, очевидно, нормальная модель неверна, потому что она не выдает числа типа 0,1,2,3, ...; вместо этого он создает числа с десятичными числами, которые продолжаются вечно (или, по крайней мере, настолько, насколько позволяет компьютер). Такое моделирование должно быть первым, что вы делаете, когда узнаете о нормальном вопросе. Тогда вы сможете более правильно интерпретировать графики и сводную статистику.
источник
Я инженер, поэтому в моем мире прикладная статистика - это то, что я вижу больше всего и получаю самую конкретную ценность. Если вы собираетесь работать в прикладном, то на практике вам необходимо прочно обосновать теорию: элегантно ли это, самолет должен летать, а не падать.
Когда я думаю об этом вопросе, то, как я к нему подхожу, как это делали многие из моих технических специалистов, заключается в том, чтобы подумать о том, «как он выглядит в реальном мире при наличии шума».
Второе, что я делаю, - это часто делаю симуляцию, которая позволяет мне разобраться с вопросом.
Вот очень краткое исследование:
Это дает в качестве вывода:
Примечание: будьте осторожны с осью X, потому что она масштабирована по логарифму, а не по шкале.
Я знаю, что среднее значение и медиана абсолютно одинаковы. Код говорит это. Эмпирическая реализация очень чувствительна к размеру выборки, и если нет действительно бесконечных выборок, то они никогда не смогут полностью соответствовать теории.
Вы можете подумать о том, охватывает ли неопределенность медианное значение предполагаемое среднее или наоборот. Если наилучшая оценка среднего значения находится в пределах 95% ДИ оценки для медианы, то данные не могут определить разницу. Данные говорят, что они одинаковы в теории. Если вы получите больше данных, то посмотрите, что там написано.
источник
В медицинской статистике мы только когда-либо комментируем формы и вид распределений. Тот факт, что ни одна дискретная конечная выборка не может быть нормальной, не имеет значения и педантичен. Я бы пометил вас неправильно за это.
Если дистрибутив выглядит «в основном» нормально, мы можем назвать его нормальным. Когда я описываю распределения для нестатистической аудитории, мне очень удобно называть что-то примерно нормальным, даже когда я знаю, что нормальное распределение не является базовой моделью вероятности, у меня возникает ощущение, что я бы встал на сторону вашего учителя здесь ... но мы У меня нет гистограммы или набора данных для проверки.
В качестве подсказки я бы очень внимательно прошел следующие проверки:
источник
Я думаю, что вы и ваш профессор говорите в другом контексте. Равенство среднего = медиана = мода является характеристикой теоретического распределения, и это не единственные характеристики. Нельзя сказать, что если для какого-либо распределения выше свойство hold, то распределение нормальное. Т-распределение также симметрично, но не нормально. Итак, вы говорите о теоретических свойствах нормального распределения, которые всегда верны для нормального распределения.
Ваш профессор говорит о распространении выборочных данных. Он прав, вы никогда не получите данные в реальной жизни, где вы найдете среднее = среднее значение = режим. Это просто из-за ошибки выборки . Точно так же маловероятно, что вы получите нулевой коэффициент асимметрии для выборочных данных и нулевой избыточный эксцесс. Ваш профессор просто дает вам простое правило, чтобы получить представление о распределении из выборочной статистики. Что не соответствует действительности (без получения дополнительной информации).
источник
Для практических целей такие процессы, как этот, обычно точно аппроксимируются нормальным распределением, и никто не поднимает брови.
Однако, если вы хотите быть педантичным, базовый процесс в этом случае не может быть нормально распределен, потому что он не может давать отрицательные значения (количество падений не может быть отрицательным). Я не удивлюсь, если это будет хотя бы бимодальное распределение со вторым пиком, близким к нулю.
источник