В преподавании прикладных дисциплин, таких как медицина, заложено, что измерения биомедицинских величин в популяции следуют нормальной «кривой колокола». Поиск из Google в строке «мы предполагали , нормальное распределение» возвращает результатов! Они звучат так: «учитывая небольшое количество экстремальных точек данных, мы предполагали нормальное распределение температурных аномалий» в исследовании изменения климата; или «мы предполагали нормальное распределение куриного вылупления даты» на возможно менее спорный документ о пингвинах; или «мы предполагали нормальное распределение шоков роста ВВП» ,, ... и другие вещи).
Недавно я обнаружил, что ставлю под сомнение трактовку данных подсчета как обычно распределенных из-за их строго положительного характера. Конечно, данные подсчета дискретны, что делает их нормальность еще более искусственной. Но даже если оставить этот последний момент в стороне, почему непрерывные эмпирические измерения, такие как вес, рост или концентрация глюкозы, которые прототипически считаются «непрерывными», считаются нормальными? У них не может быть отрицательных реализованных наблюдений больше, чем счета!
Я понимаю, что когда стандартное отклонение существенно ниже среднего, что указывает на несколько отрицательных значений («проверка диапазона 95%»), это может быть практическим предположением, и частотные гистограммы могут поддерживать его, если не слишком искажены. Но вопрос не казался тривиальным, и быстрый поиск дал интересные вещи.
В « Природе» мы можем найти следующее утверждение в письме Д. Ф. Хита : «Я хотел бы отметить, что для статистического анализа определенных типов данных предположение о том, что данные получены из нормальной популяции, обычно неверно, и что альтернатива предположение о нормальном логарифмическом распределении лучше. Эта альтернатива широко используется статистиками, экономистами и физиками, но по некоторым причинам часто игнорируется учеными некоторых других дисциплин ».
Лимперт отмечает, что «логарифмически нормальная модель может служить приближением в том смысле, что многие ученые воспринимают нормальное значение в качестве действительного приближения в настоящее время» , отмечая при этом низкую степень соответствия нормальных критериев соответствия и сложность выбора правильное распределение эмпирически при работе с небольшими выборками.
Поэтому возникает вопрос: «Когда допустимо предположить нормальное распределение эмпирических измерений в прикладных науках без дополнительных подтверждающих данных?» И, почему другие альтернативы, такие как log-normal, не имеют и, вероятно, просто не собираются вступать в силу?
источник
Ответы:
Я считаю ваш вопрос действительно интересным. Давайте учтем некоторые вещи:
С учетом вышесказанного, говорить, что любая наблюдаемая переменная следует за нормальным или логарифмически нормальным распределением, звучит как-то безумно. На практике получается, что вы измеряете отклонения наблюдаемых частот от ожидаемых частот, если эта переменная получена из нормального (или любого другого распределения) населения. Если вы можете сказать, что эти отклонения являются просто случайными, потому что вы делаете выборку, то вы можете сказать что-то вроде того, что нет достаточных доказательств, чтобы отвергнуть нулевую гипотезу о том, что эта переменная исходит из нормальной совокупности , что переводится в то, как мы будем работать ( при условии, что) переменная следует нормальному распределению .
Отвечая на ваш первый вопрос, я не думаю, что есть кто-то настолько смелый, чтобы сказать, что переменная предполагается нормально распределенной без дополнительных доказательств . Чтобы сказать что-то подобное, вам понадобится хотя бы qq-график, гистограмма, тест на соответствие качества или их комбинация.
источник